ES remiamame projekte – inovatyvių kalbos technologijų komercinimas

Vytauto Didžiojo universitetas kartu su partneriu – Vytauto Didžiojo universiteto atžaline įmone UAB „Intelektika“ – pradėjo įgyvendinti Europos Sąjungos (ES) struktūrinių fondų lėšų bendrai finansuojamą projektą Dirbtinio intelekto ir giliojo mokymosi technologijomis grįstų kalbos technologijų MTEP rezultatų komercinimas (ASTRA), finansuojamą pagal 01.2.2-MITA-K-702 priemonę „MTEP rezultatų komercinimo ir tarptautiškumo skatinimas“.

Projekto tikslas – komercinti Vytauto Didžiojo universiteto dirbtinio intelekto technologijų pagrindu veikiančių kalbos technologijų MTEP rezultatus, sukuriant Dirbtinio intelekto inovacijų vystymui ir visuminės sąsajos žmogus-mašina įgalinimui reikalingas kalbos technologijų debesijos paslaugas, atitinkančias sparčią inovacijų ir technologijų plėtrą, jau esamų COVID-19 padarinių bei antrosios bangos padarinių šalinimą ir sparčiai kintančius verslo poreikius (pvz.: darbas nuotoliniu būdu, klientų balsu pateikiamų užklausų/nuomonių automatinė analizė, virtualių asistentų ir pokalbių robotų kūrimas ir t.t.), žmonių su negalia poreikius.

Projekto rezultatai – numatoma teikti vaizdo konferencijų („Zoom“/„MS Teams“) transkribavimo tekstu debesijos paslaugą, balso sintezavimo (lietuvių kalba) debesijos paslaugą, aukštos ir žemos kokybės lietuviškų garso įrašų transkribavimo tekstu debesijos paslaugą su galimybe atlikti informacijos paiešką transkripcijų archyve.

Projektu sprendžiamos problemos: Lietuvoje sparčiai gausėja nestruktūruotos informacijos (garso, vaizdo, teksto) duomenų apimtys. Tai duomenų masyvai, kuriuose glūdi daug svarbios informacijos apie klientus, produktus ir paslaugas. Pandemijos karantinas verslą ir privačius asmenis paskatino darbą organizuoti nuotolinėmis priemonėmis, ypač deryboms, pasitarimams, konsultacijoms ir pan. panaudojant populiarias vaizdo konferencijų platformas „Zoom“ ir „MS Teams“. Tai kartu kildina poreikį turėti tokių vaizdo konferencijų transkribavimo tekstu sprendimus.

Garso ir vaizdo įrašų perrašymas tekstu yra daug laiko reikalaujantis rutininis darbas. Norint garso ir vaizdo įrašų informaciją panaudoti automatinėms ir Dirbtinio intelekto sistemoms, juos būtina automatiškai versti kokybiškai atpažintu tekstu. Tai įgalina atlikti informacijos gavybą, automatinę turinio analizę. Be to, tokią medžiagą galima panaudoti kuriant ir apmokant pokalbių robotus ir virtualius asistentus.

Dėl nekomercinės lietuvių kalbos pobūdžio ir kalbinės specifikos (morfologiškai turtinga, fleksinė, sintetinė, jai netinka sprendimai, sukurti anglų kalbai), technologijų gigantai („Apple“, „Microsoft“, „Google“) lietuvių kalbos sprendimams skiria labai mažai dėmesio, ir tai lėtina skaitmeninių inovacijų, susijusių su lietuvių kalbos technologijų panaudojimu, plėtrą.

Paminėtinas ir poreikis kurti visavertę sąsają žmogus-mašina, kuriai būtinas kokybiškas lietuvių šnekos atpažinimas ir gebėjimas rezultatą kokybiškai sintezuoti žmogaus arba neuroniniu balsu. Atskirai paminėtinas žmonių su negalia poreikis bendrauti su mašina balsu.

Lietuvoje yra nemažai startuolių, gebančių kurti inovacijas, susijusias su nestruktūruotos informacijos panaudojimu (pokalbių robotai, virtualūs asistentai ir pan.), tačiau jiems būtini sprendimai, šneką kokybiškai verčiantys tekstu ir gebantys kokybiškai sintezuoti balsu rezultatą/tekstą. Šių trūkstamų sprendimų kūrimui reikalinga kvalifikuota tarpdalykinė komanda, turinti lingvistikos ir informacinių technologijų kvalifikacijas, kurias turi šio Projekto vykdytojas – Vytauto Didžiojo universiteto Informatikos fakulteto Intelektualių sistemų laboratorija – ir partneris – UAB „Intelektika“.