Projektas „Santraukų tekstynai dirbtiniam intelektui“
Projekto pavadinimas / Projekto numeris: Santraukų tekstynai dirbtiniam intelektui / Nr.02-101-K-0001
Projekto trukmė: 2024.08.12 – 2026.04.30
Projekto vadovas: Prof. dr. Tomas Krilavičius
Projekto vertė: 865 734,14 Eur
Projekto partneris: Vilniaus universitetas
Projekto tikslas: Parengti ir validuoti mišrius lietuvių kalbos tekstų santraukų/abstraktų tekstynus, skirtus automatinio sudarymo giliojo mokymo pagrindu veikiančių sistemų apmokymui.
Projektu sprendžiamos problemos: Projektu sprendžiama 2021–2030 metų valstybės skaitmeninimo plėtros programoje nurodytos problemos („neišnaudojamos turimos valstybės skaitmeninimo galimybės, taip nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias ir saugias skaitmenines paslaugas ir teikti šias paslaugas visuomenei“) 3 priežastis „Įrankių ir technologinių sprendimų, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios, trūkumas“. Kaip žinia, dirbtinis intelektas (DI) keičia pasaulį. Juo paremti produktai ir paslaugos vis didesniu mastu integruojami viešajame sektoriuje, versle, moksle ir apskritai įvairiose žmonių veiklos srityse bei kasdieniame gyvenime. Prognozuojama, kad Lietuvos DI rinkos dydis 2024 m. sieks 123,70 mln. EUR, kas reikštų rinkos dydžio pasikeitimą 35,10 %, be kita ko, numatoma, jog rinkos dydžio metinis augimo tempas (metinio augimo koeficientas 2024–2030 m.) sieks 28,60 %, todėl iki 2030 m. Lietuvos DI rinka išaugs iki 559,40 mln. EUR [1]. Spartus rinkos augimas pastaraisiais metais pasauliniame kontekste siejamas su technologijų pažanga ir padidėjusiomis investicijomis į šią rinką. Pati rinka, reikia paminėti, bendrai apima programinę įrangą, techninę įrangą ir paslaugas, kurios įgalina organizacijas vystyti ir diegti DI sprendimus, o konkrečiai išskiriama į kelias dalis, identifikuojamas pagal technologijų pobūdį: 1) kompiuterinės regos taikymus (angl. Computer Vision; skaitmeninių vaizdų ir vaizdo duomenų apdorojimas), 2) mašininį mokymą, 3) natūraliosios kalbos apdorojimą (angl. Natural Language Processing), 4) dirbtinio intelektą robotiką, 5) autonomines ir sensorines technologijas (angl. Autonomous & Sensor Technology), 6) generatyvinį DI (angl. Generative Artificial Intelligence). Kaip rodo statistiniai duomenys [1], Lietuvos kontekste didžiausias DI rinkos dalis sudaro mašininis mokymas, generatyvinis DI ir natūraliosios kalbos apdorojimas. Tokios pat tendencijos numatomos ir iki pat 2030 m. Sulig pačia DI pažanga, lygiai taip pat progresyviai numatomas ir DI sprendimų naudotojų skaičiaus didėjimas. Analitikų pastebėjimu [1], apskritai DI industrijos augimą skatina keletas veiksnių. Visų pirma – didesnis didelių duomenų prieinamumas, kuris atveria daugiau galimybių DI taikymams, kadangi DI, ypač generatyvinis, reikalauja daug resursų. Antra, skaičiavimo galios ir debesų kompiuterijos infrastruktūros pažanga įgalina efektyvesnius ir pajėgesnius DI taikymais paremtus duomenų apdorojimus. Trečia, didėjantis automatizavimo ir optimizavimo poreikis įvairiose pramonės šakose, tokiose kaip gamyba, finansai, transportas, skatina DI technologijų diegimą. Ketvirta, vis didesnis DI naudojimas į vartotojus orientuotuose sprendimuose, tokiuose kaip virtualūs asistentai ir pokalbių robotai, ypač plečia DI technologijų rinką. Galiausiai, augančios investicijos ir partnerystės tarp technologijų įmonių, mokslinių tyrimų institucijų ir vyriausybių skatina naujoves ir augimą DI industrijoje. Ženklus DI rinkos augimas ir vystymasis numatomas ir iki 2030 m. būtent dėl vis didesnio DI technologijų pritaikymo įvairiose pramonės šakose, DI algoritmų ir infrastruktūros pažangos bei didėjančių investicijų į DI tyrimus ir plėtrą. Neabejojama ir tuo, kad ši rinka nuolatos atsinaujins ir plėsis (pasauliniu mastu numatomas rinkos išaugimas daugiau nei 6 kartus [2]), o DI taps vis labiau neatsiejama įvairių verslo operacijų ir į vartotojus orientuotų sprendimų dalimi.
Minėtos tendencijos ir prognozės leidžia suprasti, jog siekiant stiprinti Lietuvos skaitmeninį konkurencingumą būtina šalies informacinių išteklių plėtra, t. y. svarbu užtikrinti prieigą ir galimybes naudoti didelės apimties išteklius DI algoritmams mokyti ir tobulinti, o jų pagrindu – pažangiems DI paremtiems technologiniams sprendimams kurti, kas taptų prielaida didesniam valstybės skaitmeninimo lygiui apskritai. Tačiau prieigos ir galimybės naudoti tokius išteklius, be abejo, neįmanomos realizuoti be paties pirminio etapo – išteklių kūrimo, atitinkamo apdorojimo ir parengimo numatytiems DI technologijų vystymo tikslams ir uždaviniams. Naujų išteklių kūrimas yra būtina sąlyga inovatyvioms technologijoms, aktualioms versle, moksle, kasdieniame gyvenime, rastis. Lietuvos kontekste ypač reikšmingas uždavinys – lietuvių kalbos skaitmeninimas siekiant pažangios valstybės informacinių išteklių plėtros. Tam, kad lietuvių kalba spėtų su pasauliniu tokių išteklių plėtros progresu ir apskritai su sparčia DI pažanga, neišvengiamai randasi vis didesnis ir didesnių skaitmeninių resursų, skirtų pažangiems ir funkcionaliems DI sprendimams rengti, poreikis, kadangi, kaip jau minėta, DI, ypač generatyvinis, reikalauja daug resursų, o resursų lietuvių kalba, tenka pripažinti, labai trūksta, nes šiuolaikiniams DI modeliams reikia ne bet kokių, o didelių apimčių resursų. Galimos pasekmės neužtikrinus tokių resursų vystymo – lietuvių kalbos atotrūkis nuo globalių skaitmenizacijos procesų, kas galiausiai vestų link ne vien kalbos, bet ir šalies skaitmeninio atsilikimo, mat būtina sąlyga valstybės vystymuisi, be kita ko, yra ir savalaikis skaitmeninimas, kurio pagrindu būtų galima užtikrinti viešojo sektoriaus, verslo, mokslo procesų inovatyvėjimą, didesnį produktų ir paslaugų prieinamumą, visuomenės ir atskirų jos grupių prisitaikymą prie esamų ir būsimų technologinių pokyčių. Inicijuojamas projektas tiesiogiai atliepia aptartą problematiką ir prisideda prie jos sprendimo, t. y. identifikavus minėtą galimą skaitmeninę lietuvių kalbos ir jai skirtų technologijų stagnaciją nesant pakankamų kalbinių išteklių, projektu siekiama vienus iš tokių išteklių sukurti ir atitinkamai parengti tolesniam jų naudojimui. Projektas skirtas parengti du lietuvių kalbai aktualius resursus – mišrius lietuvių kalbos tekstų santraukų / abstraktų tekstynus, pritaikytus (tinkamai anotuotus ir validuotus numatytiems naudojimo poreikiams) giliojo mokymo pagrindu veikiančių automatinio santraukų sudarymo sistemų apmokymui. Šių išteklių realizavimu numatoma prisidėti prie minėtų DI rinkos dalių (mašininio mokymo, generatyvinio DI ir natūraliosios kalbos apdorojimo) stiprinimo vystant joms reikiamus didelius resursus ir taip atliepiant esamą tokių resursų stokos problemą. Svarbu atkreipti dėmesį į tai, kad reikšmingas etapas kuriant DI skirtus išteklius yra ne tik pačių išteklių sukaupimas, bet ir atitinkamas tokių išteklių parengimas tiksliniam naudojimui, t. y. reprezentatyviai parengtos atskiros išteklių dalys, atspindinčios numatytą išteklių paskirtį, anotavimas, papildomas apdorojimas siekiant užtikrinti išteklių atitikimą duomenų apsaugą reguliuojantiems Lietuvos ir ES teisės aktams. Inicijuojamo projekto atveju tai – svarbūs uždaviniai tikslingam ir funkcionaliam DI modelių mokymui, ir tik visiškai juos išpildžius bus laikoma, jog parengti ištekliai atitinka projekto kontekste numatytus išteklių sukūrimo rezultatus.
Reikšminga paminėti tai, kad sprendžiant projekte numatytas problemas nebus pažeidžiami HP, t. y. projekte nėra numatyta tokių veiksmų, kurie turėtų neigiamą poveikį darniam vystymuisi, atsižvelgiant į SESV 11 straipsnį, Jungtinių Tautų darnaus vystymosi tikslus, Jungtinių Tautų bendrosios klimato kaitos konvencijos Paryžiaus susitarimą, įskaitant reikšmingos žalos nedarymo principą, kaip jis suprantamas pagal 2020 m. birželio 18 d. Europos Parlamento ir Tarybos reglamentą (ES) 2020/852 dėl sistemos tvariam investavimui palengvinti sukūrimo, kuriuo iš dalies keičiamas Reglamentas (ES) 2019/2088; projektas neturi neigiamo poveikio lygių galimybių ir nediskriminavimo HP, įskaitant prieinamumo visiems reikalavimą, atsižvelgiama į Jungtinių Tautų neįgaliųjų teisių konvenciją; projekto veiklomis siekiama inovatyvių (kūrybiškų) rezultatų (bus naudojami inovatyvūs metodus, o projekto rezultatai leis kurti inovacijas kalbos technologijų ir dirbtinio intelekto srityse). [1] https://www.statista.com/outlook/tmo/artificial-intelligence/lithuania. [2] https://www.precedenceresearch.com/artificial-intelligence-market.
Projektas finansuojamas Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis.