Daugiakalbių dokumentų analizės aplinka (DADA)
Kaip prakalbinti kompiuterį viso pasaulio kalbomis?
Prioritetas: Tyrėjų gebėjimo stiprinimas
Uždavinys: Tobulinti tyrėjų kvalifikaciją ir kompetenciją, skatinti jų mobilumą
Augant tekstinės informacijos kiekiams ir hetegerogeniškumui, naudojant daugiau kalbų vis sunkiau ją valdyti. Standartiniai metodai neužtikrina kokybės daugiakalbėse aplinkose, tačiau semantinės technologijos sprendžia šias problemas. Pasaulyje atliekama daug IT srities tyrimų, deja lietuvių ir kitoms mažesnėms kalboms semantinės technologijos neišdirbtos. DADA (Daugiakalbių dokumentų analizės aplinka) projekto tikslas dvejopas – patobulinti metodus darbui su daugiakalbiais dokumentais, ir suburti tyrėjų, galinčių spręsti praktiškas IT ir kalbos technologijų problemas.
Projekte dirbama su 3 kalbomis: rusų, kadangi tai vis dar aktuali kalba Lietuvos verslo įmonėms bei organizacijoms; azerų kalba, kadangi kalbos technologijos šiai kalbai dar nėra parengtos, tuo tarpu nemažai Lietuvos įmonių siekia vystyti IT projektus Azerbaidžane; ir žinoma, lietuvių kalbai.
Projekte dirbama keliomis kryptimis:
- Tekstų parengimas – būtinas tolimesnei kalbos analizei. Kuriami metodai, kurie leis identifikuoti skirtingų dokumentų kalbas, išskirti juose termus, sakinius, išsaugoti atitinkamu formatu.
- Tekstų kategorizavimas – skirtingų kalbų tekstų grupavimas žinomomis temomis (klasifikavimas) arba bandant aptikti galimas grupes (klasterizavimas). Rengiamos metodikos ir technologiniai sprendimai šiems uždaviniams spręsti. Šie sprendimai galima būti taikomi surinktų tekstynų grupavimui į temas, pvz. ekonomika, politika,sportas ir pan. ,ar klasifikuoti stenogramų dalis, norint atskirti vietas, kur kalbama apie energetinį saugumą ar socialinė saugą. Tuo tarpu klasterizavimo metodai leis aptikti specifines dokumentų grupes, pvz. surinktus dokumentus, kalbančius apie karosą, leis sugrupuoti į žuvų, politikų ir verslininkų grupes.
- Įvardintų esinių identifikavimas (NER) – vienas iš svarbiausių žingsnių link semantinės paieškos. NER sprendimai leidžia tekste atpažinti asmenis, įmones ir organizacijas, datas, vietas ir kitus panašius objektus. Tai leidžia lengviau surasti informaciją apie žmogų Eglę vs kalėdinę Eglutę, arba sugrupuoti tekstus pagal juose minimus įmonių pavadinimus, automobilių modelius ar paros metą.
- Ontologijos – įrankis informacijai saugoti. Kuriamos metodikos, saugoti ir valdyti daugiakalbei informacijai (o ne tik duomenims), išsaugant ir kuriant naujus semantinius ryšius tarp atskirų dokumentų ir terminų tose kalbose. Šie sprendimai leis suprasti, kad kalbant apie Wilno, Vilnius, Vilna, Вильнюс ar Vilna visada turima omenyje Lietuvos sostinė Vilnius, arba kad Peugeot, Pežo ir Пежо́ yra tas pats Peugeot.
Visos šios technologijos, apjungtos į vieningą kompleksą leist sistemingai dirbti su skirtingų kalbų resursais.
Dauguma šio projekto rezultatų bus (ir jau yra) laisvai prieinami, rezultatai pristatomi mokslinėse konferencijose, seminaruose, publikuojami moksliniuose žurnaluose.
Besidomintys projektu gali kreiptis į mokslinį projekto vadovą T. Krilavičių (t.krilavicius@if.vdu.lt).