Internete neseniai atsirado naujas balsas – bet kokį lietuvišką tekstą jau dabar galima išgirsti perskaitytą sklandžia, natūraliai skambančia lietuvių kalba. Tačiau šis balsas yra ne žmogaus, o kompiuterio, kuris tekstus perskaito automatiškai. Pasitelkiant neuroninius tinklus ir kalbos technologijas, Vytauto Didžiojo universiteto (VDU) mokslininkai išvystė šnekos sintezės technologiją, kuri ne tik jau dabar yra taikoma universiteto tinklalapyje ir šalies naujienų portaluose, bet ir netrukus bus įdiegta Seimo interneto svetainėje.
Pasak šių technologijų vystymo projekto vadovo, VDU Informatikos fakulteto docento dr. Dariaus Amilevičiaus, universiteto informatikai ir humanitarai jau daug metų bendromis pastangomis vystė šnekos sintezės prototipą ir jam reikalingus papildomus sprendimus, pavyzdžiui, automatinį kirčiuoklį. Tačiau iki šiol nebuvo deramų sąlygų, rinkos poreikio ir finansavimo tam, kad šį technologinį sprendimą būtų galima paversti išbaigtu, tinkamu komerciniam taikymui.
„Panaudodami pažangiausias technologijas, projekte šį prototipą perkėlėme į naują lygmenį: suteikėme neuroninį balsą, kurio natūralumas jau mažai skiriasi nuo žmogaus. Šiuo metu kuriamas antrasis neuroninis balsas, tobulinamas santrumpų ir skaitmenų pavertimas tekstu. Planuojama įdiegti ir nelietuviškos rašybos žodžių sintezės metodus“, – vykdomus darbus pristato doc. dr. D. Amilevičius.
Lietuvių kalba – itin sudėtinga
Vieno iš pagrindinių šios technologijos kūrėjų, VDU Informatikos fakulteto profesoriaus Gailiaus Raškinio teigimu, vystant kalbos technologijas teko susidurti su įvairiais iššūkiais. Pastaruoju metu, žinoma, darbą apsunkino karantino sąlygos, kadangi reikėjo padaryti nemažai garso įrašų, o tai nebuvo paprasta dėl judėjimo ribojimų ir uždarytų patalpų. Tačiau ne ką mažesnis iššūkis buvo ir pačios kalbos kaip fenomeno sudėtingumas – ypač lietuvių.
„Bandant aprašyti kalbos reiškinius taisyklėmis, susiduriama su daugybe išimčių. Pavyzdžiui, tekste rašoma „Caritas“, bet tariama „Karitas“. Arba – trumpinys „gen.“ vienoje vietoje gali reikšti „generolas“, o kitoje – „generalinis“ ir taip toliau. Tai tik kalbinių problemų ledkalnio viršūnė“, – pasakoja VDU mokslininkas, papildydamas, jog nemažas iššūkis buvo ir didelių skaičiavimo pajėgumų, galingos kompiuterinės technikos poreikis, būdingas taikant giliojo mokymo technologijas. Pavyzdžiui, kai kurie giliojo mokymo eksperimentams reikalingi skaičiavimai trunka ne dieną ar dvi, o visą savaitę, 24 valandas per parą.
Nuo žmogaus pečių nuima rutininius darbus
Kalbos technologijas specialistai vysto naujame projekte, kurį Vytauto Didžiojo universitetas vykdo drauge su universiteto atžaline įmone „Intelektika“. Čia vystomos dvi pagrindinės technologijos: ne tik jau minėta šnekos sintezė, kai tekstas yra paverčiamas balsu, bet ir priešingas procesas – kalbos automatinis užrašymas tekstu. Doc. dr. D. Amilevičius pabrėžia, kad šios technologijos nuo žmogaus pečių nuima daug rutininių darbų, leidžia atpalaiduoti rankas nuo klaviatūros, o akis – nuo ekrano.
„Atsiveria virtualių asistentų, slaugos robotų, virtualių mokytojų, teisininkų, medicinos konsultantų ir kitos galimybės. Pavyzdžiui, medicinos sektoriuje jos gali atlaisvinti personalą nuo administracinio, duomenų suvedimo darbo, o sutaupytą laiką galima skirti pacientams. Juk gydytojo profesiją jaunuoliai ir jaunuolės renkasi tam, kad gelbėtų žmones, o ne tam, kad didelę laiko dalį suvedinėtų pacientų duomenis į informacinę sistemą“, – inovacijų privalumus įvardija mokslininkas.
Vaizdo konferencijų įrašus pavers į tekstą
Kalbos automatinis užrašymas tekstu buvo vystomas ir ankstesniame VDU projekte „Semantika-2“ – jo metu buvo sukurtas bazinis modelis, kurio pagrindu internete jau dabar teikiamos nemokamos viešosios paslaugos, įvairių garso įrašų automatinis transkribavimas.
„Bazinis modelis suteikė plačias galimybes tolesniam vystymui – tai ir daroma naujajame projekte. Tobuliname šį modelį, kad jis tinkamai atpažintų žemos kokybės signalus, pavyzdžiui, skambučių centrų telefoninius įrašus. Išvystytas sprendimas automatiškai tekstu pavers populiariausiomis platformomis („Zoom“ ir „Microsoft Teams“) organizuojamų vaizdo konferencijų įrašus“, – planus atskleidžia prof. G. Raškinis.
Lietuvių kalbai taikyti tokias technologijas nėra paprasta – lietuviškai kalba sąlyginai mažai žmonių pasaulyje, todėl mūsų kalba nėra komerciškai patraukli informacinių technologijų gigantams, tokiems kaip „Google“ ar „Microsoft“. Dėl šios priežasties, jei šioje srityje dirbantys mokslininkai nesulauktų reikiamos ES struktūrinių fondų ir šalies biudžeto paramos, apie lietuvių kalbos technologijų pažangą kalbėti būtų sunku arba neįmanoma.
Kalbos skaitmenizavimui – ypatingas dėmesys
Anot mokslininkų, žvelgiant į bendrą kontekstą, Lietuvos įdirbis į kalbos technologijas gali būti vertinamas gan teigiamai. „Jei lyginsimės su sprendimais anglų kalbai, atsiliekame kokybės, sprendimų tikslumo požiūriu. Tačiau jei lyginsimės su kitomis, mažiau kalbos išteklių turinčiomis kalbomis, neatsiliekame nuo bendro vidurkio – o kai kuriais atvejais netgi jį viršijame, ypač šnekos sintezės ir šnekos atpažinimo srityse“, – tikina VDU Informatikos fakulteto docentas D. Amilevičius. Jo teigimu, į ateitį galima žiūrėti optimistiškai – Lietuva ir dabartinė jos Vyriausybė planuoja skirti pakankamai daug dėmesio lietuvių kalbos skaitmeninimui ir skaitmenizavimui.
„Vytauto Didžiojo universitetas nuo pat atsikūrimo buvo lietuvių kalbos technologijų pionierius. Prieš dvidešimt metų profesorės Rūtos Petrauskaitės pasėta tekstynų lingvistikos ir kalbos technologijų tyrimų sėkla universitete rado tinkamą terpę. Todėl ji labai greitai prigijo ir jau duoda puikius vaisius – pirmiausia dėl VDU gilias tradicijas turinčio glaudaus bendradarbiavimo tarp informatikų ir humanitarų“, – primena doc. dr. D. Amilevičius.