Þessi síða notar kökur (e. cookies) til að auðvelda þér að vafra um vefinn.

Máltækniáætlun í Háskólanum í Reykjavík

hrafn og JonMáltækni er rannsóknar- og þróunarsvið sem hefur það að markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað að notkun þeirra í samskiptum manns og tölvu. Máltækni hefur verið í þróun í langan tíma en náði ekki víðtækri athygli almennings fyrr en á allra síðustu misserum með tilkomu ýmissa tækja og lausna frá stórfyrirtækjum á borð við Amazon, Apple, Facebook, Google og Microsoft.

Haustið 2017 settu íslensk stjórnvöld á laggirnar fimm ára máltækniáætlun með það að markmiði að leggja grunn að því að tölvur geti unnið með og skilið íslensku. Vinna við kjarnaverkefni máltækniáætlunarinnar hófst loksins 1. október 2019 eftir langt undirbúningsferli. Kjarnaverkefni áætlunarinnar eru fimm (talgreining, talgerving, vélþýðingar, málrýni og málföng) og verða þau unnin af SÍM-hópnum ( S amstarf um í slenska m áltækni), sem samanstendur af háskólum, stofnunum og fyrirtækjum. Sjálfseignarfélagið Almannarómur hefur yfirumsjón með verkefnunum fyrir hönd Mennta- og menningamálaráðuneytisins. Þess ber að geta að máltækniáætlunin hefur þann sveigjanleika að hægt er að sækja um styrk fyrir verkefni sem falla utan kjarnaverkefnanna í “Markáætlun í tungu og tækni” sem Rannís hefur umsjón með.

Háskólinn í Reykjavík (HR) er þátttakandi í SÍM og það kemur í hlut HR að vinna aðallega við rannsóknir- og þróun á sviði talgreiningar, talgervingar og vélþýðinga, ásamt því að aðstoða við skipulagningu á kjarnaverkefnunum í heild sinni. Í þessari grein förum við stuttlega yfir þá tæknilegu þætti sem HR sér um.

Talgreining

Talgreining gengur út á að breyta talmáli í ritmál og sem slíkt er það nokkuð vel skilgreint svið. Með talgreiningu getur hugbúnaður fengið upplýsingar frá notanda með töluðu máli. Tungumál er margbrotið fyrirbæri og það fer mjög mikið eftir aðstæðum og inntaki hvernig talgreini skuli beitt og hvaða árangri er hægt að ætlast til. Talgreining virkar til dæmis nokkuð vel við að rita ræður Alþingismanna upp sjálfvirkt. Það sem hjálpar til er að talgreiningin þarf ekki að gerast í rauntíma, ekki er mikið um bakgrunnshljóð í upptökunum og talmálið yfir það heila nokkuð einsleitt (þó svo að inntak talmálsins geti verið innihaldsríkt og þannig kerfjandi). Samanborið við talgreiningu á samtali tveggja eða fleiri er talgreining á Alþingisræðum viðráðanleg.

Þróun á talgreinum krefst þess að mikið magn samhliða talupptaka og textagagna sé til reiðu og eru þær vitvélar sem fyrir valinu verða þjálfaðar á þeim gögnum. Það er því mikilvægt að hafa slík gagnasöfn aðgengileg og opin ef þróun á talgreinum á að verða almenn og komast í almenna notkun. Markmiðið í máltækniáætluninni er að sjá til þess að næg gögn séu fyrir hendi til að þjálfa talgreini fyrir stuttar setningar, útvarps- og sjónvarpsefni, fyrirlestra og samræður og endurspegla verkþættir áætlunarinnar þessi markmið vel.

Ennfremur munum við þróa opnar forskriftir fyrir talgreiningu sem auðvelda frekari hugbúnaðarþróun á máltækni fyrir íslensku hjá fyrirtækjum. Forskriftir verða þess eðlis að hægt verður að setja upp þróunarumhverfi á auðveldan hátt með þeim gögnum sem safnað hefur verið og með opnum hugbúnaði sem venjulega er notaður í talgreiningu. Þá ættu þeir sem vilja þróa talgreiningu í viðskiptalegum- eða rannsóknartilgangi að geta hafist handa án þess að þurfa að safna gögnum eða stilla af hugbúnað sérstaklega fyrir íslensku.

Talgerving

Talgerving felur í sér að breyta ritmáli í talmál og er því andstæðan við talgreiningu. Með talgervingu getur hugbúnaður gefið frá sér upplýsingar á töluðu máli. Talgerving er einnig nokkuð margbrotin tækni en það er mjög háð viðfangsefni hvaða aðferð er best að nota við útfærslu á þessari tækni. Til dæmis hefur talgervill sem býr til upplestur á fyrirfram skilgreindum texta mikinn tíma til að ljúka við framleiðsluna á hljóðskránni sem kemur út. Aftur á móti þarf viðmót sem stendur í rauntímasamræðu við notanda að geta spilað raddfrálagið á mjög skömmum tíma.

Mikið magn af samhliða talupptökum og texta þarf að vera til staðar til þess að útfæra góðan talgervil. Sú tækni sem er notuð mjög mikið í dag krefst þess að hafa nokkuð mikið magn af gögnum frá einum upplesara. Þessi gögn eru bútuð sundur í smáar hljóðeiningar sem eru síðan settar saman þegar ný setning er búin til. Þessi tækni nefnist einingarval (e. unit selection) og hefur í för með sér að sú rödd sem búin er til verður næstum eins og rödd þess sem les upp upprunalega textann. Markmiðið í áætluninni er að taka upp átta raddir til þess að smíða einingavalsraddir. Ný og spennandi tækni sem er farin að ná svipuðum gæðum og einingarvalstæknin er byggð á líkanagerð og tauganetum og nefnist sú tækni stikuð talgerving (e. parametric speech synthesis). Þar er hægt að blanda saman upptökum frá mörgum upplesurum og búa til nýjar raddir. Í máltækniáætluninni er markmiðið að taka upp gögn frá 20 upplesurum til þess að þróa þessa tækni.

Verkefnið mun einnig ganga frá forskriftum fyrir talgervingu þannig að þeir sem vilja útfæra tæknina geti gert það á sem auðveldastan hátt. Í verkefninu verður einnig unnin ákveðin rannsóknarvinna þannig að hægt verði að aðlaga núverandi tækni að íslensku máli, stafsetningu og talanda.

Vélþýðingar

Í vélþýðingum er hugbúnaður notaður til að þýða texta úr einu tungumáli, frummáli , yfir á annað tungumál, markmál. Vélþýðingar eru eitt elsta rannsóknarsvið innan máltækni og rekja má rannsóknir á sviðinu allt aftur til um 1950. Ýmsum aðferðum hefur verið beitt við þróun þýðingarkerfa í gegnum árin en í máltækniáætluninni stendur til að beita aðferðum sem byggja á vélrænu námi (e. machine learning). Þessar aðferðir þurfa á samhliða málheildum (e. parallel corpora) að halda, þ.e. textum á frummálinu og sömu (þýddum) textum á markmálinu. Vélræna námið lærir líkan með sjálfvirkri greiningu á tiltekinni samhliða málheild og líkanið er síðan notað til að þýða nýjan texta.

Í þessu vélþýðingarverkefni verður hugbúnaður þróaður sem getur þýtt íslenskan texta yfir á ensku og öfugt. Tiltölulega fáar samhliða málheildir eru til með íslenskum/enskum textum og þess vegna snýst hluti þessa verkefnis um að þróa aðferðir til að setja saman samhliða málheild fyrir íslensku/ensku. Í verkefninu verða gerðar tilraunir með tvenns konar aðferðir í vélrænu námi, þ.e. annars vegar líkön sem byggja á tölfræðiaðferðum og hins vegar á tauganetsaðferðum. Vélþýðingar sem nota tölfræðilíkön velja þá setningu, úr mengi marga mögulegra setninga, í markmálinu sem er líklegasta þýðingin á setningu úr frummálinu. Vélþýðingar sem byggja á tauganetum kóta (e. encode) setningu í frummálinu yfir í röð vigra sem síðan eru notaðir af afkóðara (e. decoder) til að mynda setningu í markmálinu.

Rannsóknir í vélþýðingum fyrir önnur tungumálapör hafa sýnt að að vélþýðingar með tölfræðiaðferðum skila oft texta sem er ekki eins reiprennandi (e. fluent) og þýðingar með tauganetum. Á hinn bóginn krefjast vélþýðingarkerfi sem byggja á tauganetum oft stærri samhliða málheilda en kerfi sem byggja á tölfræðiaðferðum. Markmiðið með þessu verkefni er m.a. það að bera saman árangur þessara tveggja tegunda vélþýðingarkerfa þegar þýtt er úr íslensku yfir í ensku og öfugt.

Höfundar: Hrafn Loftsson og Jón Guðnason, dósentar við Háskólann í Reykjavík