Skip to main content
7. júní 2005

Staða íslenskrar tungutækni

Eiríkur Rögnvaldsson prófessor í íslensku, Háskóla Íslands

Tungutækniátaki menntamálaráðuneytisins lauk formlega um síðustu áramót og í tilefni þess verða hér rifjuð upp nokkur atriði úr tungutækniskýrslu ráðuneytisins frá 1999 og athugað hvað áunnist hefur á þeim sex árum sem liðin eru síðan henni var skilað.

1. Inngangur
Vorið 1999 gaf menntamálaráðuneytið út skýrslu um íslenska tungutækni (http://www.tungutaekni.is/news/skyrsla.pdf). Þessi skýrsla var samin af starfshópi sem Björn Bjarnason menntamálaráðherra fékk til að gera úttekt á stöðu tungutækni á Íslandi. Formaður starfshópsins var dr. Rögnvaldur Ólafsson, dósent í eðlisfræði, en aðrir í hópnum voru Eiríkur Rögnvaldsson, prófessor í íslenskri málfræði, og Þorgeir Sigurðsson, rafmagnsverkfræðingur og íslenskufræðingur, þá starfsmaður Staðlaráðs Íslands. Grein um helstu niðurstöður starfshópsins eftir þá Rögnvald og Eirík birtist í Tölvumálum sumarið 1999. Í lok þeirrar greinar kom fram að skýrslan hefði verið kynnt í ríkisstjórn en stjórnvöld hefðu ekki tekið afstöðu til tillagna starfshópsins. Það gerðist rúmu ári síðar, haustið 2000, þegar tungutækniátaki menntamálaráðuneytisins var ýtt úr vör með skipun sérstakrar verkefnisstjórnar í tungutækni undir formennsku Ara Arnalds (sjá http://www.tungutaekni.is/info/verkefnid.html). Þessu átaki lauk formlega um síðustu áramót, og í tilefni þess verða hér rifjuð upp nokkur atriði úr skýrslunni og athugað hvað áunnist hefur á þeim sex árum sem liðin eru síðan henni var skilað.

 

2. Meginþættir
Í skýrslunni frá 1999 var lagt til að stjórnvöld beittu sér fyrir átaki á fjórum sviðum til eflingar íslenskri tungutækni:

1.      Byggð verði upp sameiginleg gagnasöfn, málsöfn, sem geti nýst fyrir­tækjum sem hráefni í afurðir.

2.      Fé verði veitt til að styrkja hagnýtar rannsóknir á sviði tungutækni.

3.      Fyrirtæki verði styrkt til þess að þróa afurðir tungutækni.

4.      Menntun á sviði tungutækni og málvísinda verði efld.

Allt þetta hefur verið gert í einhverjum mæli. Mest fé hefur farið í fyrsta liðinn. Byggð hefur verið upp ítarleg íslensk beygingarlýsing hjá Orðabók Háskólans (sjá http://www.tungutaekni.is/news/kristin.pdf) og einnig hefur verið safnað hráefni og komið upp hljóðrituðu orðasafni fyrir þjálfun íslenskra talgreina í samstarfi Háskóla Íslands og nokkurra fyrirtækja (sjá http://www.tungutaekni.is/news/helga.pdf). Orðabók Háskólans er nú enn fremur að koma upp stórri íslenskri málheild (corpus) sem verður greind málfræðilega og á að geta nýst í margvíslegum tungutækniverkefnum (sjá http://www.tungutaekni.is/news/sigrun2.pdf).

Ýmiss konar hagnýtar rannsóknir hafa einnig verið styrktar. Þannig hefur Friðrik Skúlason ehf. unnið að vélrænni íslenskri setningagreiningu sem geti nýst í ýmiss konar leiðréttingarforritum m.a. (sjá http://www.tungutaekni.is/news/maren.pdf). Hjá Orðabók Háskólans hefur verið þjálfaður málfræðilegur markari (grammatical tagger) sem greinir íslenska texta málfræðilega (sjá http://www.tungutaekni.is/news/sigrun.pdf). Friðrik Skúlason ehf. hefur einnig fengið fé til að þróa og endurbæta Púkann (sjá http://www.tungutaekni.is/news/fridrik.pdf), og Grunnur – gagnalausnir fékk styrk til að skoða notkun tungutækni í símtölvunarlausnum (sjá http://www.tungutaekni.is/news/bjorn.pdf).

Þetta er ekki tæmandi upptalning verkefna, þótt flest helstu verkefnin sem styrkt voru hafi hér verið nefnd. En að auki var komið á þverfaglegu meistaranámi í tungutækni við Háskóla Íslands haustið 2002 (sjá http://www.tungutaekni.is/info/menntun2.html). Fyrsti nemandinn útskrifaðist úr því námi haustið 2004 og skrifaði lokaritgerð um talgervla (sjá http://www.tungutaekni.is/news/Towards Speech Synthesis for Icelandic.pdf). Fleiri nemendur munu væntanlega útskrifast á næstu misserum, en framhald námsins er í nokkurri óvissu þótt ljóst sé að einhver tungutækninámskeið verði kennd áfram innan íslenskuskorar. Tilvist þessa náms hefur einnig leitt til þess að Háskóli Íslands er kominn í samstarf við aðra norræna háskóla um norrænan tungutækniháskóla (Nordic Graduate School of Language Technology, sjá http://www.ngslt.org). Í krafti þess samstarfs geta íslenskir stúdentar sótt tungutækninámskeið í ýmsum háskólum á Norðurlöndum og í Eystrasaltslöndunum og fengið styrki til ferða og uppihalds.

 

3. Einstök áhersluatriði
Í skýrslu starfshóps um tungutækni var eftirfarandi slegið föstu:

Meginmarkmið Íslendinga hlýtur að verða að unnt verði að nota íslenska tungu, ritaða með réttum táknum, sem víðast innan tölvu- og fjarskiptatækninnar. Þar verður þó að sjálfsögðu að sníða sér stakk eftir vexti. Það er mikið verkefni að gera íslensku gjaldgenga á öllum sviðum, við allar aðstæður. Því verður að leggja megináherslu á þá þætti sem varða daglegt líf og starf alls almennings, eða munu gera það á næstu árum.

Í framhaldi af þessu setti starfshópurinn fram lista um ákveðin verkefni sem hann lagði til að áhersla yrði lögð á næstu fimm árin. Þessi verkefni eru talin hér skáletruð, en á eftir hverjum tölulið er skoðað hvernig framvindan hefur verið þessi fimm ár.

1.      Helstu tölvuforrit á almennum markaði verði á íslensku (Windows, Word, Excel; Netscape, Internet Explorer; Eudora; …)

Sumarið 2004 kom Windows XP (og þar með Internet Explorer) og Microsoft Office á íslensku. Sú þýðing virðist vera mun betur heppnuð tæknilega en fyrri þýðing Windows á íslensku. Greinarhöfundur hefur notað íslenskt XP á sínum tölvum síðan í haust og líkar ágætlega. Reynslan verður þó að skera úr um það hvað útbreiðslu þessar þýðingar fá.

2.      Unnt verði að nota íslenska bókstafi (áéíóúýðþæöÁÉÍÓÚÝÐÞÆÖ) við allar aðstæður; í tölvum, GSM-símum textavarpi og öðrum tækjum sem almenningur notar.

Hér hefur staðan batnað nokkuð, m.a. með aukinni útbreiðslu Unicode. Nú eru GSM-símar með íslenska stafi í valmyndum, en ýmsar hömlur eru þó enn á að þeir skili sér við allar aðstæður.

3.      Unnið verði að þróun málgreiningar fyrir íslensku, með það að markmiði að geta greint íslenskan texta í orðflokka og setningarliði.

Tvö verkefni á þessu sviði hafa verið í gangi, styrkt af tungutækniverkefninu: málfræðilegur markari fyrir íslensku (http://www.tungutaekni.is/news/sigrun.pdf) og vélræn íslensk setningagreining (http://www.tungutaekni.is/news/maren.pdf). En til að þetta væri hægt taldi starfshópurinn nauðsynlegt að:

3.1.   Koma upp stórri tölvutækri textaheild með íslenskum textum af sem fjölbreyttustum toga til að byggja áframhaldandi vinnu á.

Vinna við slíka textaheild (málheild, corpus) er nýhafin, eins og áður er nefnt (sjá http://www.tungutaekni.is/news/sigrun2.pdf).

3.2.   Koma upp fullgreindu orðasafni (með málfræðilegri og merkingarlegri greiningu) til nota í áframhaldandi vinnu.

Ekkert slíkt orðasafn er til, né í vinnslu. Hins vegar er til margvíslegt hráefni sem vinna mætti út frá, t.d. í íslenskri beygingarlýsingu (http://www.tungutaekni.is/news/kristin.pdf) og í ýmsum söfnum Orðabókar Háskólans (http://www.lexis.hi.is/islex.html, http://www.lexis.hi.is/lexin_ny.html) o.v.

4.      Til verði góð hjálparforrit við ritun texta á íslensku, s.s. orðskiptiforrit, stafsetningarleiðréttingarforrit, málfarsleiðréttingarforrit o.fl.

Púki Friðriks Skúlasonar var til þegar þetta var ritað, en hefur nú verið endurbættur (sjá http://www.tungutaekni.is/news/fridrik.pdf). Einnig útbjó hollenska fyrirtækið Polderland nýtt stafsetningarleiðréttingarforrit sem fylgir Microsoft Office (sjá http://www.polderland.nl/english/spellcheck.htm). Málfarsleiðréttingarforrit eru engin til enn, en vinnu Friðriks Skúlasonar ehf. við vélræna setningagreiningu (sjá http://www.tungutaekni.is/news/maren.pdf) er þó ekki síst ætlað að leggja grunn að gerð slíkra forrita.

5.      Til verði góður íslenskur talgervill sem geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði og eðlilegu tónfalli og sem sé skiljanlegur án þjálfunar.

Íslenskur talgervill sem upphaflega var gerður um 1990 í samstarfi sænska fyrirtækisins Infovox, Öryrkjabandalags Íslands, Málvísindastofnunar Háskólans og verkfræðideildar hefur verið endurbættur. Hann byggist nú á annarri og nýrri tækni en áður en er þó langt frá því að vera nógu góður (sjá http://www.babeltech.com/Demos.php?Langue=Icelandic-Snorri&sw=1&IndexValue=20&m=3&s=48&f=96). Undirbúningur að gerð nýs talgervils hefur staðið yfir í nokkurn tíma og er von til þess að það verk verði unnið á þessu ári, a.n.l. fyrir styrk frá tungutækniverkefninu.

6.      Unnið verði að þróun talgreiningar fyrir íslensku, með það að markmiði að til verði forrit sem geti túlkað eðlilegt íslenskt tal.

Á árinu 2003 unnu Háskólinn og fjögur íslensk fyrirtæki að þróun íslenskrar stakorðagreiningar í samstarfi við fjölþjóðlega tungutæknifyrirtækið ScanSoft (sjá http://www.tungutaekni.is/news/helga.pdf, http://www.tungutaekni.is/news/hjal.PDF). Þjálfun íslensks talgreinis tókst mjög vel og talgreinirinn virkar ekki síður en sambærilegir talgreinar fyrir ýmis önnur tungumál. Hins vegar hefur ekkert verið unnið í því að þróa talgreini sem skilji samfellt talað mál.

7.      Unnið verði að þróun forrita til vélrænna þýðinga milli íslensku og annarra tungumála, m.a. til að auðvelda leit í gagnabönkum.

Á þessu sviði hefur lítið sem ekkert gerst. Einstöku tilraunir hafa verið gerðar (sjá http://www.simnet.is/stbr/heim.html) og ýmsir hafa unnið með hjálparforrit eins og þýðingarminni, en engin nothæf þýðingarforrit eru á leiðinni svo að vitað sé.

8.      Ákveðnum aðilum (stofnunum eða fyrirtækjum) verði falin ábyrgð á einstökum verkefnum.

Eins og áður hefur komið fram varð skýrslan frá 1999 til þess að sett var á fót verkefnisstjórn í tungutækni (sjá http://www.tungutaekni.is/info/verkefnid.html) sem átti að hafa yfirlit yfir stöðu tungutækni í landinu, ýta verkefnum af stað og samræma aðgerðir. Óhætt er að segja að þetta hafi skilað góðum árangri. Verkefnisstjórnin var hins vegar lögð niður um síðustu áramót, og óvíst hvernig starfi hennar verður fylgt eftir.

 

4. Hvað hefur þetta kostað?
Í tillögum starfshópsins vorið 1999 var lagt til að tungutækniátakið stæði í a.m.k. fjögur ár og heildarkostnaður á ári yrði:

Þróunarmiðstöð

25  til  50 MKR

Rannsókna- og þróunarsjóður

150 MKR

Sérstakur styrkur til stærri alþjóðlegra verkefna

30 MKR

Stutt hagnýtt nám í máltækni

10 MKR

Meistaranám í máltölvun

10 MKR

Alls

225 til 250 MKR

 

Þótt vissulega hafi verulegu fjármagni verið varið til tungutækniátaksins fer því fjarri að þessum tillögum hafi verið fylgt eftir. Það sem fengist hefur undanfarin fimm ár er:

Fjáraukalög 2000

40 MKR

Fjárlög 2001

64,5 MKR

Fjárlög 2002

0 MKR

Fjárlög 2003

15 MKR

Fjárlög 2004

13,5 MKR

Alls

133 MKR

 

Þetta er því u.þ.b. 1/8 þess sem starfshópurinn taldi að þyrfti til að ná tilætluðum árangri. Það er því ekki von að öllum verkefnunum sem talin eru í 3. kafla hafi verið gerð skil. Þó er óhætt að segja að furðu mikið hafi áunnist miðað við tilkostnað. Tungutækniáætlunin hefur skilað heilmiklu. Kennsla í tungutækni og samstarf við erlenda háskóla á þessu sviði er hafið, Íslendingar eru farnir að fara í tungutækninám erlendis, mikilvæg gagnasöfn hafa verið byggð upp, og ýmsum rannsóknar- og þróunarverkefnum hefur verið ýtt af stað. En því fer þó fjarri að íslensk tungutækni sé orðin sjálfbær, eins og stefnt var að.

Því miður ber tungutækniverkefnið sömu einkenni og mörg önnur íslensk „átaksverkefni“. Á þeim vilja vera tveir megingallar. Annar er sá að þeim er ætlaður of skammur tími. Það tekur tíma að byggja upp menntun, rannsóknir, þróunarstarf og iðnað úr nánast engu. Fjögur – fimm ár duga einfaldlega ekki til þess. Hinn megingalli átaksverkefna felst í dreifingu fjármagns yfir verktímann. Iðulega er mest fé sett í verkefnin fyrst, áður en aðstæður hafa verið skapaðar til að taka við því og nýta það eins vel og skynsamlega og hægt væri, ef betra tóm gæfist til undirbúnings. Síðan dregur úr fjárveitingum þegar líður á líftíma verkefnisins, öfugt við það sem þyrfti að vera, og þegar búið er að mennta fólk og byggja upp þróunarumhverfi í fyrirtækjum eru peningarnir búnir. Ég endurtek að vissulega hefur tungutækniverkefnið skilað miklu, en það væri mjög mikilvægt að halda áfram opinberum stuðningi við íslenska tungutækni enn um hríð, til að nýta betur það fé sem hefur verið varið í verkið hingað til og þá þekkingu sem hefur verið byggð upp hjá fræðimönnum og fyrirtækjum.

 

5. Upplýsingasetur um tungutækni
Hér er ástæða til að nefna einnig íslenskt upplýsingasetur um tungutækni, þótt það sé ekki í beinum tengslum við tungutækniverkefni menntamálaráðuneytisins. Frá hausti 2001 hefur Orðabók Háskólans rekið slíkt setur, en sams konar setur voru sett upp um sama leyti á öllum Norðurlöndunum fyrir fé úr norrænu tungutækniáætluninni (sjá http://www.nordforsk.org/meny.cfm?m=148). Þau hafa með sér samstarfsnet, NorDokNet (http://www.nordoknet.org). Verkefnisstjórn í tungutækni hélt á starfstíma sínum úti vefsetrinu http://www.tungutaekni.is. Um síðustu áramót, þegar starfstíma verkefnisstjórnarinnar lauk, voru þessir vefir sameinaðir, enda hlutverk þeirra svipað. Sameinaða vefsetrið hefur veffangið http://www.tungutaekni.is og er rekið af Orðabók Háskólans. Efni þess og efnisskipan tekur mið af sameiginlegu mynstri sem notað er á öllum norrænu upplýsingasetrunum. Allt efni hefur verið uppfært og mjög miklu bætt við. Allar síður eru nú til bæði á íslensku og ensku. Leitarvélin SiteSeeker (http://www.euroling.se) hefur verið tengd inn á vefinn, eins og á vefi hinna norrænu upplýsingasetranna, og leitar á þeim öllum. Hægt er að leita að „upplýsingum á íslensku um einstaklinga sem fást við vélrænar þýðingar“ eða „upplýsingum á norsku um fyrirtæki á sviði taltækni“ eða „upplýsingum á dönsku um talgervla“ eða „upplýsingum á hvaða máli sem er um málheildir“ o.s.frv. Þetta er hægt vegna þess að upplýsingarnar eru alls staðar flokkaðar á sama hátt, og samræmd lykilorð eru alls staðar notuð. Nú er unnið að því að koma upp hliðstæðum íðorðalistum fyrir öll Norðurlandamálin, auk ensku, með það að markmiði að hægt verði að slá inn leitarorð á hverju málanna sem er og fá upplýsingar á þeim öllum, eða einhverjum tilgreindum málum.

Nú eru í gangi ýmsar tilraunir til að tryggja framhaldslíf norrænu upplýsingasetranna eftir að fjármögnun úr norrænu tungutækniáætluninni lýkur um mitt ár. Þessar tilraunir ganga einkum út á það að tengja setrin nánar við fyrirtæki á sviði tölvu- og upplýsingatækni. Það hefur komið í ljós annars staðar á Norðurlöndunum (a.m.k. í Danmörku) að fyrirtækin sækja sér talsvert mikið upplýsingar til setranna, þótt menn hefðu upphaflega hugsað þau fyrst og fremst til akademískra nota. Því hefur Center for sprogteknologi í Danmörku (http://www.cst.dk), sem hefur forystu í NorDokNet, náð samstarfi við samtök iðnaðarins á Norðurlöndum og sent inn forumsókn til Norrænu nýsköpunarmiðstöðvarinnar (Nordisk Innovationscenter, http://www.nordicinnovation.net/)  um að kanna möguleika á samstarfi um áframhaldandi rekstur og útvíkkað hlutverk setranna. Þessi forumsókn var nýlega samþykkt, og um miðjan mars verður haldið málþing í Kaupmannahöfn með þátttöku setranna og fulltrúa samtaka iðnaðarins á Norðurlöndum, þ. á m. Íslandi. Upp úr því kemur í ljós hvort grundvöllur er fyrir áframhaldandi samstarfi. Þá er Aksis í Noregi (http://www.aksis.uib.no/) að undirbúa umsókn í 6. rammaáætlun Evrópusambandsins þar sem gert er ráð fyrir útvíkkuðu samstarfsneti upplýsingasetra á sviði tungutækni. Þar eru öll norrænu setrin með, en einnig Language Technology World (http://www.lt-world.org) í Þýskalandi sem er alþjóðlegt upplýsingasetur um tungutækni, svo og spænskt upplýsingasetur, auk þess sem gert er ráð fyrir stofnun sambærilegra setra í öllum Eystrasaltslöndunum.

 

6. Tungutækni og framtíð íslenskunnar
Þegar mikilvægi íslenskrar tungutækni er metið verður að líta til þess að upplýsingatæknin er orðin mikilvægur þáttur í daglegu lífi alls almennings í landinu. Ef ekki verður hægt að nota íslensku innan hennar kemur upp splunkuný staða, sem ekki á sér hliðstæðu fyrr í málsögunni. Þá verður orðinn til mikilvægur þáttur í daglegu lífi venjulegs fólks, þar sem móðurmálið er ónothæft. Hvaða áhrif hefur það á málnotendur og málsamfélagið? Hvað gerist ef móðurmálið er ekki lengur nothæft í nýrri tækni og öðru sem er nýtt og spennandi; á sviðum þar sem nýsköpun af ýmsu tagi á sér stað; og á sviðum þar sem ný atvinnutækifæri bjóðast? Menn þurfa varla að velta þessu lengi fyrir sér til að sjá hættumerkin.

 

En það er rangt að meta þörf á íslenskri tungutækni eingöngu út frá sjónarmiði málsins og varðveislu þess. Við eigum einnig og ekki síður að líta á þetta út frá þörfum málnotendanna. Þeir eiga ekki að þurfa að sitja skör lægra en aðrir, og vera neyddir til þess að nota erlend mál við hversdagslegar aðstæður. Þeir eiga kröfu á því að geta notað móðurmál sitt hvar sem er í íslensku málsamfélagi. Allt annað er uppgjöf fyrir ytri aðstæðum – uppgjöf sem við eigum ekki að sætta okkur við.

 

 Það er auðvitað ljóst að við getum aldrei fengið allt á íslensku. Smæð málsamfélagsins gerir það að verkum að við verðum alltaf að sætta okkur við einhverjar málamiðlanir. Við gerum ekki athugasemd við það að það standi R, N og P á gírstönginni í bílnum okkar, og leiðum sjaldnast hugann að því að þessir bókstafir standa fyrir ensku orðin reverse, neutral og park. Fyrir okkur eru þetta bara tákn, óháð tungumáli. En mál í virkri notkun, mál í samhengi, slítur sig ekki frá uppruna sínum á sama hátt og einstakir bókstafir geta gert. Þess vegna verðum við að geta notað íslensku í staðinn, við sem flestar og fjölbreyttastar aðstæður. Að öðrum kosti verðum við málfarslega undirokuð í okkar eigin málsamfélagi.

Ég fór í haust í vikuferð um Eystrasaltslönd með hópi norræns tungutæknifólks. Tilgangurinn var að mynda sambönd, kynna hvað við værum að gera, og kynnast því hvað væri að gerast í tungutækni í þessum löndum. Þetta eru allt smáþjóðir, þótt þær séu vissulega stærri en við, en mun fátækari. Metnaður þeirra í því að gera móðurmál sín gjaldgeng innan upplýsingatækninnar vakti þó mikla athygli okkar. Ekki síst hrifumst við af frumkvæði Eista sem hafa gert sérstaka áætlun um uppbyggingu eistneskrar tungutækni næstu sjö árin. Þar er tilgreint í smáatriðum hvað ætlunin sé að gera á hverju ári fram til 2011. Það er ekki nema um það bil milljón manns sem á eistnesku að móðurmáli, og þeir eru núna á svipuðu stigi og við í þróun tungutækni – komnir aðeins lengra á sumum sviðum en skemmra á öðrum. Munurinn er hins vegar sá að  þeirra tungutækniáætlun er að byrja – okkar að enda. Eigum við að láta hér við sitja?

 

Skoðað: 12229 sinnum