Máltækni á Íslandi

SigrunÍ þessari grein verður gerð stutt grein fyrir máltækni og hver staða hennar er á Íslandi. Í annarri grein, sem mun birtast í næstu útgáfu Tölvumála (1. tbl., 38. árgangur), verður sagt frá margvíslegum íslenskum málföngum.

Nýyrðið máltækni er þýðing á enska heitinu language technology. Máltækni vísar til hvers kyns samvinnu tungumáls og tölvutækni í þeim tilgangi að hanna eða útbúa hugbúnað eða tæki sem nýtast mönnum í starfi eða leik. Þessi samvinna felst annars vegar í notkun tölvutækninnar í þágu tungumálsins og hins vegar í notkun tungumálsins innan tölvutækninnar.

Undir merkjum máltækni eru stundaðar margvíslegar rannsóknir í málvísindum og tölvunarfræði og byggð upp umfangsmikil málleg gagnasöfn eins og málheildir, trjábankar, margs konar orðalistar og Sigrún Helgadóttir. Þessi starfsemi er aðallega stunduð í háskólum, rannsóknarstofnunum og einkafyrirtækjum á stórum málsvæðum. Markmiðið er að gagnasöfnin og niðurstöður rannsókna nýtist við gerð ýmiss konar máltæknibúnaðar. Sem dæmi um máltæknibúnað má nefna stafrýna, sem leiðrétta stafsetningu, málrýna til þess að leiðbeina um málfar, kerfi fyrir vélrænar þýðingar, leitarforrit margs konar til þess að sækja upplýsingar úr gagnasöfnum og af veraldarvef, talgreina, sem bera kennsl á talað mál og breyta því í texta, talgervla sem breyta texta í talað mál og samræðukerfi þar sem maður og tölva ræða saman á mannamáli, ýmist töluðu eða rituðu.

Í 3. tbl. 24. árgangs Tölvumála árið 1999 rituðu Rögnvaldur Ólafsson og Eiríkur Rögnvaldsson um Skýrslu um tungutækni (Rögnvaldur Ólafsson og Eiríkur Rögnvaldsson 1999) sem þeir, ásamt Þorgeiri Sigurðssyni (Rögnvaldur Ólafsson o.fl. 1999), höfðu nýlega lokið við að semja fyrir þáverandi menntamálaráðherra, Björn Bjarnason. Starfshópurinn kannaði stöðu tungutækni á Íslandi og gerði tillögur um hvernig mætti styrkja hana. Í framhaldi af skýrslunni var sett af stað tungutækniverkefni menntamálaráðuneytisins árið 2000. Á vegum verkefnisins hófst meistaranám í tungutækni við Háskóla Íslands (Rögnvaldur Ólafsson 2004). Þá var styrkt gerð beygingarlýsingar (Kristín Bjarnadóttir 2012), markara fyrir íslensku (Sigrún Helgadóttir 2007) og gerð markaðrar málheildar (Sigrún Helgadóttir o.fl. 2012). Markarar eru notaðir til þess að greina texta málfræðilega með vélrænum aðferðum. Einnig voru gerðar endurbætur á Púka Friðriks Skúlasonar og gerður talgreinir (Helga Waage 2004) og talgervill (Björn Kristinsson 2004). Þegar tungutækniverkefninu lauk stofnuðu Málvísindastofnun Háskóla Íslands, tölvunarfræðideild Háskólans í Reykjavík og orðfræðisvið Stofnunar Árna Magnússonar í íslenskum fræðum (áður Orðabók Háskólans) til samstarfs sem er kallað Máltæknisetur (http://www.maltaeknisetur.is/) um rannsóknir, þróun og kennslu í máltækni. Þegar vinna við máltækni hófst á Íslandi í byrjun síðasta áratugar var enska heitið language technology þýtt sem tungutækni en nú þykir heppilegra að nota orðið máltækni.

Eftir að tungutækniverkefninu lauk árið 2004 hafa fræðimenn komið af stað ýmsum verkefnum sem að hluta hafa verið styrkt af Rannsóknasjóði og Tækniþróunarsjóði. Mikilvægasta afurð þessara verkefna er sennilega IceNLP-pakkinn sem hefur markara, þáttara og forrit til þess að finna nefnimyndir (lemmur) (Hrafn Loftsson og Eiríkur Rögnvaldsson 2007). Í pakkanum er einnig forrit sem skiptir texta í lesmálsorð og setningar. Árið 2009 fékk Máltæknisetur þriggja ára öndvegisstyrk frá Rannsóknasjóði fyrir verkefnið Hagkvæm máltækni utan ensku – íslenska tilraunin (http://iceblark.wordpress.com/icelandic/). Í því verkefni var gerður gagnagrunnur fyrir merkingarvensl í íslensku (http://malfong.is/?pg=merkor) (Anna Nikulásdóttir og Matthew Whelpton 2010), frumgerð fyrir vélrænar grófþýðingar (http://malfong.is/?pg=apertium) (Martha Dís Brandt o.fl. 2011) og sögulegur trjábanki (http://www.linguist.is/icelandic_treebank/Download) (Eiríkur Rögnvaldsson o.fl. 2012).

Næsti stóri styrkur sem fékkst fyrir máltækniverkefni á Íslandi var í gegnum verkefnið META-NORD (https://vefir.hi.is/metanord/). META-NORD var samstarfsverkefni Norðurlanda og Eystrasaltslanda sem Máltæknisetur tók þátt í fyrir hönd Íslands. Þetta var tveggja ára verkefni sem hófst 1. febrúar 2011 og var hluti af META-NET (http://www.meta-net.eu/) sem tók til allra ríkja Evrópusambandsins og tengdra ríkja. Verkefnin voru styrkt af 7. rammaáætlun Evrópusambandsins og stefnumótunaráætlun sambandsins á sviði upplýsingatækni (ICT Policy Support Programme).

META-NET og útvíkkun þess, tengslanetið META, höfðu það að markmiði að skapa tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu hvers kyns upplýsinga. Þetta átti að gera með því að efla og kynna máltækni fyrir allar þjóðtungur álfunnar og auðvelda tengsl milli þeirra með því að koma upp margmála málföngum (málgögnum og máltólum) til nota í margvíslegum máltækniverkefnum. Verkefninu lauk 1. febrúar 2013. Á verkefnistímanum var unnið að þremur meginverkefnum. Í fyrsta lagi var rituð skýrsla um stöðu máltækni fyrir 31 tungumál í Evrópu (íslenska skýrslan: http://www.meta-net.eu/whitepapers/volumes/icelandic) (Eiríkur Rögnvaldsson o.fl. 2012). Í skýrslunum er einnig borinn saman stuðningur við máltækni fyrir þessi 31 tungumál. Athugaður var stuðningur fyrir talvinnslu, vélþýðingar, textagreiningu og málföng fyrir tungumálin. Í öllum flokkum lenti íslenska í neðsta flokki með lítinn eða engan stuðning. Í öðru lagi var gert átak í að kynna máltækni í samfélaginu. Íslenski hópurinn sem tók þátt í verkefninu skrifaði greinar í blöð, mætti í viðtöl í fjölmiðlum og síðan var haldin ráðstefnan Máltækni fyrir alla 27. apríl 2012 (http://www.malfong.is/Malthing/). Höfuðverkefnið var að safna saman og gera yfirlit yfir íslensk málföng. Orðið málföng er nýyrði í íslensku og er þýðing á enska heitinu language resources og er myndað með hliðsjón af orðunum tilföng og aðföng. Helsta markmið META-NET verkefnisins var að koma á fót gagnahirslum (e. data repositories) þar sem geyma má málföng miðlægt. Þetta var gert með því að koma á fót því sem hefur verið kallað META-SHARE (http://www.meta-share.eu/) sem er dreifð gagnahirsla með mörgum hnútum sem eiga að vera samstilltir. Nú eru til staðar nokkrir stýrihnútar og í þeim má nálgast öll gögn sem hafa verið skráð í hvaða hnút sem er.  Höfuðhlutverk gagnahirslnanna er að geyma lýsigögn (e. metadata) um málföngin. Um hvert málfang eru a.m.k. skráðar upplýsingar um heiti, tegund (texti, hljóð, forrit,…), höfund og hvernig unnt er að nota gögnin. Í sumum tilvikum má sækja gögnin í tiltekna gagnahirslu. Allir þátttakendur í META-NORD verkefninu nema Íslendingar komu upp eigin gagnahirslu í tengslum við META-SHARE. Lýsigögn um íslensku málföngin eru skráð í gagnahirslu hjá fyrirtækinu Tilde í Lettlandi (http://metashare.tilde.com/).

Stefnt er að því að mynda félag um stofnun og rekstur íslenskrar gagnahirslu fyrir málföng með þátttöku Háskóla Íslands, Stofnunar Árna Magnússonar í íslenskum fræðum, Háskólans í Reykjavík, Landsbókasafns – Háskólabókasafns og nokkurra annarra stofnana.

Í staðinn fyrir fullbúna META-SHARE gagnahirslu var ákveðið að koma á fót nýju vefsetri, http://www.málföng.is. Íslenski META-NORD hópurinn skráði 23 málföng í META-SHARE gagnahirslu hjá Tilde í Lettlandi. Öll þessi málföng voru einnig skráð á vefsetrið http://www.málföng.is. Hvert málfang fékk sína eigin síðu. Þar voru skráðar ýmsar upplýsingar um verkefnin, bæði á ensku og íslensku. Þar kemur einnig fram hvers konar aðgangur er að málföngunum og með hvers konar skilmálum.

Í grein sem mun birtast í 1. tbl. 38. árgangs tölvumála verður gerð grein fyrir þeim málföngum sem má finna á vefsetrinu http://www.málföng.is.

Höfundur: Sigrún Helgadóttir, tölfræðingur, verkefnisstjóri á Stofnun Árna Magnússonar í íslenskum fræðum

Birt 29. ágúst 2013

Heimildir
Anna Nikulásdóttir og Matthew Whelpton. 2010. Extraction of Semantic Relations as a Basis for a Future Semantic Database for Icelandic. Í Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages (Workshop 22 of 7th Language Resources and Evaluation Conference), pages 33-39. Valletta, Malta. 23rd May 2010.

Björn Kristinsson. 2004. Íslenskur talgervill. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík.

Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. Sögulegi íslenski trjábankinn. Gripla 23:331-352.

Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Sigrún Helgadóttir og Steinþór Steingrímsson. 2012. Íslensk tunga á stafrænni öld / The Icelandic Language in the Digital Age. META-NET White Paper Series. Springer, Berlín.

Helga Waage. 2004. Hjal – gerð íslensks stakorðagreinis. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík.

Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: "Speech and language technology for less-resourced languages". Antwerp, Belgium.

Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages"“, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi.

Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M. Tyers. 2011. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Í Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgium.

Rögnvaldur Ólafsson og Eiríkur Rögnvaldsson. 1999. Skýrsla um tungutækni. Tölvumál 24,3:30-32.
Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson. 1999. Tungutækni. Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík.

Rögnvaldur Ólafsson. 2004. Tungutækniverkefni menntamálaráðuneytisins. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík.

Sigrún Helgadóttir. 2007. Mörkun íslensks texta. Orð og tunga 9:75-107. Reykjavík. 2007.

Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages"“, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi.