Skip to main content
21. maí 2026

Upphaf íslenskrar máltækni: Tíðni orða í Hreiðrinu

Stefán Ólafsson

Stefán ÓlafssonÁrið 1972 var lagt upp í metnaðarfulla og tæknilega krefjandi tilraun til að kanna hvort unnt væri að beita tölvum við rannsóknir á íslensku ritmáli og þróa aðferðir til sjálfvirkrar greiningar, með það í huga að búa til tíðniorðabók og orðstöðulykil fyrir íslenskt ritmál. Verkefnið átti þannig að skila bæði gagnasafni og tölvutækum verkfærum sem nýta mætti í málvísindum og orðabókargerð. Verkefnið var unnið í samstarfi Rannsóknastofnunar í norrænum málvísindum sem tók til starfa þetta sama ár við Háskóla Íslands og Reiknistofu Raunvísindastofnunar Háskóla Íslands.

Þetta var fyrsta verkefni sinnar tegundar hér á landi og markaði þar með upphaf rannsókna á tungumálum með stafrænum hætti á Íslandi – svið sem þá kallaðist máltölvun (e. computational linguistics). Tæknilegri vinnu við verkefnið lauk undir lok árs 1975 með útgáfu orðtíðniskráa í þremur bindum, það fyrsta með orðunum í tíðniröð, annað með orðunum stafrófsröð og það þriðja með orðunum í stafrófsröð aftan frá. Því má segja að íslensk máltækni sé 50 ára í ár.

Að verkefninu stóðu Baldur Jónsson málfræðingur á vegum málfræðistofnunarinnar, Björn Ellertsson þá nemi í reiknifræði og með B.A. próf í þýsku og Sven Þ. Sigurðsson reiknifræðingur hjá Reiknistofunni. Baldur leiddi fræðilegan hluta verkefnisins, Björn annaðist alla hönnun og gerð forrita og Sven var tengiliður milli Baldurs og Björns og hafði yfirumsjón með úrvinnslu gagna.

Kveikjuna að verkefninu má rekja til þess að Baldur hafði kynnst hliðstæðum rannsóknum erlendis, sér í lagi viðamikilli tíðnirannsókn á sænsku máli sem rannsóknarhópur við Háskólann í Gautaborg undir stjórn Sture Allén hafði unnið að. Hann vildi því láta reyna á hvort tölvubúnaður og tæknileg kunnátta væri til staðar hér á landi til að sinna slíkum rannsóknum á íslensku máli og Íslendingar gætu þar með orðið virkir aðilar að norrænu rannsóknarsamstarfi á þessu sviði.

Á þessum tíma voru útgefnir bóka- og blaðatextar ekki enn orðnir aðgengilegir á tölvutæku formi. Þess vegna þurfti að handgata á gatspjöld texta sem átti að rannsaka.

Textinn sem valinn var til vinnslu var skáldsagan Hreiðrið eftir Ólaf Jóhann Sigurðsson. Sagan var nýkomin út, skrifuð á vönduðu nútímamáli og talin dæmigerð fyrir íslenskt ritmál, textinn var fjölbreyttur, innihélt ýmis ritfræðileg atriði sem reyndu á úrvinnsluna, og höfundurinn þekktur fyrir vandaðan frágang.

Guðrún Stefánsdóttir, eiginkona Baldurs, handgataði 260 blaðsíður á götunarvél af gerðinni IBM 26 samkvæmt þeim reglum sem Baldur og Björn höfðu mótað um véltöku textans. Þetta var tímafrek nákvæmnisvinna þar sem lítið mátti út af bera. Gatspjöldin voru síðan lesin inn á IBM 1620 tölvu Reiknistofu. Síðar þótti sú tölva þó of veikburða fyrir verkefni af þessari stærðargráðu svo úrvinnslan var færð yfir á IBM 370/135 hjá Skýrsluvélum ríkisins og Reykjavíkurborgar. Forritun fór fram í PL/I, sem bauð upp á blandaða meðhöndlun texta og talna og hentaði því verkefninu vel.

Tæknilegar hindranir reyndu á þolgæði hópsins. Prentararnir sem tengdir voru tölvunum gátu hvorki prentað broddstafi né litla stafi svo mikil vinna fór í að finna lausnir við því. Starfsfólk Orðabókar Háskólans leiðrétti þrjú eintök orðstöðulykilsins handvirkt með því að bæta inn þeim stöfum og táknum sem prentarinn réði ekki við og hafði skilið eftir.

Á þessum tíma breyttist uppbygging þeirra stofnana sem komu að verkefninu. Rannsóknastofnunin lagði niður starfsemi í lok árs 1973, og Reiknistofan var klofin í Reiknistofnun Háskólans og Reiknifræðistofu árið 1976. Þá hurfu bæði Sven og Björn til annarra starfa 1975. Þetta varð til þess að útgáfa lokaskýrslu um verkefnið dróst til 1980.

Afurðir verkefnisins voru orðtíðniskrár og orðstöðulykill sem síðar var unninn og prentaður árið 1978, en hann sýnir hvert orð í samhengi í textanum. Auk þess voru gerðar í lokaskýrslunni margvíslegar samantektir á tölfræðilegum þáttum sem lutu að tíðni stafa og lengd og gerð orða. Niðurstöður gáfu til kynna hverjar algengustu orðmyndirnar í íslensku máli væru. Samanburður við seinni orðtíðnirannsóknir sýndi að stór hluti algengustu orðmynda í Hreiðrinu voru einnig þær algengustu í stærri textasöfnum[1].

Verkefnið sýndi jafnframt hvernig nýta mætti tölvutækni við málvísindalegar rannsóknir á íslenskum textum og hvernig mætti yfirvinna tæknilegar og skipulagslegar hindranir sem því fylgdu. Þó að hugbúnaðurinn hafi að mestu verið nýttur innan verkefnisins sjálfs, má engu að síður líta á þetta sem fyrsta íslenska mál tölvunarverkefnið – brautryðjandastarf sem sýndi í verki hvað var tæknilega gerlegt á sínum tíma og gæti því hafa orðið hvatning til frekari rannsókna.

HöfundurStefán Ólafsson, lektor við Háskólann í Reykjavík

Heimildir:
[1] Friðrik Magnússon, Hvað er títt? Orð og tunga. 1. Árgangur 1988. Bls. 1-49.

Skoðað: 9 sinnum

Blaðið Tölvumál

Forsíða Tölvumála

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála