englishflag

Nýjungar í Vélanámi

Alexsander1Markmið vélanáms er að þjálfa kerfi til að bera kennsl á þau mynstur sem er finna í þeim gögnum sem eru við hendi, og ákvarða svo líklega eiginleika nýrra gagna. Með ódýrari gagnageymslum fer gagnamagni á öllum sviðum ört fjölgandi, og með því hafa nýjar rannsóknir vélanámsreiknirita sameinast.

Í dag er vélanám orðið að stikkorði innan upplýsingageirans. Vandamál sem voru áður kostnaðarsöm eða óáreiðanleg í úrlausn hafa oft verið gerð einfaldari fyrir þróendur, fljótari í úrlausn og áreiðanlegri með vélanámslausnum. Þetta gert með því að móta líkan að gagnabanka sem að alhæfir vel að nýjum gögnum. Gervigreind giskar á svar og ef að rétt líkan er rétt útfært getur gervigreindin boðið betri afurðir en ef að annarri aðferðafræði væri beitt. Í þessari grein verður fjallað um nýjungar og afurðir þeirra innann ýmsa sviða sem að gerðar hafa verið mögulegar með vélanámslausnum.

Vélaþýðing

Árið 2006 gaf Google út frasabyggt þýðingarkerfi Phrase-Based Machine Translation sem gat þýtt setningar frá einu tungumáli í annað. Þetta hefur til nýlegs tíma verið staðallinn í vélaþýðingu og verið grunnur að þjónustum eins og Google Translate. Setning er þýdd frá einu máli í annað með því að beinþýða orð eða frasa. Þannig eru stakir þættir setningar þýddir í einangrun án tillits til annarra hluta setningarinnar.

Ágæt nálgun fæst með þessum máta en þýddur texti er oft fjarri þýðingunni sem að mennskur þýðandi myndi gera. Einangraða eðli frasabyggðrar þýðingar veldur oft þýðingarvillum vegna þess að þegar setning er beinþýdd glatar hún oft merkingu sinni, og þetta vandamál verður mun meira áberandi þegar verið er að þýða milli ólíkra tungumála eins og kínverska og enska.

Sökum þessa hefur frasabyggð þýðing hentar aðallega við þýðingar á stökum orðum fyrir notendur til þess að öðlast skilning á framandi texta. Takmarkanir þessa aðferðafræði er augsjáanleg þegar að langur texti er þýddur.

Atlaga hefur verið gerð að því að beita öðrum aðferðum í þýðingu texta. Ein sú kallast tauganet. Hún er hlutmengi af vélanámi þar sem net er notað til þess að líkja eftir samtengdri hegðun tauganets í heila.

Í september 2016 gaf Google út rannsóknina Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Þessi rannsókn var gerð í samstarfi við þrjátíu og einn rannsakana þar sem útfærsla af tauganetsþýðanda, Google Neural Machine Translation, héðan frá vísað í sem GNMT, var kynnt. Áður höfðu afköst tauganetsaðferðafræðinnar verið sambærileg við frasabyggða þýðingu þrátt fyrir að tauganet eru samkvæmt sínu eðli getu til þess að greina meiningu setningar. Í GNMT eru kynntar til leiks aðferðir til þess að yfirstíga fyrrum kvilla tauganetsþýðanda, eins og rétt þýðing á fágætum orðum. 

mnm1

Samanburður á þýðendum. Mynd tekin af vef Google [1]

Með GNMT er spáð 50-85% fækkun á þýðingarvillum miðað við frasabyggðri þýðingu. Þetta er gert mögulegt vegna þess að GNMT beinþýðir aldrei texta heldur greinir merkingu hans og finnur texta með sömu merkingu í öðrum tungum [2].

Í dag hefur GNMT verið tekið í notkun með Google Cloud Translation forritunarviðmótinu fyrri nokkur tungumál. Það mun enn krefjast mikillar vinnu að þjálfa tauganet í þýðingu á öllum mögulegum pörum mála. En það að markaðsafurð sé aðgengileg minna en ári frá útgáfu rannsóknarinnar er aðdáunarvert og hefur eitthvað að segja um hversu hratt vélanám vex.

Tölvugrafík

Vélaþýðing er langt komin á veg þökk sé vélanámi. Önnur svið leita einnig að því að nota vélanámsaðferðafræði, og mörg eru enn á barnsstigi. Tölvugrafík er dæmi um eitt slíkt. Á SIGGRAPH ráðstefnunni í Vancouver þessa árs sýndi NVidia afurðir rannsókna sem að þeir höfðu verið að framkvæma á nýta vélanám við þrívíddargrafík. Þar kynntu þeir aðferðir til þess að hreyfa andlit í mynd á auðveldari máta, líkja eftir því hvernig ljós snertir yfirborð og jafnvel leið til þess að teikna raunverulegar myndir á hraðari hátt en núverandi reiknirit leyfa.
Allt þetta er gert með vélanámsaðferðum þ.s. nálgun er fundin að lausn með því að láta gervigreind giska að réttu svari. Einn af einföldustu hlutunum til að sjá fyrir sér frá þessu er í línumýking (e. Anti-Aliasing).

mnm2

Vélanáms línumýking. Mynd tekin af vef NVidia [3]

Venjulega koma óbeinar línur fram sem oddótt nálgun á kúptri línu í tölvugrafík. Þessar línur eru seinna gerðar mýkri, en útreikningarnir sem þurfa að vera gerðir eru kostnaðarsamir sökum þess að það þarf að framkvæma þá á hverja einustu línu á skjánum. NVidia þjálfar gervigreind á myndum þar sem beitt hefur verið hefðbundinni línumýkingu. Með því er komist hjá því að þurfa að framkvæma mikið magn þessa útreikninga. Gervigreindin, með góðan bakhjarl af þekkingu af mýktum myndum, lítur á ómýkta mynd og giskar á hvernig hún ætti að líta út eftir línumýkingu [3].

Við höfum enn enga vöru sem nýtir þessa tækni á markaði en það verður spennandi að sjá hvaða áhrif vélanám getur haft á tölvugrafík á næstu árum.

Lokaorð

Vélaþýðing og tölvugrafík eru komin mislangt á veg í að nýta vélanám. Önnur tæknisvið sem nefna má þar sem vélanáms er nýtt eru heilsusvið, sjálfkeyrandi bílar, radd- og andlitskenning, markaðsgreining og verðbréfamat ásamt mörgum öðrum. Það er fjarri fráleitt að spá því að vélanám mun finna stað á flestum tæknisviðum og mun halda áfram að vaxa og bæta afköst upplýsingasamfélagsins.

Höfundur Alexander Björnsson nemandi við Háskólann í Reykjavík

Heimildir
[1] Quoc V. Le and Mike Schuster. A neural network for machine translation, at production scale, https://research.googleblog.com/2016/09/a-neural-networkfor- machine.html.

[2] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. Google’s neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144, 2016.

[3] Aaron Lefohn. A whole new game: Nvidia research brings ai to computer graphics, https://blogs.nvidia.com/blog/2017/07/31/nvidia-research-brings-ai-tocomputer- graphics/.