Skip to main content
14. maí 2026

HTAP - Rauntímagreining án málamiðlana: Lausnin við flækjustigi nútíma gagnahögunar

Tómas Helgi Jóhannsson

Tómas Helgi JóhannssonÍ nútíma upplýsingatækni einkennist þróun gagnagrunna af tveimur meginþáttum: veldisvexti gagnamagns og auknu flækjustigi fyrirspurna. Til að mæta kröfum um rauntímavinnslu og djúpa gagnagreiningu samtímis er nauðsynlegt að huga að nýstárlegri gagnagrunnshögun.

Ég fjallaði fyrst um möguleika þessarar tækni á fyrsta hádegisfyrirlestri hjá faghópi Ský um hagnýtingu gagna fyrir um sex árum síðan. Þótt erfitt sé að segja nákvæmlega til um hversu útbreidd innleiðing HTAP-grunna er hér á landi í dag, þá er ljóst að þróun þeirra og arkitektúr hefur tekið stórstígum framförum á þessum tíma.

Val á viðeigandi gagnalíkönum og högun hefur úrslitaáhrif á afköst, skalanleika og rekstrarkostnað kerfa. Þessi grein byggir á þessari vegferð og fjallar um þróunina frá hefðbundnum venslagagnagrunnum yfir í samtímalausnir á borð við HTAP og klasahögun.

Frá venslagögnum til fjölbreyttra gagnalíkana
Hefðbundnir venslagagnagrunnar (e. relational databases), sem eiga rætur að rekja til áttunda áratugar síðustu aldar, hafa lengi verið hornsteinn gagnaumsýslu. Þeir tryggja áreiðanleika færslna með svokölluðum ACID-kröfum og geyma gögn í raðformi (e. row-level storage), sem hentar vel fyrir aðgerðir sem lúta að einstökum færslum.

Með auknum kröfum um sveigjanleika komu fram svokallaðir NoSQL-gagnagrunnar. Þeir nýta fjölbreytt geymsluform, svo sem lykil-gildi geymslur (e. key-value stores), skjalagrunna (e. document stores) og hnitaritsgrunna (e. graph databases). Helsti kostur þeirra er mikill skalanleiki í dreifðu klasaumhverfi, þar sem hægt er að bæta við vélbúnaði án þess að skerða afköst eða breyta skema gagna.

Misleitni vinnsluálags: OLTP og OLAP
Áskorun nútímans felst í því að þjónusta tvær ólíkar gerðir vinnsluálags innan sama vistkerfisins:

  1. Færsluvinnsla (OLTP - Online Transactional Processing): Einkennist af stuttum, hnitmiðuðum fyrirspurnum (t.d. innsetningu eða uppfærslu á stökum röðum) þar sem lágur biðtími er lykilatriði.
  2. Greiningarvinnsla (OLAP - Online Analytical Processing): Felur í sér flóknar tölfræðilegar fyrirspurnir sem vinna á gríðarlegu magni gagna til að bera kennsl á mynstur eða draga fram ályktanir.

Hefðbundin nálgun felur í sér aðskilnað þessara kerfa, þar sem gögn eru flutt reglulega á milli með flóknum og tímafrekum gagnaflutningsferlum (ETL). Slíkur aðskilnaður veldur töfum á gagnagreiningu og eykur flækjustig í rekstri.

HTAP: Brúin milli færslu og greiningar
Hybrid Transactional/Analytical Processing (HTAP) arkitektúrinn leysir þessa mótsögn með því að samþætta báða vinnslumáta í einum og sama gagnagrunninum. HTAP-kerfi nýta tvöfalt geymsluform:

  • Raðform (Row-oriented): Bestað fyrir hröð skrif og uppflettingar á stökum röðum (OLTP).
  • Dálkaform (Columnar): Hagkvæmast fyrir samantekt og greiningu á stórum gagnasöfnum (OLAP), þar sem einungis viðkomandi dálkar eru lesnir.

Heili kerfisins, bestunarbúnaðurinn (e. optimizer), gegnir hér lykilhlutverki. Hann greinir inntaksfyrirspurnir og ákveður á grundvelli kostnaðarmats hvort hagkvæmara sé að nýta rað- eða dálkaform til úrlausnar. Niðurstaðan er sú að greiningar sem áður tóku mínútur eða klukkustundir eru nú framkvæmanlegar á örfáum sekúndum, án þess að trufla rekstrarvinnslu kerfisins.

Innleiðing í praxís: Helstu tæknilausnir
Nokkrar ólíkar leiðir eru færar við innleiðingu á HTAP og skalanlegum gagnagrunnum, allt eftir þörfum fyrirtækja:

PostgreSQL með Citus-viðbótinni: Citus umbreytir PostgreSQL í dreift gagnagrunnskerfi (e. distributed database). Með því að beita deildaskiptingu og hlutun (e. partitioning/sharding) á töflur yfir marga hnúta getur Citus annað gríðarlegu OLTP álagi en jafnframt nýtt samhliðavinnslu klasans til að keyra flóknar OLAP fyrirspurnir. Þetta gerir PostgreSQL að öflugu HTAP tæki án þess að fórna kostum opins hugbúnaðar.

  • Oracle Database In-Memory: Oracle nýtir svokallaða „Dual-Format“ högun þar sem gögn eru geymd samtímis í hefðbundnu raðformi á diski og í dálkaformi í vinnsluminni (In-Memory Column Store). Þetta gerir fyrirtækjum kleift að keyra greiningarfyrirspurnir á rauntímagögnum með ótrúlegum hraða án þess að þurfa að breyta forritakóða eða fórna afköstum í færsluvinnslu.
  • IBM Db2 með BLU Acceleration: Db2 BLU er dæmi um hvernig hefðbundnum venslagagnagrunni er gefið ofurafl með dálkahögun í vinnsluminni ( in-memory columnar technology). Til viðbótar við hraðann í vinnsluminni geymir BLU gögnin á dálkaformi á diski, sem sparar verulegt diskapláss vegna mjög mikillar þjöppunargetu dálkaformsins. BLU nýtir jafnframt vélbúnaðarnýjungar eins og SIMD (Single Instruction, Multiple Data) til að vinna úr gögnum hraðar en hefðbundin kerfi.
  • MariaDB Galera Cluster og ColumnStore: Þessi samsetning býður upp á heildstæða HTAP aðlögun. Galera Cluster sér um samfellt aðgengi og samstillingu gagna yfir marga hnúta fyrir hefðbundna færsluvinnslu (OLTP). Með því að bæta ColumnStore vélina við getur kerfið geymt sömu gögn í dálkaformi, sem gerir notendum kleift að keyra þungar greiningarfyrirspurnir (OLAP) á rauntímagögnum án þess að hægja á færsluvinnslunni.
  • Snowflake: Þó Snowflake sé fyrst og fremst þekkt sem skýjalausn fyrir gagnavöruhús (OLAP), hefur hönnun þess á „Shared Data“ arkitektúr gjörbylt því hvernig fyrirtæki skala greiningarvinnslu sína. Snowflake aðskilur geymslu og vinnslu algerlega, sem gerir mörgum ólíkum vinnsluklösum kleift að vinna á sömu gögnunum samtímis án þess að bitna á afköstum hvers annars.

Klasahögun og sítiltækileiki
Þegar gagnavöxtur nær þeim mörkum að stakar vélar anna ekki álagi, tekur klasahögun (e. cluster architecture) við. Klasar samanstanda af mörgum samstarfandi hnútum sem tryggja:

  • Sítiltækileiki ( High Availability): Ef einn hnútur bilar taka aðrir við án rofs á þjónustu.
  • Álagsdreifingu ( Load Balancing): Fyrirspurnum er dreift skipulega á alla hnúta til að hámarka afköst.

Gögnum er dreift innan klasans með deildaskiptingu (e. partitioning), þar sem töflum er skipt upp þannig að kerfið geti framkvæmt fyrirspurnir í samhliðavinnslu (e. parallel processing). Slík uppbygging getur ýmist verið á formi „shared nothing“, þar sem hver hnútur hefur einkarétt á sínum gögnum, eða „shared disk“, þar sem allir hnútar deila sama geymslusvæði.

Nýsköpun: Gervigreind og vinnsluminnistækni
Samþætting gervigreindar (AI) og vélnáms (ML) í gagnagrunnsstjórnun markar upphaf nýs tímabils. Helstu framleiðendur á borð við IBM (Db2) og Oracle nýta nú AI-algrím til að fínstilla bestunarbúnaðinn, spá fyrir um nýtingu gagna og greina sjálfkrafa skilvirkustu leiðina að upplýsingum (e. access path optimization).

Samhliða þessu eykst vægi vinnsluminni-gagnagrunna (e. In-Memory databases), þar sem gögn eru vistuð að fullu í vinnsluminni. Með bættum aðferðum við gagnaendurheimt (e. disaster recovery) og hraðvirkari vélbúnað lágmarka þessi kerfi takmarkanir sem fylgja lestri af diskum.

Samantekt og framtíðarsýn
Framtíð gagnagrunnshögunar einkennist af kröfunni um jafnvægi milli gagnaöryggis, dreifingar og flókinnar greiningar í rauntíma. Helstu stefnur næstu ára eru:

  • Einföldun tæknistakkans: HTAP tækni útrýmir þörfinni á flóknum og kostnaðarsömum ETL og ELT gagnapípum ( data-pipelines) á milli ólíkra kerfa. Þetta einfaldar tæknistakkann (e. tech stack) fyrirtækja til muna og dregur úr rekstrarkostnaði.
  • Blendings tækni: Hybrid Cluster-lausnir sem sameina HTAP og sítiltækileika klasakerfa munu verða staðalbúnaður í flóknu gagnumhverfi.
  • Sjálfstillandi kerfi: Þar sem gervigreind stýrir afköstum og auðlindanýtingu á grundvelli gagna.
  • Rauntímagreining: HTAP gerir fyrirtækjum kleift að byggja ákvarðanir á nýjustu gögnum án tafa, sem er lykilforsenda samkeppnishæfni í stafrænum heimi.

Afköst nútíma gagnagrunna snúast þegar öllu er á botninn hvolft um að brúa bilið á milli gagnaöflunar og upplýsingaöflunar, óháð staðsetningu notenda eða umfangi gagna.

Höfundur: Tómas Helgi Jóhannsson

Heimildir:

Skoðað: 129 sinnum

Blaðið Tölvumál

Forsíða Tölvumála

Leita í vefútgáfu Tölvumála

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála