Skip to main content
16. ágúst 2012

Afritun gagna

Otto

Ég hef í störfum mínum í UT geiranum alltaf verið viðriðinn afritunarmál og á þeirri leið hef ég orðið ýmiss áskynja sem mig langar að koma niður á blað og vona að einhver hafi gagn af og kannski gaman. Þessari grein er fyrst fremst ætlað að fjalla um yfirborðið en ekki um einstök afritunarkerfi eða lausnir.

Gagnasöfnun hefur aukist verulega í gegnum tíðina. Það safnast gögnin á diskastæðum hjá okkur og það sem gerist yfirleitt er að afritunargeta nær ekki að fylgja með. Afritun gagna er nauðsynlegt en raunin er að hún er verulega flókið fyrirbæri tímafrekur iðnaður hjá flestum.

Hvernig afritum við og með hvaða miðlum?

Flest þekkjum við segulbanda afritun, það er aðferð sem mun að mínu mati verða til lengi enn þó hefur það færst í aukana að afrita á diska og oft ætlunin að færa það seinna yfir á segulbönd til lengri geymslu.

Afritun á disk er mjög góð leið og virkar oftast hratt og örugglega. Disk afritun er einnig til með „Virtual Tape Library“ þar sem disksvæðinu er skipt niður í umhverfi sem lítur út eins og bandstöðvar og segulbönd. Þetta er mjög þægilegt sérstaklega þar sem að afritað er til lengri tíma á segulbönd. Komnar eru svokallaðar „Deduplication“ lausnir sem draga verulega úr gagnamagni sem safnast upp.

Hvað er Deduplication?

„Deduplication“ er lausn þar sem gögnin eru tekin og skoðað hvort þau sambærileg gögn séu til afrituð og göngin síðan merkt með tilvísun þegar þau eru afritið. Þannig er nýja afritið  að minna sig á að hvað var til áður og hvað er óþarft að geyma tvisvar í sama afritunarkerfinu. Mælieiningin hlutfall og þykir hlutfallið 20:1 nokkuð gott og er það talið nálægt meðaltali en einnig er algengt að sjá hlutfall nálægt 30:1. Þetta fer að sjálfsögðu eftir tegund gagna.

Dæmi um gögn sem hafa gott „Deduplication“ hlutfall:

Vmware, stórir gagnagrunnar, PowerPoint kynningar, Word skjöl, Excel skjöl, SQL, Oracle, Exchange gagnagrunnar, grunn kóði.

Dæmi um gögn sem ekki hafa gott Deduplication hlutfall

„In line“ þjöppuð gögn, SQL með Lite Speed (In line), Oracle með fjölrásum (In line multiplex) og In Line Brenglun (Encrypt), þjappaðar hljóðskrár, þjappaðar myndskrár, þjappað JPG.

Það eru til nokkrar útgáfur af „Deduplication“.

Fyrst er að nefna „file level deduplication“, einnig kallað SIS (Single Instance Storage). Þar er skráin borin saman við það sem til er á afritunarmiðlinum. Ef skráin er ekki til er hún geymd og tilvísun uppfærð (Index). Ef skrá er til er hún ekki geymd en tilvísun uppfærð fyrir skrána (Index).
Algengast er „Block Level“ en það vinnur neðar en „file level“ og brýtur skrárnar upp í Blokkir. Þá fær hver skrá fingrafar sem er notað til að þekkja skrána. Block level er bæði notað í „Fixed block size“ eða „Variable block size“, fer eftir framleiðendum afritunarbúnaðar/afritunarlausna.
Eins og nafnið bendir til er skránum skipt niður í hluta, Klumpa eða Blokkir, sem eru bornir saman við áður geymd gögn á miðlinum. Það sem er þegar til er ekki geymt en gerð tilvísun (index). Það sem ekki er til er  geymt ásamt tilvísunar.

Annað sem við sjáum og heyrum talað um í „Deduplication“ fræðum er: „Source Deduplication“, „inline deduplication“ og „Post processing deduplication“

  • „Source dedup“: Gögnin eru skoðuð á miðlaranum sem er verið að afrita og hann sendir enungis gögn yfir netið sem ekki eru til á afritunarmiðli. Þetta þýðir minni umferð á netinu en meira álag á upprunamiðlara.
  • „Inline dedup“ : Gögnin fara yfiur netið til afritunarbúnaðar og eru felld í vinnsluminni ef þau eru til. Meiri umferð á netinu en lítið álag á upprnamiðlara.
  • „Post Processing“. Gögnin eru skrifuð á afritunarbúnaðinn og síðan eru þau „Deduplicated“ á afritunarstæðunni.

Ef taka þarf gögn af Dedup miðlum yfir á segulbönd verður að gera ráð fyrir að gögnin séu blásin út aftur, þ.e. það verður full stærð á þeim á segulbandi þar sem að „Deduplication“ á segulbönd er ekki fáanleg.

Seljendur „Deduplication“ lausna bjóða einnig upp á „Replication“ yfir í annað tölvurými. Það þýðir að það er spegill með afrituðum gögnum á annarri stöð. Þarna er „Dedup“ tæknin notuð, þ.e. gögn sem eru til á „Target“ eru ekki flutt yfir. Þessar lausnir bjóða oft upp á að hægt er að ræsa tölvukerfin á „Target“ stöð án vandkvæða.

Hvað er vert að skoða í afritun?:

Það er margt sem er mikilvægt að huga að þegar afritun er skipulögð og mikilvægt að taka alltaf tillit til afritunar við aukningu í geymslu til dæmis við kaup á nýjum diskum. Nefni hér nokkur dæmi

  • Hvaða gögn á að afrita og hve lengi skal geyma?
  • Hve of skal taka fullt afrit og hve lengi skal geyma þau gögn?
  • Hvar á að geyma gögnin (Diskar, Segulbönd)?
  • Hvernig er afritunarkerfið byggt upp með tilliti leyfa, þarf tildæmis að kaupa leyfi fyrir hvern miðlara sem afritaður er?

Þarf að kaupa leyfi til diskafritunar og svo framvegis?

Vert er að skoða svokallað „Capacity based licensing“ sem sumir framleiður bjóða. Það þýðir að greitt er fyrir gagnamagn frekar en einstakar lausnir. Þá er yfirleitt ótakmarkaður leyfafjöldi.  Þetta er þó eins misjafnt og framleiðendur eru margir. Best er að mínu mati að láta ábyrgðarmenn gagnanna taka virkan þátt í gerð afritunaráætlunar og gera þeim grein fyrir hvaða kostnaður er fólginn í geymslu þeirra.

Skjölun(archiving)

Staðreyndin er að 80% gagna sem eru afrituð eru stöðug og hafa ekki verið hreyfð í nokkur ár. Það er engin ástæða til að afrita þessi gögn mánaðarlega.  Það hefur færst í vöxt að nota „Archiving“ skjölun, það er að segja að færa „ónotuð“ gögn á ódýrari miðla og afrita þau einu sinni sem öryggisafrit. Gögnin eru áfram aðgengileg, en með t.d eingöngu eitt segulbands afrit. Það eru til ýmis tól til að skoða gera þetta og skipuleggja. Hraðvirkar diskastæður eru þá notaðar til að taka við nýjum gögnum og vinna með en ekki til að geyma stöðnuð gögn.

Lokaorð

Kannast ekki flestir við að vera að glíma við rauðar línur í afritum og finna ekki lausn? Afrit sem bregðast oft?

Ég hvet alla til að kynna sér hvað er í boði og minni á að það er ekkert skrifað í stein og þess virði að skoða núverandi lausnir og ná sem bestri nýtingu út úr kerfinu og mæli með að farið sé vel yfir kerfin og jafnvel að kalla til sérfræðinga sem geta aðstoðað við að stilla kerfin.
Vona að lesendur hafi eitthvað gagn af þessari grein minni sem bara rétt snertir yfirborðið.  Ef andinn kemur yfir mig þá skrifa ég kannski meir um einstök atriði. Vona að þetta geti orðið byrjun smágreinum.
 
Ottó Vestmann Gudjonsson
Starfar sem ráðgjafi í afritunarmálum í Oslo EMCTA B/R certified

Skoðað: 4251 sinnum

Leita í vefútgáfu Tölvumála

Útgefin Tölvumál á prentformi

Um Tölvumál

Tölvumál - tímarit Skýrslutæknifélags Íslands er óháð tímarit um tölvutækni og hefur verið gefið út frá árinu 1976.

Vefútgáfa Tölvumála birtir vikulega nýja grein á vef Ský og árlega er gefið út veglegt prentað tímarit undir nafninu "Tölvumál" þar sem fjallað er um tölvutækni frá ýmsum sjónarhornum og er þema blaðsins jafnan valið snemma árs og útgáfa að hausti.

Ritnefnd Ský sér um að afla efni í Tölvumál og geta allir sem áhuga hafa sent inn efni.

Um ritnefnd Tölvumála