Turinys
Įvadas 3
Duomenų saugyklų paradigma ir problemos 4
Duomenų saugyklos kūrimas 7
Rekomenduojami duomenų saugyklos kūrimo etapai 8
SAS duomenų sandėlio kūrimo principai 9
Esminiai SAS® sistemos duomenų sandėliavimo skirtumai 10
Išvados 12
Literatūra 13
Įvadas
Didžioji dalis pasaulio informacijos sukaupta kompiuterių diskuose, garso ir vaizdo juostose, telefonų autoatsakikliuose, kreditinėse ir kitose magnetinėse kortelėse. Šiose priemonėse žodžius, skaičius, vaizdus ir garsus saugo skirtingomis kryptimis įmagnetinti magnetiniai domenai (feromagnetikų vienalyčio įmagnetėjimo sritys).
Pastaruosius dešimtmečius dirbtinė atmintis turėjo didžiulę įtaką visuomenei: kompiuterių atmintis ramiai sekė žmonių, pinigų ir prekių judėjimo srautus. Informacijos amžiuje ji yra elektroninių žinių sandėlis, kuriame laikomi mokslo, kultūros, medicinos, pramonės ir finansų duomenys. Ši informacija pranašesnė už kitas technologijas, nes lengvai užrašoma, perskaitoma ir ištrinama.
Remiantis duomenų sandėliavimo „tėvu“ ponu Bilu Inmonu (Bill Inmon), duomenų sandėlis nėra duomenų bazės sinonimas. Duomenų sandėliavimas nėra tik duomenų saugojimas, tai yra procesas, susidedantis iš daugiau dalių.
Duomenų sandėlio koncepcija yra informacijos valdymo pagal verslo analitikų poreikius būdas. Duomenų sandėlis duoda sprendimų priėmėjams žinias geresniems sprendimams priimti. Galima fiziškai atskirti organizacijos verslo informacijos sistemą nuo jos operacinių sistemų. Verslo informacijos sistema yra suminės ir detalios informacijos, kuri gaunama iš duomenų, esančių operacinėse sistemose, saugykla, pagal pareikalavimą papildyta informacija iš išorinių šaltinių. Pastarieji duomenys paprastai yra plačiai išsibarstę įmonėje ir izoliuoti atskiruose departamentuose.
Duomenų bazėse saugomi duomenys būtų beverčiai, jeigu jų nebūtų galima peržiūrėti įvairiais, vartotojui reikalingais pjūviais. Tik tokiu būdu šie duomenys tampa vertinga informacija, kurią galima panaudoti verslo vystymui bei planavimui, klientų segmentavimui ir rizikos valdymui, kaštų, veiklos procesų bei resursų optimizavimui.
Yra kuriama programinė įranga vartotojui leidžia nagrinėti turimus duomenis, naudojant įvairius daugiamačius duomenų bazės pjūvius, kurti naujus išvestinius rodiklius, juos palyginti, grupuoti pagal dominančius kriterijus, analizuoti skirtingais agregavimo lygiais. Gauta analitinė informacija gali būti atvaizduojama tiek tekstiniame, tiek grafiniame pavidale bei išsaugoma skirtinguose duomenų saugojimo formatuose.
Specialistų teorinis ir praktinis šių žinių taikymas leidžia sėkmingai integruoti duomenis, egzistuojančius skirtingose įmonės informacinėse sistemose ir/arba išoriniuose šaltiniuose, patalpinti į duomenų saugyklą išvalytą informaciją, ją konsoliduoti bei apibendrinti.
Duomenų saugyklų paradigma ir problemos
Šiuolaikinės saugyklų technologijos leidžia saugoti iki milijonų milijardų baitų (petabaitų) duomenų. Ar iš tiesų to reikia? Pavyzdžiui, mobiliųjų telefonų firma „Omnitel“ daugiau kaip metus saugo informaciją apie savo klientų, kurių yra apie 0,5 mln., judėjimą erdvėje (geografine prasme) ir jų pokalbių laiką. Įmonės, konkuruojančios tam tikroje srityje, saugo įvairius veiklos duomenis, juos perka. Saugoti didelį duomenų kiekį yra natūralus išgyvenimo rinkoje motyvas (stebėti savo klientų ir rinkos evoliuciją, nustatyti piktnaudžiavimus ir pan.). Taigi labai dideliam duomenų kiekiui saugoti ir informacijai iš jo išgauti reikalinga tam tikra aplinka arba, kitaip tariant, DS. Pagrindinis DS atsiradimo motyvas yra suvokimas, kad saugomi duomenys gali būti informacijos šaltinis.
Istoriškai DS atsirado anksčiau už DG (W. H. Immonas yra laikomas jos „tėvu“ (Immon, 1996)). Antra vertus, DS yra informacinė sistema, skirta sprendimų paramai (įmonės valdymui, veiklos rezultatų analizei, klientų analizei ir pan.) (Mattison, 1996). DS vaidina įmonės „referento“ vaidmenį, nes ji homogeniniu būdu sujungia duomenis, saugomus skirtingose DB ir turinčius skirtingus formatus. DS leidžia surinkti, saugoti, integruoti, suskaidyti ir analizuoti duomenis įmonės poreikius atitinkančiais pjūviais. Greita kreiptis į duomenis ir visapusiška jų analizė padeda įmonėms geriau prisitaikyti prie rinkos pokyčių.
DS suteikia galimybę daug paprasčiau rasti reikiamą informaciją duomenų struktūroje, skirtoje žinioms išgauti, pagerina sprendimų paramą, sumažina informacijos gavimo sąnaudas, leidžia tiksliau identifikuoti įmonės tikslus ir pan. DS paskirtis iš esmės ir yra šių galimybių įgyvendinimas per strateginius įmonės tikslus.
Kadangi DS nėra nei produktas, nei programinė įranga, o tik aplinka, kuri kuriama, o ne perkama, tai DS konstravimas yra gana ilgas procesas (Kimball, 1997). DS projektas skiriasi nuo klasikinio, nes jis reikalauja per tam tikrą laiką atlikti darbo imlias procedūras: paimti neapdorotus duomenis iš produkcijos sistemų, paruošti naujas duomenų visumas bei jų apdorojimo procedūras ir kt.
DS konstravimą galima išskaidyti į tris tarpusavyje nepriklausomas stadijas (Mattison, 1996):
1) ikiprojektinį tyrimą, kurio metu apibrėžiami DS projekto tikslai, nustatoma konstravimo eiga, skaičiuojamas DS atsiperkamumas; šioje stadijoje
atliekamas poreikių tyrimas, apskaičiuojama techninės ir programinės įrangos kaina ir kt.;
2) duomenų modelio, aprašančio DS konceptualiu ir loginiu lygiu, tyrimą;
3) DS užpildymo tyrimą, kuriam reikia nuodugniau analizuoti duomenis, pasirinkti užpildymo metodą ir nustatyti tikslias datas, kada duomenys pateks į DS.