Duomenu gavyba
5 (100%) 1 vote

Duomenu gavyba

Įvadas

Tobulėjant šiuolaikinėms technologijoms, didėjant duomenų kiekiui darosi vis sudėtingiau juos išanalizuoti ir daryti greitus, efektyvius ir teisingus sprendimus. Duomenų bazės jau peržengė terabaitines ribas ir žmogus jau tampa nepajėgus išanalizuoti visą duomenų gausą. Tokiame milžiniškame kiekyje informacijos gali slėptis ir strategiškai svarbi ir niekinė informacija. Tokios problemos paskatino atsirasti aukštos kokybės taikomiesiems paketams, programavimo įrankiams, duomenų analizės priemonėms, kurios padeda nepasimesti informacijos gausoje. Savo ruožtu tai kartu padidino ir vartotojų prieinamumą prie pažangiausių technologijų, atvėrė elektroninės komercijos, on-line analizės ir kitas galimybes.

Viena iš tokių technologijų yra data-mining (duomenų gavyba arba duomenų kasyba). Tai procesas, naudojantis įvairius duomenų analizės įrankius, kurie padeda atrasti tokias duomenų struktūras ir ryšius, kurie būtų panaudojami realioms išvadoms ir sistemos rezultatams apibrėžti. Ši technologija sėkmingai taikoma tiek versle, medicinoje ir kitose gyvenimo srityse, kur reikia apdoroti labai didelius nformacijos kiekius.

1. Duomenų gavybos sistema

Duomenų gavybos tikslas – iš didelių duomenų bazių, tam tikros naujos informacijos išgavimas. Šios srities mokslininkai ir tyrinėtojai pateikia keletą apibrėžimų, kuriuos kiekvienas suvokia taip pat, tačiau apibrėžia skirtingai:

• “Duomenų gavyba – įdomių struktūrų (modelių, ryšių, statistinių modelių, šablonų) radimas duomenų bazėse” (U.Fayyad, S.Chaudhuri and P.Bradley);

• “Duomenų gavyba – statistikos pritaikymas tiriamųjų duomenų analizės ir prognozuojamų modelių forma, siekiant atrasti modelius ir kryptingumus (angl. trends) dideliuose duomenų rinkiniuose” (“Insightful miner 3.0 User Guide);

• “Duomenų gavyba – didelių duomenų kiekių tyrinėjimas ir analizė automatizuotu arba pusiau automatizuotu būdu, siekiant rasti naudingus modelius (angl. patterns) ir taisykles” (M.J.A.Berry and G.S.Linoff).“Duomenų kasyba”(angl. data mining) tai žinios, kurias galima apibendrinti iš jau turimų duomenų ir jas atitinkamai apdoroti. Data mining kaip technologija, jos veikimo principas ir panaudojimo sritys, glaudžiai siejasi su duomenų analizės, apdorojimo, statistikos ir kitomis informacinėmis technologijomis.

Duomenų gavyba, panašiai kaip statistika, nėra tik modeliavimas ir prognozė, tačiau ištisas problemų sprendimo procesas. Supratimas, ko verslui reikia iš tikrųjų yra svarbiausias sėkmingam duomenų išgavimui, nes net patys naujausi sudėtingiausi algoritmai negali to tiksliai ir tinkamai įvertinti. Tačiau reikia pabrėžti, kad duomenų kokybė taip pat yra labai svarbus aspektas duomenų gavyboje, nes tik iš kokybiškų duomenų galima išgauti kokybiškus duomenis ir kokybiškai atlikti patį duomenų išgavimą. Tikrovėje įvykdyti šią sąlygą yra gana sunku, kadangi realūs duomenys beveik nebūna paruošti duomenų gavybai, nes jie turi būti integruojami iš skirtingų duomenų šaltinių, turi klaidų arba neteisingų, trūkstamų reikšmių.

Tai, kad reikalingų duomenų modelių ar taisyklių radimui galima panaudoti kompiuterį – pagrindinė duomenų gavybos idėja. Duomenų išgavimo technika ir algoritmai priklauso ne tik nuo pačių duomenų, bet ir nuo jų kilmės, užduoties struktūros, ir pan. Vienas iš didžiausių duomenų išgavimo privalumų yra tas, kad programinė įranga gali rasti tokius modelius, kurie nėra lengvai pastebimi ir akivaizdūs, tačiau labai naudingi tiriamoje srityje ar versle.

Turėdami tam tikrą duomenų rinkinį, galime pradėti analizės procesą.Tada jam nustatoma metodologija duomenų, struktūros atvaizdavimui. Kai randamos tam tikros žinios ar taisyklės, programinei įrangai pateikiami didesni duomenų rinkiniai, kurie turi panašią duomenų struktūrą. Būtent todėl, ši sritis primena statistikos mokslą, kur pagrindinis uždavinys kaip ir duomenų išgavime yra informacijos bei žinių išgavimas iš turimų duomenų. Taigi galima teigti, kad statistika yra neautomatizuota duomenų gavyba.

Šį procesą galima iliustruoti paprastu pavyzdžiu: įsivaizduokime, kad gaunami ir saugomi tam tikri duomenys (pardavimų, demografiniai, vartotojų, geografiniai duomenys ir pan.), kurie informacija tampa tik tada, kai pasidaro svarbūs problemos sprendimui. Duomenų vienetai apjungiami informacija (Tomas gyvena Kaune; Karolinai yra 50 metų,Tomas ir Karolina persikėlė gyventi kitur, Linas saugo pinigus Snoro banke ir pan.) ir tampa žiniomis, kai sprendimo procesas sėkmingai užbaigiamas. Vadinasi, žinios apjungia tam tikrus informacijos vienetus ( 1t anglių naudojama Panevėžio regione, klases D vartotojai naudoja 3% produkto Z laikotarpyje N ir pan.). Taigi tai gali apibūdinti “verslo intelekto “ grandinės fragmentas (1 pav.). Tai gali daryti įtaką priimamiems sprendimams, pavyzdžiui, labiau reklamuoti produktą A regione G, paslaugas U teikti vartotojams E ir pan.). Taigi pagrindinę problemą galim įžvelgti žinių gavime iš duomenų, ką ir realizuoja duomenų gavybos ir statistikos mokslai.

pav.1 Verslo intelekto grandinė

Pagrindiniai šeši duomenų gavybos veiklos procesai:

1. Klasifikacija (prie vienos iš
specifikuotų grupių ar klasių priskiriamas naujas objektas pagal tam tikrą savybę);

2. Įvertinimas (pateikus tam tikrą kiekį įvedamų duomenų, grąžinama kokia nors nežinoma reikšmė, pvz. pajamos, pelnas ir pan.)

3. Prognozė (tai tas pats procesas kaip klasifikacija ir įvertinimas, tačiau čia įrašai klasifikuojami pagal kažkokį prognozuojamą elgesį ar apytikrę vertę ateityje);

4. Grupavimas pagal bendrus bruožus ar ryšių taisykles (priklausomybių modeliavimas, t.y. nusprendžiama, kurie subjektai dera kartu, pvz. prekių krepšelio analizė);

5. Klasterizavimas (populiacijos segmentavimas į tam tikrą kiekį pogrupių ar klasterių)

6. Apibūdinimas ir vizualizacija (vizuali, arba tiriamoji duomenų gavyba).

Pažvelgus iš metodinės pusės, tai duomenų gavyba apima:

• Neuroninius tinklus

• Taisyklių indukciją (angl. rule induction)

• K-means klasterizavimą (k-means clustering)

• Sprendimų medžius (decision trees)

• Artimiausio “kaimyno” klasifikavimas (the nearest neighbour classification)



2. Duomenų gavybos programinė įranga

Duomenų gavybos metodu dirbančios programinės priemonės yra vadinamos duomenų gavybos produktais. Programinė įranga taikyti buvo pradėta nuo 1995m, o šiomis dienomis jau galimas tikrai platus programinės įrangos paketų, kurie yra lengvai pritaikomi įvairių sričių duomenų gavybos analizėms, pasirinkimas. Ši programinė įranga vartotojui suteikia galimybes naudotis daugybe įvairiausių skaičiavimo metodų ir algoritmų bei aprūpina reikalinga informacija.

Šiuo metu Jūs matote 31% šio straipsnio.
Matomi 949 žodžiai iš 3047 žodžių.
Peržiūrėkite iki 100 straipsnių per 24 val. Pasirinkite apmokėjimo būdą:
El. bankininkyste - 1,45 Eur.
Įveskite savo el. paštą (juo išsiųsime atrakinimo kodą) ir spauskite Tęsti.
SMS žinute - 2,90 Eur.
Siųskite sms numeriu 1337 su tekstu INFO MEDIA ir įveskite gautą atrakinimo kodą.
Turite atrakinimo kodą?
Po mokėjimo iškart gausite atrakinimo kodą, kurį įveskite į laukelį žemiau:
Kodas suteikia galimybę atrakinti iki 100 straispnių svetainėje ir galioja 24 val.