VILNIAUS UNIVERSITETO KAUNO HUMANITARINIS FAKULTETAS
Informatikos katedra
Informacijos pateikimo Internete technologijų
referatas
Tema:
„Informacijos paieškos sistemos – robotai“
Priėmė: dr.
Atliko:
Kaunas
2006
Turinys
Turinys 2
Įvadas 3
Kilmė 4
Esminė technologinė schema 5
Taikymo teorijoje ir praktikoje principai 8
Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijos 9
Privalumai ir trūkumai 10
Vystymosi perspektyvos 11
Išvados 12
Literatūros sąrašas 13
Įvadas
Sparčiai besivystančių informacinių technologijų amžiuje, Internetas, informacijos paieška jame užima labai svarbią viatą žmogaus gyvenime. Internetas jau tapo daugelio iš mūsų pagalbininku ieškant informacijos. Nuo to, kaip mokėsime juo naudotis, priklausys pasaulinių kompiuterinių tinklų efektyvumas darbe. Įvaldę naršyklių komandas bei išmokę ieškoti informacijos paieškos sistemose bei interneto adresų kataloguose manome, kad išnaudojame visus Interneto privalumus. Tačiau neretai sugaišteme ne vieną valandą ieškodami, kad galėtume atsakyti į dominančius klausimus. Ar kiekvieną kartą galime pasidžiaugti, kad iš virtualios kelionės grįžtame su „laimikiu“?
Informacijos paieškos sistemų yra labai daug, todėl norint naudotis visaverte informacija, kuri yra pateikta Internete, turime išmanyti jų veikimo principus bei, technologijas bei tendencijas.
Paieškos sistema – tai svetainės, kurios indeksuoja informaciją, esančią pasauliniame tinkle – Internete. Taip jos kuria savotišką domenų saugyklą, kurioje yra atliekama paieška pagal vartotojo suformuluotas užklausas. Paieškos sistemos dažnai kuria ir Interneto adresų katalogus. Taigi, paieškos sistemų uždavinys yra naršyti po Internetą ir ieškoti jame vartotojui reikiamos informacijos.
Paieškos sistemų struktūrą galima suskirstyti į tris pagrindines dalis: programos “voriukai”, informacijos archyvas ir paieškos įrankio programinė įranga. “Voriukai” (arba robotai) skirti informacijai rinkti ir indeksuoti, jie naudodamiesi nuorodomis, esančiomis svetainėse keliauja iš vienos į kitą ir taip indeksuoja informaciją. Informacijos archyvas – tai katalogas, daugelyje šaltinių vadinamas duomenų banku, kuriame yra visa programų “robotų” suindeksuota informacija. Trečioji dalis – paieškos programinė įranga, tai programa, kuri tarp suindeksuotos informacijos ieško tinkamos vartotojui, tai yra tokios, kuri atitiktų pagal suformuluotus raktinius žodžius
Šio referato tikslas – išsiaiškinti informacijos paieškos sistemos robotų termino reikšmę, jų veikimo principus, savybes, bei kitas esmines prielaidas, privalumus bei trūkumus. Referatas sudarytas iš 8 skyrių: Įvadas, Kilmė, Esminė technologinė schema, Taikymo teorijoje ir praktikoje principai, Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijus, Privalumai ir trūkumai, Vystymosi tendencijos ir Išvados.
Kilmė
Internetas šiuo metu jau tapo daugelio iš mūsų pagalbininku ieškant informacijos, ne tik tekstinės, bet ir vaizdo bei garso, taip pat teikia elektroninio pašto paslaugas, suteikia galimybę apsipirkti neišeinant iš namų – elektroninėse parduotuvėse, ieškoti verslo informacijos geltonuosiuose puslapiuose, dalyvauti pokalbiuose naujienų grupėse arba konferencijose ir pan. Tam, kad rastume reikiamą informaciją Internete reikia sugaišti daug laiko. Šį laiką galime sutrumpinti, kai mokame tinkamai naudotis paieška, korektiškai suformuluoti užklausas. Dar tam, kad sugaištume kaip galima mažiau laiko – reikalingi paieškos pagalbininkai. Paieškos sistemos gali būti tarptautinės ir nacionalinės. Nacionalinės paieškos yra orientuotos į informacijos paiešką konkrečioje šalyje, o tarptautinės paieškos sistemos suteikia galimybę naudotis informacija, esančia bet kuriame pasaulinio tinklo regione.
Paieškos sistemos kaip minėjau, tai daro netiesiogiai – pirmiausiai informacija yra suindeksuojama, dažniausiai naudojantis specialiomis programomis “voriukais” (angl. “spider”), o po to jau sudarytame informacijos banke yra atliekama paieška.
Patys pirmieji „vorai“:
RBSE (Eichmann, 1994m.) – pats pirmas išpublikuotas „robotas“. Jis paremtas dviem programom: pirma programa „voras“, kuris sudarinėja indeksų duomenų bazę ir antroji programa – „erkė“ – modifikuotas WWW ASCII naršyklė, kuris parsiunčia puslapius iš Interneto.
WebCrawler (Pinkerton, 1994m.) – buvo naudojamas sukurti pirmą viešai naudojamą pilnatekstį indeksą Interneto poaibio. Jis paremtas WWW biblioteka parsiųstų puslapių ir kita programa gramatiškai nagrinėja URL. Jis taip pat savo sudėtyje turi realaus laiko „vorą“ kuris seka nuorodomis paremtomis panašumu pagrindine programa.
WebSPIHIN (Miller and Bharat, 1998) yra sudarytas iš Java klasių bibliotekų, kurios papildytos HTML nagrinėjimu, vartotojo interfeisu, duomenų parsiuntimu ir paieškos varikliais.
Google (Brin ir Page, 1998) parašytas Perl kalba. Naudojamas centrinis „tvarkaraštis“ ir serijos iš paskirstytų kolektorių. Kolektoriai nagrinėja parsiunčiamus Web puslapius ir atranda URL, kurie sujungiami kolektorių.
Esminė technologinė schema
Paieškos sistema (dar vadinama „voru“, „robotu“
arba „agentu“) – tai programinė įranga, kuri naršo ir klasifikuoja tinklapius. Ji pateikia suklasifikuotus interneto puslapių sąrašus. Jų sudarymas priklauso nuo vartotojo pateiktų paieškos žodžių bei voro technologinių savybių, specifikos. Naršyklės lange matomi tik „voro“ darbo rezultatai, kuriais pasinaudoję mes galime rasrti reikiamą informaciją.
Informacijos paieškos sistemos robotai atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje. Iš žemiau pateiktos Interneto paieškos sistemos architektūros galime matyti, kad šie sistemos elementai surenka informaciją iš Interneto šaltinių, ją skirsto, indeksuoja ir suformuoja indeksų banką, kuris ir tampa informacijos baze į kurią paieškos sistemos kreipiasi su suformuluotomis užklausomis. Šių „robotų“ darbo rezultatai matomi naršyklėje yra visos paieškos galutinis rezultatas.
Šioje schemoje robotai vaizduojami – Crawler (robot, spider, knowbot) ) = liet. “robotai”, “vorai”, “agentai” – autonominės programos, kurios analizuoja indeksuoja nurodytus interneto puslapius, taigi atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje.