Informacijos paieskos sistemos-robotai labaratorinis
5 (100%) 1 vote

Informacijos paieskos sistemos-robotai labaratorinis

1121

VILNIAUS UNIVERSITETO KAUNO HUMANITARINIS FAKULTETAS

Informatikos katedra

Informacijos pateikimo Internete technologijų

referatas

Tema:

„Informacijos paieškos sistemos – robotai“

Priėmė: dr.

Atliko:

Kaunas

2006

Turinys

Turinys 2

Įvadas 3

Kilmė 4

Esminė technologinė schema 5

Taikymo teorijoje ir praktikoje principai 8

Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijos 9

Privalumai ir trūkumai 10

Vystymosi perspektyvos 11

Išvados 12

Literatūros sąrašas 13

Įvadas

Sparčiai besivystančių informacinių technologijų amžiuje, Internetas, informacijos paieška jame užima labai svarbią viatą žmogaus gyvenime. Internetas jau tapo daugelio iš mūsų pagalbininku ieškant informacijos. Nuo to, kaip mokėsime juo naudotis, priklausys pasaulinių kompiuterinių tinklų efektyvumas darbe. Įvaldę naršyklių komandas bei išmokę ieškoti informacijos paieškos sistemose bei interneto adresų kataloguose manome, kad išnaudojame visus Interneto privalumus. Tačiau neretai sugaišteme ne vieną valandą ieškodami, kad galėtume atsakyti į dominančius klausimus. Ar kiekvieną kartą galime pasidžiaugti, kad iš virtualios kelionės grįžtame su „laimikiu“?

Informacijos paieškos sistemų yra labai daug, todėl norint naudotis visaverte informacija, kuri yra pateikta Internete, turime išmanyti jų veikimo principus bei, technologijas bei tendencijas.

Paieškos sistema – tai svetainės, kurios indeksuoja informaciją, esančią pasauliniame tinkle – Internete. Taip jos kuria savotišką domenų saugyklą, kurioje yra atliekama paieška pagal vartotojo suformuluotas užklausas. Paieškos sistemos dažnai kuria ir Interneto adresų katalogus. Taigi, paieškos sistemų uždavinys yra naršyti po Internetą ir ieškoti jame vartotojui reikiamos informacijos.

Paieškos sistemų struktūrą galima suskirstyti į tris pagrindines dalis: programos “voriukai”, informacijos archyvas ir paieškos įrankio programinė įranga. “Voriukai” (arba robotai) skirti informacijai rinkti ir indeksuoti, jie naudodamiesi nuorodomis, esančiomis svetainėse keliauja iš vienos į kitą ir taip indeksuoja informaciją. Informacijos archyvas – tai katalogas, daugelyje šaltinių vadinamas duomenų banku, kuriame yra visa programų “robotų” suindeksuota informacija. Trečioji dalis – paieškos programinė įranga, tai programa, kuri tarp suindeksuotos informacijos ieško tinkamos vartotojui, tai yra tokios, kuri atitiktų pagal suformuluotus raktinius žodžius

Šio referato tikslas – išsiaiškinti informacijos paieškos sistemos robotų termino reikšmę, jų veikimo principus, savybes, bei kitas esmines prielaidas, privalumus bei trūkumus. Referatas sudarytas iš 8 skyrių: Įvadas, Kilmė, Esminė technologinė schema, Taikymo teorijoje ir praktikoje principai, Palyginimas su analogiškomis technologijomis pagal konkrečius kriterijus, Privalumai ir trūkumai, Vystymosi tendencijos ir Išvados.

Kilmė

Internetas šiuo metu jau tapo daugelio iš mūsų pagalbininku ieškant informacijos, ne tik tekstinės, bet ir vaizdo bei garso, taip pat teikia elektroninio pašto paslaugas, suteikia galimybę apsipirkti neišeinant iš namų – elektroninėse parduotuvėse, ieškoti verslo informacijos geltonuosiuose puslapiuose, dalyvauti pokalbiuose naujienų grupėse arba konferencijose ir pan. Tam, kad rastume reikiamą informaciją Internete reikia sugaišti daug laiko. Šį laiką galime sutrumpinti, kai mokame tinkamai naudotis paieška, korektiškai suformuluoti užklausas. Dar tam, kad sugaištume kaip galima mažiau laiko – reikalingi paieškos pagalbininkai. Paieškos sistemos gali būti tarptautinės ir nacionalinės. Nacionalinės paieškos yra orientuotos į informacijos paiešką konkrečioje šalyje, o tarptautinės paieškos sistemos suteikia galimybę naudotis informacija, esančia bet kuriame pasaulinio tinklo regione.

Paieškos sistemos kaip minėjau, tai daro netiesiogiai – pirmiausiai informacija yra suindeksuojama, dažniausiai naudojantis specialiomis programomis “voriukais” (angl. “spider”), o po to jau sudarytame informacijos banke yra atliekama paieška.

Patys pirmieji „vorai“:

RBSE (Eichmann, 1994m.) – pats pirmas išpublikuotas „robotas“. Jis paremtas dviem programom: pirma programa „voras“, kuris sudarinėja indeksų duomenų bazę ir antroji programa – „erkė“ – modifikuotas WWW ASCII naršyklė, kuris parsiunčia puslapius iš Interneto.

WebCrawler (Pinkerton, 1994m.) – buvo naudojamas sukurti pirmą viešai naudojamą pilnatekstį indeksą Interneto poaibio. Jis paremtas WWW biblioteka parsiųstų puslapių ir kita programa gramatiškai nagrinėja URL. Jis taip pat savo sudėtyje turi realaus laiko „vorą“ kuris seka nuorodomis paremtomis panašumu pagrindine programa.

WebSPIHIN (Miller and Bharat, 1998) yra sudarytas iš Java klasių bibliotekų, kurios papildytos HTML nagrinėjimu, vartotojo interfeisu, duomenų parsiuntimu ir paieškos varikliais.

Google (Brin ir Page, 1998) parašytas Perl kalba. Naudojamas centrinis „tvarkaraštis“ ir serijos iš paskirstytų kolektorių. Kolektoriai nagrinėja parsiunčiamus Web puslapius ir atranda URL, kurie sujungiami kolektorių.

Esminė technologinė schema

Paieškos sistema (dar vadinama „voru“, „robotu“
arba „agentu“) – tai programinė įranga, kuri naršo ir klasifikuoja tinklapius. Ji pateikia suklasifikuotus interneto puslapių sąrašus. Jų sudarymas priklauso nuo vartotojo pateiktų paieškos žodžių bei voro technologinių savybių, specifikos. Naršyklės lange matomi tik „voro“ darbo rezultatai, kuriais pasinaudoję mes galime rasrti reikiamą informaciją.

Informacijos paieškos sistemos robotai atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje. Iš žemiau pateiktos Interneto paieškos sistemos architektūros galime matyti, kad šie sistemos elementai surenka informaciją iš Interneto šaltinių, ją skirsto, indeksuoja ir suformuoja indeksų banką, kuris ir tampa informacijos baze į kurią paieškos sistemos kreipiasi su suformuluotomis užklausomis. Šių „robotų“ darbo rezultatai matomi naršyklėje yra visos paieškos galutinis rezultatas.

Šioje schemoje robotai vaizduojami – Crawler (robot, spider, knowbot) ) = liet. “robotai”, “vorai”, “agentai” – autonominės programos, kurios analizuoja indeksuoja nurodytus interneto puslapius, taigi atlieka vieną svarbiausių vaidmenų visoje paieškos sistemoje.

Programos robotų algoritmą galima nusakyti tam tikrais etapais. Šiuos keturis etapus atliekant vykdomas informacijos indeksavimo procesas.

Pagrindiniai programos voro etapai:

1. Robotas paiešką pradeda nuo tam tikros aibės pradinių URL.

2. Analizuoja šiuose puslapiuose rastas nuorodas ir rekursyviai randa naujas nuorodas.

3. Indeksuoja visus naujai rastus puslapius invertuotame faile

4. Gali būti galimybė vartotojams tiesiogiai nurodyti puslapius, kurie turėtų būti indeksuojami

Informacijos indeksavimo – paieškos algoritmas gali būti dviejų rūšių: paieškos į plotį (BFS) arba paieškos į gylį (DFS).

Standartinis algoritmas yra Paieška į plotį (BFS). Pradedant grafo šaknimi, analizuojami visi to pačio lygio kaimyniniai mazgai (grafo viršūnės), ir tik po to pereinama į žemesnįjį lygį.

Paieška į gylį (DFS) pradedama nuo šakninio mazgo ir pirmiausiai analizuojama viena šaka iki grafo medžio galutinių taškų – lapų.

Kiekvienu atveju puslapyje rastos nuorodos (nauji mazgai) saugomos eilėje (queue). Paieškos į plotį atveju naujai rasti mazgai įrašomi į eilės pabaigą – FIFO (First In First Out) metodas. Paieškos į gylį algoritmuose nauji URL rašomi eilės pradžioje – LIFO (Last In First Out) metodas.

Naudojantis pagrindiniais programos voro etapais galima sudaryti ir standartinį voro algoritmą.

Voro algoritmas (BFS, FIFO):

Inicializuojama eilė (Q) su pradine URL aibe.

Iki Q bus tuščia arba pasiektas laiko ar puslapių limitas, vykdyti:

Pradžia

Nuskaityti L=URL, iš eilės Q pradžios.

Jei L nėra HTML puslapis (.gif, .jpeg, .ps, .pdf, .ppt…)

grįžti į pradžią.

Jei L jau aplankytas, grįžti į pradžią.

Nuskaityti puslapį P, kurio adresas L.

Jei negalima nuskaityti puslapio (e.g. 404 error, robot excluded)

grįžti į pradžią.

Indeksuoti P (pvz. įtraukti į invertuotą failą arba saugoti kopiją).

Analizuoti P esančias naujas nuordas N.

Įrašyti N į eilės Q pabaigą.

Taigi, iš pradžių pažymimi vienas ar keli interneto adresai, kurie tampa pradiniais. Tuomet iki kol ši sudaryta adresų eilė nesibaigia pradedamas ciklas. Imamas iš eilės pirmas URL ir jei tai ne HTML puslapis, tai yra paveikslėlis, “pdf” dokumentas, skaidrės ar kitas informacijos pateikimo dokumentas, tuomet nebėra ką analizuoti ir grįžtama į ciklo pradžią ir imama kita nuoroda, o jei tai HTML puslapis, tuomet jis yra nuskaitomas, jei tai įmanoma padaryti, jei ne pateikiamas klaidos pranešimas ir grįžtama vėl į ciklo pradžią. Tai atliekama iki tol, kol randamas puslapis, kurį galima nuskaityti ir jis indeksuojamas, t.y. įtraukiamas indeksuotas failas arba saugoma jo kopija ir analizuojamos naujos nuorodos, rastos dokumente ir įrašomos į nuorodų eilės galą. Taip kartojamas šis ciklas iki kol nuorodų eilė pasibaigia ir nebėra daugiau ką indeksuoti.

Žemiau pateikiamas supaprastintas Informacijos paieškos sistemų architektūros variantas:

Taikymo teorijoje ir praktikoje principai

Visos paieškos sistemos rezultatų puslapį generuoja trimis etapais. Iš pradžių pagal užklausą suformuojama rodyklė. Pagal tą rodyklę ieškoma tinkamų puslapių. Po to paieškos rezultatai rūšiuojami. Kiekvienoje paieškos svetainėje tai vyksta skirtingai, todėl tokios pačios užklausos rezultatai skiriasi.

Interneto kompiuteriuose esančių dokumentų skaičius gali būti vertinamas keliomis dešimtimis milijardų. Ieškoti informacijos juose padeda dviejų rūšių įrankiai: paieškos serveriai (search engines) ir interneto katalogai (directories). Abiejų rūšių pagalbininkai kaupia inernete esančių dokumentų adresus ir trumpas ištraukas. Jums uždavus klausimą, atsakymo jie ieško savose bazėse. Pagrindinis šių rūšių skirtumas: adresų kaupimo būdas. Paieškos serveriams adresus kartu su dokumentų ištraukomis sukaupia programėlės – vorai, katalogams – žmonės. Žmonės surenka daug mažiau adresų (apsiriboja konkrečia šalimi ar geografine sritimi, keliomis temomis), tačiau adresai sudedami tvarkingai temomis, atmetami beverčiai.

Šiuo metu Jūs matote 52% šio straipsnio.
Matomi 1457 žodžiai iš 2804 žodžių.
Siųskite sms numeriu 1337 su tekstu INFO MEDIA (kaina 0,87 €) ir įveskite gautą kodą į laukelį žemiau:
Kodas suteikia galimybę atrakinti iki 100 straispnių svetainėje ir galioja 24 val.