Paieškos sistemos
5 (100%) 1 vote

Paieškos sistemos

Paieškos įrankiai

Problema, kaip rasti informacijos internete, atsirado beveik kartu su pačiu internetu, nes nėra (ir negali būti!) vienos svetainės, kuriuoje atsispindėtų visa internete esanti informacija. Šiandien yra gausybė interneto svetainių, kurios skirtos informacijos paieškai. Tokios svetainės vadinamos paieškos įrankiais.

Interneto paieškos įrankius, atsižvelgiant į pasauliniuose kompiuterių tinkluose esančios informacijos rinkimo, komplektavimo bei pateikimo vartotojui principus, sąlyginai galima grupuoti į:

• interneto adresų katalogus (angl. “WWW Directory”);

• paieškos sistemas (angl. “Search Engines”);

• elektronines bibliotekas (angl. “Electronic Library” arba “Virtual Library”);

• naujienų pokalbių grupes (angl. “Usenet Newsgroups”).

Interneto adresų katalogai – tai svetainės, kurių tikslas – rinkti, grupuoti pagal temas ir pateikti vartotojui pasauliniuose kompiuterių tinkluose esančią informaciją. Juose didžiausias dėmesys skiriamas informacijos grupavimui pagal temas. Temos katalaguose sisteminamos hierarchiškai, pavyzdžiui: Menas → Architektūra → Konferencijos. Dažnai ir adresų katalogai turi labai daug temų ir potemių, todėl be temų sąrašo yra ir paieška kataloge. Interneto adresų kataloguose ieškant informacijos galima derinti informacijos peržiūrą pagal temas bei paiešką kataloge.

Paieškos sistemos – tai svetainės, kurios indeksuoja pasauliniuose kompiuterių tinkluose esančią informaciją, kuria rastų dokumentų duomenų banką bei atlieka paiešką jame. Daugelis paieškos sistemų informacijai rinkti ir indeksuoti naudoja programas, vadinamas “voriuku” (angl. “spider”). Šios programos “apžiūri” interneto svetainėse esančius dokumentus ir grįžta į centrinį paieškos sistemos kompiuterį, kuriame saugoma jų surinkta ir indeksuota informacija. Kai mes kreipiamės į paieškos sistemą ko nors klausdami, paieškos sistemos centrinis kompiuteris atsakymų ieško savo indeksuotame duomenų banke. Paieškos sistemos labai dažnai kuria ir interneto adresų katalogus.

Elektroninės bibliotekos – tai svetainės, kurių tikslas – kurti patikimos ir įvertintos informacijos archyvus. Pagrindinis faktorius, skiriantis elektronines bibliotekas nuo paieškos sistemų bei interneto adresų katalogų yra tas, kad jose kaupiama tik patikrinta ir specialistų įvertinta informacija. Elektroninės bibliotekos dažnai renka interneto dokumentus tik viena tema, pavyzdžiui, mokslo, filosofijos, literatūros, istorijos ir kt. Elektroninėse bibliotekose informacijos paieška gali būti labai įvairi: galima keliauti hipernuorodomis, ieškoti pagal reikšminį žodį arba derinti abu šiuos būdus.

Naujienų pokalbių grupių paieškos svetainės skiriasi nuo anksčiau išvardytų tik tuo, kad juose galima ieškoti specifinės informacijos: į įvairias grupes susibūrusių interneto vartotojų, kurie elektroninio pašto pagalba keičiasi informacija, atsiųstų žinučių ar rašinių.

Iš dalies šių paieškos įrankių grupės persidengia. Kartais iš pirmo žvilgsnio sunku suprasti, kokiai paieškos įrankių grupei priklauso viena ar kita svetainė, nes jų pavadinimai neatspindi informacijos rinkimo bei komplektavimo principų.

Kaip iš gausybės paieškos įrankių pasirinkti tinkamą? Vienareikšmio atsakymo nėra. Įvairiuose paieškos įrankiuose galima rasti ir tos pačios, ir skirtingos informacijos, nes skiriasi informacijos rinkimo, indeksavimo ir pateikimo vartotojui principai. Norint pasirinkti optimaliausią paieškos variantą, reikia žinoti galimus informacijos paieškos būdus ir mokėti juos derinti, susipažinti su paieškos sistemų bei interneto adresų katalogų savybėmis, mokėti teisingai suformuluoti klausimą bei rinktis teisingą atsakymą.

Kaip formuoti užklausą?

Gerus paieškos rezultatus galima gauti tik teisingai suformulavus užklausą.Užklausas reikia formuoti pagal tam tikras taisykles. Nors kiekvienai sistemai taikomos skirtingos taisyklės, bet yra ir bendrų bruožų.

Užklausa sudaroma iš raktinių žodžių (“keywords”). Tai turėtų būti specifiniai žodžiai, kurie labiausiai tikėtini tik jus dominančiuose tinklalapiuose. Pavyzdžiui, ieškant informacijos apie kompiuterio klaviatūros tvarkykles (“keyboard driver”), tinkami raktiniai žodžiai būtų “keyboard”, “driver”, “device”, “software”. Jei žinoma kokios firmos tvarkyklė gali būti, reikėtų į užklausą įtraukti ir jos pavadinimą.

Formuluojant klausimą labai svarbu, ar mažosiomis ar didžiosiomis raidėmis jį užrašysime. Naudokite tik mažąsias raides, jai norite, kad paieškos programa neatsižvelgtų į didžiąsias raides. Jei ieškome, pavyzdžiui, “Organization”, gausime tik tas svetaines, kuriose šis žodis rašomas didžiąja raide. Jei ieškosime “organization”, gausime svetaines su žodžiais “organization”, “ORGANIZATION’ ir bet kokia kita didžiųjų ir mažųjų raidžių kombinacija.

Užklausoje esančių žodžių tvarka taip pat svarbi, nes kai kurios sistemos laiko svarbesniais tuos žodžius, kurie užklausoje yra pirmieji. Žodžių tvarka, galbūt, neturės įtakos rastų puslapių skaičiui, tačiau gali nulemti jų rikiavimo tvarką. Tai svarbu, nes dažnai paieškos rezultatas – keli tūkstančiai interneto adresų, tarp kurių yra tik keli tinkami.

Norėdami
praplėsti savo paiešką, naudokite universalųjį simbolį “*” po žodžio šaknies. Pvz., “lietuv*”. Šiuo atveju paieškos sistema siųs visus dokumentus, kuriuose yra šio žodžio šaknis, pvz., lietuviškos, Lietuvos, lietuvių ir t.t.

Užklausose galima naudoti specialias komandas – operatorius, leidžiantis susiaurinti ar išplėsti paieškos sritį. Pavyzdžiui, žodelis “AND” arba ženklas “+” naudojami, kai reikia rasti tekstus, kuriuose būtų abu žodžiai, pvz.,

Jonas AND Skendelis arba Jonas + Skendelis

Žodelis “NOT” arba ženklas “-”, padėtas prieš žodį paieškos rakte, reiškia, kad ieškomi WWW dokumentai, kuriuose nėra žodžių, turinčių paieškos rakte “-” ženklą.

Žodelis “OR” parašytas tarp dviejų raktinių žodžių reiškia, kad paieškos rezultatu bus tie tekstai, kuriuose yra bent vienas iš nurodytų žodžių.

Skliausteliai “( . . . )” leidžia grupuoti kelias užklausas (sukurti kelis scenarijus), kurios atskiriamos kableliais, pvz., štai užklausa puslapių, kuriuose būtų žodis “basic” kartu arba su “Netscape” arba su “Explorer”:

(Basic + Netscape) , (Basic + Explorer)

Užklausoje taip pat galima nurodyti frazę. Frazė yra žodžių seka tarp kabučių (“”). Kabutėse parašyti žodžiai rastuose puslapiuose turi būti išdėstyti ta pačia tvarka. Be kabučių parašyti žodžiai suprantami kaip atskiri nepriklausomi paieškos elementai.

Kai kuriuose paieškos įrankiuose klausimui formuluoti galima naudoti artumo operatorius, kurie nurodo, kiek reikšminiai žodžiai gali būti nutolę vienas nuo kito. Artumo operatorius NEAR (arti), kartais trumpinamas N, randa dokumentus su žodžiais, kurie yra iš abiejų ieškomo termino pusių, bet nutolę ne toliau, kaip nurodytas skaičius, pvz., užrašę “tax N5 reform” gausime dokumentus, kuriuose žodis “reform” bus nutolęs nuo žodžio “tax” ne toliau, kaip per 5 žodžius iš vienos ar kitos pusės, pvz.:tax reform; reform of income tax;

Artumo operatorius WITHIN (viduje, ribose), kartais trumpinamas W, randa dokumentus su žodžiais, kurie yra po ieškomo termino, bet nutolę ne toliau, kaip nurodytas skaičius, pvz., užrašę “tax W5 reform” gausime dokumentus, kuriuose žodis “reform” bus po žodžio “tax” ne toliau, kaip per 5 žodžius, pvz.:tax reform; tax accountic and reform;

Artumo operatorius BEFORE (prieš) ir AFTER (po) atlieka tą pačią funkciją, kaip ir aukščiau minėti operatoriai, t.y. apibūdina reikšminių žodžių vietą dokumente (prieš ar po pirmojo reikšminio žodžio). Pvz., užrašius klausimą “medicininė AFTER6 diagnostika”, bus siunčiami tik tie dokumentai, kuriuose žodis “diagnostika” seka po žodžio “medicininė”, bet nutolęs nuo pirmojo ne toliau, kaip per 6 žodžius.

Be loginių operatorių, informacijos galima ieškoti, nurodant, kokioje dokumento dalyje turi būti reikšminiai žodžiai ar santrumpos. Dažniausiai pasitaikanti paieška pagal dokumento dalis yra tokia: “url:” (interneto adreso dalis), “title:” (pavadinimas), “location:” (vieta internete), “domain:”

biblioteka + url:lnb

library + domain:lt

pets – image:cat

Kaip rikiuojami paieškos rezultatai?

Paieškos sistema automatiškai rūšiuoja siunčiamus rezultatus taip, kad tinkamiausi dokumentai būtų pirmiausi. Dažnai nesvarbu, ar gauname 200 ar 2 000 000 dokumentų, atitinkančius norimus kriterijus – tinkamiausius iš jų randame pirmuose dviejuose puslapiuose. Jei nerandate reikalingos informacijos pirmuosiuose puslapiuose, patikslinkite paieškos programai duotus nurodymus. Rezultatų puslapyje pateikiamas rastų tinklalapių sąrašas su trumpais aprašymais. Sąraše pateikiamos tinklalapių antraštės ir adresai. Pagal aprašymus ir antraštes, galima nuspręsti, ar tinklalapis tinkamas.

Paieškos sistemų analizė

Paieškos sistemų struktūrą sąlygiškai galima skirstyti į tris pagrindines dalis.

Pirmoji dalis – tai programos “voriukai” (angl. “spider”) informacijai rinkti ir indeksuoti. Šios programos “aplanko” svetaines, “perskaito” jose esančią informaciją, ir juda toliau svetainėje esančiomis nuorodomis. Surinkę informaciją “voriukai” grįžta į paieškos sistemos pagrindinį kompiuterį. Tos pačios svetainės po kurio laiko (pvz., kartą ar du per mėnesį), vėl “apžiūrimos” ir informacija apie visus pakeitimus perduodama į centrinio kompiuterio duomenų banką.

Antroji paieškos sistemos dalis – tai informacijoa archyvas, dar vadinamas indeksu arba katalogu. Šį katalogą kuria “voriukai”, kurie rastą informaciją kopijuoja pagrindiniame kompiuteryje. Paieškos sistemų archyvai be galo dideli, juose yra rastų tinklapių kopijos, kurios papildomos ir atnaujinamos.

Trečioji dalis – tai paieškos įrankio programinė įranga. Ji tarp milijonų “apžiūrėtų” tinklapių ieško atsakymo į užduotą klausimą. Rastus rezultatus išrikiuoja eilės tvarka, kuri paieškos programos atžvilgiu geriausiai atitinka ieškomą informaciją.

Šias išvardytas dalis turi visos paieškos sistemos. Tačiau jų sąveika (algoritmas) yra skirtinga, todėl uždavę tą patį klausimą gausime skirtingus rezultatus.

Lentelėse 1 – 3 esanti informacija padės pasirinkti tinkamą paieškos įrankį.

Lentelė 1: Paieškos sistemų informacijos šaltiniai

Alta Vista WWW, naujienos,
MP3, garso ir vaizdo įrašų archyvai

Excite WWW, naujienos, elektroninio pašto adresai, garso ir vaizdo įrašų archyvai

Google WWW, interneto adresų katalogas

Hotbot WWW, naujienos, MP3, garso ir vaizdo įrašų archyvai, elektroninio pašto adresai

Lycos WWW, garso, vaizdo, multiterpės įrašų archyvai

Search.lt WWW, katalogas, spauda, naujienos

Lentelė 2: Paieškos sistemų klausimo formulavimo ypatybės

Alta Vista Excite Google Hotbot Lycos

Operatoriai

AND, NOT, OR Išplėstinėje paieškoje Taip Ne Taip Taip

Didžiosios raidės Taip Taip Ne Taip Taip

Įterpia operatorių OR OR AND AND AND

Frazės Naudoti “” Naudoti “” Naudoti “” Naudoti “” arba rinktis iš meniu

Trumpinimas Naudoti * Ne Ne Naudoti * arba rinktis iš meniu Ne

Artumo operatoriai Taip Ne Ne Ne Taip

Adresų katalogas Taip Taip Taip Taip Taip

Ieško rastuose atsakymuose Ne Ne Ne Taip Taip

Lentelė 3: Operacijos ženklų naudojimo populiariausiuose paieškos sistemose palyginimo lentelė

Operacijos ženklas Trumpas apibūdinimas Testuojamos paieškos sistemos

AltaVista Exite InfoSeek Lycos

+ Žymi žodžius, kurie būtinai turi būti rastuose puslapiuose. Žodžiai be + traktuojami kaip „galimi“ + + + –

– Žymi žodžius, kurių neturi būti rastuose puslapiuose. + + + +

“ Kabutėse parašyti žodžiai rastuose puslapiuose turi būti išdėstyti ta pačia tvarka. Be kabučių parašyti žodžiai suprantami kaip atskiri nepriklausomi paieškos elementai. + – + –

and, & Sujungia du paieškos elementus: rastoje informacijoje turi būti abu. + + – –

or, | Sujungia du paieškos elementus: rastoje informacijoje turi būti bent vienas. + + – –

not Ženklo „-“ analogas užklausose su „and“, „or“. + + – –

near, [] Nurodo, kad du rastus žodžius gali skirti ne daugiau kaip 10 kitų žodžių. AltaVista serveryje tarp žodžių reikia rašyti „near“, o InfoSeek – įterpti juos tarp laužtinių skliaustų. + – + –

() Apjungia keletą užklausos operacijų. + + – –

* Reiškia bet kokią raidžių ir skaičių seką. + – – +

Informacijos paieškos sistemos ir katalogai Lietuvoje

Google http://www.google.lt/

DELFI http://paieska.delfi.lt

Tiekia naujienas, elektroninį paštą, nuorodų katalogus, paieškos sistemos paslaugas ir kt.

Info.lt http://www.info.lt/

Specializuota paieška, naujienos.

Kelrodis http://www.tdd.lt/kelrodis/

Trumpas pagalbininkas pradedantiesiems, interneto naujienos, naujos svetainės.

Laikas.lt http://www.laikas.lt/nuorodos/

Lietuva Internete http://www.on.lt/index.html.lt

Lietuva Internete: WWW buveinių registras http://www.on.lt/idx.htm

Šiuo metu Jūs matote 50% šio straipsnio.
Matomi 1918 žodžiai iš 3834 žodžių.
Siųskite sms numeriu 1337 su tekstu INFO MEDIA (kaina 1,45 €) ir įveskite gautą kodą į laukelį žemiau:
Kodas suteikia galimybę atrakinti iki 100 straispnių svetainėje ir galioja 24 val.