Šiame straipsnyje kalbama apie internetinio tekstyno kurimą bei kilusias problemas renkant ir siunčiant
tekstus iš interneto. Taip pat pateikiamas lietuviškuju interneto svetainiu skirtymas i tipus pagal tekstu
pobudi, i kokias zmoniu grupes jos orientuotos.
1 Ivadas
Populiarejant informacinems technologijoms gana svarbią vietą visuomeneje uzeme internetas, kaip
informacijos šaltinis ir bendravimo priemone. Nekontroliuojamai plaukiančios informacijos gausa bei ivairus jos
pobudis atskleidzia gana plačią, beveik neaprepiamą interneto tematiką. Pamazu vis labiau susidomima
lietuviškaisiais interneto puslapiais. Atsiranda ivairiausiu tyrinejimu ir darbu šia tema.
Vytauto Didziojo universitete Kompiuterines lingvistikos centre parengus bei dar toliau pildant
bendrojo pobudzio Dabartines lietuviu kalbos tekstyną (šiuo metu apimanti 60 milijonu zodziu) taip pat paruošus
kelis specialaus pobudzio tekstynus, iškilo butinybe parengti internetini tekstyną, kuris butu pagrindinis šaltinis
interneto tekstu tyrinejimui. Šiuo metu kaupiama internetiniu tekstu duomenu baze pasieke apytiksliai 18,6
milijono zodziu skaičiu ir dar toliau pildoma. Prognozuojama, jog internetinis tekstynas turetu apimti apie 20
milijonu zodziu. Kadangi jis yra specialaus pobudzio, tai tokia apimtis yra pakankama. Tekstynas turetu buti
pakankamai reprezentatyvus, kad “tekstyne lyg veidrodyje atsispindetu kalba” [36]. Tai yra viena iš tekstynu
kurimo sąlygu. Todel tekstu atranka šiam tekstynui nera oportunistine, o paremta subalansuotu atrankos
principu, [36] t. y. tekstai atrenkami taip, kad atspindetu interneto tekstu tipiškumą.
Šis darbas atliekamas keliais etapais. Visu pirma, reikia susirasti nemazą kieki internetiniu svetainiu
adresu. Lietuvoje kol kas nera parengto didelio adresu zinyno, kuriame butu suregistruoti bent jau dauguma
adresu, ir to, matyt, neimanoma padaryti. Galima butu pamineti Lietuviškojo interneto katalogą [1] bei interneto
svetainę www.online.lt, kur pateikiama nemazai adresu, suskirstytu pagal veiklos sritis.
Kitas darbo etapas – iš interneto svetainiu išrinkti tekstus, kurie butu bent jau puses puslapio dydzio.
Tekstai imami kuo ivairiausiu sričiu, kad kuo labiau atspindetu konkrečios srities leksiką bei sintaksinę sandarą,
internetiniu tekstu pobudi bei zanrinę ivairovę. I ši etapą ieina tu tekstu parsiuntimas, neretai sukeliantis ivairiu
problemu bei parsiustu failu tvarkymas. Ši darbą atlikus, tekstai jungiami skirstant juos pagal veiklos sritis ir
pobudi.
Perzvelgus daugeli lietuviškojo interneto puslapiu ir ziurint i juos kaip i visumą, galima daryti nemazai
apibendrinimu ir iškelti klausimu: kokią informaciją teikia adresas, kokio tipo vyrauja svetaines, kiek
informatyvus tekstai, kodel apskritai domimasi tekstais ir ar jie internete tokie svarbus.
2 Internetiniu adresu informatyvumas
Vienas pagrindiniu uzdaviniu – kaip iš gausybes adresu išrinkti, kurios svetaines galetu buti
tinkamiausios kuriant tekstyną. Juk adresą dazniausiai sudaro firmos, istaigos išsamus pavadinimas, pvz.:
http://www.ambergallery.lt – Gintaro muziejus-galerija; http://muziejai.mch.mii.lt – Lietuvos muziejai arba tik
zodziu pirmuju raidziu santrumpos, pvz.: http://www.lnm.lt/ – Lietuvos nacionalinis muziejus. Todel, jei dar iš
išsamiai nurodyto pavadinimo galima pasakyti kieno tie puslapiai, tai iš santrumpu gana sunku spręsti apie ką ta
svetaine.
Nemazai adresu netgi nera susiję su puslapiu kureju ar istaiga, pvz.: http://www.elnet.lt/inema/ –
periodinis leidinys “Iš pirmo zvilgsnio”; http://www.iti.lt/~piketas/landyne/ – elektroninis “Šluotos” variantas;
http://freehosting2.at.webjump.com/ – Vidmanto Karoso puslapis; http://mp3.ku.lt/bilas/ – anekdotai apie Bilą
Klintoną; http://www.muza.lt/index.html – Kulturos ministerija; http://www.is.lt/karma/ – Antandrijos veislynas.
Tai apsunkina vartotoją, nes adresai nera informatyvus ir daug sunkiau nezinant adreso surasti reikiamą
informaciją. Lietuviškojo interneto kataloge šiek tiek padeda skirstymas pagal veiklos sritis.
6-toji magistrantu ir doktorantu konferencija
49
3 Internetiniu s vetainiu tipai
3.1 Svetainiu tipai pagal informacijos pobudi
Kadangi objektas yra tekstai, pagal tai internetines svetaines galima skirstyti i du tipus: tekstines ir
netekstines. Tekstiniu svetainiu pagrindas – informacijos pateikimas tekstu: aprašomos naujienos, ivykiai,
supazindinama su firmos veikla ar pan. Neretai iliustruojama nuotraukomis. Tokios svetaines dazniausiai
pasizymi nedidele nuorodu gausa, aiškia struktura, informacija pateikiama gana išsamiai.
Netekstinese svetainese paprastai teksto nedaug, dominuoja vaizdine medziaga: nuotraukos, piešiniai,