Natūralios kalbos technologijos
3 (60%) 2 votes

Natūralios kalbos technologijos

Turinys

Įvadas 3

1. Esamos situacijos apžvalga 4

1.1. Situacija pasaulyje 4

1.2. Situacija Lietuvoje 5

2. Balso technologijų reikšmė informacinėje visuomenėje 7

2.1. Svarbiausios balso technologijos ir jų paskirtis 7

2.2. Balso technologijų plėtros motyvai 7

2.3. Balso technologijų panaudojimo sferos 8

3. Balso technologijų pasiekimai pasaulyje 9

3.1. Atpažinimas 9

3.2. Kitos sudėtinės atpažinimo funkcijos 10

3.3. Kalbos sintezės metodai 11

3.4. Sintezės kokybės vertinimo kriterijai 12

3.5. Kalbos sintezatoriaus komponentės 12

4. Balso technologijų praktinės taikymo sritys 13

4.1. Balso technologijų panaudojimas neįgaliesiems 14

4.2. Balso technologijų panaudojimo neįgaliems pavyzdžiai 15

4.3. Balso technologijų panaudojimo kriminalistikoje analizė pasaulyje 17

4.4. Balso technologijų kriminalistikoje naudojimas ir vystymas Lietuvoje 21

5. Balso technologijų taikymas mobiliuosiuose telefonuose. 23

6. Balso atpažinimo programų pritaikymo sritys 24

6.1. Kredito kortelė 24

6.2. Intelektualus bankomatai 25

7. Ateities technologijos 26

Išvados 29

Literaturos šaltiniai 30

Įvadas

Balso technologija – viena iš perspektyviausių praktinio taikymo srityse pabandžius suvokti jos galimybes. Dėka šių naujovių asmens technologinė aplinka įgauna vis artimesnę natūraliai komunikacijai formą, kuri gerokai patrauklesniu paverčią interfeiso aspektą. Realybė nėra itin džiuginanti, tačiau situacija iš esmės pasikeitus žvelgiant į keletos dešimtmečių istoriją. Vis didesnį pagreitį įgaunanti technologinė pramonė ir, apskritai, mokslinis potencialas sąlygos šios srities ženklesnę pažangą ateityje. Faktorius, kad žmonijos problematikos sprendimo formos iš esmės jau pakitusios ir perkeltos į technologinę terpę, neleidžia nusivilti, jog ši sritis bus pamiršta, juo labiau, dėl realių pritaikymo galimybių. Kuo sparčiau bus padaryti esminiai sprendimai, tuo greičiau bus sprendžiamos neregių problemos įvairiose veiklos kryptyse. Nepaisant to, kad inovacijų kaštai gana aukšti, tačiau įvertinus jų socialinę ir moralinę prasmę neįgaliųjų gyvenime investicija atsipirktų neįkainuojamai.

Pasirinktoji tematika atitinka asmeninės patirties išraišką dirbant balso technologijų aplinkoje ir sutampa su iškilusios problematikos realizavimu. Tikslas – suformuoti bendrą vaizdą apie šios inovatyvios technologinės srities galimybes ir prisiliesti prie perspektyvių taikymo sferų.

Darbe bus atskleistas balso technologijos praktiškumas, apibūdinta dabartinę situaciją Lietuvoje ir pasaulyje, dalinai pristatyti visų mechanizmų veikimo principai taip pat apibrėžtos praktinės taikymo sritys.

1. Esamos situacijos apžvalga

1.1. Situacija pasaulyje

Kalbos technologijų tyrimai pasaulyje atliekami daugiau kaip 50 metų. Aktyviausiai tiriama JAV, Japonijoje, Australijoje ir labiausiai išsivysčiusiose Vakarų Europos šalyse. Pastarąjį dešimtmetį jie ėmė plėstis buvusio Rytų bloko šalyse: Čekijoje, Slovėnijoje, Vengrijoje, Jugoslavijoje ir kt.

Labiausiai išsivysčiusiose šalyse kalbos atpažinimo srityje jau sukurtos įvairios komandų sistemos, bandoma kurti rišlios kalbos atpažinimo sistemas. Daug kur jau pasiekta suprantama ir vartotojui priimtina sintezuotos kalbos kokybė, tokią kalbą siekiama priartinti prie natūralios. Jungiant sintezę su atpažinimu, kuriamos dialogo balsu sistemos. Intensyvūs tyrimai atliekami kalbančiojo atpažinimo pagal balsą srityje. Šios technologijos taikomos kriminalistikoje, elektroninėje prekyboje, informacijos apsaugos sistemose.

Pastarąjį dešimtmetį pasaulyje suintensyvėjo automatinio vertimo tyrimai. Nors šiuo būdu jau verčiami laikraščių ir techniniai tekstai, jis naudojamas telekomunikacinio daugiakalbio ryšio sistemose bei interneto paieškos paslaugų teikimo kompiuteriuose, dar toli iki automatinio grožinės literatūros vertimo. Europos Sąjungoje naudojamos vertimo sistemos, kurios veikia su 17 kalbų poromis, tarp jų gerai žinoma ir gana kokybiška anglų–prancūzų versija, nuolat tobulėja vertimas italų–anglų, ispanų–anglų kalbomis, sparčiai tobulėja japonų–anglų projektai, naudojamos rusų–anglų–rusų automatinio vertimo sistemos.

Norint kurti kalbos technologijų produktus, reikia kalbos išteklių: archyvų, tekstynų, garsynų ir iš jų gautos kalbos duomenų bazės. Įvairių kalbų ir tipų tekstynai jau nuo 7-ojo dešimtmečio kuriami ir taikomi pačioms įvairiausioms informacinės visuomenės reikmėms. Tekstynai yra būdas išsaugoti kalbos paveldą, faktinės informacijos šaltinis, autentiškos kalbos vartosenos duomenų bankas, kalbos statistikos duomenų šaltinis ir automatinių kalbos modelių verifikavimo bazė. Tekstynų vertė priklauso nuo jų dydžio, pobūdžio, apdorojimo laipsnio ir darbui su jais skirtos programinės įrangos galimybių. Pastaruoju metu Europos valstybių kalbos išteklių archyvai yra taip išaugę ir sustiprėję, kad iš siauros mokslo tyrimų ar technologijų kūrimo paskirties tapo reikšmingomis valstybės tautinį identitetą ir istorinį procesą fiksuojančiomis ir globaliam pasauliui pristatančiomis nacionalinių išteklių saugyklomis.

Vakarų ir Vidurio Europos valstybės turi beveik visą į savas kalbas išverstą kasdieniniam darbui bei mokymui reikalingą programinę įrangą.
Prieš keletą metų praūžusi programinės įrangos legalizavimo banga palietė valstybines institucijas ir kompanijas, kurios pastebėjo, kad vienintelis tinkamas pasirinkimas – naudoti atvirojo kodo arba nemokamą programinę įrangą.

Kiekviena tauta rūpinasi savo raštų ženklų funkcionavimu informacinėse sistemose. Lenkai yra sukūrę taisyklingų lenkiškų diakritinių ženklų dizaino taisykles, perkuria kompiuteriniu formatu visus kada nors praeityje lenkų dailininkų sukurtus šriftus. Vengrijos Mokslų Akademijos Vengrų literatūros istorijos institutas kataloguoja senųjų vengrų raštų ženklus, tvarko jų kodavimą ir kuria šriftus. Latviai yra sukūrę arba adaptavę apie 80 kompiuterinių šriftų.

Iš 6 800 žinomų kalbų internetinius žodynus, skirtus tarptautiniam vartotojui, turi 260 kalbų. Lietuvių kalba internete pateikti 6 dvikalbiai žodynai, latviai yra pateikę 5 dvikalbius ir 1 tarminį žodyną, estai – 8 žodynus, tarp jų slengo, patarlių, frazeologijos ir sinonimų.

Europoje kalbos technologijų tyrimus ir taikymą koordinuoja net kelios organizacijos. Pagal Europos Sąjungos programas pastaraisiais metais vykdoma per šimtą didelių tarptautinių projektų. Jiems skiriamos milijardinės lėšos.

1.2. Situacija Lietuvoje

Lietuvoje kalbos technologijomis pradėta domėtis prieš 20–30 metų. Pagrindinės kryptys – kalbos signalų atpažinimas, sintezė bei suglaudinimas. Sukurta atskirai sakomų žodžių atpažinimo technologija, pradėti kalbos atpažinimo darbai. Pasistūmėta kompiuterinių dialogų balsu kūrimo bei kalbos sintezės srityse. Tačiau tai tik pradžia – reikia didinti atpažįstamų žodžių skaičių, pereiti prie rišlios kalbos atpažinimo, gerinti sintezuotos kalbos suprantamumą ir natūralumą, kurti balso technologijas naudojančius produktus, ieškoti naujų taikymo sričių. Pradėti pirmieji anglų–lietuvių kalbų automatinio vertimo sistemos darbai. Šiuos darbus skubina artėjanti integracija į Europos Sąjungą.

Rašytinės kalbos tekstynų srityje Lietuva yra lyderė Baltijos šalyse. Visuomenei per internetą prieinamas 100 milijonų teksto žodžių turintis dabartinės rašytinės lietuvių kalbos tekstynas. Be to, kaupiamas paralelus lietuvių ir kitų kalbų (anglų, vokiečių, čekų) tekstynas, sukaupti keli nedidelės apimties specialieji tekstynai. Tačiau esamiems ir būsimiems tekstynams trūksta bendros, lietuvių kalbai pritaikytos programinės įrangos, kuri leistų kuo geriau panaudoti turimus kalbos resursus ir iš jų gaunamus skaitmeninius aprašus.

Sukurtas bendrinės lietuvių kalbos pavieniui tariamų žodžių universalus anotuotas garsynas. Jis atspindi visus svarbiausius fonetinius ypatumus ir skirtas lietuvių kalbos informacinių technologijų mokslo tyrimo ir taikymo darbams, tačiau tarp ES narių ir šalių kandidačių garsynų srityje Lietuva užima paskutinę vietą.

Siekiant išsaugoti kalbos ir kultūros paveldą, sukurtas ir pildomas Tarmių archyvas. Pradėtos kurti paveldo elektroninės kartotekos su paieškos sistemomis: skenuojamos senosios žodynų kortelės, kalbininkų ranka rašyti dokumentai, užrašai.

Sukurti ir naudojami daugiakalbiai žodynai „Alkonas“, LED. Kompaktine plokštele išleistas „Dabartinės lietuvių kalbos žodynas“. Jis su svarbiausių vietovardžių sąrašu pateiktas ir internete. Kompaktine plokštele išleistas „Lietuvių tarmių žodyno“ pirmasis tomas, į skaitmeninę formą pradėtas versti didysis „Lietuvių kalbos žodynas“.

Kuriama trijų lygių nacionalinė kalbos duomenų metabazė. Sukurta ir pildoma senųjų raštų duomenų bazė: XVI–XVII a. raštų tekstynai ir konkordancijos. „Lietuvių kalbos žodyno“, jo papildymų bei kartotekos pagrindu kuriama akademinė leksikos, „Bendrinės kalbos žodyno“ pagrindu pradėta kurti bendrinės leksikos, „Sinonimų žodyno“ pagrindu kuriama sinonimų duomenų bazė, pradėta kurti lietuvių kalbos dalių junglumo duomenų bazė, kalbos konsultacijų skaitmeninis bankas, kalbos rekomendacijų, dabartinės vartosenos skaitmeninė kartoteka. Kuriamas pirmasis originalus kompiuterinis žaidimas, ugdantis kalbos kultūros ir rašybos įgūdžius.

Pradėti programinės įrangos vertimo į lietuvių kalbą darbai. Iš dalies išversta operacinė sistema Windows XP Professional, pirmoji raštinės paketo MS Office programa Word XP, interneto programų pagrindiniai komponentai: naršyklė, hipertekstų rašyklė, visiškai sutvarkytas lietuviškų elektroninių laiškų bei tinklalapių rašymas ir skaitymas, išversta duomenų tvarkymo programa Total Commander, antivirusinė programa Doctor Web, sulietuvintos kelios mokymo programos. Lietuvoje sukurta atvirojo kodo duomenų bazė, į lietuvių kalbą išversti programų paketai Mozilla ir OpenOffice. Tai tik epizodiniai darbai, lyginant su kitomis valstybėmis. Vakarų ir Vidurio Europos valstybių kalbų sąraše pagal programinės įrangos vertimą lietuvių kalba užima 21 vietą iš 25. Parengti pagrindinės lietuviškos abėcėlės, kirčiuotų raidžių koduočių standartai, lietuviškos kompiuterių klaviatūros standartas su numatyta galimybe įtraukti kirčiuotas raides, parengti kirčiuotų raidžių šriftai 8 bitų koduotėms.

Integruojantis į daugiakalbę Europos Sąjungą, vykstant globalizacijai ir formuojantis pasaulio informacinei visuomenei, būtina užtikrinti

kalbos kaip vienos svarbiausių nacionalinės kultūros paveldo dalių išsaugojimą, vartojimą ir funkcionalumą visose viešojo valstybės gyvenimo srityse, patenkinti naujus Europos integracijos lemiamus žinių visuomenės poreikius.

2. Balso technologijų reikšmė informacinėje visuomenėje

2.1. Svarbiausios balso technologijos ir jų paskirtisSkirsime tris balso technologijų grupes:

 balsų tariamų vienetų ( žodžiai, jų sekos, frazės ) automatinis nustatymas arba kalbos atpažinimas;

 teksto skaitymas balsu arba kalbos sintezė;

 kitos balso technologijos (asmens tapatybės vertinimas pagal jo balsą, kalbos signalų suspaudimas bei kodavimas, triukšmų slopinimas ir pan. ).

Toks grupavimas yra parinktas sąmoningai, nes pirmųjų dviejų technologijos grupių plėtrai reikia pakankamai gero lietuvių kalbos žinojimo. Mažai tikėtina, kad jos gali būti sėkmingai kuriamos ne Lietuvoje. Kitos balso technologijos gali būti pakankamai savarankios, bet dažnai jos kartu yra ir sudėtinės atpažinimo bei sintezės dalys.

Atpažinimas. Jo paskirtis yra automatiškai nustatyti, kas balsu sakoma informacijos priėmimo sistemai. Tai gali būti atskiras žodis ( balso komanda ), žodžių seka ( PIN kodas ), net rišlių sakinių skaitymas. Informacijos priėmimo sistema, nustačiusi, kas jai buvo pasakyta, atlieka adekvačius veiksmus, t.y. atpažinimas yra informacijos prieigos forma.

Sintezė. Jos pagalba pagal reikiamą komandą balsu perskaitoma informacinėje sistemoje teksto pavidalu saugoma informacija. Sintezei priskiriamos ir paprastesnės informacijos pateikimo balsu formos, pvz. iš anksto paruoštu žodžių ar jų sekų pateikimas balsu, esant tam tikram reikalavimui.

Kitos balso technologijos. Trumpai apibūdinsime keletą tokių technologijų. Asmens tapatybės vertinimas pagal jo balsą reikalingas teisėsaugoje ir komercinių operacijų vykdymui ( asmens parašas ). Triukšmų šalinimas nuo kalbos signalų yra priemonė sukauptoms kultūros vertybėms restauruoti. Beje, triukšmų apdorojimo problemos iš esmės persmelkia veik visas kitas balso technologijas. Balso signalų suspaudimas yra taupaus balso įrašų sugojimo ar perdavimo priemonė, kurios poreikis jau jaučiamas ir Lietuvoje, operuojant balsu Internete ( VoIP ).

2.2. Balso technologijų plėtros motyvai

Argumentai, kuriais grindžiamas balso technologijų plėtros būtinumas, tarp kurių išskiriama trys motyvai:

 Lietuva – draugiškos daugiakalbės Europos narė

 visuotinė, integruota ir intuityvi informacijos prieiga bei jos pateikimas,

 visuomenės perkrova technologinėmis priemonėmis.

Lietuva – draugiškos daugiakalbės Europos narė. Tuo tvirtinama, kad Europa, skirtingai nuo kitų pasaulio regionų yra daugiakalbė, o balso technologijos yra Europos lingvistinės infrastruktūros, palankaus draugiškos daugiakalbės Europos kūrimo veiksnio, sudėtinė dalis. Jų plėtrai reikia ir kiekvienos Europos valstybės valios.

Visuotinė, integruota ir intuityvi informacijos prieiga bei jos pateikimas. Visuotinumo prasmė gerai matoma mobilaus vartotojo atveju, kai yra labai ribotos klaviatūros galimybės. Be to, balso technologijos papildo grafinę, teksto ir kitas informacijos vaizdavimo formas. Balso technologijos, kaip natūraliausias bendravimo būdas, turi unikalių intuityvios informacijos prieigos galimybių.

Visuomenės perkrova technologinėmis priemonėmis. Vakaruose vis labiau pabrėžiama, kad žmonės pageidauja paprastesnio ir lengvesnio gyvenimo stiliaus. Iš vienos pusės skatinamas pastovus ir visuotinis informacinis lavinimasis, tačiau kartu suprantama, kad visko mokėti negalima ( primirštama, kas išmokta; kai kurių funkcijų retokai reikia konkrečioje veikloje arba jas užgožia svarbesnės; kartais neįmanoma be išorinės pagalbos pasinaudoti informacija , pvz. neįgaliems, ir pan.).

2.3. Balso technologijų panaudojimo sferos

Mes apibrėšime tas balso technologijų panaudojimo sferas, kurių, mūsų nuomone, plėtojimas Lietuvoje yra aktualiausias, be to galima išnaudoti bei stiprinti esamą mokslinį potencialą, o kalbos signalų technologijų įsigijimas (kaip ir eksploatavimo įsisavinimas) yra brangus:

 mokymo procesų tobulinimas;

 priemonės neįgaliems, kai kurie medicininiai taikymai;

 teisėsauga bei krašto apsauga;

 kultūros bei kalbos vertybių sutvarkymas ir išsaugojimas;

 administravimas ir telekomunikacinės paslaugos

Mokymo proceso tobulinimas. Lietuvoje reikia pasiekti, kad mokymo procesas būtų artimas pasauliniam .Tai reiškia, kad technologinėse informatikos, telekomunikacijų disciplinose turėtų būti žymiai daugiau lingvistikos ir atvirkščiai. Pagrindines kliūtis galima pašalinti, sukuriant reikalingas technologines mokymo priemones. Kartu turi būti kuriami treniruokliai gimtosios bei užsienio kalbų mokymuisi, pritaikyti logopedijai ir kiti.

Priemonės neįgaliems. Paminėtinos kompiuterizuotos darbo vietos akliems, kurtiems, turintiems motorinių funkcijų sutrikimus, neprigirdintiems. Balso technologijos taip pat naudingos LOR medicinoje, pooperacinėje reabilitacijoje, ką rodo nuolat augantis dėmesys kitose šalyse.

Teisėsauga bei krašto apsauga. Kalbos signalų technologijų procedūros naudingos fonoskopinių ekspertizių tobulinimui, operatyvinėje veikloje, kalbos signalų neviešam saugojimui ar perdavimui, civilinėje saugoje
ir panašiai. Plintant techninėmis naujovėmis plinta ir nauji falsifikavimo būdai, todėl svarbu paruošti tinkamas priemones.

Kultūros, istorijos ir kalbos vertybių sutvarkymas ir išsaugojimas. Per eilę dešimtmečių garso pavidalu yra sukaupta labai vertingos medžiagos, kurią reikia šiuolaikinėmis priemonėmis sutvarkyti.

Administravimas ir telekomunikacinės paslaugos. Neretai įvairaus lygmens pareigūnai neturi galimybių priimti visus pageidaujančius, o telefoninės kalbos signalų technologijų priemonės padėtų išplėsti aptarnaujamų piliečių skaičių. Vis plečiasi internetinės balso panaudojimo priemonės. Balso technologijos jau senokai priskiriamos strateginei naujų telekomunikacinių paslaugų kūrimo krypčiai.

3. Balso technologijų pasiekimai pasaulyje

3.1. AtpažinimasTrys lietuviškos atpažinimo problemos. Galima paminėti bent porą “lituanistinių” faktorių, kurie turi labai didelę reikšmę tolesnei balso technologijų plėtrai Lietuvoje. Pirma, tai geras lietuvių fonetikos bei sintaksės dėsningumų supratimas, kuriam reikia buitinės lietuvių kalbos vartojimo patirties, kuo vargu ar atidžiai domėsis kitų šalių technologai; antra, reikia kaupti lietuviškus balso technologijų resursus ( garsynus ), nes be jų neįmanoma tolesnė pažanga. Taigi, šalia plataus rato bendrų uždavinių, yra pabrėžiamos trys svarbios “ lituanistinės “ balso technologijų problemos:

• I faktorius – balso technologijų lietuviška sintaksė;

• II faktorius – balso technologijų lietuviška fonetika;

• III faktorius – lietuviški balso garsynai (angl., speech databases arba speech corpora).

3.2. Kitos sudėtinės atpažinimo funkcijos

Pagrindinė atpažinimo schema – tolydinio tankio paslėptos Markovo grandinės (continuous density hidden Markov model – CD HMM ). Šiuo metu tai yra populiariausia kalbos signalų atpažinimo schema. Bet koks lingvistinis vienetas (žodis, skiemuo, fonema) yra aprašomas tam tikru skaičiumi būsenų ir perėjimo tikimybėmis. Daroma prielaida, kad tai kas ir kaip tariama niekada nėra tiksliai žinoma (paslėptas procesas), bet rezultatą visada stebime (girdime ) ir jį galime fiksuoti. Taigi automatinio atpažinimo įtaiso šerdis yra pagal stebėjimo rezultatus sukonstruotas paslėpto proceso modelis. Modelio parametrų įvertinimui naudojama Baum-Welch procedūra, atliekant iteracinius tiesioginių-atbulinių ( Forward – Backward ) tikimybių skaičiavimus. Sintaksė modeliuojama N-gramatikomis, kuriose yra sukaupiamos N paeiliui einančių žodžių statistikos. Atpažinimo procesas grindžiamas Viterbi algoritmu, kai su ištarta fraze dinaminio programavimo būdu lyginami žinomi CD HMM modeliai, surandant panašiausią.

Pašalinių garsų atmetimas ( out of vocabulary ). Klausydamas jį dominančios kalbinės informacijos, žmogus sugeba ignoruoti pašalinius pokalbius, triukšmus, muzikinius garsus ar panašiai, žinoma, jei pastarieji nėra pernelyg intensyvūs. Tai reiškia, kad reikia turėti galimybę atmesti įvairius akustinius garsus, kurių nėra kompiuterinio dialogo žodyne. Tinkamai parenkant atpažįstamų signalų panašumo slenkstį, tikrinama ar nagrinėjama komanda yra pakankamai panaši į kurią nors vieną iš leistinų komandų. Jei slenkstis pakankamai aukštas, tai atmetama ir dalis leistinų komandų, o jei šis slenkstis per žemas, atpažinimo įtaisas beprasmiškai reaguoja į pašalinius garsus. Kuo tikslesnis yra atpažinimo algoritmas, tuo efektyviau veikia ši procedūra.

Raktinių žodžių paieška ( key word spotting ). Tipinę žmogaus tariamą komandą galima pavaizduoti esminiais žodžiais: subjektas ( kas vykdo ), predikatas( kas vykdoma ), objektas( kas yra vykdymo objektas ), atributai ( kaip vykdoma ). Realioje frazėje esti funkcine prasme neesminių žodžių ( pvz. malonybės ), nekalbinių intarpų ( mikčiojimas, kostelėjimas ), o funkciškai esminių žodžių tvarka gali keistis, nors prasmė išlieka ta pati. Raktinių žodžių paieška yra funkciškai esminių žodžių suradimas.

Pasikliovimas atpažinimu ( confidence measure ). Vis labiau plinta procedūros, kai galutinis sprendimas priimamas pagal atpažįstamo vieneto panašumo mato reikšmę nebūtinai iš karto. Jei panašumas nėra pakankamai aukštas, automatas siūlo pakartoti užklausą, modeliuojant žmogaus elgesį, kai jis gali ne iš karto suprasti klausimo prasmę.

Akustinio aido slopinimas ( acoustical echo cancellation ). Dialogo tarp dviejų žmonių metu neretai vienas pašnekovas pertraukia kitą, nes jis suprato, ką turėtų atsakyti. Panašiai kompiuteris duoda ilgoką nuorodą ( prompt ), o vartotojas nelaukdamas nuorodos galo ištarią komandą, taigi į mikrofoną patenka nuorodos ir vartotojo komandos mišinys. Kompiuteriui reikia mokėti atskirti ką pasakė jis pats ( akustinis aidas ) ir ką pasakė vartotojas. Tam naudojamos įvairios adaptyvaus tiesinio filtravimo modifikacijos. Neseniai AT&T pareiškė, kad savo sukurtas 40 msek. akustinio aido slopinimo priemones priskiria prie svarbesnių pastarojo penkmečio kompanijos laimėjimų.

Triukšmų apdorojimas ( noise supression, speech enhancement ). Praktikoje naudingus signalus visada lydi triukšmai. Skiriama labai daug dėmesio triukšmų poveikiui susilpninti. Galima paminėti spektro atėmimo, Kahrunen – Loeve dekompozicijos, Vinerio filtravimo, Kalmano
filtravimo, Markovo grandinių, vilnelių ir eilę kitų metodų triukšmams šalinti nuo signalų. Gaunamas iki 6-10 dB eilės triukšmo slopinimo lygis. “Nuvalytas” signalas kartais būna nemalonus klausai, bet atpažinimo prasme gaunami ir teigiami rezultatai.

Prisitaikymas prie akustinės aplinkos (adaptation). Seniai pastebėta, kad laboratorijose paruoštos atpažinimo priemonės blogai veikia realaus taikymo sąlygomis. Pvz., laboratorijose gaunama mažesnė nei 1% skaičių pavadinimų sekų atpažinimo klaida gali išaugti iki 75% telefono kanaluose Texas Instrument surado efektyvų adaptavimosi būdą, kai efektingai išnaudojami laboratoriniai duomenis ir atpažinimo klaida nesumažėja. Didelės apimties laboratoriniai duomenis atspindi žmonių balsų įvairovę bei lingvistines ypatybes, o santykinai nedidelė adaptavimo medžiaga leidžia prisitaikyti prie triukšmų, kanalo, reverberacijų ir kitų faktorių.

3.3. Kalbos sintezės metodai

Kalbos sinteze vadinamas automatinis balsinio pranešimo generavimas iš pateikto teksto ar kitos simbolių sekos, t.y. tekstu pateiktos informacijos skaitymas balsu. Nekelia abejonių, kad sintezė labai nuo konkrečios kalbos savybių priklausanti kalbos technologijų sritis. Generavimui reikia naudoti konkrečiai kalbai paruoštus sintezės elementus (pastarieji dažnai vadinami sintezės vienetais) bei atsižvelgti į duotos kalbos gramatines ypatybes (kirčiavimą, prozodines, intonacines savybes ir pan.). Reiktų pažymėti, kad lietuvių kalba nėra sintezės požiūriu lengva kalba.

Sintezės iš teksto panaudojimo perspektyvos labai plačios – jos gali būti naudojamos įvairiausiose informacinėse sistemose (ryšiuose, transporte, gal būt sveikatos apsaugoje). Pasaulyje jau egzistuoja visa eilė kalbos sintezės taikymo praktikoje pavyzdžių, dažniausiai orientuotų į didžiąsias pasaulio kalbas (anglų, kinų, prancūzų, vokiečių, japonų). Jose naudojama pakankamai aukštos kokybės balso sintezė, tačiau net ir geriausių šiuolaikinių sintezės sistemų generuoto balso kokybė gerokai nusileidžia natūraliam balsui.

3.4. Sintezės kokybės vertinimo kriterijai

Sintetinės kalbos kokybei apibūdinti naudojama eilė rodiklių, kurių svarbiausieji yra aiškumas (angl. inteligibillity) ir natūralumas (angl. naturalness). Aiškumu nusakoma, kokią lingvistinių vienetų (fonemų, skiemenų ar žodžių) dalį gali suprasti klausytojas. Natūralumas yra subjektyvesnis kriterijus, juo stengiamasi nustatyti kiek sintetinė kalba artima žmogaus kalbos. Eilę dešimtmečių aiškumo gerinimo pastangos buvo sintezės plėtros varomoji jėga, kadangi neaiški kalba yra praktiškai bevertė. Yra gauti aukšto aiškumo sintetinės kalbos pavyzdžiai ir ypač stengiamasi pagerinti natūralumą.

Šiuo metu formuojasi ir pragmatiškesni sintetinės kalbos kokybės vertinimo kriterijai. Skiriamos dvi sintetinės kalbos kokybės gradacijos: vartojimo kokybė (angl. customer quality) ir natūrali kokybė (angl. natural quality). Vartojimo kokybės sintetine kalba laikoma kalba, kai didelė vartotojų dalis moka už paslaugas, kai informacija pateikiama sintetine kalba. Natūralia kokybe suprantama tokia sintetinė kalba, kai specialiai nepasiruošęs vartotojas nesugeba jos atskirti nuo žmogaus kalbos. Nors visada buvo ir nenatūralios, bet aiškios, sintetinės kalbos praktinio panaudojimo sferų (tarkim nėra kitos galimybės informacijos pateikimui), tačiau, plintant automatizuotoms balso paslaugoms, nenatūrali kalba stabdo tokiomis paslaugomis besinaudojančių vartotojų skaičių. Kadangi natūralumas yra subjektyvus kriterijus, jis dažniausiai vertinamas balais: grupei klausytojų pateikiami sintezuotų įrašų pavyzdžiai ir pasiūloma įvertinti kokybę balu. Balso technologijų vertinimui dažniausiai naudojama penkiabalė sistema. Skirtingų klausytojų vertinimo rezultatai suvidurkinami.

3.5. Kalbos sintezatoriaus komponentės

Norint tekstą paversti balsu, reikia nuosekliai atlikti eilę procedūrų. Visų pirma tekstą reikia tinkamai paruošti, atlikti jo transkripciją (pvz. lietuvišką žodį gąsdina mes tariame gazdina ), nustatyti frazėje esančių žodžių kirčius, apibūdinti frazės tipą (paprasta, klausiamoji ar šaukiamoji intonacija). Šis etapas paprastai vadinamas teksto normalizavimu. Galiausiai tekstas paverčiamas fonemų seka su prozodijomis. Šią seką reikia paversti tinkama sintezės vienetų seka, o pastarąją paversti balsu.

Nors visos sintezatoriaus komponentės yra svarbios, tačiau kol kas labiausiai sintetinės kalbos kokybę nulemia sintezės vienetų kokybė. Jais gali būti skiemuo, skiemens dalis, fonema, jos dalis ar jų junginys – difonas. Sintezės vienetai gali būti tiesiog iškirptos iš žmogaus balso signalo atkarpos arba tos pačios atkarpos gali būti paverstos požymiais (kepstras, filtrai, Furje transformacija, tiesinės prognozės parametrai). Pirmuoju atveju turime taip vadinamą signalo bangos konkatenaciją, o antruoju – parametrinę sintezę.

4. Balso technologijų praktinės taikymo sritys

Kalbos signalų, t.y. su šnekamąja arba sakytine kalba (angl. speech, rus. rečj) susijusios, technologijos bendra prasme yra reikšmingos įvairiais informacinės, o toliau ir žinių, visuomenės plėtros aspektais. Žinių apie konkrečią kalbą svarba lemia, kad pageidautina tam tikra kiekvienos valstybės valia, vystant ir
paskleidžiant šias technologijas. Greta kalbos signalų, šnekamos kalbos, šnekos terminų, naudojamas ir balso technologijų terminas, bet čia turima galvoje tik komunikacinę balso funkciją angliško žodžio “speech” prasme (yra ir kitos labai svarbios sritys apibūdinamos žodžiais “language”, “text”, “music” ir pan.).

Be kitų priežasčių kalbos signalų mokslo ir technologijų vystymas Lietuvoje pageidautinas ir dėl to, kad yra eilė neatidėliotinų praktinio panaudojimo sričių, kur galima išnaudoti bei stiprinti esamą mokslinį potencialą, o kalbos signalų technologijų įsigijimas (kaip ir eksploatavimo įsisavinimas) yra brangus, be to svarbus yra ir konkrečios kalbos mokėjimo faktorius.

Praktines balso technologijų taikymo sritys .

• Kalbinis dialogas su kompiuteriu.

• Balso įrašų stenografavimas.

• Ilgų pokalbių apdorojimo priemonės.

• Balsinė Interneto naršyklė.

• Balsas namų automatikoje ( home – automatic ).

• Automatinis lietuviško teksto skaitymas balsu.

• Lietuviško teksto iš interneto skaitymas balsu.

• Balso atsakymų mašina telekominėse paslaugose.

• Asmens atpažinimas pagal jo balsą.

4.1. Balso technologijų panaudojimas neįgaliesiems

„Daugelis programinės įrangos gamintojų nekreipia dėmesio į tai, kad su jų produktais neįmanoma tinkamai suderinti, pvz., teksto skaitymo balsu programų– „Programos suderinamumas su skaitymo balsu priemonėmis reiškia, kad programą galės naudoti daugiau vartotojų.“ Dažnai tokiam suderinimui nereikia itin didelių pastangų: nedidelių pakeitimų pakanka tam, kad programinė įranga dirbtų su neįgaliesiems vartotojams skirtomis priemonėmis.

Internetas suteikia prieigą neįgaliesiems prie informacijos pasaulio. Tokios technologijos, kaip sensoriniai ekranai ir balso programinė įranga padeda žmonėms lengviau gauti informaciją, kurios jie seniau taip lengvai negalėdavo rasti. Tiesa, technologijos turi ir kitą pusę: žmogui, turinčiam regos sutrikimų, gali būti sunku orientuotis svetainėse, prisotintose daugialypės terpės priemonių.

Taigi viena iš perspektyviausių balso technologijų panaudojimo sričių – įvairūs neįgaliems žmonėms skirti taikymai (akliems ir silpnaregiams, nevaikščiojantiems arba turintiems ribotas judėjimo galimybes). Balso technologijų panaudojimas dažnai yra esminis arba net vienintelis tokių žmonių integravimo į visuomenę būdas. Skiriamos dvi didelės balso technologijų taikymo neįgaliesiems grupės:

 Į informacijos valdymą ar pateikimą balsu orientuoti taikymai;

 Neįgaliesiems skirti specializuoti techniniai įrenginiai su integruotomis balso technologijų komponentėmis.

Pirmai taikymų kategorijai priklauso tokie taikymai kaip kompiuterio valdymas balsu, informacijos iš Interneto ar kitų tekstinių informacijos šaltinių perskaitymas balsu ir pan. Antrai taikymų kategorijai priskiriami tie taikymai, kai į specialius neįgaliems žmonėms skirtus įrenginius integruojamos balso technologijų komponentės (pvz., žmonėms su riboto judėjimo galimybėmis skirti ir balsu valdomi vežimėliai).

Neįgaliesiems orientuoti taikymai iš esmės remiasi tais pačiais kalbos apdorojimo technologijų pasiekimais: kalbos atpažinimu, kalbos sinteze ir kartais asmens atpažinimu. Tačiau neįgalūs žmonės dažnai neturi alternatyvios galimybės valdyti įrenginį ar gauti informaciją kitaip negu balsu. Todėl tokiems žmonėms priimtinas žemesnis balso technologijų lygis negu eiliniam vartotojui, t.y didesnis kalbos atpažinimo modelio daromas klaidų skaičius, prastesnis sintetinės kalbos kokybės lygis. Kita neįgaliesiems skirtų taikymų ypatybė tai, kad jų panaudojimu rūpinasi ne tiek patys jų vartotojui (šiuo atveju neįgalūs žmonės), bet valstybinės socialinės rūpybos tarnybos, turtingose šalyse labdaros organizacijos ir pan.

4.2. Balso technologijų panaudojimo neįgaliems pavyzdžiai

Žinoma, kad įvairiose pasaulio šalyse gana aktyviai stengiamasi neįgaliuosius aprūpinti įvairiais įtaisais, kuriuose panaudotos kalbos signalų panaudojimo technologijos. Tačiau, kadangi technologijos, naudojamos tokiuose įtaisuose, remiasi bendrais kalbos technologijų pasiekimais, specialiojoje mokslinėje literatūroje balso technologijų taikymo neįgaliesiems problemos nagrinėjamos gana retai. Čia pateiksime kelis balso technologijų panaudojimo neįgaliųjų integracijai į visuomenę pavyzdžius iš kelių Europos valstybių.

Pažymėtina, kad panaudoti kalbos apdorojimo technologijas tokio pobūdžio taikymams stengiamasi ne tik išsivysčiusiose Vakarų Europos ir Šiaurės Amerikos šalyse, bet ir Vidurio bei Centrinės Europos šalyse. Slovėnijoje sukurta akliesiems ir silpnaregiams skirta informacinė sistema, skirta supažindinti su tos šalies žiniasklaidoje spausdinamais straipsniais. Sistema integruoja kalbos atpažinimo ir slovėnų kalbos sintezės elementus. Vertinant įdiegtų balso technologijų kokybę reikia pasakyti, kad sintezuojama kalba yra gana gerai suprantama, tačiau nenatūrali ir eiliniam vartotojui būtų nelabai priimtina, tačiau aklieji ar silpnaregiai ja naudojasi noriai. Tarp kitų šio regiono šalių panašaus pobūdžio sistemos kuriamos Lenkijoje, Čekijoje, Vengrijoje.

Šiuo metu Jūs matote 50% šio straipsnio.
Matomi 4351 žodžiai iš 8647 žodžių.
Siųskite sms numeriu 1337 su tekstu INFO MEDIA (kaina 1,45 €) ir įveskite gautą kodą į laukelį žemiau:
Kodas suteikia galimybę atrakinti iki 100 straispnių svetainėje ir galioja 24 val.