Neuroniniai tinklai - mediapro.lt

Mokomieji neuroniniai tinklai su papildomais triukšmais atitinkamame signale

Įžanga.

Sunkiai sprendžiamos dvi pagrindinės problemos susijusios su atgaliniu (backpropagation) mokymu – tai sudėtingos problemos ir Local minimum entrapment. Pirmos problemos sprendimui buvo pasiūlyti tokie būdai, kaip greitas mokymas (propaganda) (quickprop) , momentinis mokymas ir t.t. [Fahlman,1988; Hinton, 1989]; antroji problema yra svarbesnė, kadangi ji susijusi su gradiento įverčio prigimtimi. Local minimum entrapment gali būti sprendžiamas modeliuojant (annealing) arba susijusius metodus, apimančius Langevin’o algoritmą ir sklaidos (diffusion) optimizavimo metodą [Rognvaldsson, 1994; Krogh and Hertz,1992; Szu, 1986; Kushner, 1987]. Šių metodų bendra prasmė – kintamo valdymo triukšmų periodo įvedimas į kiekvieną svorinį vektorių ( the injection of a noise term of controlled variance into each weight vector.) Šie metodai turi labai lėtą konvergavimą, bet teoriškai jie gali įveikti vietinį minimumą (local minima.) Kitas trūkumas yra tas, kad vienas turi valdyti daugybę vidinių kintamųjų (kiekvienam svoriui nustatyti triukšmo periodus), kas nėra labai efektyvu. Arba apibrėžti tik išorinius kintamuosius – tokius kaip įėjimo signalas (input), norimas signalas ir žingsnio dydis. Iš pragmatiškos požiūrio pusės labai pageidaujami būtų taip vadinami on-line (tiesioginiai) algoritmai, t.y. algoritmai, kur atskiram pavyzdžiui svoriai kaskart būtų atnaujinami. Bet žvelgiant iš (annealing) modeliavimo pusės į stochastinę on-line atnaujinimo metodų prigimtį , jų realizavimas nebūtų efektyvus. Dėl šių priežasčių bus bandoma atlikti tokį eksperimentą: pridėti triukšmus prie norimo signalo ir eksperimentiškai ištirti tokios procedūros privalumus.

Triukšmas taip pat buvo naudojamas gradiento perdavimo (descent) procedūrose. Holmstrom išanalizavo statinio BP algoritmo [Holmstrom and Koistinen, 1992] apibendrinimo galimybę, kuomet atsitiktinis triukšmas įvedamas į išorinius signalus. Šie bandymai parodė, kad apibendrinimas gali būti pagerintas naudojant bandomuosiusose (training) duomenyse papildomus triukšmus. Matsuoka pademonstravo, kad ir triukšmo įvedimas į vieną įėjimo signalą gali pagerinti apibendrinimą (generalization) [Matsuoka, 1992]. Abu autoriai susikoncentravo tik ties tinklo apibendrinimo galimybe, tačiau jie nenagrinėjo triukšmų poveikio mokymosi greičiui ir išėjimo iš local minima galimybės.

II Mokymosi su papildomais triukšmais atitinkamame signale analizė

II.1 Klasikinis stebimas mokymasis

Šioje dalyje kaip mokymosi sistemos prototipas yra naudojamas daugiasluoksnis perceptronas (perceptron) (MLP) su dviem lygiais. Tačiau išvados gali būti atvaizduojamos atsikartojančiose topologijose. Šiame tinkle, xk aprašo iėjimo vektoriaus vieną elementą; yi yra išėjimo lygio i-tasis išėjimas; Wij nusako svorius tarp paslėpto ir išėjimo sluoksnių; Vjk yra svoris tarp įėjimo ir paslėpto sluoksnio; ir Pj nusako paslėpto sluoksnio aktyvavimą. Pateiktas čia apmokymo algoritmas – tai atgalinio mokymo (backpropagation) (BP) algoritmas [Rumelhart et al, 1986].

Tegul di(t) žymi kelis norimus išėjimo neurono i laiko momentu t atsakymus, kur t yra diskretaus laiko indeksas. Galima apibrėžti klaidos signalą, kaip skirtumą tarp norimo atsakymo di(t) ir turimo atsakymo yi(t). Tai nusakomo (1) formulė:

Pagrindinis mokymosi tikslas yra minimizuoti kainos funkciją, kurią nusako klaidos signalas ei(t), taip, kad turimas kiekvieno išėjimo neurono atsakymas tinkle statistikine prasme artėtų prie norimo atsakymo. Kriterijus naudojamas kainos funkcijai yra Vidurkio-Kvadrato-Klaidos (Mean-Square-Error) (MSE) kriterijus, apibrėžiamas kaip klaidos kvadrato sumos vidurkio-kvadrato reikšmė [Haykin, 1994]:

Kur E yra statistikinis tikimybės operatorius ir sumuojami visi išėjimo sluoksnio neuronai (i=1,…,M). Kainos funkcijos J minimizavimas atsižvelgiant į tinklo parametrus lengvai g.b. formuluojamas gradiento mažinimo (gradient descent) metodu. Šios optimizavimo procedūros problema yra ta, kad jai reikia žinių apie neapibrėžtų procesų, generuojančių pavyzdžius, statistikines charakteristikas. Praktiškai tai gali būti apeita, optimizavimo problemai surandant artimą sprendinį. Klaidos kvadratų sumos momentinė reikšmė (Instantaneous value of the sum of Squared Errors) (ISE) yra pasirinkimo kriterijus [Haykin, 1994]:

Po to tinklo parametrai (svoriai) yra pritaikomi ε(t). Faktiškai ši procedūra vadovaujasi taip vadinamu LMS algoritmu, kuomet svoriai yra atnaujinami kartu su kiekvienu pavyzdžiu [Widrow and Hoff, 1960].

II.1 Mokymasis su norimu triukšmingu signalu

Vietoj to, kad svorių pritaikymui naudoti norimą signalą di(t), kaip norimas signalas išėjimo neuronui i imamas naujas signalas di(t)+ ni(t), kur ni(t) yra triukšmo periodas. Šiam triukšmo periodui priskiriamas nulinės reišmės baltas triukšmas su σ2 pokyčiu (variance) , nepriklausančiu nei nuo įėjimo signalo xk(t) nei nuo norimų signalų di(t). Neapibrėžtas triukšmo perdavimas yra priskiriamas Gauso ar vienarūšiam perdavimui.

Čia norima įrodyti, kad šis naujas norimas signalas neįtakoja galutinės svorių reikšmės statistikine prasme. Tai užtikrina, kad nauja savybė sprendžia originalią optimizavimo problemą. Turint naujus norimus signalus, MSE
(4) lygties gali būti perrašyta taip:

Nėra sunku įrodyti [Richard and Lippmann 1991; White, 1989; Haykin, 1994], kad (4) lygtis yra lygi

Kur ‘|’ simbolis žymi sąlygines galimybes (probabilities), ir ‘var’ yra kitimų (variance) sutrumpinimas.

Pastebėkite, kad antras periodas dešinėje (5) lygties pusėje prisidės prie bendros klaidos J ir koks ir bebūtų mokymosi progresas, jis neįtakos galutinės svorių reikšmės, kadangi jis nėra tinklo svorių funkcija. Optimali svorių reikšmė yra apsprendžiama tiktai pirmo (5) lygties periodo. Kuomet triukšmas yra nulinės reikšmės baltas triukšmas ir jis nepriklauso nei nuo norimo, nei nuo įėjimo signalų, mes turime

(6) lygtis rodo, kad triukšmas iš lygties, kuri apibrėš galutines svorių reikšmes, dingsta, taigi mokymassi su norimo triukšmo signalu duos rezultatų, originalios optimizavimo problemos sprendimo prasme, t.y. be triukšmo pridėjimo prie norimo signalo. (learning with the noisy desired signal will yield in the mean the solution for the originaloptimization problem, i.e., without the noise added to the desired signal.) Reiktų konstatuoti, kad ši išvada galioja visoms architektūrų rūšims.Atlikimo funkcijai apibrėžti reikalingi tik išoriniai matavimai (MSE), ir tai nėra susiję nei su topologija nei su kainos funkcijos apibrėžimo būdu (statiniu ar kintamu). Nors šis sprendimas yra patenkinamas, reikia prisiminti, kad mus domina on-line algoritmas, kur yra mokymosi dinamika, t.y. kaip mokymosi progresas yra veikiamas triukšmų.

II.3 On-line algoritmas mokymuisi veikiant norimam triukšmingam signalui

Reiktų pažymėti, kad atliekamos, modifikacijos, jokiais būdais neveikia atgalinio mokymosi algoritmo realizacijos, kadangi yra modifikuojamas tik signalas, kuris yra įvedamas kaip norimas rezultatas. Taigi, siūlomos modifikacijos gali būti taikomos dar neegzistuojančioms modeliavimo sistemoms. Svarbi problema, kaip modeliavimo metu valdyti triukšmų kaitą (variance). Dėl to tolimesniame skyriuje bus apžvelgiama tiukšmų įtaka momentiniam gradientui.

Šiuo metu Jūs matote 31% šio straipsnio.

Matomi 1062 žodžiai iš 3461 žodžių.

Panašūs įrašai