JordanElman--Netze Jordan- und Elman Partiell rekurrente Netze Von Frank Deicke 1 Inhalt •Feedforward-Netze •Jordan-Netze •Elman-Netze •Lernverfahren •Anwendungen •Beispiel 2 FeedforwardFeedforward-Netze Ausgebzellen Verdeckte Zellen Eingabezellen Problem: •Aktueller Ausgabe ist nur von aktueller Eingabe abhängig Forderung für zeitabhängige Algorithmen: •aktuelle Ausgabe hängt von aktueller, vorheriger, (nachfolgender) Eingabe ab 3 Realisierungsmöglichkeiten 1. Zeitfensterung •Umwandlung einer zeitlichen Eingabesequenz in ein räumliches Eingabemuster •Das Fenster wird für jedes Muster um eine Position verschoben •Sogenannte „Time Delay“ Netze e(t) D D e(t) ... e(t-D) e(t-2D) D e(t-nD) Feedforward Netz 4 Realisierungsmöglichkeiten 2. Partiell rekurrente Netze •Netz enthält verdeckte Zellen (Kontextzellen), welche Speichermechanismus realisieren •Eingabe der verdeckten Schicht wird realisiert durch Eingabezellen und gewichteten Inhalt der Kontextzellen •Jordan- und Elman-Netze sind einfache rekurrente Netzstrukturen 5 Realisierungsmöglichkeiten 3. Kombination beider Varianten 6 JordanJordan-Netze Ausgebzellen Verdeckte Zellen Eingabezellen Eigenschaften: Eigenschaften Kontextzellen λ λ • Netzeingabe für verdeckte Zellen sind Eingabezellen und Kontextzellen • Ausgabezellen sind Eingabe der Kontextzellen (Gewicht der Verbindungen ist 1) •Kontextzellen mit direkter Rückkopplung mit Stärke λ λ steuert Erinnerungsvermögen 0≤ λ ≤1, Kleines λ: Netz vergisst rasch, Netz reagiert schnell auf Veränderungen Großes λ: Einfluss älterer Ausgabewerte wichtiger, Netz reagiert langsam auf Änderungen 7 •Anzahl der Kontextzellen und Ausgabezellen ist gleich •Aktivierungsfunktion der Kontextzellen: Identität Z(t) = Z0 für t=1 Z(t) = λZ(t-1) + Y(t-1) für t>1 für Z0 = 0 Z(t) = Σ(λn-1Y(t-n),n,1,t-1) •Automatentheorie anwendbar: Y(t) = F(Z(t),X(t)) Z(t+1) = G(Z(t),X(t)) mit X(t) : Eingabevektor Y(t) : Ausgabevektor Z(t) : Zustandsvektor •Verbindungen im Vorwärtszweig des Netzes sind trainierbar 8 Nachteil: •λ muss vor Anwendung eines Lernverfahren definiert werden. •λ legt Flexibilität des Netzes fest •Kontextzellen speichern nur Netzausgabe, aber nicht internen Netzzustand der verdeckten Schichten 9 ElmanElman-Netze Ausgebzellen Verdeckte Zellen Eingabezellen Kontextzellen Eigenschaften: Eigenschaften • Eingabe für verdeckte Zellen sind Eingabezellen und Kontextzellen • Verdeckte Zellen sind Eingabe der Kontextzellen (Gewicht der Verbindungen ist 1) • Kontextzellen enthalten letzen Zustand der verdeckten Schicht • Anzahl der Kontextzellen und der verdeckten Zellen ist gleich • Aktivierungsfunktion der Kontextzellen: Identität • Verbindungen im Vorwärtszweig des Netzes sind trainierbar 10 Hierarchische ElmanElman-Netze Ausgebzellen Kontextzellen λ3 λ3 Verdeckte Zellen Kontextzellen λ2 λ2 λ2 Verdeckte Zellen Eingabezellen Kontextzellen λ1 λ1 λ1 11 Eigenschaften: Eigenschaften •Kontextschicht für jede verdeckte Schicht und die Ausgabeschicht •Kontextzellen in Schicht i mit direkter Rückkopplung mit Stärke λi λi steuert Erinnerungsvermögen der einzelnen Schichten (0≤ λi ≤1 ) •Aktivierungsfunktion der Kontextzellen: Identität •Verbindungen im Vorwärtszweig des Netzes sind trainierbar 12 Lernverfahren partiell rekurrenter Netze • Anwendung leicht modifizierter Formen des Backpropagation (SuperSAB, Quickprop, Rprop) Hintergrund: • Gewichte der rekurrenten Verbindungen werden vor der Trainingsphase festgelegt → Netz reduziert sich auf reines „Feedforward“-Netz, wobei Kontextzellen zusätzliche Eingabezellen darstellen → Zustandsvektor der Kontextzellen wird in jedem Schritt aus fester Übergangsfunktion gebildet 13 Kern des BackpropagationBackpropagation-Algorithmus: 1. Initialisierung der Kontextzellen 2. Für jedes Trainingsmuster: Anlegen des Eingabemusters, Vorwärtspropagierung Rückwärtspropagierung des Fehlersignals Berechnung der Gewichtsänderung, Adaption der Gewichte Berechnung des Folgezustandes der Kontextzellen (nur hier werden rekurrente Verbindungen beachtet) 14 Anwendungen partiell rekurrenter Netze • Simulation von sich zeitlich entwickelnden Systemen • Analyse von Frequenz- und Amplitudenspektren (Spracherkennung, Sprachsynthese, Filteralgorithmen) • Worterkennung (Wortsegmentierung) • Chemie, Biologie • Fahrzeugelektronik (Reaktionen auf Kontrollsignale) 15 Beispiel • Prognose der Figur einer „Liegende Acht“ (Elman Netz) 16 • Das verwendete Netz: 17 • Training mit verschiedenen Lernverfahren: Standard Backpropagation Quickprop Summe der quadratischen Abweichungen über Lernzyklen SuperSAB Rprop 18 Literatur • Zell: Simulation neuronaler Netze, 1997 • www.informatik.uni-osnabrück.de: Skript „Neuronale Netze“ • SNNS User Manual, Version 4.2 19
© Copyright 2025 ExpyDoc