Jordan- und Elman und Elman und Elman

JordanElman--Netze
Jordan- und Elman
Partiell rekurrente Netze
Von Frank Deicke
1
Inhalt
•Feedforward-Netze
•Jordan-Netze
•Elman-Netze
•Lernverfahren
•Anwendungen
•Beispiel
2
FeedforwardFeedforward-Netze
Ausgebzellen
Verdeckte
Zellen
Eingabezellen
Problem:
•Aktueller Ausgabe ist nur von aktueller Eingabe abhängig
Forderung für zeitabhängige Algorithmen:
•aktuelle Ausgabe hängt von aktueller, vorheriger,
(nachfolgender) Eingabe ab
3
Realisierungsmöglichkeiten
1. Zeitfensterung
•Umwandlung einer zeitlichen Eingabesequenz in ein
räumliches Eingabemuster
•Das Fenster wird für jedes Muster um eine Position
verschoben
•Sogenannte „Time Delay“ Netze
e(t)
D
D
e(t)
...
e(t-D)
e(t-2D)
D
e(t-nD)
Feedforward Netz
4
Realisierungsmöglichkeiten
2. Partiell rekurrente Netze
•Netz enthält verdeckte Zellen (Kontextzellen), welche
Speichermechanismus realisieren
•Eingabe der verdeckten Schicht wird realisiert durch
Eingabezellen und gewichteten Inhalt der Kontextzellen
•Jordan- und Elman-Netze sind einfache rekurrente
Netzstrukturen
5
Realisierungsmöglichkeiten
3. Kombination beider Varianten
6
JordanJordan-Netze
Ausgebzellen
Verdeckte
Zellen
Eingabezellen
Eigenschaften:
Eigenschaften
Kontextzellen
λ
λ
• Netzeingabe für verdeckte Zellen sind Eingabezellen und
Kontextzellen
• Ausgabezellen sind Eingabe der Kontextzellen (Gewicht der
Verbindungen ist 1)
•Kontextzellen mit direkter Rückkopplung mit Stärke λ
λ steuert Erinnerungsvermögen 0≤ λ ≤1,
Kleines λ: Netz vergisst rasch, Netz reagiert schnell auf Veränderungen
Großes λ: Einfluss älterer Ausgabewerte wichtiger, Netz reagiert langsam auf
Änderungen
7
•Anzahl der Kontextzellen und Ausgabezellen ist gleich
•Aktivierungsfunktion der Kontextzellen: Identität
Z(t) = Z0 für t=1
Z(t) = λZ(t-1) + Y(t-1) für t>1
für Z0 = 0
Z(t) = Σ(λn-1Y(t-n),n,1,t-1)
•Automatentheorie anwendbar:
Y(t) = F(Z(t),X(t))
Z(t+1) = G(Z(t),X(t))
mit
X(t) : Eingabevektor
Y(t) : Ausgabevektor
Z(t) : Zustandsvektor
•Verbindungen im Vorwärtszweig des Netzes sind trainierbar
8
Nachteil:
•λ muss vor Anwendung eines Lernverfahren definiert werden.
•λ legt Flexibilität des Netzes fest
•Kontextzellen speichern nur Netzausgabe, aber nicht internen
Netzzustand der verdeckten Schichten
9
ElmanElman-Netze
Ausgebzellen
Verdeckte
Zellen
Eingabezellen
Kontextzellen
Eigenschaften:
Eigenschaften
• Eingabe für verdeckte Zellen sind Eingabezellen und
Kontextzellen
• Verdeckte Zellen sind Eingabe der Kontextzellen (Gewicht der
Verbindungen ist 1)
• Kontextzellen enthalten letzen Zustand der verdeckten Schicht
• Anzahl der Kontextzellen und der verdeckten Zellen ist gleich
• Aktivierungsfunktion der Kontextzellen: Identität
• Verbindungen im Vorwärtszweig des Netzes sind trainierbar
10
Hierarchische
ElmanElman-Netze
Ausgebzellen
Kontextzellen
λ3
λ3
Verdeckte
Zellen
Kontextzellen
λ2
λ2
λ2
Verdeckte
Zellen
Eingabezellen
Kontextzellen
λ1
λ1
λ1
11
Eigenschaften:
Eigenschaften
•Kontextschicht für jede verdeckte Schicht und die
Ausgabeschicht
•Kontextzellen in Schicht i mit direkter Rückkopplung mit Stärke
λi
λi steuert Erinnerungsvermögen der einzelnen Schichten (0≤ λi ≤1 )
•Aktivierungsfunktion der Kontextzellen: Identität
•Verbindungen im Vorwärtszweig des Netzes sind trainierbar
12
Lernverfahren partiell rekurrenter Netze
• Anwendung leicht modifizierter Formen des Backpropagation
(SuperSAB, Quickprop, Rprop)
Hintergrund:
• Gewichte der rekurrenten Verbindungen werden vor der
Trainingsphase festgelegt
→ Netz reduziert sich auf reines „Feedforward“-Netz, wobei
Kontextzellen zusätzliche Eingabezellen darstellen
→ Zustandsvektor der Kontextzellen wird in jedem Schritt aus
fester Übergangsfunktion gebildet
13
Kern des BackpropagationBackpropagation-Algorithmus:
1.
Initialisierung der Kontextzellen
2.
Für jedes Trainingsmuster:
Anlegen des Eingabemusters, Vorwärtspropagierung
Rückwärtspropagierung des Fehlersignals
Berechnung der Gewichtsänderung, Adaption der
Gewichte
Berechnung des Folgezustandes der Kontextzellen (nur
hier werden rekurrente Verbindungen beachtet)
14
Anwendungen partiell rekurrenter Netze
• Simulation von sich zeitlich entwickelnden Systemen
• Analyse von Frequenz- und Amplitudenspektren
(Spracherkennung, Sprachsynthese, Filteralgorithmen)
• Worterkennung (Wortsegmentierung)
• Chemie, Biologie
• Fahrzeugelektronik (Reaktionen auf Kontrollsignale)
15
Beispiel
• Prognose der Figur einer „Liegende Acht“ (Elman Netz)
16
• Das verwendete Netz:
17
• Training mit verschiedenen Lernverfahren:
Standard Backpropagation
Quickprop
Summe der quadratischen Abweichungen über Lernzyklen
SuperSAB
Rprop
18
Literatur
• Zell: Simulation neuronaler Netze, 1997
• www.informatik.uni-osnabrück.de: Skript „Neuronale Netze“
• SNNS User Manual, Version 4.2
19