PDF, 542 kB

Kalveram, K. Th. (1998) Wie das Individuum mit seiner Umwelt interagiert. Psychologische, biologische und
kybernetische Betrachtungen über die Funktion von Verhalten. Lengerich, Pabst [Kap.4: Motorischer Apparat
(S.165-249)]
4 Motorischer Apparat
4.1 Bewegungen und ihre Kontrolle
Unter Motorik kann der Einsatz von Muskelkraft verstanden werden, unter Sensumotorik die Wechselwirkung
zwischen Sensorik und Motorik während des Einsatzes von Muskelkraft. Dieses ist eine sehr allgemeine
Feststellung, die ehe verschleiert als offenlegt, welch grandiose Leistung Mensch und Tier vollbringen, wenn sie
sich geordnet bewegen. Richtig sich bewegen können bedeutet, die Physik des eigenen Körpers und der Umwelt
genau zu kennen, zu beherrschen und so einzusetzen, daß gewünschte Wirkungen herbeigeführt werden und
Unerwünschtem ausgewichen wird. Wie dies im einzelnen geschieht, ist dem bewußten Erleben, also der
Selbstbeobachtung, weitgehend verschlossen. Man kann vermuten, daß viele von den für die neuronale Kontrolle
erforderlichen informationsverarbeitenden Prozessen so kompliziert sind, daß sie die Kapazität des Cortex bei
weitem übersteigen und daher an autonom arbeitende Untereinheiten wie Rückenmark, Basalganglien und
Kleinhirn übertragen werden. Es ist jedoch nicht die Aufgabe dieses Kapitels, über die anatomischen Orte zu
spekulieren, an denen solche Berechnungen stattfinden. Vielmehr soll eine funktionale Analyse angestellt
werden, aus der die zu erbringenden Kontrollaufgaben zu erkennen sind; denn es kann angenommen werden, daß
motorische Kontrolle nur verstanden werden kann, wenn die Physik von Körper und manipulierter Umwelt
verstanden ist. Das "funktionelle System" der Sensumotorik ist eine Ganzheit "und nicht, wie man häufig
annimmt, letzten Endes nur ein Gebilde des Zentralnervensystems" (Anochin 1967 S.13).
4.1.1 Einteilung nach funktionalen Gesichtspunkten
Motorische Aktivität dient offenkundig unterschiedlichen Aufgaben: Werkzeug-Algorithmen etwa realisieren
'selbstgestellte' perzeptive Ziele, z.B. im Rahmen der Handhabung von Arbeitsgeräten oder sonstiger
Verrichtungen. Halte-Algorithmen sind dadurch gekennzeichnet, daß sie sensorische oder perzeptive Istwerte
entgegen einer ständig von außen einwirkenden Kraft, etwa der Schwerkraft, auf intern vorgegebenen Niveaus
halten, was beispielsweise zum Aufrechterhalten einer bestimmten Körperstellung erforderlich ist.
Kompensations-Algorithmen dienen dazu, Abweichungen von sensorischen Vorgaben angesichts bevorstehender,
aber vorhersehbarer, störender Einwirkungen garnicht erst eintreten zu lassen. Die Lokomotorik ermöglicht einen
Ortswechsel, die Signal-Motorik steht im Dienst der Kommunikation mit Artgenossen durch Mimik und Gestik,
die Artikulationsmotorik ermöglicht verbale Kommunikation, die Ortungs- und Explorationsmotorik dient der
Wahrnehmung (z.B. Augen- und Ohrenbewegungen bei Orientierungsreaktionen, seitliche Kopfbewegungen zur
Parallaxen-Erzeugung, Artikulatorbewegungen zur Echo-Ortung, Tast- oder Testbewegungen zur Festellung von
Form oder Gewicht eines Gegenstandes). Daneben gibt es noch andere motorische Aktivitäten, z.B. solche, die
für Transportvorgänge im gastro-intestinalen oder kardiovaskulären System zuständig sind. Es ist dies jedoch
keine überschneidungsfreie Systematik; eine beobachtete Bewegung kann mehrere dieser Zwecke verfolgen. Z.B.
sind bei einem Ortwechsel sehr wohl Zielvorstellungen über den anzustrebenen neuen Ort vorhanden, während
Haltealgorithmen angesichts der Schwerkraft die Lokomotion erst ermöglichen und Kompensationsalgorithmen
für die Planung der Trajektorie, die zum Ziel führt, angewendet werden.
Der Akzent liegt in diesem Kapitel auf der 'Werkzeug-Motorik', welche die Realisierung von 'selbstgestellten'
sensorischen Zielen durch efferente Aktivität zu besorgen hat. Aufgaben dieser Art seien dem nun zu
behandelnden motorischen Apparat zugeschrieben. Die Ziele selbst werden vom taktischen Apparat, auf den im
nächsten Kapitel näher eingegangen wird, bereitgestellt und gehen letztendlich auf den vom evaluativvolitionalen Apparat ausgegebenen globalen perzeptiven Sollwert (PZ-Soll) zurück.
4.1.2
Einteilung nach phänomenologischen Gesichtspunkten
Neben der oben erwähnten aufgabenbezogenen Einteilung kann auch die Phänomenologie zur Klassifizierung
motorischer Abläufe beitragen. So können Bewegungen nach Beobachtungen der Verhaltensbiologen (vgl. hierzu
etwa Lorenz 1939, 1966; Eibl-Eibesfeld 1987) z.B. eingeteilt werden in
1. Automatismen (fixed action patterns)
2. Taxien
1
3. Appetenzverhalten.
4.1.2.1 Automatismen
Automatismen werden als stereotyp und automatisch ablaufende Bewegungen beschrieben, die weder von
sensorischen Meldungen noch vom Erfolg her gesteuert werden. Sie werden von spezifischen sensorischen
Konstellationen (den Schlüsselreizen) lediglich ausgelöst (getriggert), können aber nach erfolgter Triggerung
unter Beibehaltung der relativen Form mit verschiedenenen Amplituden und verschiedenen Geschwindigkeiten
ablaufen. Automatismen können erworben oder angeboren sein. In letzterem Fall werden sie auch als
'Erbkoordinationen' bezeichnet.
Regeltechnisch gesehen kann man einen Automatismus demnach auf einen vorprogrammierten Funktionsgeber
zurückführen, welcher auf ein Startsignal hin, bzw. auf die Wegnahme einer Hemmung, ein bestimmtes zeitlich
erstrecktes efferentes Muster ausgibt. Von daher betrachtet legen Automatismen den Ablauf von Bewegungen
bereits vor Bewegungsbeginn fest.
4.1.2.2 Taxien
Taxien werden als orientierende Einzelbewegungen oder Richtwendungen beschrieben. Sie führen bei einem
quantifizierten sensorischen Signal zu einer entsprechend quantitativ abgestuften motorischen Antwort, z.B. zu
einer (ungefähren) räumlichen Ausrichtung der Körperlängsachse des Tieres auf ein sensorisch geortetes
Beutetier. Systemtheoretisch sind Taxien also als Steuerglieder aufzufassen, welche als offene Wirkungsketten
und nicht als Regelkreise arbeiten. Solche Systeme "reagieren" auf eine Änderung ihrer Eingangsgröße mit einer
davon festgelegten Änderung der Ausgangsgröße. Es erfolgt jedoch auf dieser Betrachtungsebene noch keine
Erfolgskontrolle, d.h ein Vergleich des Ausgangsignals mit einem intern (neuronal) repräsentierten Sollwert
(Ziel) zum Zwecke der Korrektur eines eventuell gegebenen Fehlers findet nicht statt.
4.1.2.3 Appetenzverhalten
Appetenzverhalten schließlich wird als ein spezifisches Suchverhalten nach der sensorischen Konstellation,
welche einen bestimmten Automatismus oder eine Erbkoordination auslöst, gekennzeichnet. Es ist variabel und
anpassungsfähig und versetzt das Tier z.B. in die Lage, Umwege zu meistern, die zwischen ihm und dem
angestrebten Ziel liegen, oder mehr oder weniger systematische Einflüsse auszugleichen, welche die
Zielgenauigkeit ansonsten beeinträchtigen würden. Solches Verhalten läuft also offensichtlich im Rahmen von
Regelkreisen ab, in denen z.B. ein Schlüsselreiz mitsamt der ihn einbettenden Situation als ein sensorischer
Sollwert (Ziel) intern vorgegeben ist und die Handlungsfolge darauf gerichtet ist, den sensorischen Istwert an den
sensorischen Sollwert anzunähern und die Abweichungen möglichst klein zu halten. In diesem Sinne handelt es
sich beim Appetenzverhalten um zielgerichtetes Bewegen im eigentlichen Sinne.
Zielgerichtetes Bewegen setzt die Fähigkeit zu erfolgsgesteuertem Lernen voraus. Hierbei werden
motorische Aktionen hinsichtlich intern repräsentierter Kriterien optimiert. Außer der Verbesserung der
Zielgenauigkeit kommen als Optimierungskriterien z.B. die Verringerung des organismischen Kraft- bzw.
Energieaufwands oder die Verminderung des Kontrollaufwands in Betracht. Wegen der internen Repräsentation
dieser Kriterien werden solche Lernvorgänge zuweilen auch unter der Bezeichnung ‘Selbstoptimierung’
zusammengefaßt.
Inzwischen wurden zentrale Mustergeneratoren (central pattern generators) als neurophysiologische Substrate
von Automatismen mehrfach nachgewiesen oder glaubhaft gemacht (v. Holst 1938; Grillner 1975, Miller &
Selverstone 1985, Collins & Stuart 1993, Cruse 1990). Taxiserzeugende neuronale Verschaltungen, oft auch als
Reflexbögen bezeichnet, wurden ebenfalls verschiedentlich aufgeklärt. Der Faktor, welcher die Stärke des
sensorischen Reizes mit der Amplitude der reflektorischen motorischen Reaktion verknüpft, wird meist als
Verstärkung (gain) des Reflexes bezeichnet. Appetenzverhalten wurde in einer Reihe von Kontexten untersucht,
z.B. als 'sensumotorisches Lernen', wenn Re-Adaptionsvorgänge bei künstlich verändertem Zusammenhang
zwischen motorischen Aktionen und visueller Rückmeldung im Vordergrund des Interesses standen, oder als
instrumentelles (operantes) Konditionieren, wenn es um die Auswahl geeigneter Verhaltensweisen unter
vorgegebenen äußeren Bedingungen ging.
4.1.2.4 Motorischer Algorithmus oder motorisches Programm?
Hinsichtlich der Natur der den Bewegungen unterliegenden Kontrollprozesse wurden gelegentlich extreme
2
Positionen vertreten (zusammenfassend: Heuer 1983 S. 12-13): Vor allem ältere Auffassungen betrachteten
Bewegungen und Bewegungsfolgen im Grunde nur im Rahmen von Reflexen und Reflexketten, wobei der
Gesichtspunkt der Steuerkette (also der Taxis im obigen Sinne) überbetont wurde. Andere Autoren führten eine
Bewegung allein auf ein motorisches Programm zurück, worunter man eine Folge von motorischen Kommandos
verstand, welche, vor Bewegungsbeginn bereitgestellt, den Ablauf der Bewegung ohne periphere
(Rück=)Meldungen steuern (Keele 1968), eine Definition, die in dieser strengen Form ersichtlich nur auf den
Automatismus zutrifft. Schließlich wurden Bewegungen einseitig unter dem Aspekt der Zielgerichtetheit bzw.
Regelung (also im Rahmen funktional appetenter Handlungen) gesehen und z.B. im Rahmen von
Prismenexperimenten komplexe Anpassungs- und Lernvorgänge im motorischen Apparat untersucht (Held &
Hein 1963, Kohler 1964, 1966).
Tatsächlich dürften bei den meisten Bewegungsvorgängen sowohl vorprogrammierte (automatische) als
auch gesteuerte (taxische) und geregelte (appetente) Elemente gleichzeitig auftreten bzw. ineinander verflochten
sein. Lorenz & Tinbergen (1939) beschreiben z.B., wie bei der Ei-Roll-Bewegung Erbkoordination, Taxis und
Appetenzverhalten zusammen (verschränkt) vorkommen. Auch wenn phänomenales Appetenzverhalten im
Vordergrund des Interesses steht, wird man mit Sicherheit auch auf automatische und taxische Komponenten
stoßen, wobei zusätzlich Möglichkeiten für das Hineingreifen von am Erfolg orientierten Lernprozessen gegeben
sein müssen. Bei Automatismen sind es die Parameter 'Amplitude' (Intensität) und 'Dauer', welche einer
erfolgsorientierten Verstellung prinzipiell zugänglich sind. Bei Taxien ist es der Parameter 'gain' des
entsprechenden Reflexes, der für eine solche Verstellung infrage kommt. Beispiele für interne Erfolgskriterien
sind, wie schon gesagt, die Erhöhung der Treffergenauigkeit bei einer Zielbewegung, oder die Herabsetzung der
während der Bewegung in den beteiligten Muskeln verbrauchten Energie.
Die mit Blick auf die Bewegungstypen in der Regel komplexe Struktur einer Bewegung ist der Grund
dafür, daß bislang vermieden worden ist, den Ausdruck "motorisches Programm" in diesem Zusammenhang zu
verwenden. Denn diese Bezeichnung gibt nach dem eben gesagten die tatsächliche Art der Bewegungskontrolle
nur unvollkommen - ja sogar mißverständlich - wieder, weil sie zu sehr auf den Teilaspekt des Automatismus
abhebt. Die Verwendung des Wortes "Programm" legt jedenfalls nahe, daß die damit bezeichnete motorische
Aktivität bei Wiederholungen unter sonst gleichen Bedingungen zu physikalisch identischen Abläufen führt, was
man in der Wirklichkeit nur bei Erbkoordinationen bzw. Automatismen und das auch nur in Spezialfällen
beobachten kann. Die bessere Bezeichnung für die spezielle "Anordnung von Regeln und Anweisungen", durch
welche z.B. ein perzeptives bzw. sensorisches Ziel konkret herbeiführt wird, ist daher "motorischer
Algorithmus". Die Elemente, die in einem solchen Algorithmus zusammenwirken, können dann z.B. motorische
Programme (im Sinne von Automatismen bzw. Mustergeneratoren), Steuerketten (im Sinne von Taxien und
Reflexen) und Regelprozesse (im Sinne von Parameter-Adjustierung) sein. Eine Bewegung ist dann das Ergebnis
des Zusammenwirkens dieser drei verschiedenen motorischen Elemente mit konkret vorliegenden
Umweltgegebenheiten; für die neuronalen Kontrollprozesse, die einer solchen Bewegung zu Grunde liegen, sollte
man daher nicht wiederum die Bezeichnung "motorisches Programm" verwenden.
4.1.3 Die enge Wechselbeziehung zwischen Motorik und Sensorik
In Abhandlungen über Motorik steht vielfach die Aktuatorfunktion im Vordergrund, dh. die herbeigeführten
Bewegungen werden im Rahmen der Individuum-Umwelt-Interaktion vorwiegend als Output des Individuums
angesehen, wobei dem sensorischen Input dann Auslöser- und/oder Überwachungsfunktionen zugeordnet werden.
Dabei wird gelegentlich nicht hinreichend beachtet, daß vom Individuum erzeugte Bewegungen, z.B. eines
Sinnesorgans, wiederum Rückwirkungen auf den sensorischen Input haben, der auf eben dieses Sinnesorgan
zurückgeht. Diese führen dazu , daß eine sensorische Meldung sowohl auf die eigene motorische Aktivität des
Individuums als auch auf die Veränderung einer Größe in der Umwelt, welche unabhängig von den Einwirkungen
des Individuums besteht, zurückgehen kann.
Beispielsweise kann die Meldung eines in der Netzhaut des Auges angenommenen
Geschwindigkeitsdetektors darauf zurückgehen, daß sich das Abbild eines bewegten Gegenstandes auf der
Netzhaut verschiebt, oder daß sich die Netzhaut bei unbewegtem Gegenstand infolge einer Augendrehung
"unter" dem ortfesten Abbild des Gegenstandes verschiebt; denkbar ist auch, daß beides gleichzeitig geschieht.
Aus der Afferenz alleine sind die beiden verschiedenen Ursachen für die Detektormeldung nicht zu erschließen.
Bei der Bestimmung der "wahren" Geschwindigkeit des Gegenstandes muß daher die Eigenbewegung des Auges
in Rechnung gestellt werden. Ein anderes Beispiel ist die Meldung des Statolithenapparats, die den Winkel
angibt, den die Achse dieses Apparats mit der Schwerkraftrichtung bildet. Diese Meldung ändert sich sowohl,
wenn der Kopf bei unbewegtem Rumpf geneigt wird, als auch dann, wenn die Rumpforientierung zur
Schwerkraft geändert wird, der Kopf aber relativ zum Rumpf fixiert bleibt. Bei der Bestimmung des Winkels
zwischen der Schwerkraftrichtung und der Körperlängsachse müssen daher die Meldungen des
Statolithenapparats "rechnerisch" um die Kopfneigungen bereinigt werden. In beiden Beispielen muß also eine
umweltbezogene Größe aus Sinnesdaten ermittelt werden, die auf ein eigenbewegliches Sinnesorgan
3
zurückgehen, d.h. auf einen Detektor, welcher nicht fest an die zu ermittelnde Größe gekoppelt ist.
Wahrnehmungstechnisch gesehen handelt es sich bei dieser Fremd- Eigendifferenzierung daher um die
Erbringung einer Konstanzleistung.
Ein ähnlicher, wenngleich nicht identischer Sachverhalt ist gegeben, wenn eine umweltbezogene
sensorische Meldung zwar eigenbewegungsbereinigt vorliegt, sich aber sowohl spontan als auch unter der
Einwirkung des Individuums selbst verändern kann. Nunmehr steht dasselbe Problem wie vorhin zur Lösung an,
nur auf einer anderen (höheren) Ebene. Ein Beispiel hierfür ist die visuelle Position der Fingerspitze, erfaßt in
(eigenbewegungsbereinigten) umweltbezogenen Koordinaten. Diese Position wird normalerweise mittels der
Willkürmotorik verstellt, meist so, daß sie mit einer vorgegebenen Zielposition in Deckung gebracht wird. Die
Fingerspitze kann jedoch auch von Einwirkungen ausgelenkt werden, welche das Indviduum nicht selbst
verursacht hat, sondern die unabhängig von ihm sind, etwa zufallsbedingtes Angestoßenwerden durch Dritte.
Eigenbewegungsbereinigte Meldungen über Änderungen von Umweltgrößen können also im Prinzip ebenfalls
selbstverursacht oder fremdverursacht sein. Obwohl letztere einteilbar sind in einerseits in unsystematische und
unvorhergesehene, andererseits in systematische und vorhersagbare, spricht man in beiden Fällen in wenig
qualifizierender Weise meist von "Störungen".
Die Unterscheidung zwischen all diesen Signalarten ist eine für eigenaktive Organismen lebenswichtige
Frage. Denn auf die gleiche sensorische Konstellation muß ggf. in sehr unterschiedlicher Weise reagiert werden,
je nachdem ob sie selbst- oder fremderzeugt ist: Eine Faust, die sich systematisch dem Auge nähert, erfordert,
wenn es die eigene ist, eine andere motorische Aktivität als dann, wenn es sich um eine fremde handelt. Für den
Organismus besteht entsprechend bei sensorischen Meldungen ständig das Problem der Fremd-EigenDifferenzierung auf verschiedenen Ebenen.
Wie löst der Organismus diese Probleme, kommt also zu einer zuverlässigen Trennung von umwelt- und
selbsterzeugten sensorische Zuflüssen und Wahrnehmungsinhalten?
In Beantwortung dieser Frage wurden Begriffe wie "rückläufige Afferentation" (Anochin 1967; später: "reverse
afferentation" in Anokhin 1974) oder - im Rahmen des Reafferenzprinzips - "Exafferenz", "Reafferenz" und
"Efferenzkopie" (v. Holst und Mittelstaedt 1950) eingeführt. Weiterführende Ansätze waren der
"Korrelationsspeicher" (Hein & Held 1962) oder das "Sensumotorische Selbst" (Kalveram & Merz 1976) und
seine "Umkehrung" (Kalveram 1981). Im folgenden Abschnitt wird das ursprüngliche Reafferenzprinzip
zunächst dargelegt, sodann modifiziert. Im darauf folgenden Kapitel dann wird dieses Prinzip durch Hinzunahme
des Konzepts der Werkzeugtransformation und ihrer Inversen erweitert.
4.1.3.1 Das ursprüngliche Reafferenzprinzip
Wie man sich grundsätzlich die Fremd-Eigen-Differenzierung vorstellen kann, zeigt das in Abb.4.1 in ein
Blockschaltbild umgesetzte Reafferenzprinzip. Hier werden, um Verwechselungen zu vermeiden, physikalisch
definierte Signale, welche auf ein Sinnesorgan treffen und auf nicht vom Individuum herbeigeführte Änderungen
in der Umwelt zurückgehen, nach Kalveram & Merz (1976) allochthone oder Fremd-Signale genannt, eben weil
sie durch Fremdeinwirkung entstehen. Physikalische Signale, welche durch selbst-initiierte Handlungen des
Individuums entstehen, können entsprechend als autochthone oder Eigen-Signale bezeichnet werden, da sie ihre
Ursache in der Eigen-Aktivität des Organismus haben. Exafferenzen sind dann die neuronalen Entsprechungen
der Fremdsignale und Reafferenzen diejenigen der Eigensignale. Im Sinnesorgan vermischen sich die beiden
Signalarten, so daß auch die insgesamt zufließende Afferenz ein Gemisch von Exafferenz und Reafferenz ist.
Bezogen auf die Motorik sollten also die Eigensignale Auskunft über den physikalischen
Bewegungszustand des eigenen Körpers und seiner Glieder geben und daher insbesondere auch beim
motorischen Lernen eine entscheidende Rolle spielen. Die Fremdsignale hingegen enthalten die Information über
den Zustand der Umwelt, der ggf. reaktiv zu Bewegungen Anlaß gibt oder auf den aktive (eigeninitiierte)
Bewegungen zu beziehen sind.
Aufgabe der Anordnung in Abb.4.1 ist, ein umweltbezogenes Fremdsignal x1 aus den Meldungen a eines
Sinnesorgans zu ermitteln, welches selbst eigenbeweglich ist. In der ursprünglichen Fassung des
Reafferenzprinzips (v. Holst und Mittelstaedt 1950, z.B. S.467) war der gestrichelt umrandete Block insgesamt
als Effektor bezeichnet und nicht weiter unterteilt, auch fehlte die explizite Angabe der mit S1 bezeichneten
Funktionseinheit, welche von Hein & Held (1962) als 'Korrelationsspeicher' eingeführt wurde und später
(Kalveram 1981) als Vorwärtsmodell der Effektorwirkung aufgefaßt und von dessen Umkehrung abgehoben
wurde.
Abbildung 4.1 : Ursprüngliches Reafferenzmodell
Auf ein Kommando z (K bei v. Holst & Mittelstaedt 1950) wird eine Efferenz e1 an die Peripherie geschickt,
welche die afferente Meldung a nach sich zieht. a ist die Summe aus der Reafferenz, das ist - wie gesagt - der
Anteil der Afferenz, welcher allein auf die Efferenz e1 zurückgeht, und der Exafferenz, welche der eigentlich zu
4
erfassenden Umweltgröße x1 entspricht. a ist damit nicht eindeutig auf die zu messende Umweltgröße x1
beziehbar. Die aufgrund der eigenen Aktivität zu erwartende Reafferenz kann aber aus der Efferenz e1
vorhergesagt werden. Dazu ist von e1 eine 'Efferenzkopie' abzuzweigen, welche - nach Passage der als
Korrelationsspeicher S1 bezeichneten Funktionseinheit - als Schätzwert r'1 für die Reafferenz genommen werden
kann. Die in Abb.4.1 vorgenommene Zwischenschaltung von S1 soll lediglich hervorheben, daß die an die
Peripherie geschickte Efferenz im allgemeinen erst nach einem mehr oder weniger komplizierten
Umkodierungsverfahren einen Schätzwert für die Reafferenz liefert. Wenn jedoch, wie offensichtlich bei von
Holst und Mittelstaedt, Efferenz e1 und Eigensignal r1 (bzw. die Reafferenzschätzung r'1) als proportional
zueinander angenommen werden, ist diese Funktionseinheit natürlich entbehrlich. Zieht man den von S1
ausgegebenen Reafferanz-Schätzwert r'1 von a1 ab, erhält man mit x'1 einen Schätzwert für die Exafferenz, der
um so besser ist, je genauer die Reafferenz mittels der Efferenzkopie geschätzt wird. Das ist die wesentliche
Aussage des Reafferenzprinzips. Es zeigt auf genial einfache Weise, wie der Einfluß der Eigenbewegung eines
Detektors, der die mit der Eigenbewegung konfundierte Gesamtafferenz a1 abgibt, so in Rechnung gestellt
werden kann, daß das eigentlich interessierende Fremdsignal x1 durch die Exafferenz x'1 abgebildet wird. Das
Reafferenzprinzip beschreibt damit eine bestimmte Konstanzleistung des Wahrnehmungsapparates, die dadurch
erbracht wird, daß die durch Eigenbewegung verursachte Reafferenz kompensiert wird, und zwar noch auf der
Ebene der Verarbeitung sensorieller Daten. Die Reafferenz ist hier also eine Meldung, die zwar auf die eigene
motorische Aktivität zurückgeht, die aber nicht als Rückmeldung der sensorischen Konsequenzen der Bewegung
im Rahmen einer Erfolgskontrolle verwendet wird.
Die Autoren koppeln nunmehr, wie in Abb.4.1 gezeigt, die geschätzte Exafferenz x'1 mittels des
Summierers links unten wieder mit dem Kommando z zusammen. Dadurch soll ein übergeordneter Regelkreis
angedeutet werden, mit dessen Hilfe das Fremdsignal x1 automatisch auf einen durch z vorgegebenen Wert
gebracht werden soll. Allerdings ist so auch festgelegt, daß die Regelung sich auf denselben Effektor
(Regelstrecke) bezieht, durch den das Fremdsignal x1 mit dem Eigensignal r1 konfundiert wird, nämlich auf den
Effektor F1. Dies ist jedoch nicht einsehbar, weil nach der Bereinigung des Sensorsignals ein anderes Teilsystem
mit einem anderen Effektor zugrunde zu legen ist, um das Fremdsignal x1 auf den neuen durch z gegebenen Wert
einzustellen. Am Statolithenapparat etwa geschieht ersteres durch Kopfbewegungen und letzteres durch
Rumpfbewegungen. Des weiteren ergibt sich in der Anordnung der Abb.4.1 eine positive Rückkopplungsschleife,
welche die Efferenz e1 bis zur maximal möglichen Stärke anwachsen lassen würde. Diese Unstimmigkeiten
machen daher das ursprüngliche Schema der beiden Autoren nur aus dem Text, nicht jedoch aus der Zeichnung,
verständlich.
4.1.3.2 Modifiziertes Reafferenzprinzip
Zieht man die in Abb.4.1 verflochtenen beiden Teilsysteme auseinander, wie dies in Abb.4.2a und Abb.4.2b
geschehen ist, und führt zwei Effektorsysteme ein, nämlich F1 und F, so tritt die Struktur des Gesamtsystems
klarer hervor. Allerdings ist die ursprüngliche Idee der beiden Autoren, eine gestufte Fremdeigendifferenzierung
einzuführen und gleichzeitig auf der höheren Stufe das eigenbewegungsbereinigte Fremdsignal einer Regelung zu
unterwerfen, wiederum nicht ohne weiteres in einer einzigen Zeichnung darzustellen, wenn nicht dieselben
Probleme wie in Abb.4.1 auftreten sollen. Aus diesem Grunde werden diese Aspekte in zwei getrennten
Zeichnungen behandelt, in Abb.4.2a der Aspekt der Fremdeigendifferenzierung, in Abb.4.2b derjenige der
Regelung der intendierten externen Größe.
Abbildung 4.2 : Auseinandergezogenes und vervollständigtes Reafferenzmodell (a u. b)
Zunächst zur Abb.4.2a. Der gestrichelt umrandete Teil kennzeichnet das Reafferenzsystem mit dem
Effektor F1. Dieses System filtert das umweltbezogene Fremdsignal x1 aus dem von der Eigenbewegung r1
verfälschten Signal a wieder heraus und stellt den bereinigten Wert der nächsten Verarbeitungsstufe als x'1 zur
Verfügung. Auf dieser Stufe nun gilt es ein anderes Fremdsignal zu erfassen, nämlich die Größe x , welche jetzt
durch die Efferenz e über die vom Effektor F erzeugte Wirkung r konfundiert ist. Zur Bereinigung dieser
Konfundierung ist ein zweiter Korrelationsspeicher S erforderlich, welche aus der Efferenz e die auf dieser Stufe
in Anschlag zu bringende Reafferenz r schätzt. Zieht man den Schätzwert r' von x'1 ab, steht mit der Differenz
x1-r' dann die interessierende umweltbezogene Größe x zur Verfügung.
In Abb.4.2b wird das Fremdsignal x der zweiten Stufe zwar wiederum als umweltbezogene Größe
interpretiert, aber nicht mehr als eine, die es zu messen gilt, sondern als Störgröße, welche die Einstellung jetzt
des Eigensignals r auf einen durch die Zielgröße z vorgegebenen Wert erschwert. D.h., in dieser Sichtweise ist es
im Gegensatz zur Abb.4.2a jetzt das Eigensignal, welches durch das Fremdsignal konfundiert wird. Als Mittel,
das Eigensignal gegen die Fremdeinwirkungen zu 'verteidigen', wird nun ein Regelkreis angesetzt, in den das
Reafferenzsystem der Stufe 1 eingebettet ist. Der Sensor in diesem System bekommt also ein Signal x1
angeboten, welches sich additiv aus der Störung x und dem Eigensignal r der Stufe 2 zusammensetzt und dem
5
zusätzlich noch das Eigensignal r1 der Stufe 1 überlagert ist. Nach Subtraktion der geschätzten Reafferenz r'1 von
der Afferenz a steht mit x'1 ein Istwert zur Verfügung, welcher - nunmehr eigenbewegungsbereinigt - auf den
Sollwert z einzustellen ist. Hierzu wird die Differenz dx=-x'=z-x'1 als durch die Störgröße x induzierte
Regelabweichung dx (=Fehler) interpretiert, welcher, ggf. um einen Faktor p verstärkt, als Efferenz e den
Effektor F antreibt. Der Effektor F bleibt dann automatisch solange aktiv, wie der Fehler dx=-x' verschieden von
Null ist.
Beim Auge scheinen auf der Stufe 1 in der Tat die durch Eigenbewegungen des Augapfels
hervorgerufenen Änderungen der sensorischen Daten durch die Kopie der Efferenz an die Augenmuskeln
kompensiert zu werden. Die in Abb.4.2a bzw. Abb.4.2b gestrichelt umrandete Anordnung trifft am besten auf die
Blickfolgebewegung zu, eine relative langsame und stetige Augenwegung, welche durch einen sich mit der
Geschwindigkeit v auf der Netzhaut bewegenden Reiz ausgelöst wird und dazu dient, diesen Reiz durch eine
Drehung des Augapfels mit derselben Geschwindigkeit auf der fovea centralis zu halten. Entsprechend ist die
langsame Blickfolgebewegung auch ein häufig gewähltes Beispiel zur Erläuterung des Reafferenzprinzip:
Bezeichnet man die Geschwindigkeit, mit der sich das Bild eines äußeren Gegenstandes relativ zur Netzhaut
bewegt, also das Fremdsignal, als vx, und die Geschwindigkeit, mit der sich die Netzhaut relativ zum Kopf
bewegt, also das Eigensignal, als vr, so mischen sich auf der Netzhaut beide Signalarten - hier subtraktiv - zum
Geschwindigkeitssignal vs=vx-vr, der resultierenden Bildgeschwindigkeit des Gegenstandes, bezogen auf ein mit
der Netzhaut mitbewegtes Koordinatensystem. Man nimmt dann an, daß sich in der Netzhaut (oder an anderen
Stellen der Sehbahn, welche über retinotope Abbildungen aufeinander bezogen sind)
Geschwindigkeitsdetektoren (Reichardt 1961, 1987) befinden, welche ein zu vs proportionales afferentes Signal a
liefern. Weiter wird angenommen, daß die Efferenz, und damit auch die davon abgeleitete Efferenzkopie er, auf
prämotorischer Ebene proportional zur erzeugten Winkelgeschwindigkeit des Auges ist (Eckmiller 1985). Um
die Reafferenz v'r zu schätzen, braucht das Vorwärtsmodell also lediglich die Efferenzkopie mit einer Konstanten
zu multiplizieren. Hinzufügen - hier durch Addition - dieser Reafferenz zum Detektorsignal a ergibt dann die
fremdbestimmte Geschwindigkeit vx . Bis hierhin hat das Reafferenzprinzip also den Charakter eines
Wahrnehmungsprinzips. Bezieht sich vx dann weiter z.B. auf die Geschwindigkeit der Spitze eines in der Hand
gehaltenen Stiftes, so kann diese - bereinigt von den Effekten der Augenbewegung - durch Regelung auf ein von
anderen Zentren vorgegebenes Zielgeschwindigkeits-Muster gebracht werden. Das betrifft dann den motorischen
Aspekt der Handbewegung.
An Hand der Abb.4.2a oder Abb.4.2b kann man sich allerdings auch überlegen, daß die Schätzung derjenigen
Größe, welche die Eigenbewegung des Sensors beschreibt, nicht nur über die Efferenzkopie e - und damit über
die Reafferenz r'1 - geschehen kann, sondern alternativ auch über eine direkte propriozeptive Messung. Wie man
weiß, ist dies bei der Bestimmung des Winkels zwischen Kopf und Rumpf der Fall. Hier werden die
Längenmessungen durch die Muskelspindeln in den Halsmuskeln herangezogen, die den Kopf halten. Falls also
geeignete Propriozeptoren in Muskeln, Sehnen und Gelenken zur Verfügung stehen, können auch deren Signale
zur Fremd-Eigen-Differenzierung auf Sensorebene (Stufe 1) benutzt werden.
Auf der Stufe 2 ist, bezogen auf Abb.4.2b, das Fremdsignal bzw. die Störung x jedoch nicht objektiv zu
erfassen. Zwar könnte man als Schätzwert für x den Fehler x' (mit umgekehrtem Vorzeichen) als Schätzung der
Exafferenz heranziehen, infolge des Regelungsmechanismus wird dieser aber ganz automatisch stets so klein als
möglich gehalten und kann daher keine valide Auskunft über die jeweils vorliegende Höhe der Störung geben.
Der Fall liegt jedoch anders, wenn das sensorische Ziel z nicht durch Regelung (negative feedback),
sondern durch eine Steuerung (feed forward), also gleichsam automatisch ohne einen rückgeführten Fehlerwert,
eingestellt werden könnte. Dieser Fall ist im Reafferenzprinzip nicht enthalten und soll im nächsten Kapitel
behandelt werden, in dem dann die Begriffe der Werkzeugtransformation und - vor allem - ihrer Inversen die
entscheidende Rolle spielen. Hierbei wird die Bereinigung der sensorischen Daten von Eigenbewegungseffekten
vorausgesetzt, geschehe dies nun über die Propriozeption oder nach dem Reafferenzprinzip, und nicht mehr
explizit erwähnt
4.1.4 Die Werkzeugtransformation als Bindeglied zwischen Motorik und Sensorik
Der Begriff der Werkzeugtransformation gestattet es, die gegenseitigen Abhängigkeiten zwischen Wahrnehmung
und Motorik endgültig zu ordnen. Die Werkzeugtransformation beschreibt den Effekt der efferenten Aktivität auf
die aktuelle Afferenz, bindet also die Veränderung der materiellen Umwelt, soweit sie sensorisch erfaßt wird,
kausal an die Eigenaktivität (vgl. auch Abb. 1.6). Es ist dabei unerheblich, ob die betroffenen Gliedmaßen noch
ein Arbeitswerkzeug, z.B. einen Stock oder ein Automobil, bedienen oder nicht, da es nur auf den effektiven Teil
des Werkzeugs ankommt. Beim Zeigen z.B. kann dieser die Stockspitze, aber auch die Fingerspitze sein, beim
Kraftfahrzeug die Position des Autos bezogen auf die Straße, oder die Position der Hand bezogen auf das
Lenkrad. Somit ist "vom Standpunkt des Gehirns" auch der Gebrauch der eigenen unbewaffneten Gliedmaßen
6
Werkzeuggebrauch. Ein linearer oder gar proportionaler Zusammenhang zwischen Ursache und Wirkung wird
hierbei aber nicht mehr vorausgesetzt.
Abbildung 4.3 : Umgeschriebenes Reafferenzmodell mit inversem Modell
Der Werkzeugeffekt ist in der Regel auf die materielle Umwelt bezogen. Also wird man auch sowohl die
sensorisch bzw. perzeptiv erfaßten Werkzeugeffekte als auch die vorausgegangenen sensorischen bzw.
perzeptiven Ziele in umweltzentrierten, also exterozeptiven, Koordinaten formulieren. Hierbei wird im weiteren
stets davon ausgegangen, daß, soweit die sensorische Ebene (Stufe 1) betroffen ist, Effekte von
Eigenbewegungen bereits kompensiert sind. Das Problem, welches der motorische Apparat bei der Realisierung
solcher exterozeptiv definierter Ziele zu lösen hat, ist dann, Gliedmaßenbewegungen so zu planen, daß nach
Durchführung dieser Bewegungen der aktuelle Wahrnehmungszustand mit dem Ziel übereinstimmt. Dazu ist es
unerläßlich, nicht nur die Regeln, nach denen die Umwelt funktioniert, zu kennen, sondern auch, die
physikalischen Eigenschaften und den Bewegungszustand der dabei zu bewegenden Körperglieder zu
berücksichtigen. Letztere aber werden mit Hilfe von körperzentrierten (propriozeptiven) Koordinaten erfaßt. Man
kann daher den motorischen Apparat auch als "Interface" ansehen, welches zwischen exterozeptiv orientierter
Sensorik und propriozeptiv orientierter Aktuatorik vermittelt. Die Funktionsweise einer solchen sensumotorischen Einheit, welche zur Kontrolle und Planung der Bewegungen des eigenen Körpers mit Blick auf
exterozeptive Ziele erforderlich ist, kann formal als Invertierung der Werkzeugtransformation dargestellt werden.
Hierauf liegt in den folgenden Ausführungen insbesondere der Akzent.
Die Abb.4.3 soll diese Sichtweise unter Rückgriff auf die Abb.4.2b genauer, aber zunächst noch unter
Annahme vereinfachter Zusammenhänge, verdeutlichen. Zweckmäßigerweise stelle man sich zur Illustration eine
schnell durchgeführte (ballistische) Drehung des Oberarms bei versteiftem Ellbogengelenk vor, wie sie z.B. in
Abb.4.5a angedeutet ist.
4.1.4.1 Definition der Werkzeugtransformation
Beginnen wir zur Erklärung der Begriffe im oberen Teil der Abb.4.3. Die hinausgehende Efferenz e bewirkt über
die 'motorische Transformation' in der Regel Lage- und Stellungsveränderungen der betroffenen Gliedmaßen,
welche im einfachsten Falle vermittels der 'sensorischen Tranformation' direkt wahrnehmungsmäßig erfaßt und
dem agierenden Organismus als Afferenz a zur Kenntnis gebracht werden, wobei bereits
eigenbewegungsbereinigte sensorische Daten vorausgesetzt werden. Die bewegten Gliedmaßen können aber auch
auf ein mechanisches Werkzeug einwirken, wobei erst die dadurch hervorgerufene Umweltveränderung - also der
Werkzeugeffekt - wahrnehmungsmäßig von Belang ist. Beispiele für einen solchen Werkzeuggebrauch sind
Hantierungen mit einem den Arm verlängernden Stock, oder das Lenken eines Fahrzeugs durch Drehen des
Steuerrades. Vom Standpunkt des Gehirns ist es jedoch, wie schon gesagt, prinzipiell unerheblich, ob die in
Bewegung gesetzten Gliedmaßen auch noch physikalische Werkzeuge in engeren Sinne betätigen oder nicht:
Auch der Gebrauch der eigenen Gliedmaßen ist Werkzeuggebrauch im weiteren Sinne; denn die hinausgehenden
Efferenzen bestimmen letztendlich den darauf zurückgehenden afferenten Zufluß.
Abbildung 4.3 Prozeß-Schema der Wechselwirkung .. (neues Re-Afferenz-Modell)
In Abb.4.3 sind der physikalische Werkzeugeffekt als Eigensignal r, das davon unabhängige Fremdsignal
mit x und die organismische Einwirkung mit k bzw. e bezeichnet. Legt man den "unbewaffneten" Arm der Abb.
4.5 zu Grunde, so kann als Werkzeugeffekt r z.B. die jeweilige Winkelposition ϕ des Arms oder eine ihrer
zeitlichen Ableitungen genommen werden, während die Muskelkraft bzw. das muskuläre Drehmoment als
einwirkende Variable k infrage kommt. Das am Sinnesorgan eintreffende physikalische Signal ist in Abb.4.3 mit
s bezeichnet. Aus physikalischer Sicht ist s eine Kombination des Eigensignals r, welches auf die Efferenz e
zurückgeht, und des Fremdsignals x, welches auf eine davon unabhängige Einwirkung x der Umgebung
zurückgeht (z.B. ein Windstoß oder Schlag auf den Arm). In Abb.4.3 wird angenommen, daß sich s additiv aus x
und r ergibt: s=x+r. Das Fremdsignal x wird also entsprechend Abb.4.2b als Störung interpretiert.
Das Signal-Gemisch s ist es, welches mittels der 'sensorischen Transformation' FS in die Gesamtafferenz
a, die sich während (bzw. nach) der Bewegungsdurchführung einstellt, transformiert wird. Entsprechend kann
man sich die Gesamtafferenz a aus der Re-Afferenz r'=FS(r) , welche den Werkzeugeffekt neuronal beschreibt,
und der Ex-Afferenz x'=FS(x), welche der Störung entspricht, zusammengesetzt denken. Nimmt man Linearität
an, gilt a=r'+x'. Wegen der hier als linear angesetzten Transformationen erhält man also
r'+x'=a=FS(s)=FS(r+x)=FS(r)+FS(x).
Rein physikalisch wird ein Werkzeug beschrieben durch seine "physikalische Werkzeugtrans-formation"
FP, welche den Zusammenhang zwischen der Kraft k, die auf das Werkzeug über die Muskelkontraktionen
einwirkt, und den dadurch veränderten Zustand r der physikalischen Umwelt beschreibt, was in Abb.4.3 durch
7
r=FP(k) angedeutet wird. Die physikalische Werkzeugtransformation FP verknüpft also ausschließlich
physikalisch definierte Variable. Entsprechend bezeichne FM die "motorische Transformation", welche von den
Efferenzen e auf die dadurch erzeugten Kräfte k führt: k=FM(e). Die Werkzeugtransformation, hier mit F
bezeichnet, wird dann als funktionaler Zusammenhang zwischen Efferenz e (unabhängige Variable) und
Reafferenz r' (abhängige Variable) definiert: r'=F(e). Mit diesen Definitionen ergibt sich F als
Hintereinanderausführung von FM,, FP und FS, in Formelzeichen: F=FS *FP *FM,, oder
r'=F(e)=FS{FP[FM(e)]}.
4.1.4.2 Werkzeugtransformation und Reafferenz-Prinzip
Das Problem ist, daß in der Gesamtafferenz a zwischen der Re-Afferenz r' und der Ex-Afferenz x' ohne
zusätzliche Informationen nicht unterschieden werden kann. Im Reafferenzmodell nach Abb.4.2a besteht die
Lösung darin, daß auch auf der zweiten Stufe, die nun in Betracht steht, ein Vorwärtsmodell S der
Werkzeugtransformation angewendet wird, welches aus der Efferenz e die zugehörige Reafferenz r' vorhersagt.
Im unteren Teil der Abb.4.3 wird eine weitere Möglichkeit gezeigt, wie der Organismus an die Exafferenz auch
ohne Inanspruchnahme eines Vorwärtsmodells gelangen kann, nämlich durch direkten Vergleich der ZielAfferenz z mit der hereinkommenden (eigenbewegungsbereinigten) Afferenz a. Wie im Zusammenhang mit
Abb.4.2b bereits angedeutet wurde, eröffnet sich diese Möglichkeit jedoch nur, wenn das Fremdsignal r bzw. die
Reafferenz r' nicht durch Regelung an die Zielgröße z angeglichen wird, denn ansonsten wäre die Größe x' durch
die vom Regler herbeigeführten Aktionen verfälscht. Als Alternative Zur Fehlerverminderung durch Regelung
wird in Abb.4.3 eine Steuerung über ein inverses Modell der Werkzeugtransformation vorgeschlagen. Was hat es
damit auf sich?
4.1.4.3 Definition des Modells der inversen Werkzeugtransformation
Bei der Werkzeugtransformation F wird die Efferenz e als Ursache angesehen, welche die sensorische Wirkung r'
nach sich zieht. Bei der Verwirklichung eines gewünschten sensorischen Zustands, so wie er durch die
Zielafferenz z vorgegeben wird, ist jedoch die "Umkehrung" dieser Kausalrichtung angesagt; denn jetzt gilt es,
ausgehend von einem sensorischen Ziel, diejenigen Efferenzen zu finden, welche dieses Ziel konkret
herbeiführen. Von der Wirkung ist also auf die Ursache, welche diese Wirkung hervorbringt, zu schließen.
Hierzu ist die Umkehrfunktion zur Werkzeugtransformation erforderlich, welche formal durch das Symbol F-1
gekennzeichnet wird. Bezeichnet man also mit z eine gewünschte Reafferenz, so wird die Efferenz e , welche bei
ihrer Anwendung die Reafferenz z herbeiführt, durch e =F-1(z) festgelegt, wobei die Frage nach der Existenz
einer inversen Werkzeugtransformation zunächst ausgeklammert wird.
Um selbstgesetzte sensorisch-perzeptive Ziele durch eigene motorische Aktivität zu verwirklichen, kann
das Individuum also auch von einem neuronalen Modell S-1 der inversen Werkzeugtransformation F-1 ausgehen
und dieses jetzt zur Steuerung benutzten. Gilt, was angestrebt wird, S-1=F-1, so kann mittels S-1 zu einem
afferenten Ziel z eine Efferenz eS gefunden werden, welche emittiert werden muß, um eine Reafferenz r' zu
erhalten, die mit z übereinstimmt. Es liegt damit auch nahe, in diesem Falle das sensorische Ziel z als 'Schätzung
der Reafferenz' zu betrachten, welche - analog zum ursprünglichen Reafferenzprinzip - von der Gesamtafferenz a
subtrahiert - unmittelbar auf eine Schätzung x' der Exafferenz x führt. In diesem Falle kann auf die
Implementierung eines Vorwärtsmodells der Werkzeugtransformation verzichtet werden, eine Möglichkeit, auf
die auch Varju (1990) hinweist.
Erzeugt bei einer solchen Aktion die über das inverse Modells S-1 ermittelte Efferenz eS =S-1(z) eine
Afferenz, die nicht mit der gewünschten Afferenz z übereinstimmt , so entsteht eine von Null verschiedene
Exafferenz x', also ein Fehler dx=-x'. Diese Diskrepanz kann, folgt man dem Reafferenzprinzip in seiner
ursprünglichen Form, auf ein Fremdsignal bzw. eine Störung x zurückgeführt werden. Nach dem Prinzip der
inversen Modellierung, so wie es hier ausgearbeitet wurde, kann darüberhinaus auch ein Fehler im Modell S-1
vorliegen. Welche von diesen zwei Möglichkeiten zutrifft, kann auf dieser Verarbeitungs-Ebene nicht mehr
entschieden werden, so daß eine hierarchisch höher angesiedelte Ebene eingeschaltet werden muß. Von dieser
höheren Ebene (nicht in Abb.4.3 eingezeichnet) sollte dann, je nach der angenommenen Ursache, entweder eine
Reaktion auf einen korrekt ermittelten Fehler, oder eine Nachbesserung des Modells S-1 vorgenommen werden.
Voraussetzung für die Fehlererkennung ist jedoch, daß eine Regelung unter Verwendung eben dieses
Fehlers als Regelabweichung ausgesetzt wird, bis der Steuerungsvorgang über das inverse Modell zum Ende
gekommen ist. Aus diesem Grunde ist der über den Regler P verlaufende Rückkopplungszweig in Abb.4.3
unterbrochen worden. Den zeitlichen Ablauf einer motorischen Aktion muß man sich dann grundsätzlich wie
folgt vorstellen: Die gegenwärtige Afferenz avor stellt die Ausgangslage vor Durchführung der Aktion dar. Nach
Anlegen des neuen sensorischen Ziels z besteht dann zwischen Ziel und Realität die Diskrepanz z-avor. Diese
wird jedoch noch nicht als Fehler interpretiert. Denn gleichzeitig wird z in das inverse Modell S-1 gegeben und so
diejenige Efferenz eS ermittelt, welche das sensorische Ziel im Rahmen einer Steuerung realisiert. Nach Abschluß
8
der Aktion hat sich eine neue sensorische Konstellation anach ergeben, deren Unterschied zu z jetzt als Fehler
gesehen wird. Nunmehr kann einerseits der verbliebene Fehler zur Verbesserung des inversen Modells benutzt
werden und andererseits - bei geschlossenem Schalter - eine an diesem Fehler ausgerichtete Korrekturbewegung
vermittels der Efferenz eR als Stellgröße durchgeführt werden, was einer Regelung über den als proportional
angenommenen Regler P gleichkommt. Sollte - das sei jedoch angemerkt - die Werkzeugtransformation F
zweifach integrierend sein, was bei Gliedmaßenbewegungen der Fall ist, so darf der Regler im Interesse der
Stabilität nur kleine Verstärkungsfaktoren anwenden, Verstärkungsfaktoren, die nicht ausreichen, einen
bestehenden Fehler dx durch Regelung zum Verschwinden zu bringen. Davon abgesehen können mit alleiniger
Anwendung von Regelung auch die empirisch gefundenen Geschwindigkeitsprofile nicht erzeugt werden (vgl.
Kalveram 1991).
4.1.4.4 Erwerb des inversen Modells durch Auto-Imitation
Um ein Modell der inversen Werkzeugtransformation einzurichten, muß der Organismus die sensorischen
Konsequenzen seiner eigenen Motorik kennenlernen. In Abb.4.4a wird gezeigt, wie die mit S-1 bezeichnete
Funktionseinheit in der Lernphase unter Anwendung eines speziellen Lernalgorithmus (Kalveram 1981), der als
"Selbst-" oder "Auto-Imitation" (Kalveram 1990) bezeichnet werden kann, eine entsprechende interne
Repräsentation erwirbt. In der gezeichneten Schalterstellung "2" muß das Individuum bei zunächst fehlenden
fremderzeugten Umweltveränderungen (dh. x=0) motorisch aktiv sein, also irgendein efferentes Muster erzeugen,
was durch das Agieren eines sog. "Blinden Lehrers" (blind teacher, vgl. Kalveram 1993b) angedeutet wird.
Blind heißt der Lehrer deswegen, weil er mit diesen Aktionen keine eigenen Ziele zu verfolgen braucht und auch
nicht das Ergebnis kennen muß. Der blinde Lehrer sendet im Prinzip ungerichtete Efferenzen eB aus, die
einerseits Bewegungen induzieren und andererseits über den gestrichelten Pfeil in den Lerneingang (teaching
input) der mit S-1 bezeichneten Funktionseinheit gelangen. Über den Normaleingang der Funktionseinheit S-1
wird die Gesamtafferenz a eingegeben, welche zeitgleich infolge der durch eB induzierten Bewegung entsteht.
Wegen x=0 ist die Gesamtafferenz jetzt nur durch die Reafferenz r' bestimmt. Somit sind die auf die Umwelt
gerichtete motorische Efferenz und die dadurch veränderte Gesamtafferenz im Prinzip umkehrbar eindeutig
aufeinander beziehbar und können miteinander verknüpft werden, so daß sich das Individuum ein sensorischperzeptives Abbild der Wirkung seiner eigenen Motorik verschaffen kann. Eine treffende Bezeichnung dieser
Zuordnung, welche die Motorik auf die Sensorik zurückführt, ist daher "sensumotorisches Selbst" (Kalveram &
Merz 1976, Kalveram 1981). Der Lernvorgang, der auf die beschriebene Weise zum Erwerb des
sensumotorischen Selbstes führt, wird deswegen als "Auto-Imitation" (Selbstnachahmung) bezeichnet, weil das
Individuum hierbei die Funktionsweise seiner eigenen Gliedmaßen neuronal nachahmt. Vermutlich dienen die
bei Säuglingen z.B. zu beobachtenden Strampelbewegungen diesem auto-imitativen Lernen. Im Kontrast dazu
steht ein als "Allo-Imitation" (Fremdimitation) bezeichneter Lernalgorithmus, der beim taktischen Apparat
behandelt wird und dazu dient, bei anderen Artgenossen beobachtete Verhaltensweisen zu übernehmen.
Systemtheoretisch handelt es sich bei beiden Lernarten um die Identifikation des inversen Modells eines zur
Kontrolle anstehenden Systems.
Abbildung 4.4.a : Auto-imitatives Lernen des inversen Modells
Der vom Funktionselement S-1 wegweisende Pfeil steht für die Output-Variable, die nach Abschluß des
Lernens an dieser Stelle verfügbar ist. Während des Lernens hat die hier abgegriffene Variable keine
Steuerfunktion, daher besteht in der Lernphase keine Verbindung des Ausgangs zum System. In der Kannphase
sollte diese Variable dann Werte für diejenigen Efferenzen liefern, welche ein ggf. eingegebenes afferentes Ziel z
verwirklichen. Im günstigsten Falle ist, wie schon gesagt,
S-1=F-1. Von großer Bedeutung für die Qualität dieses inversen Modells ist, daß beim Lernvorgang die
Efferenzen eB und die daraufhin eintreffenden Gesamtafferenzen a in eindeutiger Weise aufeinander bezogen
sind. Nicht auf Eigensignale zurückgehende afferente Zuflüsse sind also in der Lernphase möglichst vollständig
zu eliminieren (Kalveram 1981). In Abb.4.4a wird diese Abschirmung gegenüber äußeren Einflüssen durch die
Unterbrechung des Pfeils, der das Fremdsignal x symbolisiert, angedeutet.
Abbildung 4.4.b: Auto-Imitation, alternativer Blinder Lehrer
Die Abb.4.4b zeigt eine alternative Einbindung des Blinden Lehrers in den auto-imitativen Lernprozeß, ist
aber ansonsten identisch mit der Abb.4.4a. Der Blinde Lehrer wird hier als Generator für Zielafferenzen
eingesetzt, der beliebige afferente Vorgaben z erzeugt, von denen in der Subtraktionseinheit die jeweils aktuellen
Afferenzen a abgezogen werden. Die erhaltenen Differenzen dx werden im Regler P in Efferenzen eR umgesetzt,
die, da sie unmittelbar auf den Blinden Lehrer zurückgehen, auch mit dem Symbol eB belegt werden können;
9
denn mit Bezug auf den Lernvorgang sind die Darstellungsweisen in den Abb.4.4a und 4.4b funktional
gleichwertig.
Abbildung 4.4.c: Auto-Imitation mit Erfolgsrückmeldung
Eine weitere Variante auto-imitativen Lernens zeigt die Abb.4.4.c. Diese Zeichnung ist bis auf die
Stellung des Schalters links vom Modul S-1 und den gepunkteten Pfeil vom Vergleicher (Variable dx) zum Modul
S-1 mit Abb.4.4.a identisch. Der Schalter leitet nunmehr permanent das afferente Ziel z auf den Normaleingang
des Moduls S-1. Der Pfeil so zu lesen, daß auschließlich dann, wenn das vom Blinden Lehrer erzeugte efferente
Muster eB zu einer Übereinstimmung zwischen dem Ziel z und der afferenten Rückmeldung a geführt hat, also
wenn dx=0 ist, die Lernfunktion des Moduls S-1 aktiviert wird und die momentane Efferenz e am Lerneingang an
das afferente Ziel z gebunden wird. Da dx=0 bedeutet, daß in diesem Moment die durch die efferente Maßnahme
e tatsächlich erzeugte Afferenz a am Lerneingang verfügbar ist, und da das Lernen auf die Momente mit dx=0
beschränkt wird, ist auch Abb.4.4.c funktional äquivalent mit Abb.4.4.a. bzw. Abb.4.4.b. Die Abb.4.4.c hat den
Vorteil, daß durch Verwendung des gepunkteten Pfeils erfolgsgesteuertes Lernen bzw. Verstärkerwirkung im
Rahmen des auto-imitativen Schemas präzise definiert werden kann.
Welcher der Anordnungen in den Abb.4.4.a,b,c der Vorzug gegeben wird, kann daher nach didaktischen
Gesichtspunkten entschieden werden. Beim Strampeln lernt der Säugling, so kann man vermuten, die inverse
Dynamik seiner Arme und Beine. Hier wird man eher die Darstellung der Abb.4.4.a in Anschlag bringen. Beim
Erlernens des motorischen Vollzuges des artspezifischen Gesanges nach vorheriger "Gesangsprägung" der
Jungvögel ist eher die Darstellungsweise der Abb.4.4b oder Abb.4.4.c angemessen; denn man kann davon
ausgehen, daß hier vorab auditorische Muster eingeprägt werden, zu denen bei Eintritt der Geschlechtsreife
efferente Muster so gesucht werden, daß die erzeugten auditorischen Signale mit dem eingeprägten Muster
übereinstimmen. Im weiteren wird, wenn dem keine Gründe entgegen stehen, der Darstellung der Abb.4.4.a mit
dem Blinden Lehrer in der Funktion des Efferenzgenerators der Vorzug gegeben.
Auto-imitatives Lernen ist, das sei nochmals wiederholt, ist dadurch gekennzeichnet, daß dem lernenden
Modul sowohl die momentane efferente Aktivität als auch diejenige Afferenz "gezeigt" wird, die auf diese
efferente Aktivität zurückgeht. Doch welche von den obigen drei Darstellungsformen auch immer gewählt wird,
stets gilt, daß während des auto-imitativen Lernens das inverse Modell S-1 nicht zur motorischen Steuerung
einsetzbar ist. Ob also der Lernvorgang erfolgreich war, kann nur nach Umschaltung in die alternative, für die
Kannphase gültige, Schalterstellung getestet werden, in dem ein perzeptives Ziel vorgegeben und der Fehler dx
beurteilt wird. Lernen und Anwenden des Gelernten geschehen in unterschiedlichen Systemstrukturen! Da
infolgedessen während des Lernens etwa gem. Abb.4.4.c in der Regel ein primitiveres Modell für die
Bewegungskontrolle angewendet wird, welches im Regler P realisiert ist, kann das Umschalten vom Lernen zum
Testen und wieder umgekehrt als das Umschalten zwischen zwei Modellen erscheinen, so wie es Neilson,
Neilson, & O'Dwyer (1998) beschrieben haben.
Nur scheinbar handelt es sich bei dem hier dargestellten Lernprozeß um assoziatives Lernen, bei dem
jedem konkreten afferenten Eingabewert punktuell ein konkreter efferenter Ausgabewert zugeordnet wird. Wäre
dies der Fall, so könnte das Modul S-1 nicht interpolieren oder gar extrapolieren, wenn - was später im Alltag
der Normalfall sein dürfte - Werte für sensorische Ziele eingegeben werden, die in der Lernphase nicht
vorgekommen sind. Tatsächlich muß das Modul S-1 die Gesetzmäßigkeiten repräsentieren, welche Ein- und
Ausgangsvariable verknüpfen, damit es auch zu beliebigen Realisationen der Eingangsvariablen den zugehörigen
Wert der Ausgangsvariablen berechnen kann. Der Lernvorgang muß demnach ein induktiver sein, bei dem die
Gesetzmäßigkeit aus den beispielhaft vorgegebenen Input/Output-Wertepaaren erschlossen wird. Wie später
noch gezeigt werden wird, sind spezielle Typen von neuronalen Netzwerken, z.B. das Potenzierungsnetzwerk der
Abb.4.2.1, für diese Art von Lernen geeignet.
Abschließend sei darauf hingewiesen, daß das Reafferenzschema der Abb.4.3 sowohl taxische Komponenten,
nämlich die Steuerung über das inverse Modell, als auch appetente Komponenten, die erfolgsorientiert das
emitierte Verhalten beeinflussen, nämlich die Ausregelung des Fehlers, enthält. Allerdings findet man nur
globale, aber keine näheren Angaben über die Art und Weise der Efferenz-Erzeugung. Wie bei Mehrdeutigkeit
der Beziehung zwischen Efferenz und Re-Afferenz - und das dürfte dann doch die Regel sein - ein inverses
Modell der Werkzeugtransformation ermittelt werden kann, wurde gleichfalls ausgeklammert. Zur Behebung der
Mehrdeutigkeit müssen weitere Signale hinzugenommen werden, was in Abb.4.3 durch den gestrichtelten Pfeil
mit der Bezeichnung 'Zustandsrückführung' angedeutet wird.
Eine Frage ist auch, an welcher Stelle zweckmäßigerweise das Fremdsignal x in den Informationsfluß
eingeschleust wird. In Abb.4.3 bzw. Abb.4.4a oder 4.4b ist dies im sensorischen Ast der Werkzeugtransformation
geschehen, was lineare Interaktionen zwischen Störung und Eigensignal nahelegt. Mit gleicher Berechtigung
kann man aber Störvariable auch in den motorischen Ast legen. Da die Werkzeugtransformation in der Regel
10
nichtlinear sein dürfte, sind dann auch die Auswirkungen der Störungen auf die Sensorik als nichtlinear
anzusetzen. Den im Rahmen der inversen Modellierung angestellten Überlegungen tut dies jedoch keinen
Abbruch.
Die bislang eher allgemeine Darstellung des Reafferenzprinzips und seiner Erweiterung soll im folgenden Kapitel
unter Zugrundelegung von Zielbewegungen mit einem Arm inhaltlich ausgefüllt werden. Hierbei werden auch
weitere aus der Systemtheorie folgende Bedingungen aufgezeigt, die erfüllt sein müssen, damit - vor allem - ein
inverses Modell einer Werkzeugtransformation ermittelt werden kann, was sich dann wiederum als
Voraussetzung für Durchführung von Regelungsvorgängen erweist.
4.2 Zielbewegungen mit den Arm
Die Ausführungen in den folgenden Kapiteln sind mathematisch-physikalisch orientiert. Sie dienen dazu, sowohl
die physikalische Wirklichkeit unseres Körpers, seiner Gliedmaßen und der zu manipulierenden Umwelt zu
beschreiben, als auch die Leistung des neuronalen Kontrollers, der ja über Gliedmaßenbewegungen die Umwelt
gezielt zu verändern hat, darzustellen. Ohne Kenntnis der physikalischen Wirklichkeit ist es unmöglich, die
Arbeitsweise des neuronalen Kontrollers zu begreifen, mit dem eben diese Wirklichkeit beherrscht wird.
Physikalische Wirklichkeit und neuronaler Kontroller bilden eine Einheit, bei der das eine ohne das andere
keinen Sinn macht. Ausgegangen wird von einem zunächst eingelenkigen Arm, dem später zunächst ein zweites
und danach ein drittes Gelenk hinzugefügt werden soll. Die Hinzunahme jedes weiteren Gelenks wirft jeweils
typische Probleme bei der internen Modellierung der entsprechenden inversen Werkzeugtransformationen auf.
Die mathematischen Gleichungen vermitteln durch ihre steigende Komplexität einen Eindruck davon, welche
Höchstleistungen von unserem Nervensystem erbracht werden, wenn es Gliedmaßenbewegungen ”durchführen”
läßt, Leistungen, die dem bewußten Erleben meist nicht unmittelbar zugänglich sind.
4.2.1 Kontrolle der Zielbewegung eines eingelenkigen Arms
4.2.1.1 Der Arm, physikalisch ein Drehpendel
Der in diesem Kapitel verwendete Arm ist in Abb.4.5a dargestellt. Er ist in einer vertikalen Ebene um das Gelenk
1 (Schultergelenk) drehbar. Der Pfeil bei g zeigt die Richtung der Schwerkraft an. Die Körperachse ist gestrichelt
gezeichnet, sie kann mit der Schwerkraftrichtung den Winkel ϕg einschließen, in Abb.4.5a ist jedoch
angenommen, daß Schwerkraftrichtung und die Richtung der Körperachse übereinstimmen, dh. ϕg=0 gilt. ϕ
bezeichnet die momentane Winkelposition des Arms mit Bezug auf Körperachse. Nicht in Abb.4.5 eingezeichnet
ist der Zielwinkel ϕz, den der Arm bei Bewegungsende mit der Geschwindigkeit 0 erreichen soll.
Abbildung 4.5a,b : Eingelenkiger Arm
und ϕ
die momentanen Werte für die Winkelgeschwindigkeit bzw. die
Bezeichnet man mit ϕ
Winkelgeschleunigung, so ist die Physik des Arms durch die folgende Differentialgleichung gegeben:
(t ) + R ⋅ ϕ (t ) + D ⋅ (ϕ (t ) − ϕ 0 ) − m ⋅ g ⋅ a ⋅ sin(ϕ (t ) − ϕ g ) = Q(t )
M ⋅ϕ
(4.1)
Darin bedeuten:
M mechanisches Trägheitsmoment, bezogen auf den Drehpunkt
R Reibungsmoment (visköse Dämpfung),
D Richtmoment (Federkonstante) des Arms.
ϕ 0 Winkel, bei dem mechanisches Gleichgewicht eintritt.
m Masse des Arms.
a Abstand zwischen Schwerpunkt und Drehpunkt des Arms.
Bezeichnet MS das Trägheitsmoment, bezogen auf den Schwerpunkt als Drehachse, so
gilt der Steinerscher Satz: M=MS+m.a2 .
Q Resultierende der muskulären Drehmomente (einschl. äußerlicher ‘Störkräfte’)
g Erdbeschleunigung bzw. Schwerefeldstärke (9,81 m/s2 bzw. N/Kg).
ϕ g Winkel zwischen Körperachse und Schwerkraftrichtung.
11
und Q sind als Zeitfunktionen zu betrachten, die deswegen in der Form ϕ( t ), ϕ ( t ), ϕ
( t ), Q(t)
ϕ, ϕ , ϕ
geschrieben sind, wobei t die Zeit bedeutet. Der Buchstabe t mitsamt der Klammern kann aber auch
weggelassen werden, wenn keine Mißverständnisse zu befürchten sind.
Gl. (4.1) beschreibt das Verhalten eines Drehpendels. Auf der rechten Seite steht das "von außen"
einwirkende Drehmoment Q, welches hier als Summe der auf den Drehpunkt bezogenen muskulär verursachten
Drehmomente angesehen wird. Der erste Term auf der linken Seite der Gleichung steht für die Trägheitskraft,
welche das Pendel dem beschleunigenden äußeren Drehmoment entgegensetzt. Der zweite Term stellt das durch
(visköse) mechanische Dämpfung verursachte Drehmoment dar, der dritte das rücktreibende Drehmoment,
welches entsteht, wenn das Pendel aus seiner mechanischen Gleichgewichtslage ausgelenkt wird. Der vierte und
letzte Term auf der linken Seite wird durch die Schwerkraft hervorgerufen. Wie alle Drehmomente, ergibt sich
auch dieses Drehmoment als Produkt aus Kraft m.g und Kraftarm a* = a ⋅ sin( ϕ( t ) − ϕ g ) , wobei der
Kraftarm als senkrechter Abstand des Drehpunktes von der durch den Schwerpunkt gehenden Parallelen zur
Schwerkraftrichtung definiert ist.
In (4.1) ist das muskuläre Drehmoment Q - also die in Abb.4.3 mit "k" bezeichnete organismische
Einwirkung - in Abhängigkeit von den kinematischen Größen Winkel-Beschleunigung, -Geschwindigkeit und Position dargestellt, so daß man - nach Vertauschung der linken mit der rechten Seite - die physikalische
Werkzeugtransformation in invertierter Form bereits vor sich hat. Nach Division durch M und Auflösung nach
( t) erhält man aus (4.1) dann eine die physikalische Werkzeugtransformation in Vorwärtsrichtung
ϕ
widerspiegelnde Form
( t) =
ϕ
1
Q( t) − R ⋅ ϕ ( t) − D ⋅ (ϕ( t) − ϕ 0 ) + m ⋅ g ⋅ a ⋅ sin(ϕ( t) − ϕ g )
M
{
}
.
(4.2)
Mit den in Abb.1.5 definierten Funktionselementen läßt sich (4.2) auch als Analogschaltung darstellen, wie in
Abb.4.5b gezeigt ist. Solche Schaltungen lassen die systemische Struktur des in Frage stehenden Prozesses meist
klarer als die an sich äquivalente Differentialgleichung hervortreten. Sowohl an (4.1), (4.2) oder Abb.4.5b läßt
sich aber ablesen, daß in die betreffenden Transformationen auf der Argumentseite nicht nur eine einzige
Variable eingeht, wie in Abb.4.3 suggeriert wird, sondern jeweils mehrere: In die physikalische
Werkzeugtransformation (4.2) gehen außer dem muskulären Drehmoment Q jeweils noch die
und die Winkelposition ϕ ein. Auch in die inverse physikalische
Winkelgeschwindigkeit ϕ
Werkzeugtransformation (4.1) gehen diese beiden Variablen zusätzlich zu der als Zielvariable zu
noch ein. Winkelgeschwindigkeit ϕ und Winkelposition ϕ
interpretierenden Winkelbeschleunigung ϕ
kennzeichnen den Bewegungszustand des physikalischen Armsystems, sie werden daher auch "Zustandsvariable"
oder "Zustandsgrößen" genannt. Ohne Kenntnis dieser Zustandsgrößen sind daher die Gleichungen (4.1) und
(4.2) nicht anwendbar.
4.2.1.2 Die vorläufige Vereinfachung des Problems
Zunächst seien Reibungsmoment R, Richtmoment D und Schwerkraft m.g zu Null angenommen - eine Annahme,
die später wieder fallengelassen wird. Dann geht (4.2) über in
( t ) = Q( t ) M
ϕ
(4.3)
Diese Gleichung soll für den betrachteten Fall und unter Annahme, daß Q(t) auschließlich muskulär bedingt ist,
als physikalische Werkzeugtransformation angenommen werden: Bezogen auf die Abb.4.3 stellt also die
( t ) das Eigensignal dar, während die einwirkende Kraft durch das muskuläre Drehmoment
kinematische Größe ϕ
Q(t) repräsentiert wird. Zur Vereinfachung des Problems wird weiter angenommen, daß die motorische und die
sensorische Teiltransoformation beide gleich der Identität sind. Dann fallen die physikalische und (äußere)
Werkzeugtransformation zusammen. Dies bedeutet, daß das erzeugte muskuläre Drehmoment Q mit der an die
( t ) mit der
Peripherie geschickten Efferenz e betragsmäßig gleichgesetzt wird und daß auch das Eigensignal ϕ
Reafferenz identisch ist.
z ( t ) den gewünschten Beschleunigungsverlauf bezeichnet, so folgt aus (4.3) sofort, daß
Wenn man mit ϕ
das Modell der inversen Werkzeugtransformation als Multiplikation dieses gewünschten Verlaufs mit der
Trägheit des Arms angesetzt werden muß:
z ( t) ,
Q( t) = M' ⋅ϕ
(4.4)
12
Hierin stellt M' stellt einen neuronalen Schätzwert des physikalischen Trägheitsmoments M dar. Ist dieser
Schätzwert präzise, stimmen gewünschte und tatsächliche Beschleunigung überein.
4.2.1.3 Der Mustergenerator für den gewünschten Beschleunigungsverlaufs
ϕ z erforderliche Bewegung soll von einem "zentralen Mustergenerator"
z ( t ) der Dauer T
(CPG) gesteuert werden, der ein "gewünschtes" Beschleunigungs-/Bremsmuster (pattern) ϕ
Die für das Erreichen des Zielwinkels
emittiert. Dieses Muster wird nach Passage durch das inverse Modell des Arms - hier also durch Multiplikation
mit der geschätzten Armträgheit M' - gem. (4.4) ein muskuläres Drehmoment so erzeugen, daß das gewünschte
Beschleunigungsmuster auch tatsächlich zu beobachten ist. Der Arm soll nun aus der Ausgangslage ϕ(0) mit der
Geschwindigkeit Null starten und den Zielwinkel wiederum mit der Geschwindigkeit Null erreichen, und zwar
genau bei Beendigung des vom Mustergenerator ausgegebenen Beschleunigungsmuster. Damit das der Fall ist,
muß das Beschleunigungsmuster hinsichtlich Dauer, Amplitude und Symmetrie entsprechend abgestimmt
( T ) zum Zeitpunkt T, also bei Beendigung des Musters, wird gleich Null, wenn
werden. Die Geschwindigkeit ϕ
für das erzeugte Beschleunigungsmuster die Beziehung gilt:
T
( t) dt = 0
ϕ ( T) = ∫ ϕ
0
für ϕ (0) = 0 .
(4.5)
Diese Bedingung ist erfüllt, wenn die Fläche zwischen der Zeitachse und dem positiven Ast der
Beschleunigungskurve gleich der Fläche zwischen der Zeitachse und dem negativen Ast der
Beschleunigungskurve ist. Da diese Flächen Drehimpulsen entsprechen, kann (4.5) als "Impuls-Bedingung"
bezeichnet werden, die bei unserer Zielbewegung zunächst einmal zu erfüllen ist. In Abb.4.6 unten sind die
( t ), ϕ ( t ), ϕ( t ) veranschaulicht, wobei man sich die Kurve
Beziehungen zwischen den kinematischen Größen ϕ
( t ) aus zwei Kurven ϕ
a ( t ) und ϕ
b ( t ) additiv zusammengesetzt denken kann, welche jeweils auf einen
ϕ
(fiktiven) Agonisten und Antagonisten zurückgehen.
Abbildung 4.6 Beschleunigungs-, Geschwindigkeits- und Positionsverlauf
Um die Bedingungen für das Treffen des Ziels genauer herauszuarbeiten, wird von einem Prototypmuster
'z ( t ') der Dauer T' (0≤t'≤T'), gespeichert im zentralen Mustergenerator (CPG), ausgegangen, der die
ϕ
Impulsbedingung bereits erfüllt. Durch zeitliche Stauchung oder Streckung (T=cT'; t=ct'; 0≤t≤T; c=T/T' . )
und/oder Veränderung der Amplitude gehe daraus das gewünschte Beschleunigungsmuster
z ( t ) = q ⋅ ϕ
'z ( c t ') , T = cT' ,
ϕ
(4.6)
hervor, wobei T die veränderte zeitliche Dauer und q den neuen Amplitudenfaktor bedeuten. T und q sind
Parameter, die in die mustererzeugende neuronale Struktur (CPG) so einzugeben sind, daß das gewünschte Ziel
zum Zeitpunkt t=T erreicht wird. Wenn nun ϕ( 0 ) die Startposition und ϕ( T ) die Winkelposition nach
Beendigung der vom zentralen Mustergenerators vorgegebenen Beschleunigungskurve darstellen, so gilt für den
tatsächlich durchfahrenen Winkel ∆ϕ nach (4.3)
T t
T
'z ( ⋅ t ) dt  dt
∆ϕ = ϕ( T) − ϕ(0) = q ⋅ ∫ ∫ ϕ
0
T'
,
0

= p ⋅ q ⋅ T2
(4.7)
wobei p eine Konstante darstellt, die sich nur aus den Eigenschaften des Prototyps errechnet (vgl. Kalveram
1991). Mit
δϕ = ϕ z − ϕ( 0 )
(4.8)
sei nun die Zieldiskrepanz vor Bewegungsbeginn bezeichnet, welche vom Wahrnehmungsapparat in
Zusammenarbeit mit der neuronalen Struktur, welche den Zielwinkel ϕz vorhält, quantitativ zu ermitteln ist.
Unter der Annahme, daß p exakt eingestellt worden ist, und unter freier Wahl einer Bewegungsdauer T, kann
13
dann die Amplitude q des zu erzeugenden gewünschten Beschleunigungsmusters wie folgt bestimmt werden:
q = p ⋅ δϕ T 2 .
(4.9)
Eine Bewegung mit dieser Beschleunigungsamplitude q und dieser Dauer T sollte also die gewünschte
Winkelposition ϕ z konkret herbeiführen .
4.2.1.4 Der allgemeine Fall erfordert Zustandsrückführung
Reale zielgerichtete Bewegungen müssen nicht nur das Trägheitsmoment des Arms überwinden, sondern auch die
mechanische Impedanz des Arms, worunter Dämpfungskräfte und elastische Kräfte in den Muskeln und
Gelenken sowie die Schwerkraft zusammengefaßt werden. Aus diesem Grunde soll die in (4.3) gemachte
anfängliche Einschränkung, daß außer Trägheits- und Muskelkräften keine weiteren Kräfte auf den Arm
einwirkensollen, wieder fallen gelassen und von der kompletten Gleichung (4.1) bzw. (4.2) ausgegangen werden.
Aus (4.2) geht dann hervor, daß man die vereinfachte Form (4.3) beibehalten kann, wenn man dem muskulären
z ( t ) , welches auf den Mustergenerator zurückgeht, eine Komponente QK(t) so
Drehmoment QM ( t ) = M' ⋅ϕ
hinzufügt, daß die durch Dämpfung, Federrückstellungskräfte und Schwere hervorgerufenen Drehmomente eben
gerade kompensiert werden. Das insgesamt im Zusammenhang mit der inversen Modellierung aufzubringende
muskuläre Drehmoment ist dann
Q( t) =
QM ( t ) + QK ( t )
z ( t) + QK ( t) ,
= M'⋅ϕ
wobei
(4.10)
QK ( t) = R'⋅ϕ ( t) + D'⋅(ϕ( t) − ϕ 0 ) − C'⋅ sin(ϕ( t) − ϕ g )
die mechanische Impedanz gerade eben aufhebt, wenn für die neuronalen Größen R', D' und C' die genauen
Werte von R, D und m.g.a eingesetzt werden und für Winkelgeschwindigkeit und Winkelposition ebenfalls
genaue neuronale Repräsentationen zur Verfügung stehen. Sind diese Bedingungen erfüllt, kann also der in (4.3)
und (4.4) niedergelegte einfache Zusammenhang trotz der Wirkung zusätzlicher mechanischer Kräfte, welche
durch Reibung, Federeigenschaften und Schwerkraft vermittelt werden, wieder hergestellt werden.
Abbildung 4.7 : Invertierung der Werkzeugtransformation durch Impedanz-Kompensation
Die Abb.4.7 zeigt an Hand eines Flußdiagramms, in dem die in Abb.1.5 eingeführten Symbole verwendet
werden, wie im neuronalen Kontroller das muskuläre Drehmoment Q(t) unter Einschluß des zur Kompensation
dienenden Drehmoments Qk(t) - also die Invertierung der Werkzeugtransformation im allgemeinen Fall - mittels
analoger Rechentechnik berechnet werden kann. Die Funktionsweise des Arms ist in Abb.4.5 niedergelegt. Man
( t ) dem neuronalen Rechenwerk unbedingt
erkennt, daß die an der Peripherie zu messenden Werte ϕ( t ) und ϕ
zur Verfügung gestellt werden müssen. Die Konstanten M', R', D' und C' werden als bekannt angenommen und
dem Kontroller über "absteigende Bahnen" zugeführt. Diese Konstanten können, wie weiter unten gezeigt wird,
im Prinzip im Rahmen eines Auto-Imitationsprozesses bestimmt (identifiziert) werden. Bei hinreichend genauer
( t ) ist die am Arm zu
Identifizierung der Konstanten M, R, D, C und Messung der Zustandsvariablen ϕ( t ) und ϕ
beobachtende Winkelbeschleunigung gleich der vom zentralen Mustergenerator CPG vorgegebenen gewünschten
Beschleunigung.
Bei mechanischen Systemen werden, wie schon gesagt wurde, Position und Geschwindigkeit als die
Zustandsgrößen bezeichnet, welche in jedem Augenblick den Systemzustand vollständig beschreiben, dh., bei
Kenntnis dieses Systemzustands und der Eingangsvariablen (hier der äußeren Kräfte bzw. Drehmomente) zu
einem bestimmten Zeitpunkt können der Systemzustand und die Ausgangsvariable (hier: die Beschleunigung) bei
Kenntnis des Vorwärtsmodells zu einem beliebigen späteren Zeitpunkt vorhergesagt werden. Zur Berechnung der
inversen Transformation eines zu kontrollierenden Prozesses werden in der Regel alle diese Zustandsvariablen
explizit benötigt, was in der Systemtheorie auch als 'Zustandsrückführung' (s. auch (1.2)) bezeichnet wird.
4.2.1.5 Reflexanaloge Verarbeitung und Zustandsrückführung
Auch im vorliegenden Fall ist eine solche Zustandsrückführung zum "Betrieb" des Modells der inversen
( t ) sind in diesem Falle die
Werkzeugtransformation erforderlich. Die rückgeführten Zustände ϕ( t ) und ϕ
Zustandsvariablen, welche den Zustand des mechanischen Armsystems zum Zeitpunkt t wiedergeben. Diese
14
werden in Abb.4.7 nicht im Rahmen einer Regelung (negative feedback), sondern vielmehr im Rahmen einer
Steuerung (feedforward) verwendet. Die spezielle Signalführung legt nahe, diese Art der Steuerung als positive
Rückkopplung zu interpretieren, welche bei Kontrollaufgaben gewöhnlich als unerwünscht gilt, weil sie auf das
System destabilisierend wirkt. Im vorliegenden Fall jedoch ist das Koppelungsnetz so ausgelegt, daß es das
System steuerbar macht, indem die mechanische Impendanz neuronal kompensiert wird. Die davorgeschaltete
z ( t ) mit der geschätzten Trägheit M' komplettiert dann die Invertierung
Multiplikation der Zielbeschleunigung ϕ
der Werkzeugtransformation.
Analogrechner-Flußdiagramme nach Art der Abb.4.7 repräsentieren verteiltes Rechnen und sind häufig
unmittelbar in eine auch neuronal plausible Form zu überführen. Hier etwa kann man annehmen, daß die
( t ) an der Peripherie durch geeignete 'Sensoren' gemessen werden, deren 'Axone' dann mit
Variablen ϕ( t ), ϕ
dem 'Motoneuron', welches den Arm antreibt, in synaptischen Kontakt treten. Die Konstanten R', D' und C' sind
dann als die entsprechenden synaptischen Gewichte zu interpretieren, während über einen weiteren synaptischen
z ( t) zugeführt
Kontakt mit dem Gewicht M' die vom Mustergenerator (CPG) vorgegebene Zielbeschleunigung ϕ
wird. Die Funktion des Motoneurons ist dabei die eines Addierers mit vier Eingängen. Die Abb.4.8 zeigt eine
entsprechende Darstellung eines neuronalen Kontrollers, der sich allerdings gerade in der Lernphase befindet.
Die Einspeisung und Verarbeitung des Armzustands geschieht danach also nach Art von 'Reflexen', was die
Bezeichnung 'reflexanaloge Verarbeitung' nahelegt (Kalveram 1991).
4.2.1.6 Parameter-Identifizierung durch auto-imitatives Lernen
Wie im Rahmen der Invertierung der Werkzeugtransformation die Konstanten M', R', D' und C' im Prinzip
bestimmt werden können, ist im Schaltbild der Abb.4.8 dargestellt. Die Bedeutung der Symbole in dem
gestrichelt umrandeten Kästchen ist dieselbe wie in Abb 1.5 und Abb. 2.6. Das langgestreckte ovale Neuron mit
der Bezeichnung "+" wird als 'Moto-Neuron' aufgefaßt, das im Normalbetrieb über die oben und seitlich
angebrachten Synapsen aktiviert werden kann und als Output das muskuläre Drehmoment Q erzeugt. Diese
Synapsen werden als plastisch angesehen und müssen auf die Parameter M, R, D und C des physikalischen
Systems abgestimmt werden. Die beiden anderen Neurone dienen zur Einstellung der mechanischen
Gleichgewichtsposition und zur Eingabe der Schwerkraftrichtung. Die betreffenden synaptischen Gewichten sind
1 und -1.
Die in der linken unteren Ecke der Abb.4.8 dargestellt Teilschaltung zeigt eine Möglichkeit auf, wie mit
Hilfe eines lernfähigen neuronalen Netzwerkes die Sinus-Funktion berechnet werden kann. Es handelt sich
hierbei um eine Approximation der Sinus-Funktion durch eine dreigliedrige Potenzreihe; denn die Zahlen 1, 3
und 5 an den Synapsen der Multiplizier-Zellen stehen für die Exponenten, mit denen Eingangsvariablen jeweils
zu potenzieren sind, während die synaptischen Gewichte beim Summationsneuron "+" die Koeffizienten
darstellen. Ein Beispiel für ein solches "Potenzierungsnetzwerk" größeren Umfangs ist bei der Behandlung des
zweigelenkigen Arms zu finden. Dieses Teilnetzwerk kann an die Stelle des Blocks mit der Bezeichnung "Sinus"
gesetzt werden. Die Synapse C muß in diesem Falle durch drei Synapsen mit den Stärken C'1, C'3 und C'5 ersetzt
werden.
Zu Beginn des auto-imitativen Lernprozesses werden die drei neuronalen Schalter in die eingezeichnete
Stellung 2 gebracht und den oberen Synapsen zunächst das Gewicht Null zugeordnet Die untere Synapse
übernimmt die Rolle des 'teaching input', über den dem Neuron die vom Signalgenerator mit der Bezeichnung
'blinder Lehrer' vorgegebene Aktivierung Q(t) gezeigt wird, die als Drehmoment gleichen Betrages auch den
Arm in Bewegung versetzt. Q(t) entspricht also der Efferenz e in Kapitel 4.2.1 bzw. Abb.4.3. Die vom blinden
Lehrer emittierte Zeitfunktion Q(t) ist dabei beliebig und verfolgt, abgesehen vom Training des Netzes, keine
weiteren Zwecke. Der Name 'blinder Lehrer' soll andeuten, daß der Lehrer den Erfolg des Trainings nicht zur
Kenntnis nimmt, ja nichteinmal erkennen kann, ob das Training überhaupt erfolgreich ist. Über die Rückführung
( t ) und ϕ
( t ) erhält man die für das Lernen benötigten präsynaptischen Aktivierungen.
von ϕ( t ), ϕ
Abbildung 4.8 : Invertierung der Werkzeugtransformation des Arms durch Zustandsrückführung,
dargestellt als "reflexanaloge Verarbeitung"
Eine Möglichkeit, die Gewichte der Synapsen zu bestimmen, ist folgende: Man geht von der
Differenzialgleichung (4.1) aus und initiiert über den blinden Lehrer eine Armbewegung. Zu den Zeitpunkten t1,
t2, ...., tn mißt man die kinematischen Werte (Winkel-Beschleunigung, -Geschwindigkeit und -Position) des
Arms sowie das auf den Arm vom blinden Lehrer ausgeübte Drehmoment. Schreibt man für diese Werte die
Differentialgleichung 4.1) n-mal aus, erhält man
15
( t 1 ) ⋅ M'+ ϕ ( t 1 ) ⋅ R'+ ϕ( t 1 ) ⋅ D'+ sin{ϕ( t 1 )} ⋅ C' = Q( t 1 )
ϕ
( t 2 ) ⋅ M'+ ϕ ( t 2 ) ⋅ R'+ ϕ( t 2 ) ⋅ D'+ sin{ϕ( t 2 )} ⋅ C' = Q( t 2 )
ϕ
.
.
( t n ) ⋅ M'+ ϕ ( t n ) ⋅ R'+ϕ( t n ) ⋅ D'+ sin{ϕ( t n )} ⋅ C' = Q( t n )
ϕ
(4.11)
Zur Vereinfachung sind hierbei ϕ0 und ϕg zu Null angenommen. Mathematisch gesehen ist (4.11) ein lineares
, ϕ
als Koeffizienten und den Konstanten
inhomogenes Gleichungssystem mit den kinematischen Werten ϕ, ϕ
M', R', D', C' als Unbekannte. Als Lösung des Gleichungssystems - sofern sie existiert - erhält man dann die
entsprechenden Werte für die Konstanten. Wenn die Sinusfunktion, wie in Abb.4.8 in der linken unteren Ecke
angedeutet ist, durch eine Potenzreihe dargestellt wird, die nach drei Gliedern abgebrochen wird, so muß man
natürlich in (4.11) den jeweils letzten Term vor dem Gleichheitszeichen durch die (abgebrochene) TaylorEntwicklung ϕ( ti ) ⋅ C'1+ϕ 3 ( ti ) ⋅ C'2 +ϕ 5 ( ti ) ⋅ C'3 (i=1,2,...,n) ersetzen.
In der anschließenden Aktivitätsphase werden die Schalter in Abb.4.8 in die Position 1 gebracht und damit auch
der blinde Lehrer abgeschaltet. An den Zustandsrückführungen und ihrer Verarbeitung wird jedoch nichts
verändert. Bei zutreffender Bestimmung der Konstanten M', R', D' und C' ist dann der Arm voll und präzise
steuerbar. Eine alternative Bestimmung der Konstanten wird in Abb.4.11 gegeben.
Ein zu erwähnender Umstand ist allerdings, daß Propriozeptoren, welche Winkelgeschwindigkeit und
Winkelposition bei Gliedmaßenbewegungen erfassen können, bekannt sind, aber keine, welche auf die
Winkelbeschleunigung reagieren. Andererseits weiß man, daß die in den Sehnen herrschende Zugspannung
propriozeptiv erfaßt wird. Diese Zugspannung setzt sich in den Sehnen, mit denen die Muskeln am Skelett
angesetzt sind, zusammen aus den muskulären Drehmomenten und den mechanisch-dynamischen Rückwirkungen
von Dämpfung, Federkonstante und Schwerkraft. Sie kann nach Gleichung (4.2) bzw. Abb.4.5 unmittelbar hinter
( t) ⋅ M , also zum Produkt
dem Vierfach-Addierer als Variable k(t) abgegriffen werden und ist proportional zu ϕ
aus Winkelbeschleunigung und Trägheit. Das bedeutet, daß dem Organismus zumindest eine der
Winkelbeschleunigung proportionale Größe zur Verfügung steht. Im Interesse der Klarheit der Ausführungen
( t) direkt propriozeptiv erfaßt wird, durchgeführt. Sie
werden die Berechnungen aber unter der Annahme, daß ϕ
( t) ⋅ M bezogen werden, was hier aber
könnten bei Bedarf mit leicht vergrößertem Aufwand auch auf ϕ
unterbleiben soll.
Da der System-Zustand des Arms, also Winkelgeschwindigkeit und -position, propriozeptiv erfaßt wird,
kann die Art der Zustandsrückführung auch als propriozeptive Steuerung (propriozeptive feedforward, s.
Mittelstaedt 1990) bezeichnet werden, oder, da die Einarbeitung der Zustandsvariablen in den Signalkreislauf
nach Art von Reflexen geschieht, auch, wie oben bereits angedeutet, als reflexanaloge Verarbeitung (reflex-like
processing; s. Kalveram 1991). Die neuronal repräsentierten Konstanten M', R', D' und C' sind in diesem Bilde
dann als die Verstärkungsgrade (gains) der betreffenden Reflexe zu interpretieren. Die Schwierigkeiten, die sich
hierbei aus der neuronal verursachten endliche Leitungsgeschwindigkeit ergeben, werden weiter unten behandelt.
4.2.1.7 Ermittlung des inversen Modells: Ein schlecht gestelltes Problem?
In bisher angestellten Simulationsversuchen hat sich sich herausgestellt, daß die Parameter des inversen Modells,
also die Konstanten M', R', D' und C' (bzw. M', R', D' und C'1, C'2, C'3) in der Tat identifiert werden können , ϕ
und die dynamischen Werte Q des
allerdings nur unter der Voraussetzung, daß die kinematischen Werte ϕ, ϕ
Arms mit hoher Präzision zur Verfügung stehen. Schon bei geringen unsystematischen Variationen der Meßwerte
können sich von Fall zu Fall ganz verschiedene Lösungen ergeben, in denen die physikalisch vorgegebenen
Parameter nicht wiederzuerkennen sind. Das liegt daran, daß die Koeffizientenmatrix des Gleichungssystems
(4.11) bei Wahl eines ungünstigen Bewegungsmusters durch den blinden Lehrer eine Determinante hat, welche
nahezu Null ist. Man sagt auch: Das Gleichungssystem hat eine schlechte Kondition. In einem solchen Falle wird
die Lösung instabil, dh. schon bei geringen unsystematischen Schwankungen der eingehenden Werte (hier der die
, ϕ
) findet man große
Koeffizienten repräsentierenden Meßwerte für die kinematischen Größen ϕ, ϕ
Schwankungen der Ausgangswerte (hier der Lösungen für die Parameter M', R', D' und C'). Nach Hadamard
(1923) ist ein Problem schlecht gestellt, wenn von den drei Bedingungen "Existenz", "Eindeutigkeit" und
"Stabilität" der Lösung (mindestens) eine nicht erfüllt ist. Offensichtlich also handelt es sich bei der Aufgabe,
das Modell der inversen Werkzeugtransformation zu bestimmen, um ein Problem, welches dazu neigt, schlecht
16
gestellt zu sein, und zwar wegen der fehlenden Stabilität der Lösung.
Was nun bedeutet es für die Aktivitätsphase, in der das inverse Modell angewendet wird, wenn der autoimitative Prozeß infolge der Schlechtgestelltheit neuronale Konstanten auswirft, welche von den physikalischen
Konstanten deutlich abweichen? Diese Frage ist leicht zu beantworten: Sind die neuronalen Konstanten zu klein,
wird der betroffene Teil der Impedanz nicht kompensiert und die tatsächliche Beschleunigung bleibt hinter der
gewünschten zurück. Haben die neuronalen Konstanten hingegen zu hohe Werte, ergibt sich eine
Überkompensation. Da dies meist gleichbedeutend mit positiver Rückkopplung ist, wird in diesen Fällen der Arm
die Tendenz zeigen, aus dem vorgegebenen Beschleunigungsrahmen auszubrechen, dh. instabil zu werden. In
jedem Falle wird der Arm weniger gut oder auch überhaupt nicht steuerbar sein und schlimmstenfalls 'wild' um
sich schlagen. Dies unterstreicht nochmals die Wichtigkeit des Unterdrückens von Fremdsignalen beim autoimitativen Lernen gem. Abb.4.4a .
4.2.1.8 Regularisierung, Relaxation und Hebb-sches Lernen
Unter Regularisierung versteht man die Anwendung von Methoden, welche bei einem schlecht gestellten
Problem obiger Art dennoch zu vernünftigen Lösungen führen. Unsere Versuche, solche Methoden auf das
Gleichungssystem (4.11) mit "verrauschten" Koeffizienten anzuwenden, sind anfangs jedoch allesamt
fehlgeschlagen (Kalveram & Natke 1997). Vermutlich lag das daran, daß wir bei dem Gleichungssystems der Art
(4.11) zunächst keine geeignete fehlerreduzierende Mittelwertbildung für die Koeffizienten angewendet hatten.
Erfolgversprechend erwies sich jedoch, sehr viele Einzelmessungen durchzuführen, also von einem stark
überbestimmten Gleichungssystem der Art (4.11) auszugehen und die Lösung mit der Methode der kleinsten
Quadrate zu ermitteln. Eine solche Methode dürfte jedoch keine neuronale Entsprechung haben. Eine andere Idee
ist , den Erwerb des inversen Modells konsequent als Relaxations-Aufgabe des Gesamtsystems, bestehend aus
dem physikalischen Arm und seinem Kontroller, zu definieren und auf Hebbsches Lernen zurückzuführen. Dies
soll im folgenden im einzelnen beschrieben werden.
Technisch gesehen handelt sich bei dem Arm-Kontroller-System um einen geschlossenen Kreis, in dem
sich die in Abb.4.8 eingezeichneten synaptischen Gewichte so einstellen müssen, daß zwischen präsynaptisch
erzeugter Erregungssumme (entspricht den linken Seiten der Gleichungen (4.11)) und postsynaptischer
Erregungseinprägung (rechte Seiten der Gleichungen (4.11)) ein Ausgleich erzielt wird. Dieser Ausgleich kann
über geeignet modifzierte Hebb-sche Synapsen erfolgen.
Wie man sich die Funktionsweise von normalen Hebb-Synapsen (Hebb 1949) vorstellen kann, soll
zunächst kurz erläutert werden: Ausgegangen wird von einem formalen Neuron mit input x, synaptischem
Gewicht w und linearer Charakteristik. Die Synapse soll Hebbsch sein, dh. ihre Stärke w soll sich von anfänglich
Null in der anschließenden Lernphase als Produkt aus präsynaptischer Erregung x und der gleichzeitig
herrschenden postsynaptischen Erregung y ergeben, wobei die postynaptische Erregung y der Nervenzelle über
eine erzwingende Synapse während der Lernphase eingeprägt wird. Diese erzwingende Synapse stellt also eine
Art “teaching” input der Zelle dar. Nach Abschluß der Lernphase, also in der Kannphase, hat die Synapse das
Gewicht w und der output der Nervenzelle nimmt einen gegenüber der Ausgangslage veränderten Wert z=w.x an,
wenn der input x angelegt wird. Verallgemeinert für den kontinuierlichen Fall lautet die Hebbsche Lernregel also
T
w = r ⋅ ∫ x (t ) ⋅ y (t ) dt ,
0
(4.12)
wobei T die Dauer der Lernphase und die Konstante r die Lernrate bedeuten. w ist also ein Maß für die
Kreuzkorrelation zwischen prä- und postsynaptischer Erregung, berechnet über die Zeitdauer T.
Abbildung 4.9 : Blockschaltbild einer Hebb-schen Synapse.
Auf der Abb.4.9 ist für den kontinuierlichen Fall das Blockschaltbild einer Hebbschen Synapse in der Lernphase
zu sehen. In der Lern-Phase ist der Integrator I auf "integrieren" gestellt, so daß er das Produkt aus x(t) und y(t)
kontinuierlich aufsummieren kann. Nach dem Lernen wird der Integrator auf "halt" geschaltet (etwa durch
Abtrennen der Eingangsvariablen des Integrators) und/oder die Eingangsvariable y auf Null gesetzt. Der Input x
erzeugt dann den Anteil z=w.x am postsynaptischen Potential. Ist nur eine Eingangsynapse vorhanden, ist z auch
gleich dem Output der Zelle. Ein grundsätzlicher Nachteil dieser Trainingsart ist, daß die so bestimmte
Synapsenstärke divergiert, und zwar gegen (plus oder minus) unendlich (MacKay & Miller 1990), dh. bei langer
Trainingsphase wird stets der maximal mögliche Wert angenommen, wenn x und y positiv korreliert sind, und
der minimal mögliche Wert, wenn die Korrelation zwischen x und y negativ ist. Zur Erzwingung von Konvergenz
können verschiedene Normierungsmethoden angewendet werden (vgl. Shouval & Perrone 1995). In vielen Fällen
würde sicher auch die Division des Integrals durch die Trainingsdauer T genügen, also die Bildung des zeitlichen
Mittelwerts des Produktes x(t).y(t).
17
Abbildung 4.10 : Relaxations-Synapse als Modifikation der Hebb-Synapse
In der Abb.4.10 wird ein hiervon abweichender Weg vorgeschlagen: Innerhalb der gestrichelten Umrandung ist
eine Modifikation der Hebb-schen Synapse dargestellt, bei der die Lernrate r mit negativem Vorzeichen in die
Berechnung der Synapsenstärke eingeht. Im unteren Teil der Abb.4.10 ist die Verschaltung angedeutet, in den
diese Synapse - zusammen mit anderen Synapsen gleichen Typs - eingebettet ist. Nach der in Abb.4.9
vermittelten Auffassung müßte der Nervenzelle die später zu zeigende Ausgangs-Aktivität y während der
Lernphase über den Lern-Eingang eingeprägt werden.
Im Gegensatz dazu bildet in Abb.4.10 die Variable y mit der Zelle eine gewöhnliche, aber hemmende
Synapse mit dem Gewicht -1 aus. Die über den Lern-Eingang zugeführte Variable y wird nunmehr von der
Aktivierungssumme, die über die n plastischen synaptischen Eingänge erzeugt wird, abgezogen. Die resultierende
Erregung der Nervenzelle ist somit bei nur einer Synapse wi.xi - y, oder, wenn mit
n
z = ∑ w i ⋅ xi die
i=1
Erregungssumme aller n Eingangssynapsen bezeichnet wird, z-y. In der Lernphase ist also die Differenz z-y als
postsynaptische Erregung anzusetzen, welche entsprechend der Hebbschen Regel mit der präsynaptischen
Erregung xi zu multiplizieren ist. Integration über das Produkt und Berücksichtigung der Lernrate mit -r ergibt
sodann
T
n
0
i =1
wi = − r ⋅ ∫ xi ⋅ ( z − y ) dt mit z = ∑ wi ⋅ xi und T → ∞ .
(4.13)
Können in der Lernphase die synaptischen Gewichte wi so bestimmt werden, daß die Differenz z-y bei jeder
Belegung der Variablen xi und y konstant den Wert Null ergibt, so folgt, daß die Integrale konvergieren. Der
Lernvorgang ist also - so kann man sagen - auf Relaxation angelegt, denn er bringt die postsynaptische Erregung
der Nervenzelle zum Verschwinden. Entsprechend kann für den in Abb.4.10 dargestellten Übertragungstyp auch
die Bezeichnung "Relaxations-Synapse" gewählt werden. Eine zu lange Dauer der Lernphase kann das Ergebnis
nicht mehr verfälschen, ebenso geht der Betrag r der Lernrate im Prinzip nicht in das Ergebnis ein. Bei kleinem
r ist lediglich die Lernphase zu verlängern. Bildet man die zeitliche Ableitung der in (4.13) dargestellten
Funktion, so erhält man dwi = r ⋅ xi ⋅ ( y − z ) ⋅ dt . Offenbar also entspricht die obige Formel (4.13) einer
linearen Delta-Regel zur Bestimmung von synaptischen Gewichten für den kontinuierlichen Fall, wobei die
algebraische Lösung im Rahmen des rekursiven Schemas der Abb.4.11 erfolgt. Für die Aktivitätsphase ist der
Integrator dann wieder auf "Halt" zu schalten und am Lern-Eingang muß y=0 gesetzt werden. Aus Abb.4.10
ergibt sich dann, daß das Ausgangssignal gleich y sein muß, wenn der Lernvorgang erfolgreich war.
In Abb.4.11 findet man diese Überlegungen auf das Erlernen der inversen Werkzeugtransformation des
eingelenkigen Arms angewendet (vgl. Kalveram 1998b). Der Fluß der Informationen in diesem rekursiven
Schema entspricht dem der Abb.4.7. bzw. 4.8. Die Kästchen M', R', D' und C1', C3', C5' bezeichneten
Relaxations-Synapsen, allerdings können, was nicht zu ersehen ist, verschiedene Lernraten r verwirklicht sein. In
diesem Schema wird deutlich, daß die Relaxation am neuronalen Netz unter Einbeziehung der Umwelt, hier des
Arms, erfolgt, was nochmals verdeutlicht, daß bei diesem Lernvorgang das zu kontrollierende System und sein
Kontroller eine unzertrennbare Einheit bilden.
Abbildung 4.11 : Erwerb des inversen Modells durch Relaxation
In Ergänzung zu Abb.4.4a und Abb.4.8 wird in der das vom blinden Lehrer abgegebene Signal vor Einspeisung
in den Lerneingang des neuronalen Netzes einer Verzögerung ∆t unterworfen. Dies dient dazu, diejenige
Verzögerung auszugleichen, die bei einem biologischen Arm durch die propriozeptive Erfassung der Positions-,
Geschwindigkeits- und Beschleunigungs-Signale sowie deren endliche Übertragungsgeschwindigkeit
notwendigerweise auftreten. Entspricht ∆t der Signalverzögerungszeit dieser drei Variablen, so sind die am
Lerneingang und dem Normaleingang des zu trainierenden Netzwerkes eintreffenden neuronalen Signale zeitlich
exakt aufeinander bezogen, eine Vorbedingung für auto-imitatives Lernen.
Die Simulation ergibt, daß die Konstanten M', R', D' und C' prinzipiell auf diese Weise exakt bestimmt
werden können. Bei Zuschaltung von weißem Rauschen auf die kinematischen Größen des Arms ist jedoch
erforderlich, daß die Lernrate herabgesetzt wird, das Lernen also verlangsamt wird, und die vom blinden Lehrer
initiierten Trainingsbewegungen mehrfach wiederholt werden. Ferner ist erforderlich, daß in den vom blinden
Lehrer herbeigeführten Trainingsbewegungen sowohl schnelle wie auch langsame Anteile vorkommen. Die
schnellen Anteile führen zum Erwerb der inversen Dynamik, die langsamen zum Erwerb der inversen Statik. In
Abb.4.12 ist ein entsprechender Lernverlauf (für D=0) dargestellt. Man sieht deutlich, daß die synaptischen
Gewichte auf die vom Armodell vorgegebenen Werte konvergieren.
18
Abbildung 4.12 : Konvergenz der synaptischen Gewichte beim modifizierten Hebb-schen Lernen
Mit der Rückführung auf die Hebbsche Lernregel ist damit der Erwerb des inversen Modells der
Werkzeugtransformation - und damit der Grundgedanke, daß zielgerichtetes Handeln durch inverse Modellierung
des Umweltverhaltens ermöglicht wird - an einen physiologisch und biochemisch plausiblen Mechanismus
neuronalen Lernens, nämlich an die Langzeitpotenzierung, angebunden.
4.2.1.9 Parallel-Serien-Wandlung, Serien-Parallel-Wandlung und Mehrebenenkontrolle
Die Abb.4.13 faßt den bisherigen Gedankengang nochmals zusammen und ergänzt ihn dabei durch zwei
zusätzliche Überlegungen. Als erstes fällt auf, daß die Abb.4.13 zwei verschiedene Kontrollebenen enthält,
welche an den Übergangstellen durch die gestrichelt gezeichneten Funktionseinheiten 'Parallel-Serien-Wandlung'
und 'Serien-Parallel-Wandlung' verbunden sind. Unter einer Parallel-Serien-Wandlung versteht man in der
Nachrichtentechnik einen Vorgang, bei dem ein Ereignis aus einer quasi räumlichen in eine zeitliche Dimension
umgesetzt wird. Mit "quasi räumlich" ist gemeint, daß das Ereignis in einem Code vorliegt, der die Zeit nicht
enthält. Oft ist damit zusätzlich auch eine symbolische Kodierung verbunden. Umgekehrt bedeutet eine SerienParallel-Wandlung, daß ein Ereignis, welches zeitlich erstreckt ist, eine Kodierung erhält, in welcher die Zeit
keine Beschreibungskategorie mehr ist. Hier wird der parallel vorliegenden Zieldiskrepanz δϕ durch den
z ( t ) , zugeordnet. Die Funktion der Serien-Parallel-Wandlung ist,
Mustergenerator eine Zeitfunktion, nämlich ϕ
die Zeit aus dem Strom der Ereignisse wieder zu eliminieren, also die Umkehrung der Parallel-Serienwandlung
vorzunehmen. Sie wird im wesentlichen durch die sensorische Verarbeitung vollzogen, welcher der zeitlich
erstreckten Bewegungsfigur den Endpunkt ϕ(T) zuordnet. Beide Wandelprozesse werden uns bei der
Besprechung des taktischen Apparates wiederbegegnen.
Abbildung 4.13 : Mehrebenenkontrolle, Parallel-Serien-Wandlung und Serien-Parallel-Wandlung bei der
eingelenkigen Bewegung
Die Ebene, auf der die Information parallel vorliegt, wird im weiteren auch die 'parallele Ebene' genannt. Die
Wirkungsübertragung auf dieser Ebene wird durch Doppelpfeile angezeigt. Die hier interessierenden Teile des
Bewegungsverlaufs reduzieren sich auf den Anfangs- und den Endpunkt der Bewegung. Dh. die Zeit wird als
diskret angesehen und es werden nur die Winkelpositionen zu Beginn (t=0) und am Ende (t=T) des vom CPG
ausgegebenen Musters für die Steuerung der Bewegung herangezogen: Die Startposition dient zur Bestimmung
der Zieldiskrepanz, die Endposition kann zur Adjustierung des Parameters p herangezogen werden, wenn dieser
ungenau eingestellt ist. Die Adjustierung kann nach der Vorschrift p←p+r.d
erfolgen, wobei der links vom
Pfeil stehende Wert der neue Wert für p ist, der sich aus dem rechts vom Pfeil stehenden alten Wert für p durch
Addition des Korrekturterms r.d ergibt. Hierbei bedeuten dϕ = ϕ z − ϕ( T ) den Fehler zum Zeitpunkt T, also
bei Beendigung der Musterausgabe, und r die Lernrate. Wählt man die Lernrate r zu p/
(wobei
∆ϕ = ϕ( T ) − ϕ( 0 ) der tatsächlich zwischen den Zeitpunkten t=0 und t=T überstrichene Winkel ist), erhält man
den korrekten Wert für p bereits nach einer einzigen Bewegung.
Die Ebene, auf der serielle Informationsverarbeitung vorliegt, wird im weiteren auch als 'serielle Ebene'
bezeichnet. Hier wird die Wirkungsübertragung durch einfache Pfeile angedeutet. Die verarbeiteten Variablen
(Drehmoment, Winkelgeschwindigkeit usw.) sind in kontinuierlicher Zeit definiert. Es ist dies die Ebene, die
durch die Differentialgleichung (4.1) bestimmt wird. In diesem Subsystem geschieht auch die reflexanaloge
Verarbeitung der peripheren Signale.
Technisch gesehen bilden die parallele und die serielle Verarbeitung eine aus zwei Systemen bestehende
Hierarchie, bei welcher die parallele Ebene der seriellen übergeordnet ist. In jedem der Systeme erfolgt die
Bewegungskontrolle in anderen Zeiteinheiten. Der zeitdiskrete Prozeß läuft auf der 'höheren Kontroll-Ebene' ab,
auf der die Parameter bestimmt und adjustiert (also geregelt) werden, welche auf der 'unteren Kontroll-Ebene' für
die seriellen Prozesse benötigt werden. Sowohl die im parallelen Teil angeordnete Ermittlung der Zieldiskrepanz
als auch die im seriellen Teil on-line durchgeführte Invertierung der Werkzeugtransformation sind
Steuerungsvorgänge, haben also den Rang von Taxien. Die erfolgsabhängige Adjustierung des Parameters p im
parallelen Teil ist hingegen ein Regelungvorgang und daher biologisch unter "Appetenzverhalten",
lerntheoretisch unter "Selbstabgleich" (s. auch Kapitel 3.4.1) einzuordnen. Auch im seriellen System kann
Regelung hinzugefügt werden, wie später noch näher erörtert werden wird.
4.2.1.10 Motorvariabilität bei Zielinvarianz: Das Redundanzproblem
Ein- und dasselbe sensorische Ziel kann motorisch auf verschiedene Weise herbeigeführt werden, z.B. kann ein
19
Ziel schnell oder langsam und auch mit unterschiedlichen Geschwindigkeitsverläufen angefahren werden. Aus
(4.9) folgt, daß bei derselben Zieldiskrepanz sowohl Amplitude q als auch Dauer T des erzeugten Musters
beträchtlich variieren können, ohne das die Bewegungsgenauigkeit beeinträchtigt wird, da nur das Produkt q.T2
konstant gehalten werden muß, was man auch als Spezialfall einer Re-Skalierbarkeit von Kraft und Zeit (Heuer
1984) ansehen kann. Eine weitere Redundanz ist dadurch gegeben, daß die Form des vorgegebenen Musters
varieren kann, wenn nur die in Abb.4.6angedeuteten Flächen jede für sich gleich bleiben. Dieses sind Ursachen wenn auch nicht alle - für die immer wieder beobachtete Motorvariabilität bei Zielinvarianz. Die relative Freiheit
der Wahl der Bewegungsdauer T kann ferner dazu ausgenutzt werden, die Dauern weiterer gleichzeitig
auszuführender Automatismen aufeinander abzustimmen. Ein außenstehender Beobachter kann dann den
Eindruck gewinnen, daß die verschiedenen Automatismen der Phase nach intrinsisch gekoppelt sind und mag auf
eine koordinative Struktur schließen, welche trotz variierender Geschwindigkeiten und Amplituden wie eine
einzige Einheit arbeitet. Auch das Isochronie-Prinzip, welches die Beobachtung beschreibt, daß hoch
automatisierte Bewegungen unterschiedlicher Bewegungsamplituden oft nahezu zeitgleich ausgeführt werden,
wird durch (4.9) erklärt.
4.2.1.11 Lernen und Anwenden des inversen Modells bei Verzögerung der
Zustandsrückführung
Unter physiologischen Bedingungen sind die Meldungen über Winkelbeschleunigung, -geschwindigkeit und position des Arms, sofern sie propriozeptiv vermittelt sind, infolge endlicher Leitungsgeschwindigkeiten bei ihrer
Ankunft am Eingang des Kontrollers gegenüber dem vom blinden Lehrer in den Lerneingang abgegebenen Signal
zeitlich verschoben. Erfolgreiches Lernen und späteres Anwenden des inversen Modells erfordern aber das
Einhalten der relativen Gleichzeitigkeit aller dieser Signale, dh. die zum gleichen Zeitpunkt am physikalischen
Objekt abgenommenen Meßwerte für Beschleunigung, Geschwindigkeit und Position einerseits und das
antreibende Drehmoment andererseits müssen in derselben zeitlichen Ordnung auch dem Kontroller zur
Verfügung stehen. In der Lernphase ist der Kontroller nur "beobachtend" tätig. Relative Gleichzeitigkeit ist dann
dadurch zu gewährleisten, daß das vom blinden Lehrer ausgehende Motor-Signal, bevor es in den Lerneingang
eingespeist wird, um denjenigen Betrag verzögert wird, den auch die propriozeptive Rückmeldung aufweist. In
Abb.4.11 wird diese Verzögerung durch das kleine Quadrat mit der Bezeichnung "∆t" in der Zuleitung zum
Lerneingang angedeutet.
Die in der Aktivitätsphase ebenfalls erforderliche relative Gleichzeitigkeit zwischen den Signalen, welche
den momentanen Bewegungszustand (Winkelgeschwindigkeit und -position) des Arms melden, und dem
aktuellen Drehmoment ist nicht so einfach zu erreichen, weil der Kontroller hier steuernd in den physikalischen
Prozeß eingreift und zur Berechnung des aktuell zu erzeugenden Drehmoments die momentanen Zustandswerte
des Prozesses tatsächlich auch kennen muß. Hier kommen die neuronal vermittelten Zustandsrückmeldungen in
jedem Falle zu spät, ein handicap, welches sich insbesondere bei im Vergleich zur Verzögererungszeit schnellen
Bewegungen auswirkt. Abhilfe kann hier nur die Vorhersage des Systemzustands schaffen. Unter der Annahme,
daß in der Lernphase das inverse Modell der Werkzeugtransformation präzise identifiziert worden ist, läßt sich
dieses Problem jedoch prinzipiell lösen: Der Systemzustand läßt sich nämlich nun aus der gewünschten
z ( t ) durch Integration vorausberechnen. Abb.4.14 zeigt eine hierfür geeignete Anordnung:
Beschleunigung ϕ
( t ) wird vom inversen Modell S-1 des
Das von links herangeführte gewünschte Beschleunigungssignal ϕ
z
Kontrollers in ein Drehmoment Qs(t) umgesetzt, welches den Arm in der gewünschten Weise antreibt.
z ( t ) und ϕ z ( t ) durch ein- bzw. zweimalige Integration von ϕ
z ( t ) vorhergesagt.
Gleichzeitig werden ϕ
Abbildung 4.14 : Zustandsvorhersage durch Integration des Beschleunigungs-Ziels
Die Existenz entsprechender neuronaler Integratoren kann biologisch als gesichert gelten, sie wurden z.B. von
Eckmiller (1985) experimentell im Bereich der Okulomotorik nachgewiesen. Bei fehlenden äußeren Störungen
( t ) und ϕ( t ) mit den
müssen dann die am physikalischen System abgenommenen aktuellen Werte ϕ
vorhergesagten Werten übereinstimmen, so daß das inverse Modell jetzt mit den vorhergesagten Zustandsgrößen
betrieben werden kann. Dem wird in Abb.4.14 dadurch Rechnung getragen, daß die Pfeile, welche die jeweils
aktuellen Zustandsgrößen symbolisieren, vom inversen Modell abgetrennt sind und statt dessen die
vorhergesagten zugeführt werden. In diesem Falle arbeitet die Steuerung über die inverse Modellierung
vollständig automatisch, dh. ohne jede periphere Rückmeldung, eine Betriebsart, die man als Steuerung mittels
"predicted feedback" bezeichnen kann (Kalveram 1991b).
4.2.1.12 Einbettung der Steuerung durch inverse Modellierung in Regelkreise
In den bisherigen Ausführungen war, zumindest soweit die serielle Ebene betroffen war, ausschließlich die
20
Steuerung über die Inversion der Werkzeugtransformation Gegenstand der Betrachtungen. Unter
Anwendungsgesichtspunkten ist das sicherlich nicht ausreichend, weil bei jeder Einwirkung einer nicht
vorhergesehenen äußeren Störkraft das Ziel verfehlt werden würde, und zwar auch dann, wenn das im Kontroller
repräsentierte inverse Modell in seiner Struktur nicht von der Inversen der physikalisch vorgegebenen
Werkzeugtransformation abweicht. Denn vorausgesetzt, der Kontroller arbeitet im predicted feedback Modus,
dann hat die Störung eine Abweichung des vorhergesagten Systemzustands vom tatsächlichen Systemzustand zur
Folge, was die weitere Steuerbarkeit des Systems durch den jetzt fehlerhaft informierten Kontroller
verschlechtert. Setzt der Kontroller dennoch seine Tätigkeit ohne Korrekturen fort, so muß es zwangsläufig zu
Abweichungen auch zwischen (übergeordneten) sensorischen Zielen und dem tatsächlich erreichten
Bewegungsergebnis kommen. Der Kontroller muß daher an die Realität 'angebunden' werden. Dies kann
einerseits dadurch geschehen, daß die vorgesagten Systemzustände (Geschwindigkeit und Beschleunigung) an
die tatsächlich vorliegenden angeglichen werden, damit die Kontrolle durch inverse Modellierung fortgesetzt
werden kann. Andererseits kann eine Nachbesserung der Bewegung selbst vorgesehen werden, wenn sich
herausstellt, daß das Bewegungsergebnis mit dem Bewegungsziel nicht übereinstimmt. Abb.4.15 zeigt zwei
Möglichkeiten, wie dies durch Regelungsvorgänge (negative feedback control), die sich entweder auf die
vorhergesagten oder erreichten Systemzustände beziehen, im Prinzip erreicht werden kann.
Abbildung 4.15 : Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise
Zur Vorhersage des Systemzustands werden wieder wie in Abb.4.14 zwei Integratoren benutzt, die jetzt jeweils
einen weiteren Eingang haben, der mit dem ursprünglichen Eingang additiv zusammenwirkt. In diesen zweiten
Eingang wird Differenz zwischen der momentan geltenden Vorhersage und dem betreffenden aktuellen Wert, so
wie er an der Peripherie propriozeptiv gemessen wird, eingegeben. Vor der Bildung dieser Differenzen wird die
jeweils vorhergesagte Variable zeitlich verzögert, was in Abb.4.15 durch ein kleines Quadrat mit
einbeschriebenem ∆t angedeutet wird. Diese Verzögerung dient dazu, ähnlich wie bei Erlernen der inversen
Werkzeugtransformation durch Auto-Imitation, die relative Gleichzeitigkeit der durch die Differenzbildung
verglichenen Signale sicherzustellen, also das zeitliche Nachlaufen der peripheren Signale gegenüber den
zugehörigen vorhergesagten Signalen auszugleichen. Die in den ersten Integrator zusätzlich eingegebene Größe
ist
u ⋅ δ ϕ ( t) = u ⋅ {ϕ ( t) − ϕ z ( t − ∆t)} . Es handelt sich also um einen proportionalen Regler mit der
Verstärkung u und einer integrierenden Regelstrecke, bei der die tatsächliche periphere Geschwindigkeit
ϕ ( t )
ϕ z ( t ) als der zu regulierende Istwert aufgefaßt werden.
Entsprechend gilt für den zweiten Integrator v ⋅ δ ϕ( t) = v ⋅ {ϕ( t) − ϕ z ( t − ∆t)} . Hier hat der
als Sollwert und die vorhergesagte Geschwindigkeit
Proportionalregler die Verstärkung v, während die aktuelle Position den Sollwert und die vorherzusagende
Position den Istwert darstellen.
Die Nachbesserung hinsichtlich der Winkelposition ist in dem gestrichelt umrandeten Kästchen
veranschaulicht. Wie schon in Abb.4.14, wird zunächst das von links herangeführte gewünschte
z ( t ) vom inversen Modell S-1 des Kontrollers in ein Drehmoment Qs(t) umgesetzt,
Beschleunigungssignal ϕ
welches nunmehr vor der Anwendung auf den Arm noch einem Eingang eines Addierer eingegeben wird. Die
Differenz d ϕ( t ) = ϕ z ( t ) − ϕ( t ) wird, w-fach verstärkt und nun als Qr(t) bezeichnet, dem anderen Eingang
des Addierers zugeführt, dessen Ausgangssignal Q(t) dann den Arm antreibt. ϕ z ( t ) , ϕ( t ) und d ϕ( t ) können
also als Sollwert, Istwert und Regelabweichung aufgefaßt werden, die einen weiteren Regelkreis mit
proportionalem Regler konstituieren, in welchen die über das inverse Modell laufende Steuerung eingebettet ist.
In diesem Regelkreis hat, im Gegensatz zu den im vorigen Abschnitt besprochenen beiden Regelkreisen, die
vorhersagende Variable ϕ z ( t ) Sollwertcharakter, während die aktuelle periphere Größe ϕ( t ) die zu regelnde
Größe darstellt. Die Regelstrecke ist in diesem Falle der physikalische Arm, welcher zweifach integrierend ist.
Dieser Regelkreis neigt damit zur Instabilität, wenn die Verstärkung w zu groß wird. Ebenso wie die oben
beschriebenen beiden, tritt auch er erst dann in Aktion, wenn Störungen auftreten oder das inverse Modell nicht
zutrifft, ansonsten bleibt er unbeansprucht. De facto führt er eine neuronal erzeugte Federsteifigkeit mit zeitlich
variabler Gleichgewichtslage ein, wobei ϕ z ( t ) die zum Zeitpunkt t geltende Gleichgewichtslage darstellt. D.h.,
nur dann, wenn sich die aktuelle Position von dieser Gleichgewichtslage entfernt, wird ein rücktreibendes
Drehmoment erzeugt, welches die Abweichung zu verkleinern trachtet. Zur Unterdrückung von Schwingungen
kann dann ggf. auch noch eine zur aktuellen Geschwindigkeit proportionale Größe mit negativem Vorzeichen auf
den unteren Addierer geschaltet werden (in Abb.4.15 gepunktet eingezeichnet).
Vor dem Hintergrund der Abb.4.3 können ϕ z ( t ) auch als "Efferenzkopie im weiteren Sinne", ϕ( t ) als
"Gesamtafferenz" und d ϕ( t ) als "Exafferenz" interpretiert werden; mit dieser Bemerkung soll nochmals darauf
hingewiesen werden, wie eng Sensorik und Motorik zusammenhängen, wie wenig sachgerecht eine Trennung
21
zwischen neuronalem Kontroller und kontrollierter Realität ist und wie physiologische und systemtheoretische
Ansätze letzten Endes zu einer einheitlichen Sichtweise konvergieren.
4.2.2 Kontrolle der Zielbewegung eines zweigelenkigen Arms
Das eingelenkige Arm-Modell der Abb.4.5 soll nun um ein weiteres Gelenk erweitert werden, wobei das
ursprüngliche Gelenk (Gelenk 1) als Schultergelenk, das neue Gelenk (Gelenk 2) als Ellbogengelenk aufgefaßt
wird. Physikalisch handelt es sich jetzt um ein Doppelpendel, von dem bekannt ist, daß es sich nur sehr schwer
kontrollieren läßt. Der Grund dafür ist, daß sich die Beschreibung des Armverhaltens mittels seiner
Werkzeugtransformation - und dadurch natürlich auch die Kontrolle des Arms - durch Hinzunahme eines zweiten
Gelenks stark verkompliziert.
In Abb.4.16 wird eine Zielbewegung mit solch einem Arm veranschaulicht, der zur Vereinfachung des Problems
jedoch nur in einer Ebene beweglich sein soll. Die aktuelle Position P der Armspitze wird im Rahmen eines
umgebungsbezogenen x-y-Koordinatensystems beschrieben, welches als Cartesisch angenommen wird. Weiter
wird angenommen, daß das Individuum die Armspitze exterozeptiv - hier über das visuelle System - erfaßt und in
einem internen Koordinatensystem lokalisiert, welches mit dem umgebungsbezogenen übereinstimmt. Die
Armbewegungen selbst werden durch Drehungen im Schultergelenk und im Ellbogengelenk ausgeführt. Die
betreffenden Drehwinkel sind jedoch im Rahmen eines körperzentrierten Koordinatensystems festgelegt.
Wiederum wird angenommen, daß sowohl die Gelenkwinkel als auch die sie verstellenden Drehmomente
propriozeptiv erfaßt werden und daß auch hier die sensorischen mit den physikalischen Meßwerten
übereinstimmen.
Abbildung 4.16 : Zweigelenkiger Arm
Die Abb.4.17 gibt zunächst einen groben Überblick über den Funktionskreis, der einer Zielbewegung mit diesem
Arm unterlegt werden kann. Eine Zielbewegung beginnt damit, daß eine gewünschte Position Pz im Rahmen des
visuellen Koordinatensystem festgelegt wird. Aufgabe der Motorik ist es dann, die Armspitze von der aktuellen
Position in die gewünschte Position zu überführen. Der motorische Apparat hat also muskuläre Drehmomente um
die beiden Gelenkwinkel so zu erzeugen, daß die Armspitze in der gewünschten Weise versetzt wird.
Abbildung 4.17 : Vereinfachter Funktionskreis von Werkzeugtransformation und ihrer Invertierung
Die 'Werkzeugtransformation' wird wieder mit F bezeichnet und ist jetzt definiert als dasjenige Funktionselement,
dessen Eingangsgröße der Vektor der muskulär erzeugten Drehmomente Q1 und Q2 um die Gelenke 1 und 2 ist
und dessen Ausgangsgröße durch den Vektor des physikalischen Werkzeugeffekts repräsentiert wird. Der
Werkzeugeffekt wird hier durch die cartesische Position P=(x,y) der Armspitze nach dem Ende der Bewegung
wiedergegeben; denkbar sind aber auch in cartesischen Koordinaten ausgedrückte Geschwindigkeits- oder
Beschleunigungsvektoren. Der neuronale Kontroller hat nun diejenigen muskulären Kräfte bereitzustellen, die
das vorgegebene Ziel Pz verwirklichen. Dazu muß er die Werkzeugfunktion in inverser Form widerspiegeln. Das
ist durch das Funktionssymbol S-1 angedeutet. Der vermittels S-1 berechnete Drehmomentvektor (Q1, Q2) wird
dann dem Armsystem eingeprägt und veranlaßt die Armbewegung, dh. wird über die Werkzeugtransformation F
in den Werkzeugeffekt umgesetzt. Der rückwärts von F nach S-1 verlaufende Pfeil deutet an, daß zu dieser
Inversion eine Zustandsrückführung erforderlich ist, welche hier die auf die beiden Gelenke bezogenen
Winkelpositionen und -geschwindigkeiten umfaßt. Die Doppelpfeile kennzeichnen wiederum zeitdiskrete
(parallele), die dünnen zeitkontinuierliche (serielle) Arbeitsweise. Nach Bewegungsende können dann die
gewünschte und die erreichte Position der Armspitze verglichen werden und der Fehler dP, wenn ungleich Null,
ggf. zu Korrekturzwecken herangezogen werden.
4.2.2.1 Vorwärts-Kinematik und -Dynamik des zweigelenkigen Arms
Um die auftretenden Kontrollprobleme eingehender zu veranschaulichen, sei die Werkzeugtransformation F des
Arms zunächst in den kinematischen und den dynamischen Teil aufgespalten. In der Physik versteht man unter
Kinematik die Beschreibung von Bewegungen mit Hilfe räumlicher Koordinaten und ihrer zeitlichen
Ableitungen, also z.B. mit Hilfe von Größen wie Position, Geschwindigkeit und Beschleunigung (vgl. Pohl 1962
S.19). Bei mehrgliedrigen bewegten Körpern sind bei der Beschreibung der Einzelbewegungen und ihres
Zusammenhangs insbesondere auch die geometrischen Beziehungen zwischen den Teilen zu berücksichtigen.
Von der Kinematik zu unterscheiden ist die Dynamik, welche die Veränderungen der kinematischen Größen,
welche das in Bewegung befindliche System beschreiben, unter der Wirkung von Kräften zum Gegenstand hat.
Der Hinweis sei gestattet, daß in den Verhaltens- und Neurowissenschaften das Wort "dynamisch" zwar häufig
benutzt, ihm allerdings selten auch eine entsprechend präzise Bedeutung zugeordnet wird. Wenn im folgenden
22
die Bezeichnungen Kinematik und Dynamik benutzt werden, so werden ihnen auschließlich die oben genannten
physikalischen Bedeutungen unterlegt.
Bleiben wir zunächst bei der Kinematik des Arms. Die Beschreibung seiner Bewegungen kann sowohl in
cartesischen Koordinaten der Armspitze als auch in Winkelkoordinaten der beiden Gelenkwinkel geschehen. Der
Zusammenhang beider Beschreibungssysteme ergibt sich auf rein geometrischer Basis aus der vektoriellen
Addition der die Endpunkte von Ober- und Unterarm darstellenden Vektoren:
x = l1 sin ϕ1 + l2 sin(ϕ1 + ϕ 2 )
y = l1 cos ϕ1 + l2 cos(ϕ1 + ϕ 2 )
(4.12)
Die in diese Transformation eingehenden Variablen sind also die Winkelpositionen hinsichtlich der beiden
Gelenke, während die Ausgangsgröße die von diesen Winkeln festgelegte cartesische Position (x,y) der
Armspitze ist. Aus diesem Grunde sagt man auch, daß die Gleichungen (4.12) die Vorwärtskinematik des Arms
festlegen. Der Teil der Werkzeugtransformation, welcher die Vorwärtskinematik beschreibt, soll im folgenden
mit FK bezeichnet werden, eine geeignete Modellierung mit SK, entsprechende inverse Modelle mit SK-1.
Unter der Dynamik - genauer: der Vorwärtsdynamik - des Arms sollen die Veränderungen der
Winkelkoordinaten und ihrer zeitlichen Ableitungen unter dem Einfluß von Kräften verstanden werden.
Hierunter zählen nicht nur die von aktivierten Muskeln und anderen Einflußgrößen ausgeübten "äußeren" Kräfte,
also diejenigen Kräfte bzw. Drehmomente, welche dem mechanischen Armsystem von außen eingeprägt werden,
sondern es müssen auch die "inneren" Kräfte berücksichtigt werden. Diese entstehen auch ohne Anwesenheit
äußerer Kräfte allein dadurch, daß sich die Bewegungen von Ober- und Unterarm gegenseitig beeinflussen. Z. B.
wird durch eine Drehung des Unterarms eine Zentrifugalkraft erzeugt, welche den Oberarm in Richtung
Unterarm wegzieht, während umgekehrt der Unterarm durch eine Drehung des Oberarms eine Zentripetalkraft
erfährt, welche den Unterarm in Richtung Oberarm treibt. Die Dynamik der Drehbewegungen des
zweigelenkigen Arms um das Schultergelenk (Gelenk 1) und das Ellbogengelenk (Gelenk 2) wird mathematisch
durch die folgenden beiden gekoppelten Differentialgleichungen beschrieben (vgl. Kalveram 1991b):
1 + Cϕ
2 − Dϕ 22 − 2Dϕ 1ϕ 2 − E + R1ϕ 1 + D1 (ϕ1 − ϕ 01) = Q1
Aϕ
2 + Cϕ
1 + Dϕ 12
Bϕ
− F + R2ϕ 2 + D2 (ϕ 2 − ϕ 02 ) = Q 2
(4.13)
Hierbei bedeuten:
ϕ1, ϕ 2 : Winkelpositionen von Gelenk 1 (Schulter) und Gelenk 2 (Ellbogen)
ϕ 01, ϕ 02 : mechanische Gleichgewichtslagen
M =Trägheitsmoment des Armsegments i, bezogen auf Gelenk i (i=1,2)
mi = Masse des Armsegments i
li = Länge des Armsegments i
ai = Abstand vom Gelenk i zum Schwerpunkt des Armsegments i
A = M1 + M2 + m2l12 + l1a2m2 cos ϕ2
B =
M2
C =
M2
+ l1a2m2 cos ϕ2
D =
+ l1a2m2 sin ϕ2
E = g(a1m1+l1m2).sin(ϕ1-ϕg) + g a2m2.sin (ϕ1+ϕ2-ϕg)
F =
+ g a2m2.sin (ϕ1+ϕ2-ϕg)
Ri = Reibungskoeffizient (visköse Dämpfung),
Di = Federsteifigkeit,
g = 9.81 N/kg (Gravitationskonstante),
ϕg = Richtung der Schwerkraft mit Bezug auf den Körper
Qi = Drehmoment um Gelenk i (Kraft mal Kraftarm), ausgeübt vom Kontroller auf den Arm.
(i=1, 2)
Diese gekoppelten Differentialgleichungen beschreiben also das dynamische Verhalten des Arms. Zu beachten
ist, daß der Bewegungszustand des Systems 'Arm' nunmehr durch die Winkelpositionen ϕ1, ϕ 2 und die
23
1, ϕ 2 gegeben ist. Die oben erwähnten Wechselwirkungen zwischen den
Winkelgeschwindigkeiten ϕ
Armsegmenten drücken sich dadurch aus, daß in der Gleichung für den Oberarm (erste Zeile) die
Winkelbeschleunigung und die Zustandsgrößen des Unterarms (zweite Zeile) auftreten und umgekehrt: Der
Koeffizient C kennzeichnet die beiden Terme, welche den Kopplungen über die reaktiven Trägheitskräfte
Rechnung tragen. Die beiden Terme mit dem Koeffizienten D stellen Zentrifugal- bzw. Zentripetalkräfte dar, der
Term mit dem Koeffizienten 2D die Coriolis-Kraft, die auftritt, wenn eine Drehbewegung mit Bezug auf ein
ebenfalls sich drehendes Koordinatensystem ausgedrückt wird. Die Terme E und F vermitteln Einflüsse und
Kopplungen, die durch die Schwerkraft entstehen. Die Terme mit den Koeffizienten R1, R2 und D1, D2
schließlich entsprechen den schon in Gleichung (4.1) eingeführten und dort mit R und D bezeichneten
Dämpfungs- und Federmomenten.
Der Teil der Werkzeugtransformation F, welcher die Vorwärtsdynamik beschreibt, soll im folgenden mit
FD abgekürzt werden, eine geeignete Modellierung mit SD, entsprechende inverse Modelle mit SD-1. Um die
Vorwärtsdynamik des Arms im expliziter Darstellungsweise zu erhalten, z.B. in der Form
1, ϕ
2 ) = FD ( Q1, Q 2 ) , müßte man die Gleichungen (4.13) formal nach den Beschleunigungen der beiden
(ϕ
Gelenkwinkel auflösen. Dieses ist jedoch für den allgemeinen Fall in geschlossener Form so nicht zu erreichen,
für die hier angestellte Analyse aber auch nicht erforderlich.
Die Abb.4.18 zeigt, wie man sich, ausgehend von der Bewegungskontrolle beim eingelenkigen Arm (s.
Abb.4.13) die neuronale Kontrolle einer Zielbewegung mit einem zweigelenkigen Arm vorstellen kann. Im
unteren Teil der Abb.4.18 ist dargestellt, wie Vorwärtsdynamik FD und Vorwärtskinematik FK kombiniert
werden können, um die komplette Werkzeugtransformation zu erhalten. Die neuronale Kontrolle der
Zielbewegung erfordert dann den Einsatz von inversen Modellen dieser Werkzeug-Teiltransformationen. Wie
dies im Prinzip gemacht werden kann, ist im oberen Teil der Abb.4.18 zu erkennen:
Abbildung 4.18 : Zweigelenkiger Arm und seine Kontrolle
Sobald die gewünschte cartesische Zielposition Pz=(xz, yz) der Armspitze vorgegeben ist, hat der Organismus
das Problem, solche Muskelkräfte bzw. Drehmomente Q1, Q2 zu finden, welche die Gelenkwinkel so verstellen,
daß nach Ablauf der Bewegungsdauer T die gewünschte Position der Armspitze verwirklicht ist, d.h. die
Beziehungen x=xz und y=yz gelten. Hierzu werden die gewünschten cartesischen Zielkoordinaten zunächst in
das Modul 'Inverse Kinematik' (SK-1) eingegeben, welches die zugehörigen Zielwinkel ϕ1z , ϕ 2z bestimmt.
ϕ1( 0 ), ϕ 2 ( 0 ) erhält man daraus die Ziel-Diskrepanzen
δϕ1, δϕ 2 , welche ensprechend (4.9) in die beiden Beschleunigungsmuster-Generatoren CPG1 und CPG2
Durch Subtraktion der Winkel-Ausgangspositionen
eingegeben werden. Nach Wahl der Periodenlänge T emittieren diese die gewünschten Beschleunigungsmuster
1z ( t ) und ϕ
2z ( t ) . Ab dieser Stelle beginnt die serielle (zeitkontinuierliche) Verarbeitung. Die gewünschten
ϕ
Beschleunigungen bilden den Input für das Modul mit der Bezeichnung 'Inverse Dynamik' (SD-1). Dieses Modul
wiederum ermittelt daraus unter Zuhilfenahme der rückgeführten aktuellen Zustandsvariablen ϕ1, ϕ 2 und
ϕ 1, ϕ 2 die muskulären Drehmomente Q1, Q2 , die auf den Arm einwirken und von der Vorwärts-Dynamik
1, ϕ
2 umgesetzt werden. Bei fehlerfreier Arbeitsweise der
zunächst in die aktuellen Winkelbeschleunigungen ϕ
inversen Dynamik gilt ϕ1 = ϕ1z , ϕ 2 = ϕ 2z . Auf physikalischem Wege ein- bzw. zweimalig integriert ergeben
1, ϕ 2 bzw.
sich aus den Beschleunigungen die zugehörigen aktuellen Winkelgeschwindigkeiten ϕ
Winkelpositionen ϕ1, ϕ 2 , also der Zustand des Armsystems, ausgedrückt in körperzentrierten Koordinaten, von
denen hier angenommen wird, daß sie mit den propriozeptiv ermittelten Werten übereinstimmen. Auf die
Darstellung der Möglichkeit, die Zustandgrößen aus dem output der Mustergeneratoren vorherzusagen, wurde
hier aus Gründen der Übersichtlichkeit verzichtet.
Der Funktionsblock mit der Bezeichnung 'physikalische und sensorische Integration' führt eine Serien-ParallelWandlung durch. De facto bedeutet das hier, daß aus der zeitlichen Abfolge der Winkelwerte die
Anfangspositionen ϕ1( 0 ), ϕ 2 ( 0 ) und Endpositionen ϕ1( T ), ϕ 2 ( T ) herausgefiltert und für eine zeitdiskrete
Verarbeitung zur Verfügung gestellt werden. Die Serien-Parallel-Wandlung reduziert also den Bewegungsverlauf
wieder auf die Anfangs- und Endpunkte der Bewegung. Die Vorwärts-Kinematik transformiert sodann die so
erhaltenen Winkel in die aktuelle Position P=(x,y) der Armspitze. Die Anfangspositionen der Gelenkwinkel
werden, wie schon schon beim eingelenkigen Arm beschrieben, zur Berechnung der Zielddiskrepanzen benutzt,
die Endpositionen können nach Subtraktion von den Zielwinkeln Fehlerwerte dϕ1 und dϕ2 liefern, die
entsprechend Abb.4.13 zur Adjustierung der Parameter p1 und p2 des amplitudenbestimmenden Netzwerkes
herangezogen werden können, welches den Mustergeneratoren vorgeschaltet ist. Weggelassen in Abb.4.17 ist der
Vergleich der Cartesischen Ziel- und Endpositionen zur Ermittlung von Fehlerwerten dx=xz-x(T), dy=yz-y(T),
die ggf. für weitere Parameteradjustierungen benutzt werden können.
24
4.2.2.2 Reflexanaloge Verarbeitung und inverse Dynamik des zweigelenkigen Arms
1 = ϕ
1z , ϕ
2 = ϕ
2z . Bezogen
Bei fehlerfreier Arbeitsweise der inversen Dynamik gelten die Beziehungen ϕ
auf die Differentialgleichung (4.13), welche die Physik des zweigelenkigen Arms beschreibt, bedeutet dies, daß
die muskulären Drehmomente Q1, Q2 so bestimmt werden müssen, daß in jedem Moment alle Terme auf der
linken Seite - mit Ausnahme der mit A und B beginnenden - genau kompensiert werden. Ähnlich wie beim
eingelenkigen Arm (s. 4.4), kann man also auch hier den Ansatz
Q1( t) = Q1M ( t) + Q1K ( t)
Q 2 ( t) = Q 2M ( t) + Q 2K ( t)
machen, wobei
1z ( t) = Q1M ( t)
M'1 ⋅ ϕ
2z ( t) = Q 2M ( t)
M'2 ⋅ϕ
(4.14)
die auf den Mustergenerator zurückgehenden Drehmomente zur Überwindung der Trägheitsmomente von Oberund Unterarm bedeuten. Gelingt es also, die kompensierenden Drehmomente Q1K, Q2K im Rahmen der inversen
Dynamik hinreichend genau einzustellen, so sind aus der Sicht der beiden Mustergeneratoren (CPG1 und CPG2)
weder Schwerkraft-, Dämpfungs- und Federkräfte zu berücksichtigen, noch auch Wechselwirkungen zwischen
den Gliedmaßen. Bei richtiger Einstellung auch der Trägheitsmomente der beiden Armsegmente können diese
dann von den Mustergeneratoren angesteuert werden, als ob sie unabhängig voneinander wären und auch keine
Trägheitskräfte auf sie wirken würden.
Abbildung 4.19 Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem
zweigelenkigen Arm. (Modifiziert nach Kalveram 1991b)
Wie die on-line erfolgenden Berechnungen und Verrechnungen der Signale hierfür aussehen müssen, ist in
Abb.4.19 dargelegt. Die mit "+" gekenzeichneten ovalen Summiereinheiten erzeugen die muskulären
Drehmomente Q1 und Q2, also den Motor-Output. An den Außenseiten links und rechts ist jeweils die
Kompensation für die mechanische Dämpfung und die mechanische Federkraft zu erkennen. Zwischen den
Summiereinheiten ist die Verschaltung angeordnet, welche die Rückwirkungen eines Gelenks auf das jeweils
andere kompensieren. Die Berechnung der Koeffizienten A-F, die gemäß (4.13) von den Winkelpositionen der
Armsegmente abhängen, geschieht in der unteren mit GC-Netzwerk bezeichneten Einheit.
4.2.2.3 Erlernen der inversen Dynamik durch Auto-Imitation
Es liegt nahe, die Werkzeugtransformation, insofern als sie als Hintereinanderschaltung von Vorwärtskinematik
und Vorwärtsdynamik angesetzt ist, entsprechend auch in zwei Schritten zu invertieren. Als erste
Teiltransformation muß dann die inverse Dynamik erworben werden. Dieses kann, wie bereits in Abb.4.4a
angedeutet wurde, mittels Auto-Imitation geschehen. Das Blockdiagramm in Abb.4.20 zeigt, wie dieser
Lernalgorithmus hier im Prinzip anzusetzen ist. In der Lernphase befinden sich die Schalter in Stellung 1.
Abbildung 4.20 : Erwerb der inversen Dynamik des zweigelenkigen Arms.
Die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 treiben einerseits den Arm zu irgendwelchen
Bewegungen an und werden andererseits dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte
Pfeile). Die an den beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung, geschwindigkeit und -position gelangen in den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und
Positionswerte dienen dabei der Zustandsrückführung, welche sowohl in der Lern- als auch der späteren
Aktivitätsphase erforderlich ist, während die aktuellen Beschleunigungswerte später durch die
Zielbeschleunigungen ersetzt werden. Die von oben herangeführte Variable ϕg symbolisiert wechselnde Winkel
mit der Schwerkraftrichtung während des Lernens. Da die Beziehung zwischen den Drehmomenten um die
Gelenkwinkel und den erzeugten Winkelbeschleunigungen nicht umkehrbar eindeutig ist, kann bei der
Berechnung der inversen Dynamik auf die Zustandsrückführung und die Orientierung zur Schwerkraftrichtung
nicht verzichtet werden. War der Lernvorgang erfolgreich, so können die Schalter in die Stellung 2 gebracht
werden. Der Kontroller ist dann in der Lage, zu beliebigen Zielbeschleunigungen Drehmomente so zu finden, daß
die tatsächlichen Beschleunigungen gleich den gewünschten sind und der Arm auch bei Veränderungen der
Orientierung des Körpers zur Schwerkraftrichtung automatisch im Gleichgewicht gehalten wird. Hierbei wird
angenommen, daß sowohl in der Lernphase als auch in der anschließenden Aktivitätsphase hinsichtlich der
25
relevanten Signale relative Gleichzeitigkeit herrscht, also Verzögerungen der peripheren Meldungen zu
vernachlässigen sind. Ist dies nicht der Fall, so muß, ähnlich wie schon beim eingelenkigen Arm ausgeführt
wurde, in der Lernphase das Motorsignal des blinden Lehrers vor Eingabe in den Lerneingang verzögert werden
und in der Aktivitätsphase auf predicted feedback der Zustandsgrößen des Arms zurückgegriffen werden.
Der neuronale Kontroller muß, sollen die Bewegungen hinreichend genau sein, die inverse Dynamik sehr
präzise repräsentieren. Backpropagation Netzwerke sind dazu jedoch nicht in der Lage, wohl aber das bereits
erwähnte Potenzierungsnetzwerk (Power Network; Kalveram 1993). Dieses ist ein dreilagiges feedforward
Netzwerk mit festen synaptischen Gewichten in der hidden layer und plastischen Gewichten in der output layer.
Wenn q die Anzahl der Neurone in der Eingangschicht bedeutet und p eine weitere natürliche Zahl ist, so
berechnet jeder Knoten i (i=1,2,...,N) in der hidden layer einen Ausdruck der Form
yi = x1r ⋅ x2s ⋅.... ⋅ xqt (r, s, t: natürliche Zahlen mit r+s+t≤p) ,
wobei die xl (l=1,2,...,q) die von den q Eingangsneuronen gelieferten Werte und yi den output des Knotens i
bedeuten. Die Knoten der Zwischenschicht berechnen also die Produkte aus potenzierten Eingangsvariablen. In
der Terminologie der Abb.1.5 handelt es sich bei diesen Knoten daher um Multiplizier-Einheiten, bei denen die
synaptischen Gewichte als Exponenten interpretiert werden. Der output zj des output Neurons j (j=1,2,...,k) ist
dann definiert als
N
zj =
∑ w i j ⋅ yi
, (j=1,2,...,k) ,
i=1
wobei die wij die synaptischen Gewichte der k Neuronen der output layer repräsentieren. Diese Neuronen
berechnen also die gewichtete Summe der Produkte, welche von der hidden layer angeliefert werden. Dieser
Netzwerktyp repräsentiert damit k Potenzreihen der Dimension q und der Ordnung p, bei denen die synaptischen
Gewichte wij als Koeffizienten als interpretiert werden. Der Lernvorgang beschränkt sich dann auf die
Bestimmung dieser Koeffizienten.
Abbildung 4.21 : Potenzierungsnetzwerk, die inverse Dynamik des
zweigelenkigen Arms repräsentierend.
Die Abb.4.21 zeigt ein Beispiel für ein solches Potenzierungsnetzwerk. Es berechnet die inverse Dynamik des
zweigelenkigen Arms. Die Sinus- und Cosinus-Funktionen sind dabei zu Teilnetzwerken zusammengefaßt,
welche man aber ebenfalls als Potenzreihen darstellen kann. Wie schon in der Abb.4.8 angedeutet, reicht es
hierzu, die Reihen jeweils nach drei Gliedern abzubrechen, für den Sinus also nach der 5. Potenz und für den
Cosinus nach der 4. Potenz. Im Prinzip können die Knoten für die trigonometrischen Funktionen natürlich
ebenfalls noch in die Zwischenschicht eingearbeitet werden, wodurch sich jeder Knoten, der eine solche Funktion
beansprucht, in drei Knoten aufsplittert.
Zur Bestimmung der synaptischen Gewichte der Neuronen der output layer muß wiederum eine simultane
Lernregel herangezogen werden, ähnlich wie dies schon beim eingelenkigen Arm mittels
eines überbestimmtes inhomogenes Gleichungsystem nach Art von (4.11) oder mittels eines
Relaxationsverfahrens nach Art von (4.13) und Abb.4.11 geschah. Wie in Computersimulationen gezeigt wurde,
kann das geschilderte Verfahren die Parameter des mechanischen Systems sehr genau identifizieren, wenn die
relative Gleichzeitigkeit der zu verarbeitenden Signale gewährleistet ist und die Signale selbst frei von
Meßfehlern sind. Für nähere Einzelheiten muß jedoch hier auf Kalveram (1991b und 1993b) verwiesen werden.
4.2.2.4 Erlernen der inversen Kinematik durch Auto-Imitation.
Nach der Etablierung der inversen Dynamik kann das Erlernen der inversen Kinematik in Angriff genommen
werden. Das kann wiederum im Rahmen eines Auto-Imitations-Algorithmus stattfinden, wie in Abb.4.22
angedeutet wird:
Abbildung 4.22 : Erwerb der inversen Kinematik des zweigelenkigen Arms
In der Lernphase sind, ähnlich wie in Abb.4.20, die Schalter in Stellung 1. Der blinde Lehrer gibt diesmal
willkürlich Winkelpositionen ϕ'1 und ϕ'2 vor, welche einerseits in den Lerneingang des neuronalen
Kontrollers gelangen, andererseits von der inversen Dynamik als Zielwinkel aufgefaßt und über die
entsprechende Ansteuerung der Mustergeneratoren CPG1 und CPG2 (s. Abb.4.18) verwirklicht werden. Dieser
Verarbeitungsschritt ist in Abb.4.22 jedoch nicht eigens veranschaulicht. Die Vorwärtskinematik setzt die aktuell
erzeugten Winkel dann in die zugehörigen aktuellen cartesischen Koordinaten x, y der Armspitze um, welche,
visuell rückgemeldet, dem Normaleingang des Kontrollers zugeführt werden. Beim zweigelenkigen Arm ist die
Beziehung zwischen den Gelenkwinkeln und den cartesischen Koordinaten der Armspitze umkehrbar eindeutig,
26
so daß weitere Eingangsvariablen zur Invertierung der Kinematik hier nicht benötigt werden. Den Kontroller
denke man sich wieder repräsentiert durch ein Potenzierungsnetzwerk, das mit Hilfe einer simultanen Lernregel
ähnlich wie oben trainiert wird. Schon mit 16 Knoten in der hidden layer erhält man auf diese Weise eine sehr
genaue Annäherung an die inverse Kinematik (Kalveram 1993a).
4.2.2.5 Einbettung der Steuerung durch inverse Modellierung in Regelkreise
Auch beim zweigelenkigen Arm muß die Steuerung durch die inverse Modellierung der Werkzeugtransformation
durch Regelungsvorgänge ergänzt werden, um die Steuerungsprozesse an die Wirklichkeit anzubinden. Nimmt
man an, daß das Model der inversen Dynamik richtig angelegt ist, so können dieselben Regelkreise hinzugefügt
werden, die bereits beim eingelenkigen Arm vorgeschlagen worden waren (s. Abb.4.15), nur muß jeder der dort
eingezeichneten drei Regelkreise jetzt zweimal angesetzt werden, und zwar sowohl für das Schultergelenk
1z ( t ), ϕ1z ( t ) und ϕ1( t ) als auch für das Ellbogengelenk hinsichtlich
hinsichtlich ϕ
ϕ 2z ( t ), ϕ 2 z ( t ) und ϕ 2 ( t ).
4.2.3 Kontrolle der Zielbewegung eines dreigelenkigen Arms
Die Erweiterung des zweigelenkigen Armmodells der Abb.4.16 um ein drittes Gelenk - z.B. ein Handgelenk bringt gegenüber dem zweigelenkigen Arm weitere Komplikationen, weil auch die umkehrbare Eindeutigkeit der
Vorwärtskinematik noch verlorengeht. Dh. dieselbe cartesische Position der Armspitze kann nunmehr durch
verschiedene Kombinationen der drei Gelenkwinkel realisiert werden. Dies verhindert zunächst einmal die
Invertierung der Vorwärtskinematik.
Abbildung 4.23 : Dreigelenkiger Arm
Bei der Dynamikkontrolle hingegen treten keine prinzipiell neuen Probleme auf, wenn man einmal davon absieht,
daß nunmehr drei gekoppelte Differentialgleichungen erforderlich sind, um die physikalischen Vorgänge zu
beschreiben, und daß die Anzahl der Möglichkeiten für Wechselwirkungen zwischen den einzelnen
Armsegmenten erheblich zunehmen: Entsprechend zusammengefaßt, treten in jeder dieser
Differentialgleichungen etwa 15 Terme nach Art von (4.13) auf. Im Prinzip aber kann zur Invertierung der
Dynamik wieder die Auto-Imitation mit entsprechender Zustandsrückführung herangezogen werden. Wie
Simulationsexperimente gezeigt haben (Kalveram & Natke 1996), kann ein Modell der inversen Dynamik auf
diese Weise tatsächlich erstellt werden, nach dessen Etablierung die Armsegmente - wie schon im
zweigelenkigen Fall - angesteuert werden können, als ob sie trägheitslos und unabhängig voneinander wären,
weil die Interaktionsmomente kompensiert werden. Auf die eingehendere Behandlung der Dynamik des
dreigelenkigen Arms und ihrer Invertierung soll daher verzichtet werden.
4.2.3.1 Das Problem der redundanten Vorwärtskinematik
Die Vorwärts-Kinematik des dreigelenkigen Arms der Abb.4.23 wird durch die folgenden beiden Formeln
dargestellt:
x = l1 sin ϕ 1 + l2 sin(ϕ 1 + ϕ 2 ) + l3 sin(ϕ 1 + ϕ 2 + ϕ 3 )
y = l1 cosϕ 1 + l2 cos(ϕ 1 + ϕ 2 ) + l3 cos(ϕ 1 + ϕ 2 + ϕ 3 )
(4.15)
Hier tritt ein Problem in den Vordergrund, welches uns - wenngleich in weniger auffälliger Weise - bereits beim
eingelenkigen Arm begegnet ist, nämlich das Redundanzproblem: Beim eingelenkigen (und natürlich auch beim
zweigelenkigen) Arm besteht es darin, daß nach (4.9) Amplitude und Periodenlänge der emittierten ZielBeschleunigung sich gegenseitig vertreten können, so daß bei jeder Bewegung vorab entschieden werden muß,
welche Periodendauer z.B. zugrunde zu legen ist. Eine weitere Redundanz ist durch die Formgebung des
Beschleunigungsmusters gegeben: Unendlich viele verschiedene Muster nämlich führen über entsprechend viele
verschiedene Bewegungen zum gleichen Ziel, wenn nur die Impulsbedingung (4.5) erfüllt ist. Beim
dreigelenkigen Arm schließlich kann dieselbe cartesische Position der Armspitze durch unendlich viele
verschiedene Kombinationen der drei Gelenkwinkel erzeugt werden. Bei jeder Zielbewegung muß daher eine
Entscheidung darüber getroffen werden, welche dieser Kombinationen realisiert werden soll. Die folgenden
Ausführungen sollen am Beispiel des dreigelenkigen Arms zeigen, wie man sich das Zustandekommen dieser
Entscheidungen vorstellen kann.
27
In der Literatur sind diese Redundanz-Phänomene allgemein unter der Bezeichnung "Motorvariabilität bei
Zielinvarianz" bekannt. Hiermit wird die allgemein bekannte Beobachtung umschrieben, daß bei Bewegungen
zum selben Ziel diese von Wiederholung zu Wiederholung unterschiedlich ausfallen, ohne daß die
Zielgenauigkeit sich verändert. In den folgenden Ausführungen soll unter anderem gezeigt werden, daß dieses
Phänomen mit einem anderen in Zusammenhang steht, nämlich damit, daß Bewegungen im Übungsverlauf
optimiert werden können, z.B. im Hinblick auf minimalen Energieaufwand, minimales Rucken, möglichst gerade
Bahn der Armspitze, maximale Bequemlichkeit der Endstellung der Gliedmaßen usw..
Die Variabilität von Bewegungen ist eine notwendige Voraussetzung für deren Optimierung!
4.2.3.2 Redundanzerzeugung beim dreigelenkigen Arm
Für den dreigelenkigen Arm ergibt sich nach Auswahl eines exterozeptischen Bewegungsziels xz, yz die
Notwendigkeit, entsprechend dem anzuwendenden Kriterium die erforderlichen Drehungen auf die drei
Gelenkwinkel nach einer geeigneten Regel zu verteilen. ϕ3=2.ϕ2,, ϕ3=1 oder ϕ1+ϕ2=ϕ3 sind Beispiele für
Regeln, welche zu einer solchen Redundanzerzeugung herangezogen werden können. Wie kann man sich einen
entsprechenden Generator und seine Programmierung vorstellen?
Abbildung 4.24 : redundanzerzeugende inverse Kinematik
Zur Beantwortung dieser Frage soll von der Abb.4.24 ausgegangen werden. Hier wird zunächst angenommen,
daß die inverse Dynamik bereits gelernt wurde. Oben in Abb.4.24 wird zunächst die gewünschte cartesische
Position xz, yz in den gestrichelt umrandeten Block eingegeben, welcher die globale Bezeichnung 'Inverse
Kinematik' trägt. Im Gegensatz zu Abb.4.18 ist dieser Block jedoch in zwei Untereinheiten aufgespalten, welche
die Bezeichnungen 'nicht-redundante inverse Kinematik' und 'Redundanzgenerator' tragen. Die nicht-redundante
inverse Kinematik bezieht sich auf eine Kinematik, bei welcher keine Mehrdeutigkeit zwischen Eingangs- und
Ausgangsvariablen besteht. Dies wird dadurch erreicht, daß die Zahl der ausgegebenen Winkel auf zwei
eingeschränkt wird, welche mit β1 und β2 bezeichnet sind und die einem fiktiven zweigelenkigen Arm
zugeordnet sind.
Beispielsweise können β1 und β2 - bei konstant gehaltenem Handgelenkwinkel - als Schulter- und
Ellbogengelenkwinkel interpretiert werden, wobei die Fingerspitze auf die entsprechende cartesische Position
zeigt. Ändert sich der Handgelenkwinkel, so ändern sich auch die beiden Winkel β1 und β2, dh. es kommt eine
andere Formel für die nicht-redundante Vorwärtskinematik zu Anwendung. β1 und β2 werden in den
Redundanzgenerator gegeben, welcher daraus die drei Zielwinkel 1z, 2z, 3z nach der Formel
 ϕ1z   c11 c12 
  
  ß1 
 ϕ 2 z  =  c21 c22  ∗  ß 
  

2
 ϕ 3 z   c31 c32 
mit
C = {cij} .
(4.16)
bestimmt. Die Matrix C wird im weiteren als "Koordinationsmatrix" bezeichnet, ihre Elemente cij (i=1,2;
j=1,2,3) als "Koordinationskoeffizienten". Eine Transformation gem. (4.16) könnte, wenn ein Wechsel der
Koordinationskoeffizienten nicht erforderlich ist, von einem zweischichtigen feedforward Netz durchgeführt
werden, in welchem die cij die synaptischen Gewichte von drei Ausgangsneuronen darstellen. Ein sehr einfacher
Satz von Koeffizienten wäre z.B. c11=c21=1, c12=c22=c31=0, c32=c, welche zu den Zielwinkeln ϕ1z=ß1,
ϕ2z=ß2 und ϕ3z=c. ϕ2z führen. Es ist aber auch denkbar, daß die Koordinationskoeffizienten über absteigende
Bahnen in die Modellierung der inversen Kinematik eingeschleust werden, was eine schnelle Anpassung der
Bewegungsausführung an wechselnde Anforderungen ermöglichen würde. Die Koordinationskoeffizienten
werden nicht nur dem Redundanzgenerator zur Verfügung gestellt, sondern auch in die Modellierung der nichtredundanten inversen Kinematik eingegeben, wo sie dazu dienen, dasjenige Modell der inversen Kinematik zu
selegieren und zu aktivieren, welches der vom Redundanzgenerator momentan angewendeten Formel entspricht.
Der Redundanzgenerator erzeugt also eine spezifische Abhängigkeit zwischen den drei Gelenkwinkeln, welche
durch den zur Anwendung gekommenen Koeffizientensatz cij gekennzeichnet wird, während der vorgeschaltete
Block die dazu passende inverse Kinematik bereitstellt. In diesem Sinne kann man sagen, daß diese Koeffizienten
eine bestimmte 'koordinative Struktur' repräsentieren, welche von anderen Ursachen für eventuelle
Abhängigkeiten zwischen den Gelenkwinkeln, z.B. den physikalisch bedingten Interaktionen, unterschieden
werden kann. Die weitere Verarbeitung der vom Redundanzgenerator ausgegegenen Zielwinkel geschieht analog
zum zweigelenkigen Arm (vgl. Abb.4.13) und bedarf daher keiner weiteren Erläuterung mehr.
28
4.2.3.3 Erlernen der Kontrolle redundanter Freiheitsgrade durch Auto-Imitation
Das Problem bei der Anwendung der Redundanzerzeugung nach Formel (4.16) ist, daß jede Regel das
Bereitstellen einer genau darauf abgestimmten nicht-redundanten inversen Kinematik erfordert. Wie können
solche inversen Kinematiken gelernt werden? Die Antwort soll anhand der Abb.4.25 gegeben werden, in welcher
der entsprechende Lernvorgang skizziert ist.
Abbildung 4.25 : Lernen des passenden inversen Modells bei redundanter Vorwärtskinematik
Wie immer beim auto-imitativen Lernen, gibt der blinde Lehrer willkürliche Bewegungskommandos ab, die
einerseits dem Lerneingang der zu trainierenden Einheit zugeführt werden, andererseits den betreffenden
Bewegungsapparat zu Bewegungen anregen, deren sensorisch erfaßte Wirkungen in den Normaleingang der zu
trainierenden Einheit gegeben werden. In diesem Falle bestehen die Bewegungskommandos aus den (fiktiven)
Gelenkwinkeln β'1, β'2, aus denen der Redundanzgenerator unter Anwendung der momentan aktuellen
Koordinationsmatrix C die drei Zielwinkel ϕ1z, ϕ2z, ϕ3z erzeugt. Gleichzeitig werden die
Koordinationskoeffizienten cij der Matrix C auch der zu trainierenden Einheit an zusätzlichen Normaleingängen
zur Verfügung gestellt. Die cij erhalten so den Charakter von Zustandsvariablen, welche nach dem Lernen jenes
Modell der inversen Kinematik adressieren, welches exakt der vom Redundanzgenerator jeweils angewendeten
Formel zur Berechnung der Zielwinkel entspricht.
4.2.3.4 Ein Simulationsexperiment zur Invertierung einer redundanten Vorwärtskinematik
In einem Simulationsexperiment (Kalveram & Natke 1996) wurde die durch (4.15) gegebene Vorwärtkinematik
zu Grunde gelegt. Die Längen der drei Armsegmente wurden gleich 1 gesetzt. Die BeschleunigungsmusterGeneratoren CPG1, CPG2 und CPG3 wurden, ebenso wie die inverse Dynamik, als bereits etabliert
angenommen. Zur Implementation des Modells der nicht-redundanten inversen Kinematik wurde wieder das
Potenzierungsnetzwerk (Kalveram 1993a) benutzt, als simultane Lernregel die ebenda beschriebene LSQ-Regel.
Trainiert wurde das Netz im Rahmen des Auto-Imitations-Algorithmus der Abb.4.25. Für die vom
Redundanzgenerator angewendete Formel gem. (4.16) wurden die Koordinationskoeffizienten zu c11=c21=1,
c12=c22=c31=0, c32=c (0<c<1) gewählt, was zu den Zielwinkeln ϕ1z=ß1, ϕ2z=ß2 und ϕ3z=c. ϕ2z führte.
Dieses sehr einfache Koordinationsmodell hat also nur einen Parameter, nämlich c, was aber zur Demonstration
der Richtigkeit der Überlegungen ausreicht.
Eingangsvariable des Netzwerks waren die cartesischen Positionen x und y der Armspitze sowie die
Größe c, Ausgangsvariable die beiden fiktiven Gelenkwinkel β1 und β2. In der Lernphase wurde pro Schritt
zunächst ein Zufallswert für c, gleichverteilt im Intervall [0,1], gewählt. Sodann wurde ein Paar von fiktiven
Winkeln β'1, β'2 erzeugt, welche in den Lerneingang des Netzwerks gegeben wurden. Dieselben Winkel wurden
vom Redundanzgenerator mittels der Formel (4.16) in die Zielwinkel ϕ1z, ϕ2z, ϕ3z umgerechnet und über die
Vorwärtskinematik (4.15) die zugehörige cartesische Position x, y bestimmt. x und y wurden dann zusammen mit
dem gewählten Wert für c in den Normal-Eingang des Netzwerkes gegeben. Die Zwischenschicht des Netzwerks
2
2 2 2
bestand aus 26 Knoten, welche den Ausdrücken x, y, c, xy, yc, xc, x2, y2, c2, xyc, x y, ..., x y c entsprachen.
.
Bei zwei Ausgangs-Neuronen sind dann die insgesamt 2 26=52 Koeffizienten dieser Ausdrücke, interpretiert als
Synapsenstärken der Ausgangsneuronen, zu bestimmen.
Die dazu verwendete LSQ-Regel ist eine simultane Lernregel, welche erfordert, daß ein ganzer Block von
Trainingsvektoren gleichzeitig zur Verfügung steht. Im vorliegenden Fall bestand ein solcher Trainingsvektor aus
den beiden zufällig ausgewählten fiktiven Gelenkwinkeln β'1, β'2, dem Zufallswert für c und der daraus
resultierenden Position x,y der Armspitze. Um den ausnutzbaren Variationsbereich für die die Armspitze
möglichst groß zu machen, ohne daß die Zahl der Trainingsvektoren dabei ins Uferlose wuchs, wurde im Bereich
0,5≤x≤2 und -2,5≤y≤-0,5 ein Trainingsgitter von 10 mal 10 Punkten in der x-y-Ebene festgelegt. Jedoch nur
dann, wenn für ein Tripel β'1, β'2, c die zugehörigen Werte für x und y um weniger als 0,1 von einem dieser
Gitterpunkte abwich, wurde der betreffende Trainingsvektor beibehalten. Auf diese Weise wurden aus einer
großen Zahl von potentiellen Trainingsvektoren 100 ausgewählt, welche auf die in Abb.4.26a eingezeichneten
Positionen wiesen. Mitttels dieser 100 Vektoren wurden dann die Synapsenstärken berechnet.
Abbildung 4.26 : Simulationsexperiment zum Erlernen einer
redundanten Kinematik des dreigelenkigen Arms.
Um die Güte der so bestimmten Modellierung der inversen Kinematik zu demonstrieren, wurde ein Testgitter von
21 mal 21 cartesischen Zielpunkten definiert, welche mit Ausnahme der vier Eckpunkte an keiner Stelle mit den
Gitterpunkten des Trainingsgitters übereinstimmten. Unter Anwendung des vorher gelernten Modells der
29
inversen Kinematik wurden nun für c=0, c=0,5 und c=1 Punkte des Testgitters als Ziele eingegeben und mit den
tatsächlich getroffenen Positionen verglichen. Die Abb.4.26 b1-b3 zeigen, daß die Fehler ziemlich klein sind,
was bedeutet, daß das erworbene Modell recht gut ist. Nur in der Ecke x=0,5, y=-0,5) ist der Fehler relativ groß,
besonders für c=0. Der Grund hierfür ist, daß diese Ecke bei gestrecktem Handgelenk nur bei sehr großem
Ellbogengelenkwinkel (nahe an π) erreicht werden kann. Man kann vermuten, daß für solche Fälle die
Approximation des inversen Modell bei den im Netzwerk vorgegebenen höchsten Potenzen nicht genau sein
kann. Mehr Terme mit höheren Potenzen sollten daher eine bessere Genauigkeit bringen.
4.2.3.5 Bewegungsoptimierung und motorische Variabilität bei Zielinvarianz
Die beschriebene Kontrolle von Bewegungen mit redundanten Freiheitsgraden impliziert auch eine Möglichkeit
für die eingangs schon erwähnte Bewegungsoptimierung. Hierzu kann ein sog. Evolutionsalgorithmus angesetzt
werden. Voraussetzung dafür ist, daß ein Optimierungskriterium gegeben ist und für eine durchgeführte
Bewegung an Hand dieses Kriteriums angegeben werden kann, ob man sich verbessert oder verschlechtert hat.
Dann können die zur Anwendung kommenden Koordinationskoeffizienten vor der Ausführung einer neuen
Zielbewegung einer Zufallsvariation unterworfen werden. Diese bewirkt, daß die Bewegungen zwar alle
unterschiedlich sind, aber dennoch - eben wegen der speziellen Art der Redundanzerzeugung - alle ihr Ziel
erreichen. Ergibt sich dabei eine Annäherung an das Optimum, so müssen nun die Koeffizienten, die zu dieser
Verbesserung geführt haben, die vorigen Koeffizienten ersetzen. Auf diese Weise sollte es möglich sein, für
einen bestimmten Zweck im Laufe vieler Wiederholungen eine Koordinationsmatrix mit optimierten
Eigenschaften zu finden.
Abbildung 4.27 : Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten
Die Abb.4.27 zeigt eine Möglichkeit, wie unter Benutzung eines neuronalen Netzes mit feedforward Architektur
sogar für unterschiedliche Situationen mit unterschiedlichen Optimalitätskriterien die geeigneten
Koordinationskoeffizienten gelernt und vorgehalten werden können. Den Eingang dieses Netzes bilden
Parameter, welche die jeweilige Situation, besser: das zur Anwendung vorgesehene Kriterium, kennzeichnen. Am
Ausgang des Netzes wird die Matrix mit dem für diesen Zweck in der Vergangenheit erarbeiteten Satz von
Koordinationskoeffizienten zur Verfügung gestellt. Vor der Bewegungsdurchführung werden dann
Zufallsvariable ri (i=1,2,...,6) (Rauschen) von geringer Streubreite zu den ausgegebenen Koeffizienten addiert
und die Bewegung mit diesen so veränderten Koeffizienten durchgeführt. Ergibt der Bewertungsvorgang eine
Kriteriumsannäherung, so können unter Anwendung der Deltaregel (oder der backpropagation Regel) die
synaptischen Gewichte des Netzwerkes so verändert werden, daß beim nächsten Mal in derselben Situation diese
veränderten Koeffizienten ausgegeben werden, wobei vor der Bewegungsausführung erneut Rauschen zugegeben
wird. Diese Vorgehensweise bewirkt also, daß Bewegungsvariablität gegeben ist, das intendierte Ziel dennoch
erreicht wird und gleichzeitig die dazu notwendigen Bewegungen mit Blick auf ein beliebiges Kriterium
optimiert werden können.
4.3 Motorischer Apparat. Rückblick und Zusammenfassung.
Zur Analyse des motorischen Apparates wurde aus Gründen der Einheitlichkeit als Beispielbewegung die
Zielbewegung mit dem Arm gewählt. Die unterlegte Bewegung war dabei ehe ballistisch (Kornhuber 1971) bzw.
vom "Typ II" (Freund 1986). Andere Bewegungsformen, z.B. das Schreiben von Buchstaben oder das Zeichnen
von Figuren, erfordern modifizierte Kontroller (vgl. Kalveram 1998a), was das hier beschriebene Grundprinzip
der Bewegungskontrolle jedoch nicht in Frage stellt. Die am Beispiel des mehrgelenkigen Arms ausgearbeiten
Funktionskreise besitzen biologische Plausibilität; ob sie allerdings in der vorliegenden Form auch biologisch
realisiert sind, soll hier nicht erörtert werden. Die Armbewegung eignet sich jedenfalls gut, um den Finger auf die
grundsätzlichen Probleme zu legen, die für ein effektives Herbeiführen selbstgestellter Ziele notwendigerweise zu
lösen sind.
Im Rückblick erweist sich der motorische Apparat als unerwartet komplex. Der Grund ist, daß die
physikalischen Gesetzmäßigkeiten, welche die Bewegungen des Körpers und seiner Gliedmaßen beherrschen, bei
Zielbewegungen vom neuronalen Kontroller berücksichtigt werden müssen, sollen diese schnell, präzise, stabil
und selbsterlernbar sein. Die - im technischen Sinne - Unvollkommenheiten des neuromuskulären Apparates, z.B.
lange Signallaufzeiten oder die Neigung zur Instabilität, müssen vom Kontroller zusätzlich beachtet werden.
Abbildung 4.28 : Zusammenfassendes Schema des Reafferenzmodells
30
Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse
zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom Reafferenzprinzip, welches unter
Zuhilfenahme der Efferenz e den sensorischen Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und
einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt
vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der
Efferenz e als verursachender Größe auf die Reafferenz r' als Werkzeugeffekt führt.
Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt werden, das zur
Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein neuronales Modell S-1 eingespeist wird,
welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung
der das Ziel herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während der
motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und dem neuronalen Kontroller zur
Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r
hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als Istwert im
Rahmen einer Regelung über den Regler P dazu, die Steuerung über das inverse Modell S-1 gegebenenfalls
nachzubessern.
In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen Ex- und ReAfferenzen (r' bzw. x') und denjenigen Repräsentationen u des Umweltzustands unterschieden, welche eben nicht
auf den intendierten Werkzeugeffekt bezogen sind, aber ebenfalls zur Bewegungssteuerung benötigt werden.
Hierbei wird es sich in der Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln.
Die den zusätzlich benötigten Umweltzustand u erfassenden Sensoren sind in Abb.4.28 in der Einheit FR
untergebracht. Infolge der endlichen Signallaufzeiten und neuronalen Verarbeitungsgeschwindigkeiten kommen
die Meldungen dieser Sensoren jedoch in der Regel zu spät. Der auf dem inversen Modell S-1 basierende
neuronale Kontroller braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche
Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand.
Wenn das inverse Modell hinreichend genau ist, kann dieser jedoch aus den bereits zurückliegenden
Umweltzuständen u und der momentan handlungsbestimmenden Zielafferenz z vorhergesagt werden (=Variable
u*). Dazu dient in Abb.4.28 der Zustandsprädiktor.
Aus der Sicht des neuronalen Kontrollers (Module S-1 plus P) haben die sensorischen Meldungen u des
Umweltzustands Steuerfunktionen (sensory feedforward), während die werkzeugbezogene Afferenz a
Regelungszwecken (negative sensory feedback) dient.
Das sensorische Ziel z hat dabei eine dreifache Funktion: Erstens wird es zusammen mit dem vorhergesagten
Umweltzustand u* vom Modul S-1 für die Invertierung der Werkzeugtransformation im Sinne einer Steuerung
benötigt, zweitens dient es im Verein mit dem gemeldeten Umweltzustand u der Berechnung von u*, und drittens
hat es im Rahmen der Regelung die Rolle des Sollwerts, mit der die aktuelle Afferenz a verglichen wird. Eine
Diskrepanz zwischen a und z kann dabei als Exafferenz x' interpretiert werden, welche auszuregeln ist, aber auch
auf einen Fehler im inversen Modell zurückgehen, welcher dann auszubessern ist.
Die Einführung des inversen Modells der Werkzeugtransformation ermöglicht so eine
weitere Modifikation des Reafferenzprinzips, bei der auf das Vorwärtsmodell der Werkzeugtransformation und
die Efferenzkopie zur Vorhersage des reafferenten Werkzeugeffekts r' verzichtet werden kann: Zur
Reafferenzschätzung kann nunmehr das sensorische Ziel, also der gewünschte reafferente Werkzeugeffekt z,
herangezogen werden.
Alle bis hierher besprochenen Variablen, die Zielafferenz z eingeschlossen, sind kontinuierlich in der
Zeit, d.h. sie definieren die serielle Ebene der Informationsverarbeitung. Erzeugt wird die Zielafferenz von einem
Mustergenerator, der als Eingangsgröße ein perzeptives Ziel erhält, z.b. eine neue Position des Arms, und
daraufhin eine Folge von gewünschten Afferenzen ausgibt. Zur Kontrolle der Herbeiführung solcher perzeptiven
Ziele sind weitere Variable erforderlich, die in Abb.4.28 nicht eingezeichnet sind. Diese Variablen sind, wie auch
das perzeptive Ziel, zeitdiskret und definieren die parallele Ebene der Informationsverarbeitung. Den
Zusammenhang zwischen den Ebenen stiftet der Mustergenerator in der Funktion als Parallel-Serienwandler.
Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse
zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom Reafferenzprinzip, welches unter
Zuhilfenahme der Efferenz e den sensorischen Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und
einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt
vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der
Efferenz e als verursachender Größe auf die Reafferenz r' als Werkzeugeffekt führt.
Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt werden, das zur
Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein neuronales Modell S-1 eingespeist wird,
welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung
der das Ziel herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während der
motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und dem neuronalen Kontroller zur
31
Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r
hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als Istwert im
Rahmen einer Regelung über den Regler P dazu, die Steuerung über das inverse Modell S-1 gegebenenfalls
nachzubessern.
In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen Ex- und Re-Afferenzen und
denjenigen Repräsentationen u des Umweltzustands unterschieden , welche eben nicht auf den intendierten
Werkzeugeffekt bezogen sind, aber ebenfalls zur Bewegungssteuerung benötigt werden.Hierbei wirdes sich in
der Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln .
Die den benötigten Umweltzustand u erfassenden Sensoren sind in Abb.4.28 in der Einheit FR
untergebracht . Infolge der endlichen Signallaufzeiten und neuronalen Verarbeitungsgeschwindigkeiten kommen
die Meldungen dieser Sensoren jedoch in der Regel zu spät. Der auf dem inversen Modell S-1 basierende
neuronale Kontroller braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche
Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand.
Wenn das inverse Modell hinreichend genau ist, kann dieser aus den bereits zurückliegenden Umweltzuständen u
und der momentan handlungsbestimmenden Zielafferenz z vorhergesagt werden (=Variable u*). Dazu dient in
Abb.4.28 der Zustandsprädiktor.
Aus der Sicht des neuronalen Kontrollers (Module S-1 plus P) haben die sensorischen Meldungen u des
Umweltzustands Steuerfunktionen (sensory feedforward), während die werkzeugbezogene Reafferenz r'
Regelungszwecken (negative sensory feedback) dient.
Das sensorische Ziel z hat eine dreifache Funktion: Erstens wird es zusammen mit dem vorhergesagten
Umweltzustand u* vom Modul S-1 für die Invertierung der Werkzeugtransformation im Sinne einer Steuerung
benötigt, zweitens hat es im Rahmen der Regelung die Rolle des Sollwerts, der mit der die werkzeugbezogene
aktuelle Afferenz a verglichen wird, und drittens dient es im Verein mit dem gemeldeten Umweltzustand u der
Berechnung von u*. Eine Diskrepanz dx zwischen a und z kann dabei als Exafferenz x' interpretiert werden,
welche es auszuregeln gilt, aber auch auf einen Fehler im inversen Modell zurückgeführt werden, welcher dann
auszubessern ist.
Die Einführung des inversen Modells der Werkzeugtransformation ermöglicht so eine
weitere Modifikation des Reafferenzprinzips, bei der auf das Vorwärtsmodell der Werkzeugtransformation und
die Efferenzkopie zur Vorhersage des reafferenten Werkzeugeffekts r' verzichtet werden kann: Zur
Reafferenzschätzung kann nunmehr das sensorische Ziel, also der gewünschte reafferente Werkzeugeffekt z,
herangezogen werden.
Alle bis hierher besprochenen Variablen, die Zielafferenz z eingeschlossen, sind kontinuierlich in der
Zeit, d.h. sie definieren die serielle Ebene der Informationsverarbeitung. Erzeugt wird die Zielafferenz von
einem Mustergenerator, der als Eingangsgröße ein perzeptives Ziel erhält, z.b. eine neue Position des Arms, und
daraufhin eine Folge von gewünschten Afferenzen ausgibt. Zur Kontrolle der Herbeiführung solcher perzeptiven
Ziele sind weitere Variable erforderlich, die in Abb.4.28 nicht eingezeichnet sind. Diese Variablen sind, wie auch
das perzeptive Ziel, zeitdiskret und definieren die parallele Ebene der Informationsverarbeitung. Den
Zusammenhang zwischen den Ebenen stiftet der Mustergenerator in der Funktion als Parallel-Serienwandler.
Im nächsten Kapitel wird höher organisiertes Appetenzverhalten behandelt, wobei die Funktionsweise des
motorischen Apparates Modell stehen soll.
32
5 Abbildungen
Fremdsignal
x1
Eigensignal
r1
Einwirkung
k1
Effektor
F1
x1 + r1
Sensor
GesamtAfferenz
a
(geschätzte)
Exafferenz
x'1
Kommando,
Zielafferenz
(geschätzte)
Reafferenz
r'1
Korrelationsspeicher
S1
Motorik
Efferenz
e1
z
Abbildung 4.1: Ergänztes "Allgemeines Schema zur Erläuterung des Reafferenzprinzips" nach von Holst und
Mittelstaedt (1950, S.467)
33
Teil a
Fremdsignal
x
Eigensignal
r
Teil b
Einwirkung
k
Effektor
F
Eigensignal
r1
Einwirkung
k1
Effektor
F1
Sensor
Eigensignal
r1
Einwirkung
k1
Effektor
F1
Reafferenz
(geschätzte)
Motorik
(geschätzte)
Reafferenz
r'1
Korr.speicher
S1
(geschätzte)
Efferenz e1
r'
Sensor
Afferenz
a
(geschätzte)
Exafferenz
x'1
(geschätzte)
Fremdsignal
x1
Motorik
r'1
Exafferenz
x'
Einwirkung
k
Effektor
F
x1 + r1
x1 + r1
Afferenz
a
Eigensignal
r
x1 = r + x
x1 = r + x
Fremdsignal
x1
Fremdsignal,
Störung x
Exafferenz
x'1
Korr.speicher
S1
Efferenz e1
Korr.speicher
S
Fehler dx = -x'
Efferenz e
Kommando,
Zielafferenz
Regelung
Efferenz e
z
Abbildung 4.2: Reafferenzprinzip, aufgespalten in zwei Teile.
Teil a: Bereinigung der Sensor-Afferenz a von den Konfundierungen , hervorgerufen von den Effektoren F1 und
F bzw. den Efferenzen e1 und e. Alternativ dazu
Teil b: Bereinigung der Sensor-Afferenz a von der Konfundierung, hervorgerufen vom Effektor F1 bzw. der
Efferenz e1 , Einstellung der bereinigten Afferenz auf einen vorgegebenen Wert z , und Festhalten dieses Wertes
auch unter Störeinflüssen im Rahmen einer Regelung.
34
Werkzeugtransformation F:
Fremdsignalx
'Störung'
{ [
Eigensignal
r
+
s=r+x
UMWELT
INDIVIDUUM
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
-
]}
r' = F(e) = FS FP FM (e )
r' = FS(r)
x' = FS(x)
a = x' + r'
= FS(s)
+
z
Zielafferenz
Physikalische
Werkzeug-Transf.
FP
r = FP (k)
Kraft
k
k = FM (e)
Motorische
Transform.
FM
Efferenz
e = eS+ eR
Zustandsrückführung
u
Steuerung
Inverses
Modell
S-1
Efferenz
eS
S-1(z) = eS
+
Regelung
Regler
P
1
Efferenz eR
Abbildung 4.3: Erweitertes Reafferenzmodell. Die Hinzunahme des inversen Modells S-1 der
Werkzeugtransformation F ermöglicht das Erreichen des Ziels z im Rahmen einer Steuerung. Bei Abwesenheit
von Störungen und korrektem Modell ist a=r'=z. Die Beibehaltung der Regelung (Schalter 1 geschlossen)
gewährleistet die Fehlerkorrektur auch bei Störungen und/oder Modellfehlern. Fremd/Eigendifferenzierung bzw.
Fehlererkennung ist also auch ohne ein Vorwärtsmodell von F möglich, jedoch nur bei inaktiviertem Regler
(Schalter 1, wie gezeichnet, offen). Zum Betrieb von S-1 müssen außer z oft noch Variable, welche den
Umweltzustand u kennzeichnen, gemessen und rückgeführt werden. Dies ist durch den dünnen gestrichelten Pfeil
angedeutet.
35
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
Eigensignal
r
+
INDIVIDUUM
Fehler
dx = - x'
-
k
k = FM ( e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Kraft
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
]}
r' = F(e) = FS FP FM (e)
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Motorische
Transform.
FM
Efferenz
e
u
LernEingang
+
2
1
z
Zielafferenz
"
Inverses"
Modell
S-1
S-1(z) = eS !
Regler
P
Blinder
Lehrer
1
2
+
Efferenz
eS
1
2
Efferenz eR
Efferenz eB
Abbildung 4.4a: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F in
Schalterstellung 2 (gezeichnet). Der "blinde Lehrer" erzeugt beliebige Efferenzen eB, welche dem Lerneingang
der Einheit S-1 angeboten werden. Dem Normaleingang der Einheit S-1 werden gleichzeitig die afferenten
Konsequenzen a dieser Efferenzen zugeführt. Auf diese Weise können den Afferenzen die sie erzeugenden
Efferenzen zugeordnet werden. Auch beim Lernen von S-1 müssen normalerweise außer der Zielvariablen z
noch solche Variable, welche den Umweltzustand u kennzeichnen, gemessen und rückgeführt werden. Dies ist
durch den dünnen gestrichelten Pfeil angedeutet. Nach Abschluß des Lernens werden für die Aktivitätsphase die
Schalter wieder in die Stellung 1 gebracht.
36
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
Eigensignal
r
+
INDIVIDUUM
Fehler
dx = - x'
-
k
k = FM ( e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Kraft
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
]}
r' = F(e) = FS FP FM (e)
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Motorische
Transform.
FM
Efferenz
e
u
LernEingang
+
2
1
z
Zielafferenz
"
Inverses"
Modell
S-1
S-1(z) = eS !
Regler
P
Blinder
Lehrer
1
2
+
Efferenz
eS
1
2
Efferenz eR =
Efferenz eB
Abbildung 4.4b: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit alternativ
zugeschaltetem "blinden Lehrer". Dieser erzeugt in der gezeichneten Schalterstellung 2 jetzt beliebige afferente
Signale z , die als afferente Ziele interpretiert werden, und - nachdem die Afferenz a subtrahiert worden ist - vom
Regler P in Efferenzen eR umgesetzt werden. Diese werden wie in Abb.4.4a dem Lerneingang der Einheit S-1
angeboten werden, während dem Normaleingang der Einheit S-1 gleichzeitig die afferenten Konsequenzen a
dieser Efferenzen zugeführt werden.
Die Abb.4.4.a und 4.4.b sind, das Lernen betreffende, funktional äquivalent.
.
37
Fremdsignal x
'Störung'
Werkzeugtransformation F:
{ [
Eigensignal
r
+
INDIVIDUUM
Fehler
dx = - x'
-
k
k = FM ( e)
r = FP (k)
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Kraft
Physikalische
Werkzeug-Transf.
FP
s=r+x
UMWELT
]}
r' = F(e) = FS FP FM (e)
r' = FS(r)
x' = FS(x) =0
a = x' + r'
= FS(s)
Zustandsrückführung
Motorische
Transform.
FM
Efferenz
e
u
LernEingang
+
2
1
dx = 0
"
Inverses"
Modell
S-1
1
2
+
Efferenz
S-1(z) = eS ! eS
Regler
P
1
2
Efferenz eR
Zielafferenz z
Blinder
Lehrer
Abbildung 4.4.c: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit
Veranschaulichung der "Erfolgsrückmeldung" durch den gepunkteten Pfeil mit dem Blitzsymbol. Wenn dx=0 ist,
wird das Modul S-1 "verstärkt" auf Lernen" geschaltet. Auch diese Darstellung ist mit der Abb.4.4.a oder 4.4.b
funktional äquivalent.
38
a
a
ϕ
-mg
(ϕ g = 0)
Gelenk 1:
M = −m ⋅ g ⋅ a *
b
Q(t)
k( t )
+
- -
a* = a ⋅ sin ϕ
( t)
ϕ
ϕ ( t)
ϕ( t )
1/M
R
-
D
C
sin
C = m ⋅ g⋅ a
-
ϕ0
+
+
ϕg
Abbildung 4.5: Eingelenkiger Arm als Drehpendel.
a (oberer Teil der Abbildung): Die gestrichelte Linie zeigt die Körperlängsachse an, die hier mit der Richtung
der Schwerkraft übereinstimmt (ϕg=0). Der Schwerpunkt des Arms befindet sich im Abstand a vom Drehpunkt.
Die hier angreifende Kraft -m.g, multipliziert mit dem zugehörigen Kraftarm a* = a ⋅ sin( ϕ( t ) − ϕ g ) , ergibt
das durch die Schwerkraft hervorgerufene Drehmoment.
b (unterer Teil der Abbildung): Das Analogschaltbild folgt direkt aus der Differentialgleichung (4.1) bzw. (4.2)
und beschreibt das Drehverhalten unter den von Muskeln, Trägheit, Reibung, Federeigenschaften und Schwere
hervorgerufenen Drehmomenten.
39
1
0.9
0.8
0.7
Drehmoment
Agonist
[N.m]
0.6
Agonist
0.5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
Drehmoment
Antagonist
[N.m]
Antagonist
-0.3
-0.4
-0.5
-0.6
-0.7
-0.8
-0.9
-1
Winkelbeschleunigung
( t )
ϕ
[radian/s-2]
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1600
0
200
400
600
800
1000
1200
1400
1
0.8
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
-1
Winkelgeschwindigkeit
ϕ(t)
[radian/s-1]
3
2.5
2
1.5
1
0.5
0
Winkelposition
ϕ(t)
[radian]
10
9
8
7
6
5
4
3
2
1
0
T
1600
Zeit [ms]
Abbildung 4.6: Zusammenhang zwischen muskulären Drehmomenten einerseits und
Winkelbeschleunigung, -geschwindigkeit und -position andererseits. Bewegungsdauer: T=1500 ms. Die
gestrichelte Linie liegt bei T/2=750 ms.
40
M'
R'
D'
C'
ϕg
ϕ0
ϕ ( t )
_
ϕ( t )
+
_
+
sin
_
CPG
z ( t )
ϕ
+
Q(t)
Arm
( t )
ϕ
Abbildung 4.7: Invertierung der Werkzeugtransformation des Arms durch Kompensation der Impedanz unter
( t ). Die neuronalen Schätzwerte M', R', D', C', ϕ 0 und ϕ g für
Rückführung der Zustandsvariablen ϕ( t ) und ϕ
die entsprechenden mechanischen Größen werden auf absteigenden Bahnen eingeschleußt. Die Sinus-Funktion
wird als neuronal implementiert angenommen.
41
ϕg
ϕ0
ϕ ( t )
+
ϕ( t )
+
sinus
2
1
z ( t )
ϕ
M'
R'
D'
C'
Q(t)
+
2
1
3
5
C'1
C'3
C'5
Arm
2
inverses Modell
sinus
1
( t)
ϕ
Q(t)
blinder
Lehrer
Abbildung 4.8: Erlernen des inversen Modells der Werkzeugtransformation des Arms durch Auto-Imitation
( t ). Die neuronalen Schätzwerte M', R',
unter "reflexanaloger Verarbeitung" der Zustandsvariablen ϕ( t ) und ϕ
D' und C' für die entsprechenden mechanischen Größen sind hier durch die (plastischen) Gewichte von Synapsen
auf einem formalen "Moto-Neuron" repräsentiert. Über den Lerneingang auf der unteren Seite dieses Neurons
wird das Potential übermittelt, welches der blinde Lehrer im Rahmen des dargestellten auto-imitativen
Lernvorgangs vorgibt.
Die Sinus-Funktion im gepunktet umrandeten Viereck kann durch ein "Power-Net" (Kalveram 1994)
approximiert werden, was in der linken unteren Ecke angedeutet ist. Hier wird eine Potenreihenentwicklung mit
den Koeffizienten C'1, C'3 und C'5 angenommen, die nach der 5-ten Potenz abgebrochen wird (zur Bedeutung
der Symbole: s. Abb. 1.5 und Abb.2.6).
42
x
Synapse
w
z = w .x
Korrelator
I
r
T
y
w = r ⋅ ∫ x( t) ⋅ y( t) dt
0
Abbildung 4.9: Analogschaltbild einer konventionellen Hebbschen Synapse. In der Lernphase wird das
synaptische Gewicht w durch Kreuzkorrelation von präsynaptischer (axonaler) Erregung x und postynaptischer
Aktivierung y, die dem (hier nicht eingezeichneten) Neuron über dessen Lern-Eingang aufgezwungen wird,
bestimmt. T bedeutet die Dauer der Lernphase und r>0 eine Konstante, welche die Lerngeschwindigkeit festlegt.
Der gepunktet umrandete Teil kennzeichnet die Funktion der Synapse nach Abschluß der Lernphase. Der
Integratoreingang wird dann auf 0 gesetzt, so daß der Integrator seinen Inhalt beibehält. z ist dann der Beitrag
dieses Axons zum postsynaptischen Potential des Neurons und kann mit dessen output gleichgesetzt werden,
wenn keine weiteren Synapsen vorhanden sind und die Übertragungscharakteristik linear ist.
43
xi
Eingang
Synapse
wi
w 1 ⋅ x1
wi ⋅ xi
....
+
Korrelator
I
-r
wn ⋅ xn
....
y
LernEingang
Su = z - y
n
z = ∑ wi ⋅ xi
i=1
Ausgang
T
wi = −r ∫ xi ⋅ ( z − y) dt
0
Abbildung 4.10: Analogschaltbild einer modifizierten Hebb-Synapse (gestrichelt umrandet), bei der gegenüber
Abb.4.6 die Konstante r>0 durch -r<0 ersetzt ist. Insgesamt n gleichartige Synapsen sind mit dem Neuron so
verschaltet, daß Relaxations-Lernen ermöglicht wird, d.h., die Summenvariable Su=z-y gegen Null geht. Der
Lerneingang hat keinen erzwingenden Charakter, sondern die hier eingehende Variable y wird von der über die
anderen Synapsen erzeugten Erregungssumme z lediglich abgezogen. Die Gewichte wi sollten sich dann so
einstellen, daß z-y gegen Null geht. Nach Abschaltung von y erscheint dann am Ausgang z.
44
-
ϕ0
+
ϕg
+
1
( t )
ϕ
sinus
2
ϕ( t )
M'
z ( t )
ϕ
R'
D'
C'
Su(t)= 0 !
1
+
2
-
Addierer
∆t
ϕ ( t )
Q(t)
Arm
1
1
blinder
Lehrer
Abbildung 4.11: Auto-imitativer Erwerb des Modells der inversen Werkzeugtransformation des Arms. Die
Kästchen M', R', D' und C' bezeichnen modifizierte Hebb-Synapsen vom Typ der Abb.4.10. Das rekursive
Schema macht deutlich, daß die in Schalterstellung 1 herbeizuführende Relaxation des neuronalen Netzes - hier
das Einstellen des Summenpotentials Su(t) am Ausgang des Addierers auf den Wert 0 bei voller Variation der
Werte Q(t) am Lern-Eingang - unter Einbeziehung der Umwelt (des Arms) erfolgt. Die Verzögerungseinheit
dient dabei der Sicherstellung der relativen Gleichzeitigkeit der sich gegenseitig kompensierenden Signale.
45
2.5
C'=2.5
2
Q(t)
1.5
1
0.5
R'=0.3
M'=0.1
0
Su(t)
-0.5
-1
-1.5
0
10
20
Time (second)
30
40
Abbildung 4.12: Simulation der Relaxations-Anordnung in Abb.4.8. Die im Arm-Modell eingestellten
Parameter waren M=0.1, R=0.3, D=0, C=2.5. Bei voller Variation der vom blinden Lehrer dem Armsystem
eingeprägten Kräfte Q(t) konvergierte das Summenpotential Su(t) am Ausgang des Motoneurons nach etwa 30
Sekunden gegen den Wert 0. Während dessen nahmen die modifizierten Hebb-Synapsen die am Arm-Modell
eingestellten Parameterwerte an.
46
Startposition
∆ϕ =
ϕ( 0 )
ϕ( T ) − ϕ( 0 )
durchmessener Winkel
ϕ( T )
SerienParallelWandlung
(SP)
Sensorische
Integration
Endposition
( t )
ϕ
Werkzeugtransformation
F
ϕ ( t )
ϕ( t )
p=p+rdϕ
ZustandsRückführung
_
+
Fehler
dϕ
Physikalischer
Arm
Q(t)
Inverses Modell
S-1
der Werkzeugtransformation
Neuronales
Netz
z ( t )
ϕ
ParallelSerienWandlung
(PS)
Mustergenerator
(CPG)
q
p
q = p ⋅ δϕ T 2
Zieldiskrepanz
_
δϕ
+
Ziel
ϕz
T
Abbildung 4.13: Mehrebenenkontrolle, Parallel-Serien-Wandlung und Serien-Parallel-Wandlung bei der
eingelenkigen Bewegung. Die zeitdiskrete Verarbeitung auf der parallelen Ebene ist durch Doppelpfeile, die
zeitkontinuierliche auf der seriellen Ebene durch einfache Pfeile gekennzeichnet. Auf der parallelen Ebene sind
nur Anfangs- und Endzeitpunkte der Bewegung und die davon ableitbaren Größen Fehler dϕ und Zieldiskrepanz
δϕ von Belang. δϕ dient zur Steuerung der Bewegung über den CPG, dϕ zur Regelung von dessen
Verstärkungsparameter p. Auf der seriellen Ebene ist nur die Steuerung über die "on-line" erfolgende Inversion
der Werkzeugtransformation F eingezeichnet.
47
ϕ( t )
z ( t)
ϕ
Inverses
Modell
S-1
ϕ z ( t )
Q(t)
ϕ ( t )
Werkzeugtransf.
F
( t )
ϕ
ϕ z ( t)
ϕ( t ) und ϕ ( t ) durch die Variablen ϕ z ( t ) und ϕ z ( t ) , die
aus der gewünschten Beschleunigung ϕ z ( t ) durch Integration gewonnen werden. Die vorhergesagten
Abbildung 4.14: Vorhersage der Zustandsvariablen
Geschwindigkeits- und Positionswerte können verwendet werden, um die aktuell gemessenen Werte bei der
Zustandsrückführung im Rahmen der inversen Modellierung zu ersetzen ("predicted feedback", s. Kalveram
1991b). Dies wird notwendig, wenn, bedingt durch den bei der Rückführung enstehenden Zeitverlust, die
aktuellen Zustandvariablen gegenüber dem Steuersignal Q(t) zu stark verzögert sind.
48
u
∆t
v
u ⋅ δ ϕ ( t )
v ⋅ δ ϕ( t )
z ( t)
ϕ
∆t
ϕ ( t )
- +
Inverses
Modell
S-1
ϕ z ( t )
- +
ϕ( t )
Qs
+
Q
Qr
ϕ z ( t)
Werkzeugtransf.
F
( t)
ϕ
w
Fehler
dϕ
+
- Abbildung 4.15: Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise (negativ feedback
controller). Alle drei Regler sind vom Typ proportional mit den Verstärkungen u, v und w. Die mit ∆t
bezeichneten Verzögerungselemente sollen die relative Gleichzeitigkeit der zu vergleichenden Signale
sicherstellen. Die Regler u und v regeln die Vorhersage der Zustandsvariablen, der Regler w das Ergebnis der
Steuerung (dh. hier, die auf das Steuersignal QS zurückgehende aktuelle Position). Der gestrichelt umrandete
Teil legt eine Interpretation im Sinne des Reafferenzprinzips nahe, indem die vorhergesagte momentane Position
ϕ z ( t ) als gewünschte Reafferenz und dϕ als Exafferenz aufgefaßt werden, die es ggf. zu beseitigen gilt. ϕ z ( t )
repräsentiert somit die momentane Gleichgewichtslage, w die neuronal erzeugte Federkonstante.
49
Abbildung 4.16: Zielbewegung mit einem zweigelenkigen Arm, bei dem die Bewegung in der Zeichenebene
erfolgt. Die Zielposition Pz wird erreicht, indem bei Schulter und Ellbogen geeignete Zielwinkel ϕ1z und ϕ2z
motorisch realisiert werden. Die Kreise bezeichnen die Massenmittelpunkte, m1, m2 die Massen und M1, M2 die
Trägheitsmomente der beiden Armsegmente. Schwerkraftrichtung verläuft wie in Abb.4.5 parallel zur y-Achse.
zweigelenkiger
aktuelle
Arm
Steuergröße
Position
inverses
Modell
Q = ( Q1, Q 2 )
P = ( x , y)
Q = S−1(Pz )
P = F( Q )
gewünschte
Position
Pz = ( x z , yz )
Zustandsrückführung:
ϕ1, ϕ 2 und ϕ 1, ϕ 2
Fehler dP
+
Abbildung 4.17: Vereinfachte Darstellung der Ansteuerung des zweigelenkigen Arms der Abb.4.16. mittels
eines inversen Modells S-1 der Werkzeugtransformation F des Arms. Der neuronale Kontroller muß über S-1
diejenigen muskulären Drehmomente Q1, Q2 als Steuersignal bereitstellen, die das gewünschte Ziel Pz
verwirklichen. Der von F zurück nach S-1 verlaufende Pfeil symbolisiert die erforderliche Zustandsrückführung
(hier: Winkelpositionen und -geschwindigkeiten, bezogen auf beide Gelenke). Die Doppelpfeile kennzeichnen
wiederum zeitdiskrete (parallele), die dünnen zeitkontinuierliche (serielle) Arbeitsweise. Nach Bewegungsende
können die gewünschte und die aktuell erreichte Position der Armspitze verglichen werden und der Fehler dP
ggf. zur Korrekturzwecken herangezogen werden.
50
aktuelle cartesische Position
y
x
Physikalischer
Arm
Vorwärts - Kinematik FK
ϕ 1( 0 )
ϕ 1( T )
ϕ 2 (T)
aktuelle WinkelPosition
Physikalische + sensorische
Integration
1( t )
ϕ
ϕ 2 (t)
ϕ 1( t )
ϕ 2 ( t )
Q1 ( t )
Physikalischer
Arm
1z ( t )
ϕ
2z ( t )
ϕ
CPG1
ϕ 1( T )
Startposition
Endposition
_
Q 2 ( t)
Inverse Dynamik S -1
D
ZustandsRückführung
ϕ 1( 0 )
q1
p1 ← p1 + r ⋅ dϕ1
Fehler dϕ
ϕ1
_
ϕ 2(T)
ϕ 2 ( 0)
Endposition
q2
δϕ 1
+
ParallelSerienWandlung
(PS)
CPG2
q1 = p1 ⋅ δϕ 1 T 2
+
Serien-ParallelWandlung
(SP)
2 ( t )
ϕ
Vorwärts - Dynamik FD
ϕ1( t )
ϕ 2 ( 0)
Startposition
q2 = p 2 ⋅ δϕ 2 T 2
T
p2 ← p2 + r ⋅ dϕ 2
δϕ 2
Zieldiskrepanz
_
+
_
+
Fehler dϕ
ϕ2
Zielwinkel
ϕ1z
ϕ 2z
Inverse Kinematik S -1
K
xz
yz
cartesische Zielkoordinaten
Abbildung 4.18: Blockschaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm. Die
Werkzeugtransformation F ist aufgeteilt in die Vorwärtsdynamik und die Vorwärtskinematik. Bei der inversen
Modellierung ist entsprechend zuerst das inverse Modell der Vorwärtskinematik und dann das inverse Modell der
Vorwärtsdynamik anzuwenden. Da die Invertierung der Dynamik die Entkopplung der Armsegmente bedeutet,
kann Steuerung der Bewegungsweite, die für eingelenkigen Arms entworfen wurde (s. Gl. (4.9)), auch beim
zweigelenkigen Arm angewendet werden. Weitere Erläuterungen im Text.
51
Abbildung 4.19: Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm.
Die mit "+" gekenzeichneten ovalen Summiereinheiten erzeugen on-line die muskulären Drehmomente Q1 und
Q2, also den Motor-Output. An den Außenseiten links und rechts ist jeweils die Kompensation für die
mechanische Dämpfung und die mechanische Federkraft zu erkennen. Zwischen den Summiereinheiten ist die
Verschaltung (hohle Pfeile) angeordnet, welche die Rückwirkungen eines Gelenks auf das jeweils andere
kompensieren. Die Berechnung der Koeffizienten A-F, die gemäß (4.13) von den Winkelpositionen der
Armsegmente abhängen, geschieht ebenfalls on-line in der unteren mit GC-Netzwerk bezeichneten Einheit. Die
breiten Doppelpfeile stehen für parallele (zeitdiskrete), die schmalen Pfeile für serielle (zeitkontiniuierliche)
Variable. (Modifiziert nach Kalveram 1991b).
52
Abbildung 4.20: Erwerb der inversen Dynamik des zweigelenkigen Arms durch Auto-Imitation.
In der Schalterstellung 1 treiben die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 den Arm zu
Bewegungen an. Gleichzeitig werden diese Signale dem Lern-Eingang des neuronalen Kontrollers zugeführt
(gestrichelte Pfeile). Die an den beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung,
-geschwindigkeit und -position gelangen in den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und
Positionswerte dienen dabei der Zustandsrückführung, die Beschleunigungswerte als die späteren
Zielbeschleunigungen. ϕg symbolisiert wechselnde Winkel mit der Schwerkraftrichtung während des Lernens.
Nach Etablierung des inversen Modells der Vorwärtsdynamik kann der Schalter in Stellung 2 gebracht werden,
um beliebige Zielbeschleunigungen konkret herbeizugeführen.
53
Abbildung 4.21: Potenzierungsnetzwerk, die inverse Dynamik des zweigelenkigen Arms repräsentierend. Die
Knoten der hidden layer werden als Multiplizierer interpretiert, die zugehörigen Synapsen (kleine angesetzte
Kreise) als Exponenten. Exponenten ungleich 1 kommen jedoch nur bei den Knoten 6 und 7 vor, wenn man von
den trigonometrischen Subnetzwerken absieht. Die Ausdrücke vor der Ausgabeschicht bezeichnen die
synaptischen Gewichte, die für die Neuronen dieser Schicht, welche als Addierer arbeiten, einzusetzen sind. Das
Netzwerk repräsentiert also eine Potenzreihe mit 2 als höchstem Exponenten.
54
Abbildung 4.22: Erwerb der inversen Kinematik des zweigelenkigen Arms durch Auto-Imitation.
In der Schalterstellung 1 treiben die vom blinden Lehrer willkürlich vorgebenen Winkel ϕ'1und ϕ'2 über die
bereits etablierte inverse Dynamik und die Mustergeneratoren (nicht eingezeichnet) den Arm zu Bewegungen an.
Gleichzeitig werden die Winkel dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile).
Die Vorwärtskinematik setzt die aktuell erzeugten Winkel dann in die zugehörigen aktuellen cartesischen
Koordinaten x, y der Armspitze um, welche, visuell rückgemeldet, dem Normaleingang des Kontrollers zugeführt
werden. Nach Etablierung des inversen Modells der Vorwärtskinematik kann der Schalter in Stellung 2 gebracht
werden, um beliebige cartesische Zielpositionen xz, yz konkret herbeizugeführen.
55
Abbildung 4.23: Zielbewegung mit einem dreigelenkigen Arm, bei dem die Bewegung in der Zeichenebene
erfolgt. Die Zielposition Pz wird erreicht, indem bei Schulter-, Ellbogen- und Handgelenk geeignete Zielwinkel
ϕ1z, ϕ2z und ϕ3z motorisch realisiert werden. Die Kreise bezeichnen die Massenmittelpunkte. m1, m2 und m3
stellen die Massen und M1, M2 und M3 die Trägheitsmomente der drei Armsegmente dar. Die Richtung der
Schwerkraft ist parallel zur y-Achse. Im Unterschied zum zweigelenkigen Arm (s. Abb.4.12) ist nunmehr einund dieselbe Position der Armspitze durch verschiedene Kombinationen der Gelenkwinkel zu erreichen.
56
aktuelle cartesische Position
x( T )
y( T )
Vorwärts-Kinematik
ϕ1 ( 0)
ϕ 1( T )
ϕ 2 (T)
ϕ 3 (T)
aktuelle WinkelPosition
ϕ 3 ( 0)
Physikalische + sensorische
Integration
1( t )
ϕ
2 ( t )
ϕ
3 ( t )
ϕ
Physikalischer
Arm
Vorwärts-Dynamik
ϕ (t)
Q1 ( t )
ϕ ( t )
Serien-ParallelWandlung
(SP)
Q3 ( t )
Q 2 (t )
1z ( t)
ϕ
Inverse Dynamik
ZustandsRückführung
1z ( t)
ϕ
3z ( t)
ϕ
2z ( t)
ϕ
Beschleunigungs-Mustergeneratoren
q1
q3
q2
q i = p i ⋅ δϕ i T 2
T
δϕ1
_
+
_
ϕ1z
ParallelSerienWandlung
(PS)
δϕ 2
_
+
i = 1, 2, 3
δϕ 3
Zieldiskrepanzen
ϕ 3z
konkrete
Zielwinkel
+
ϕ 2z
Redundanz-Generator
β1
β2
nicht-redundante
inverse Kinematik
Koordinationsmatrix
C
xz
fiktive
Zielwinkel
Inverse
Kinematik
yz
cartesische Zielkoordinaten
57
Abbildung 4.24: Kontrolle der Zielbewegung eines dreigelenkigen Arms unter Anwendung einer
redundanzerzeugenden inversen Kinematik. Die beiden cartesischen Zielkoordinaten werden zunächst mittels
eines von unendlich vielen nichtredundanten Modellen der inversen Kinematik (fiktive zweigelenkige Arme mit
z.B. unterschiedlichen Segmentlängen) in zwei fiktive Ausgabe-Winkel β1 und β2 umgerechnet. Aus diesen
bestimmt der Redundanzgenerator dann die drei Zielwinkel 1z, 2z, 3z, und zwar unter Anwendung der
Koordinationsregel, die von der Koordinationsmatrix C festgelegt wird. Die Matrix C adressiert gleichzeitig auch
das durch die angewendete Koordinationsregel definierte nichtredundante inverse Modell der Kinematik. Dieses
Vorgehen gewährleistet, daß ein in cartesischen Koordinaten vorgegebenes Ziel auch bei zufällig variierenden
Elementen der Matrix C getroffen wird.
58
aktuelle cartesische Position
x
y
Integration
Vorwärts-Kinematik
Vorwärts-Dynamik
Inverse Dynamik
Beschleunigungsmustergenerator
ϕ1z
ϕ 2z
konkrete
Zielwinkel
ϕ 3z
Redundanz-Generator
β '2
β '1
β1
Blinder
Lehrer
β2
nicht-redundante
inverse Kinematik
zu trainierende
Funktionseinheit
Inverse
Kinematik
Koordinationsmatrix
C
xz
yz
cartesische Zielkoordinaten
Abbildung 4.25: Lernen der redundanzerzeugenden inversen Kinematik durch Auto-Imitation.
Die vom blinden Lehrer ausgegebenen (jetzt fiktiven) Gelenkwinkel β'1, β'2 gelangen in den Lerneingang
(schattierte Doppelpfeile) der zu trainierenden Einheit. Gleichzeitig erzeugt der Redundanzgenerator daraus unter
Anwendung der aktuellen Koordinationsmatrix C die drei Zielwinkel 1z, 2z, 3z, welche über die bereits
funktionsfähigen Stufen (s. Abb.4.24) in aktuelle cartesische Positionen x, y umgesetzt werden. Diese werden
rückgeführt und zusammen mit den Elementen der aktuellen Koordinationsmatrix C den Normaleingängen der zu
trainierenden Einheit eingegeben, der damit alle zum Lernen notwendigen Signale zur Verfügung stehen.
59
a
b2: Testen mit c=0.5
b1: Testen mit c=0
b3: Testen mit
error
0.8
error
error
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
0
-1
-1.5
y
-2 0.5
1
1.5
x
x = 0.1268, s = 0.2213
2
-1
-1.5
y
-2 0.5
1
1.5
x
x = 0.0225 , s = 0.0337
2
c=1
-1
-1.5
y
-2 0.5
1
1.5
2
x
x = 0.0310, s = 0.0166
Abbildung 4.26: Simulationsexperiment zum Erlernen einer redundanten inversen Kinematik des dreigelenkigen
Arms durch Auto-Imitation (Koordinationsregel: 1z=ß1, 2z=ß2 und 3z=c. 2z).
a : Lernphase. Die Kreuze markieren die Positionen der Armspitze für die vom blinden Lehrer vorgegebenen 100
fiktiven Gelenkwinkel ß1, ß2. Der Koordinationsparameter c variierte dabei zufällig zwischen 0 und 1.
b1, b2, b3 : Aktivitätsphase. Die zu treffenden Zielpositionen x, y bestanden aus den 441 Kreuzungspunkten
eines Test-Gitters, dessen Eckpunkte mit dem in der Lernphase verwendeten Gitter übereinstimmten. Dargestellt
sind die Fehler (Differenzen zwischen Zielvorgaben und tatsächlichen Positionen) bei drei verschiedene Werte
von c in der Aktivitätsphase.
x und s bedeuten Mittelwert und Standard-Abweichung der Fehler.
60
kriteriumsbewertetes
Bewegungsergebnis
Koordinationsmatrix
C
c11
Zuschalten von
Rauschen
r1
+
c12
r2
c21
r3
c22
r4
c31
r5
c32
r6
-
C-Generator
Anpassung der
synaptischen Gewichte bei
Annäherung an das
Kriterium
Situation,
Optimierungskriterium
Abbildung 4.27: Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten. Der obere Eingang
dient zur Adressierung des in einer gegebenen Situation anzuwendenden Optimierungskriteriums. Die mit r1-r6
bezeichneten Pfeile stellen weitere Eingänge dar, über welche den Ausgangs-Neuronen Rauschen (= kleine
Zufallsschwankungen mit dem Mittelwert 0) zugeschaltet werden können. Die nach der Zuschaltung von
Rauschen resultierenden Koordinationskoeffizienten cij werden dann für die redundanzerzeugende inverse
Kinematik (s. Abb.24) verwendet. Ergibt die Bewertung der erzeugten Bewegung hinsichtlich des
Optimierungskriteriums eine Annäherung, so können z.B. mittels der Deltaregel (oder der backpropagation
Regel) die synaptischen Gewichte des Netzwerkes so verändert werden, daß in der Folge entsprechend
verbesserte Koordinationskoeffizienten ausgegeben werden.
61
Werkzeugtransformation F:
Fremdsignal x
'Störung'
{ [
Eigensignal
r
+
s=r+x
UMWELT
INDIVIDUUM
Sensorische
Transform.
FS
Reafferenz:
Exafferenz:
Afferenz:
Fehler
dx = - x'
-
]}
r' = F(e) = FS FP FM (e )
r' = FS(r)
x' = FS(x)
a = x' + r'
k
Physikalische
Werkzeug-Transf.
FP
r = FP (k)
FR
Zustandsrückführung
u
Kraft
k = FM (e)
Motorische
Transform.
FM
Efferenz
e = eS+ eR
Zustandsprädiktion
u*
+
Zielafferenz
z
Mustergenerator
perzeptives
Ziel
Inverses
Modell
S-1
S-1(z) = eS
Steuerung
Efferenz
eS
+
Regelung
Regler
P
1
Efferenz eR
Abbildung 4.28: Zusammenfassendes Schema des Reafferenzmodell der Sensumotorik
62
Literatur2
Literatur
Anochin, P. K. (1967) Das funktionelle System als Grundlage der physiologischen Architektur des
Verhaltensaktes. In: J. Bures, E. Roy John, P.G. Kostjuk, L. Pickenhain (Hrgr) Abhandlungen aus dem Gebiet
der Hirnforschung und Verhaltensphysiologie, Band 1. Jena: Gustav Fischer
Anokhin, P. K. (1974) Biology and neurophysiology of the conditioned reflex and its role in adaptive behavior.
New York: Pergamon
Arnold, M. B. (1960) Emotion and personality. Columbia, New York
Beer, R. D. (1990). Intelligence as adaptive behavior. An experiment in computational neuroetholgy. Boston:
Academic Press.
Berlyne, D. E. (1960) Conflict, arousal and curiosity. New York: McGraw-Hill
Bischof, N. (1975) A systems approach toward the functional connections of attachment and fear. Child
Development 46, 801-817
Bischof, N. (1985). Das Rätsel Ödipus. München: Piper.
Bossel, H. (1987) Systemdynamik. Braunschweig: Vieweg
Boyd, R. (1985) Culture and the evolutary process. Chicago: University of Chicago Press
Braitenberg, V. (1986) Künstliche Wesen: Verhalten kybernetischer Vehikel. Braunschweig: Vieweg
Bronstein, I. N., Semendjajew, K. A. (1986). Taschenbuch der Mathematik. Ergänzende Kapitel. 4. Auflage.
Hrsg. G. Grosche, V. Ziegler, D. Ziegler. Thun: Verlag Harri Deutsch (S.164).
Brown, R., Freeman, S., McFarland, D. (1974) Toward a modell for the copulatory behavior of the male rat. In:
McFarland, D.(ed.) Motivational control systems analysis. Academic Press, London
Collins, J. J., Stewart, I. (1993) Coupled nonlinear oscillators and the symmetries of animal gaits. J Nonlinear
Sci. 3, 349-392
Cruse, H. (1990) What mechanisms coordinate leg movements in walking arthropods? Trend in Neurosciences
13, 15-21
Dawkins, R. (1976) The selfish gene. Oxford: Oxford University Press.
Desmond, J. E., Moore, J. W. (1988). Adaptive timing in neural networks: The conditioned response. Biol.
Cybern, 58, 405-415.
Dörner, D. (1979) Problemlösen als Informationsverarbeitung. Stuttgart: Kohlhammer
Duffy, E. (1962) Activation and behavior. New York: Wiley
Düker, H. (1975) Untersuchungen über die Ausbildung des Wollens. Bern: Huber
Eckmiller E. (1985) The transition between pre-motor eye velocity signals and oculomotor eye position signals
im primate brain stemm neurons during pursuit. In E. L. Keller, D.S. Zee (Eds.) Adaptive processes in visual and
oculomotor systems. Oxford: Pergamon Press
Ehrhardt, K. J. (1975) Neuropsychologie motivierten Verhaltens. Stuttgart: Enke
Eibl-Eibesfeld, I. (1975). Krieg und Frieden aus der Sicht der Verhaltensforschung (Neuausgabe 1984)
München: Piper.
Eibl-Eibesfeld, I. (1987) Grundriß der vergleichenden Verhaltensforschung - Ethologie. (7. Auflage). München:
Piper
Franck, D. (1979) Verhaltensbiologie. Stuttgart: Thieme
Freund, H. J. (1986) Time control of hand movements. In.: H.J. Freund, U. Büttner, B. Coghen, J. Noth (Eds)
The oculomotor and skeletalmotor systems. Progress in Brain Res. 1986, 287-294
Glenberg, A. M. (1997) What is memory for. Behavioral and Brain Sciennces 20, 1-55
Grillner, S. (1975) Locomotion in vertebrates: Central mechanisms and Reflex interaction. Physiological Review,
55, 247-304
63
Grossberg, S., Schmajuk, N. A. (1989). Neural dynamics of adaptive timing and temporal discrimination during
associative learning. Neural Net, 2, 79-102.
Hadamard, J. (1923) Lectures on the Cauchy problem in linear partial differential equations. New Haven: Yale
University Press
Hamilton, W. D. (1970). Selfish and spiteful behavior in an evolutionary model. Nature, 228, 1218-1220.
Hamilton, W.D. (1964). The genetical evolution of social behavior I and II. Journal of Theoretical Biology, 7, 116 and 17-52.
Hammerl, M. (1991) Effekte signalisierter Verstärkung. Regensburg: Roederer
Harper, D. G. C. (1991). Communication. In: J.R. Krebs , N.B. Davies (Eds.), Behavioural ecology. An
evolutionary approach (3rd edn.). Oxford: Blackwell Scientific Publications (pp. 374-397).
Hassenstein, B. H. (1980) Instinkt, Lernen, Spielen, Einsicht. München: Piper
Hebb, D. O. (1949) The Organization of behaviour. New York: Plenum Press
Hein, A., Held, R. (1962) A neural model for labile sensorimotor coordinations. In A. Hein, R. Held (Ed.)
Biological prototypes and synthetic systems. New York: Plenum Press
Heisenberg, M. (1983). Initiale Aktivität und Willkürverhalten bei Tieren. Naturwissenschaften 70, 70-78
Heisenberg, M., Wolf, R. (1979). On the fine structure of yaw torque in visual flight orientation of drosophila
melanogaster. J. Comp. Physiol. 130, 113-130
Held, R., Hein, A. (1963) Movement produced stimulations in the development of visually guided behavior.
Journal of Comparative and physiological Psychology, 56, 872-876
Helson, H. (1964) Adaptation-level theory. New York: Harper , Row
Henry, J. P., Stephens, P. (1977) Stress, health and social environment: A sociobiologic approach to medicine.
New York: Springer
Heuer, H. (1983) Bewegungslernen. Stuttgart: Kohlhammer
Heuer, H. (1984) On re-scaleability of force and time in aiming movements. Psychol. Research, 46, 73-86
Hitchcock, J. M., Davis, M. (1991). Efferent pathways of the Amygdala involved in conditioned fear as measured
with the fear-potentiated startle paradigm. Behav Neurosci, 105, 826-842
Hoffmann, J. H. (1998) Kognition im Dienste der Handlungssteuerung. Ein Kommentar zu Wolfgang Prinz
((1997). Psychologische Rundschau, 49, 21-30
Holst E. von (1938) Die relative Koordination als Phänomen und Methode zentralnervöser Funktionsanalyse.
Ergebnisse der Physiologie, 42, 228-306 (Z-Name?)
Holst, D. von (1972) Renal failure as the cause of death in Tupaja belangeri exposed to persistent social stress. J.
Comp. Physiol., 78, 236-273
Holst, E. von, Mittelstaedt, H. (1950) Das Reafferenzprinzip (Wechselwirkungen zwischen Zentralnervensystem
und Peripherie). Naturwissenschaften 37, 464-476
Holzapfel, M. (1940) Triebbedingte Ruhezustände als Ziel von Appetenzhandlungen. Die Naturwissenschaften,
28, 273-280
James, W. (1884) The physical basis of emotion. Psychol. Rev. 1, 516-529
Jansen, G. (1986) Zur "erheblichen Belästigung" und "Gefährdung" durch Lärm. Z. f. Lärmbekämpfung 33, 2-7
Jordan, M. I. (1988) Supervised learning and systems with excess degrees of freedom. COINS Technical Report
88-27, 1 - 41
Kalveram, K.Th. (1971). Modell und Theorie in systemtheoretischer Sicht. Psychologische Beiträge, 13, 366-375
Kalveram, K.Th. (1975) Das Marburger System: 1. Teil: Das Digital-System. Marburg: Bericht Nr. 44 aus dem
Institut für Psychologie.
Kalveram, K.Th. (1981) Erwerb sensumotorischer Koordinationen unter störenden Umwelteinflüssen: Ein
Beitrag zum Problem des Erlernens von Werkzeuggebrauch. In L. Tent (Ed.): Erkennen, Wollen, Handeln.
Festschrift für Heinrich Düker (S. 336-348). Göttingen: Hogrefe
64
Kalveram, K.Th. (1985). Grundzüge eines psychobiologischen Funktionsmodells der Wechselwirkung zwischen
Individuum und Umwelt. Psychologische Beiträge, 27, 402-415.
Kalveram, K.Th. (1990) A neural network acquiring the inverse of a tool or limb transformation by "selfimitation learning". Poster at the ICNC - 10th Cybernetic Congress of the DGK, Düsseldorf
Kalveram, K.Th. (1991a) Pattern generating and reflex-like processes controlling aiming movements in the
presence of inertia, damping and gravity. Biol. Cybern. 64, 413-419
Kalveram, K.Th. (1991b) Controlling the dynamics of a two-jointed arm by central patterning and reflex-like
processing. Biol. Cybern. 65, 65-71
Kalveram, K.Th. (1991c) Sensumotorik des Sprechens oder Wie man "ta-ta-tas" spricht und gegebenenfalls dabei
stottert. Psychologische Beiträge, Bd. 33, 94-121
Kalveram, K.Th. (1991d) Über Aggression und Friedensfähigkeit des Menschen. Ein Beitrag zur
Verhaltensbiologie des Krieges. Psychologische Beiträge, Bd. 33, 177-201
Kalveram, K.Th. (1992) A neural network model rapidly learning gains and gating of reflexes necessary to adapt
to an arm's dynamics. Biol. Cybern. 68, 183-191
Kalveram, K.Th. (1993a) Power series and neural-net computing. Neurocomputing 5, 165-174
Kalveram, K.Th. (1993b) A neural-network model enabling sensorimotor learning: Application to the control of
armmovements and some implications for speech-motor control and stuttering. Psychol. Res. 55, 299-314
Kalveram, K.Th. (1998) A neural oscillator model learning given trajectories, or how an "allo-imitation
algorithm" can be implemented into a motor controller. In J. Piek (Ed.), Motor control and human skill: A multidisciplinary perspective. Champaign: Human Kinetics (pp. 127-140)
Kalveram, K.Th., Merz F. (1976) Über die Unterscheidung zwischen Eigenem und Fremden oder Warum
Hühner beim Laufen mit dem Kopf nicken. Psychologische Beiträge, 18, 135-142
Kalveram, K.Th., Natke, U. (1996) Movement control by inverse modelling of the tool transformation:
Redundancy generation and wasting by coordinative structures. Conference on Bernstein's Traditions in Motor
Control, 1996, Pennsylvania State University
Kalveram, K.Th., Natke, U. (1997) Stuttering and misguided learning of articulation, or why it is extremely
difficult to estimate the physical parameters of limbs. In H. F. M. Peters, W. Houstijn, P. H. H. M. van Lieshout
(Eds.), Speech Motor Control and Fluency Disorders. Amsterdam: Elsevier. (pp 89-98)
Keele S. W. (1968) Movement control in skilled motor performance. Psychological Bulletin, 70, 387-403
Klopf, A. H. (1988). A neuronal model of classical conditioning. Psychobiology, 16, 85-125
Kohler I. (1964) The formation and transformation of the visual world. Psychological Issues, Monograph 12.
(pp.174-176)
Kohler I. (1966) Die Zusammenarbeit der Sinne und das allgemeine Adaptationsproblem. In W. Metzger (Hrsg.)
Handbuch der Psychologie (Bd.1). Göttingen: Verlag für Psychologie (pp.173-175)
Kohonen, T. (1982a). Selforganized formation of topologically correct feature maps. Biol Cybern, 43, 59-69.
Kohonen, T. (1982b). Analysis of a simple self-organizing process. Biol Cybern 44, 135-140.
Kornhuber, H. H. (1971) Motor functions of cerebellum and basal ganglia: The cerebellocortical saccadic
(ballistic) clock, the cerebellonuclear hold regulator, and the basal ganglia ramp (voluntary speed smooth
movement) generator. Kybernetic 8, 157-162
Krebs, J. R. ,Dawkins R. (1984). Animal signals: mind reading and manipulation. In: J.R. Krebs , N.B. Davies
(Eds.), Behavioural ecology. An evolutionary approach (2nd edn.) Oxford: Blackwell Scientific Publications. (pp.
380-402).
Küpfmüller, K. , Poklekowski, R. (1956) Der Regelmechanismus willkürlicher Bewegungen. Z. Naturforschung
11b, 1-7
Lauterbach, W., Sarris, V (1980) Beiträge zur psychologischen Bezugssystemforschung. Bern usw.: Hans Huber
Lazarus, R. S. (1966) Psychological stress and the coping process. New York: McGraw-Hill
Lorenz K. (1953) Über angeborene Instinktformeln beim Menschen. Deutsche medizinische Wochenschrift, 45,
45-46
65
Lorenz K., Tinbergen N. (1939) Taxis und Instinkthandlung in der Eirollbewegung der Graugans. Z.
Tierpsychologie, 2, 1-29
Lorenz, K. (1966) Über tierisches und menschliches Verhalten. München: Piper
Lorenz, K. (1978) Vergleichende Verhaltensforschung. Grundlagen der Ethologie. Wien: Springer
Lorenz, K. (1979). Die Rückseite des Spiegels. München: Deutscher Taschenbuchverlag.
Lorenz, K. (1983) Das Wirkungsgefüge der Natur und das Schicksal des Menschen (2. Auflage, Erstauflage
1978). München: Piper
MacGuigan, F. J. (1983) Einführung in die Experimentelle Psychologie. Frankfurt: Fachbuchhandlung für
Psychologie
MacKay, D. J., Miller, K. D. (1990) Analysis of Linsker's simulations of Hebbian rules to linear networks.
Network, 1, 257-297
Mackintosh, N. J. (1975). A theory of attention: Variations in the associability of stimuli with reinforcement.
Psychol Review, 82, 276-298.
Markl, H. (1982). Evolutionsbiologie des Aggressionsverhaltens. In: R. Rilke , W. Kempf (Hrsg.), Aggression.
Bern: Huber.
Markowitsch, H. J. (1996) Neuropsychologie des menschlichen Gedächtnisses. Spektrum der Wissenschaft, 9,
52-61
Maynard Smith, J. (1974). The theory of games and the evolution of animal conflicts. Journal of Theoretical
Biology, 47, 209-221.
McDougall, W. (1908) An introduction to social psychology. London: Methuen
Merz, F. (1965). Aggression und Aggressionstrieb. In: H. Thomae (Hr), Handbuch der Psychologie, Bd.2
Motivationslehre (S. 569-601). Göttingen: Hogrefe.
Miller J. P., Selverstone, A. I. (1985) Neural mechanisms for the production of the lobster pyloric motor pattern.
In: A.I. Selverstone (Ed.) Model neural networks and behavior. New York: Plenum Press
Miller, E. K., Desimone, R. (1991). A neural mechanism for working and recognition memory in Inferior
Temporal Cortex. Science, 254, 1377-1379.
Miller, G. A., Galanter, E. , Pribram, K. H. (1960) Plans and the structure of behavior. Holt, Rinehart and
Winston, New York
Mittelstaedt H. (1971) Reafferenzprinzip - Apologie und Kritik. In: W.D. Keidel, K. H. Plattig (Hrsg) Vorträge
der Erlanger Physiologentagung 1970. Berlin usw.: Springer (pp. 161-171)
Mittelstaedt H. (1990) Basic solutions to the problem of head-centric visual localization. In: R. Warren, A.
H.Wertheim (Eds.) The perception and control of self-motion. Hilsdale: Erlbaum
Mowrer, O. H. (1960) Learning theory and behavior. New York: Wiley
Neilson P. D. , Neilson M. D., O'Dwyer N. J. (1992) Adaptive model theory: Application to disorders of motor
control. In: J J Summers (ed) Approaches to the study of motor control and learning (pp 495-548). Elsevier
Neilson P. D., Neilson M. D., O'Dwyer N. J. (1995) Adaptive optimal control of human tracking. In: D J
Glencross , J P Piek (eds) Motor control and sensory motor integration: Issues and directions (pp 97-140).
Elsevier
Neilson, P. D., Neilson, M. D., O'Dwyer, N. J. (1998) Evidence for rapid switching of sensory-motor models. In:
J P Piek (ed.) Motor behavior and human skill. A multidisciplinary approach. Human Kinetics (pp. 105-126)
Pohl R. W. (1962) Mechanik, Akustik und Wärmelehre. 15. Auflage. Berlin usw.: Springer Verlag
Prinz, W. (1998) Die Reaktion als Willenshandlung. Psychologische Rundschau, 49, 10-20
Pusey, A. E. , Packer, C. (1987). Dispersal and philopatry. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R. W.
Wrangham, Th., T. Struhsaker (Eds), Primate societies (pp. 250-266). Chicago: The University of Chicago Press.
Reichardt W. (1961) Autocorrelation as a principle for evaluation of sensory information by the central nervous
system. In. W A Rosenblith (ed) Principles of sensory communications. Wiley, New York
66
Reichardt W. (1987) Evaluation of optical motion information by movement detectors. J. Comp. Physiol., A 161,
533-547
Rescorla, R. A., Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of
reinforcement and nonreinforcement. In A. H. Black. , W. F. Prokasy (Eds.), Classical conditioning II: Current
research and theory (pp. 64-99). New York: Appleton-Century-Crofts
Riechert, S. E., Hammerstein, P. (1983). Game theory in the ecological context. Annual Reviews in Ecological
Systems, 14, 377-409.
Sanders, A. F. (1971) Psychologie der Informationsverarbeitung. Bern: Huber
Schachter, S., Singer, J. (1962) Cognitive, social and physiological determinants of emotional state.
Psychological Review, 69, 379-399
Schneider, K. , Schmalt, H.D. (1981) Motivation. Stuttgart: Kohlhammer
Schneider, K. , Wothe, K. (1979) The contribution of naso-oral and postingestional factors in taste aversion
learning in the rat. Behavioral an Neural Biology 25, 30-38
Schneider, K., Posse N. (1982) Risk-taking in achievement-oriented situations: Do people really maximize affect
or competence information? Motivation and Emotion, 6, 259-271
Schneider, W., Shiffrin, R. M. (1977) Controlled and automatic human information processing: I, Detection,
search and attention. Psychol. Review, 84, 1-66
Seligman, M. E. P. (1975) Helplessness: On Depression, development and death. San Fransisco: Freeman
Shiffrin, R. M., Schneider, W. (1977) Controlled and automatic human information processing: II, Perceptual
learning, automatic attending, and a general theory. Psychol. Review, 84, 127-190
Shouval, H. Z., Perrone M. P. (1995) Post-Hebbian learning rules. In: M. A. Arbib (ed.) The handbook of brain
theory and neural networks. Cambridge: The MIT Press (pp. 745-748)
Silby, R. , Mcfarland, D. (1974) A state-space approach to motivation. In: McFarland, D.(ed.) Motivational
control systems analysis. Academic Press, London
Silk, J. B. (1987) Social behavior in evolutionary perspective. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R.
W.Wrangham, Th. T. Struhsaker (Eds), Primate societies. Chicago: The University of Chicago Press (pp.318329)
Sillito, A. M., Murphy, P. C. (1987), The cholinergic modulation of cortical funktion. In: E. G. Jones, A. Peter
(Eds) The cerebral cortex, Vol 6. New York: Plenum Press
Smuts, B.B., Cheney, D. L., Seyfarth, R.M., Wrangham, R.W., Struhsaker, Th. T. (1987). Primate societies.
Chicago: The University of Chicago Press.
Sparenborg, S., Gabriel, M. (1990). Neuronal encoding of conditional stimulus duration in the Cingulate Cortex
and the Limbic Thalamus of rabbits. Behav Neurosci, 104, 919-933.
Spitz, R. A. (1960): The first year of life. International Universities Press, New York
Thorndike, E. L. (1931) Human learning. Cambridge: Massachusetts Institute of Technology Press
Toates, F. M. , Birke, L. I. A (1982) Motivation: A new perspective on some old ideas. In: P. P. Bateson, P. H.
Klopfer (eds) Perspectives in Ethology 5. Plenum Press, New York, 191-241
Tocco, G., Devgan, K. K., Hauge, S. A., Weiss, C., Baudry, M., Thomson, R. F. (1991). Classical conditioning
selectively increases AMPA/Quisqualate receptor binding in rabbit Hippocampus. Brain Res, 599, 331-336.
Tolman, E.C. (1932) Purposive behavior in animals and men. New York: Century
Trivers, R.L. (1985). Social evolution. Menlo Park (California): Benjamin Cummings.
Vanden Berghe, J., Wouters, J. (1998) Adaptive noise canceller for hearing aids using two nearby microphones.
J. Acoust. Soc. Am. 103, 3621-3626
Varju D. (1990) A Note on the reafference principle. Biol. Cybern. 63, 315-323
Velden, M. (1982). Die Signalentdeckungstheorie in der Psychologie. Stuttgart usw.: Kohlhammer
Walter, W. G. (1961) Das lebende Gehirn. Berlin
67
Yeo, C. H. (1991). Cerebellum and classical conditioning of motor responses. Ann N Y Acad Sci, 627, 292-304
Zippelius, H. M. (1992). Die vermessene Theorie. Braunschweig: Vieweg
68