Kalveram, K. Th. (1998) Wie das Individuum mit seiner Umwelt interagiert. Psychologische, biologische und kybernetische Betrachtungen über die Funktion von Verhalten. Lengerich, Pabst [Kap.4: Motorischer Apparat (S.165-249)] 4 Motorischer Apparat 4.1 Bewegungen und ihre Kontrolle Unter Motorik kann der Einsatz von Muskelkraft verstanden werden, unter Sensumotorik die Wechselwirkung zwischen Sensorik und Motorik während des Einsatzes von Muskelkraft. Dieses ist eine sehr allgemeine Feststellung, die ehe verschleiert als offenlegt, welch grandiose Leistung Mensch und Tier vollbringen, wenn sie sich geordnet bewegen. Richtig sich bewegen können bedeutet, die Physik des eigenen Körpers und der Umwelt genau zu kennen, zu beherrschen und so einzusetzen, daß gewünschte Wirkungen herbeigeführt werden und Unerwünschtem ausgewichen wird. Wie dies im einzelnen geschieht, ist dem bewußten Erleben, also der Selbstbeobachtung, weitgehend verschlossen. Man kann vermuten, daß viele von den für die neuronale Kontrolle erforderlichen informationsverarbeitenden Prozessen so kompliziert sind, daß sie die Kapazität des Cortex bei weitem übersteigen und daher an autonom arbeitende Untereinheiten wie Rückenmark, Basalganglien und Kleinhirn übertragen werden. Es ist jedoch nicht die Aufgabe dieses Kapitels, über die anatomischen Orte zu spekulieren, an denen solche Berechnungen stattfinden. Vielmehr soll eine funktionale Analyse angestellt werden, aus der die zu erbringenden Kontrollaufgaben zu erkennen sind; denn es kann angenommen werden, daß motorische Kontrolle nur verstanden werden kann, wenn die Physik von Körper und manipulierter Umwelt verstanden ist. Das "funktionelle System" der Sensumotorik ist eine Ganzheit "und nicht, wie man häufig annimmt, letzten Endes nur ein Gebilde des Zentralnervensystems" (Anochin 1967 S.13). 4.1.1 Einteilung nach funktionalen Gesichtspunkten Motorische Aktivität dient offenkundig unterschiedlichen Aufgaben: Werkzeug-Algorithmen etwa realisieren 'selbstgestellte' perzeptive Ziele, z.B. im Rahmen der Handhabung von Arbeitsgeräten oder sonstiger Verrichtungen. Halte-Algorithmen sind dadurch gekennzeichnet, daß sie sensorische oder perzeptive Istwerte entgegen einer ständig von außen einwirkenden Kraft, etwa der Schwerkraft, auf intern vorgegebenen Niveaus halten, was beispielsweise zum Aufrechterhalten einer bestimmten Körperstellung erforderlich ist. Kompensations-Algorithmen dienen dazu, Abweichungen von sensorischen Vorgaben angesichts bevorstehender, aber vorhersehbarer, störender Einwirkungen garnicht erst eintreten zu lassen. Die Lokomotorik ermöglicht einen Ortswechsel, die Signal-Motorik steht im Dienst der Kommunikation mit Artgenossen durch Mimik und Gestik, die Artikulationsmotorik ermöglicht verbale Kommunikation, die Ortungs- und Explorationsmotorik dient der Wahrnehmung (z.B. Augen- und Ohrenbewegungen bei Orientierungsreaktionen, seitliche Kopfbewegungen zur Parallaxen-Erzeugung, Artikulatorbewegungen zur Echo-Ortung, Tast- oder Testbewegungen zur Festellung von Form oder Gewicht eines Gegenstandes). Daneben gibt es noch andere motorische Aktivitäten, z.B. solche, die für Transportvorgänge im gastro-intestinalen oder kardiovaskulären System zuständig sind. Es ist dies jedoch keine überschneidungsfreie Systematik; eine beobachtete Bewegung kann mehrere dieser Zwecke verfolgen. Z.B. sind bei einem Ortwechsel sehr wohl Zielvorstellungen über den anzustrebenen neuen Ort vorhanden, während Haltealgorithmen angesichts der Schwerkraft die Lokomotion erst ermöglichen und Kompensationsalgorithmen für die Planung der Trajektorie, die zum Ziel führt, angewendet werden. Der Akzent liegt in diesem Kapitel auf der 'Werkzeug-Motorik', welche die Realisierung von 'selbstgestellten' sensorischen Zielen durch efferente Aktivität zu besorgen hat. Aufgaben dieser Art seien dem nun zu behandelnden motorischen Apparat zugeschrieben. Die Ziele selbst werden vom taktischen Apparat, auf den im nächsten Kapitel näher eingegangen wird, bereitgestellt und gehen letztendlich auf den vom evaluativvolitionalen Apparat ausgegebenen globalen perzeptiven Sollwert (PZ-Soll) zurück. 4.1.2 Einteilung nach phänomenologischen Gesichtspunkten Neben der oben erwähnten aufgabenbezogenen Einteilung kann auch die Phänomenologie zur Klassifizierung motorischer Abläufe beitragen. So können Bewegungen nach Beobachtungen der Verhaltensbiologen (vgl. hierzu etwa Lorenz 1939, 1966; Eibl-Eibesfeld 1987) z.B. eingeteilt werden in 1. Automatismen (fixed action patterns) 2. Taxien 1 3. Appetenzverhalten. 4.1.2.1 Automatismen Automatismen werden als stereotyp und automatisch ablaufende Bewegungen beschrieben, die weder von sensorischen Meldungen noch vom Erfolg her gesteuert werden. Sie werden von spezifischen sensorischen Konstellationen (den Schlüsselreizen) lediglich ausgelöst (getriggert), können aber nach erfolgter Triggerung unter Beibehaltung der relativen Form mit verschiedenenen Amplituden und verschiedenen Geschwindigkeiten ablaufen. Automatismen können erworben oder angeboren sein. In letzterem Fall werden sie auch als 'Erbkoordinationen' bezeichnet. Regeltechnisch gesehen kann man einen Automatismus demnach auf einen vorprogrammierten Funktionsgeber zurückführen, welcher auf ein Startsignal hin, bzw. auf die Wegnahme einer Hemmung, ein bestimmtes zeitlich erstrecktes efferentes Muster ausgibt. Von daher betrachtet legen Automatismen den Ablauf von Bewegungen bereits vor Bewegungsbeginn fest. 4.1.2.2 Taxien Taxien werden als orientierende Einzelbewegungen oder Richtwendungen beschrieben. Sie führen bei einem quantifizierten sensorischen Signal zu einer entsprechend quantitativ abgestuften motorischen Antwort, z.B. zu einer (ungefähren) räumlichen Ausrichtung der Körperlängsachse des Tieres auf ein sensorisch geortetes Beutetier. Systemtheoretisch sind Taxien also als Steuerglieder aufzufassen, welche als offene Wirkungsketten und nicht als Regelkreise arbeiten. Solche Systeme "reagieren" auf eine Änderung ihrer Eingangsgröße mit einer davon festgelegten Änderung der Ausgangsgröße. Es erfolgt jedoch auf dieser Betrachtungsebene noch keine Erfolgskontrolle, d.h ein Vergleich des Ausgangsignals mit einem intern (neuronal) repräsentierten Sollwert (Ziel) zum Zwecke der Korrektur eines eventuell gegebenen Fehlers findet nicht statt. 4.1.2.3 Appetenzverhalten Appetenzverhalten schließlich wird als ein spezifisches Suchverhalten nach der sensorischen Konstellation, welche einen bestimmten Automatismus oder eine Erbkoordination auslöst, gekennzeichnet. Es ist variabel und anpassungsfähig und versetzt das Tier z.B. in die Lage, Umwege zu meistern, die zwischen ihm und dem angestrebten Ziel liegen, oder mehr oder weniger systematische Einflüsse auszugleichen, welche die Zielgenauigkeit ansonsten beeinträchtigen würden. Solches Verhalten läuft also offensichtlich im Rahmen von Regelkreisen ab, in denen z.B. ein Schlüsselreiz mitsamt der ihn einbettenden Situation als ein sensorischer Sollwert (Ziel) intern vorgegeben ist und die Handlungsfolge darauf gerichtet ist, den sensorischen Istwert an den sensorischen Sollwert anzunähern und die Abweichungen möglichst klein zu halten. In diesem Sinne handelt es sich beim Appetenzverhalten um zielgerichtetes Bewegen im eigentlichen Sinne. Zielgerichtetes Bewegen setzt die Fähigkeit zu erfolgsgesteuertem Lernen voraus. Hierbei werden motorische Aktionen hinsichtlich intern repräsentierter Kriterien optimiert. Außer der Verbesserung der Zielgenauigkeit kommen als Optimierungskriterien z.B. die Verringerung des organismischen Kraft- bzw. Energieaufwands oder die Verminderung des Kontrollaufwands in Betracht. Wegen der internen Repräsentation dieser Kriterien werden solche Lernvorgänge zuweilen auch unter der Bezeichnung ‘Selbstoptimierung’ zusammengefaßt. Inzwischen wurden zentrale Mustergeneratoren (central pattern generators) als neurophysiologische Substrate von Automatismen mehrfach nachgewiesen oder glaubhaft gemacht (v. Holst 1938; Grillner 1975, Miller & Selverstone 1985, Collins & Stuart 1993, Cruse 1990). Taxiserzeugende neuronale Verschaltungen, oft auch als Reflexbögen bezeichnet, wurden ebenfalls verschiedentlich aufgeklärt. Der Faktor, welcher die Stärke des sensorischen Reizes mit der Amplitude der reflektorischen motorischen Reaktion verknüpft, wird meist als Verstärkung (gain) des Reflexes bezeichnet. Appetenzverhalten wurde in einer Reihe von Kontexten untersucht, z.B. als 'sensumotorisches Lernen', wenn Re-Adaptionsvorgänge bei künstlich verändertem Zusammenhang zwischen motorischen Aktionen und visueller Rückmeldung im Vordergrund des Interesses standen, oder als instrumentelles (operantes) Konditionieren, wenn es um die Auswahl geeigneter Verhaltensweisen unter vorgegebenen äußeren Bedingungen ging. 4.1.2.4 Motorischer Algorithmus oder motorisches Programm? Hinsichtlich der Natur der den Bewegungen unterliegenden Kontrollprozesse wurden gelegentlich extreme 2 Positionen vertreten (zusammenfassend: Heuer 1983 S. 12-13): Vor allem ältere Auffassungen betrachteten Bewegungen und Bewegungsfolgen im Grunde nur im Rahmen von Reflexen und Reflexketten, wobei der Gesichtspunkt der Steuerkette (also der Taxis im obigen Sinne) überbetont wurde. Andere Autoren führten eine Bewegung allein auf ein motorisches Programm zurück, worunter man eine Folge von motorischen Kommandos verstand, welche, vor Bewegungsbeginn bereitgestellt, den Ablauf der Bewegung ohne periphere (Rück=)Meldungen steuern (Keele 1968), eine Definition, die in dieser strengen Form ersichtlich nur auf den Automatismus zutrifft. Schließlich wurden Bewegungen einseitig unter dem Aspekt der Zielgerichtetheit bzw. Regelung (also im Rahmen funktional appetenter Handlungen) gesehen und z.B. im Rahmen von Prismenexperimenten komplexe Anpassungs- und Lernvorgänge im motorischen Apparat untersucht (Held & Hein 1963, Kohler 1964, 1966). Tatsächlich dürften bei den meisten Bewegungsvorgängen sowohl vorprogrammierte (automatische) als auch gesteuerte (taxische) und geregelte (appetente) Elemente gleichzeitig auftreten bzw. ineinander verflochten sein. Lorenz & Tinbergen (1939) beschreiben z.B., wie bei der Ei-Roll-Bewegung Erbkoordination, Taxis und Appetenzverhalten zusammen (verschränkt) vorkommen. Auch wenn phänomenales Appetenzverhalten im Vordergrund des Interesses steht, wird man mit Sicherheit auch auf automatische und taxische Komponenten stoßen, wobei zusätzlich Möglichkeiten für das Hineingreifen von am Erfolg orientierten Lernprozessen gegeben sein müssen. Bei Automatismen sind es die Parameter 'Amplitude' (Intensität) und 'Dauer', welche einer erfolgsorientierten Verstellung prinzipiell zugänglich sind. Bei Taxien ist es der Parameter 'gain' des entsprechenden Reflexes, der für eine solche Verstellung infrage kommt. Beispiele für interne Erfolgskriterien sind, wie schon gesagt, die Erhöhung der Treffergenauigkeit bei einer Zielbewegung, oder die Herabsetzung der während der Bewegung in den beteiligten Muskeln verbrauchten Energie. Die mit Blick auf die Bewegungstypen in der Regel komplexe Struktur einer Bewegung ist der Grund dafür, daß bislang vermieden worden ist, den Ausdruck "motorisches Programm" in diesem Zusammenhang zu verwenden. Denn diese Bezeichnung gibt nach dem eben gesagten die tatsächliche Art der Bewegungskontrolle nur unvollkommen - ja sogar mißverständlich - wieder, weil sie zu sehr auf den Teilaspekt des Automatismus abhebt. Die Verwendung des Wortes "Programm" legt jedenfalls nahe, daß die damit bezeichnete motorische Aktivität bei Wiederholungen unter sonst gleichen Bedingungen zu physikalisch identischen Abläufen führt, was man in der Wirklichkeit nur bei Erbkoordinationen bzw. Automatismen und das auch nur in Spezialfällen beobachten kann. Die bessere Bezeichnung für die spezielle "Anordnung von Regeln und Anweisungen", durch welche z.B. ein perzeptives bzw. sensorisches Ziel konkret herbeiführt wird, ist daher "motorischer Algorithmus". Die Elemente, die in einem solchen Algorithmus zusammenwirken, können dann z.B. motorische Programme (im Sinne von Automatismen bzw. Mustergeneratoren), Steuerketten (im Sinne von Taxien und Reflexen) und Regelprozesse (im Sinne von Parameter-Adjustierung) sein. Eine Bewegung ist dann das Ergebnis des Zusammenwirkens dieser drei verschiedenen motorischen Elemente mit konkret vorliegenden Umweltgegebenheiten; für die neuronalen Kontrollprozesse, die einer solchen Bewegung zu Grunde liegen, sollte man daher nicht wiederum die Bezeichnung "motorisches Programm" verwenden. 4.1.3 Die enge Wechselbeziehung zwischen Motorik und Sensorik In Abhandlungen über Motorik steht vielfach die Aktuatorfunktion im Vordergrund, dh. die herbeigeführten Bewegungen werden im Rahmen der Individuum-Umwelt-Interaktion vorwiegend als Output des Individuums angesehen, wobei dem sensorischen Input dann Auslöser- und/oder Überwachungsfunktionen zugeordnet werden. Dabei wird gelegentlich nicht hinreichend beachtet, daß vom Individuum erzeugte Bewegungen, z.B. eines Sinnesorgans, wiederum Rückwirkungen auf den sensorischen Input haben, der auf eben dieses Sinnesorgan zurückgeht. Diese führen dazu , daß eine sensorische Meldung sowohl auf die eigene motorische Aktivität des Individuums als auch auf die Veränderung einer Größe in der Umwelt, welche unabhängig von den Einwirkungen des Individuums besteht, zurückgehen kann. Beispielsweise kann die Meldung eines in der Netzhaut des Auges angenommenen Geschwindigkeitsdetektors darauf zurückgehen, daß sich das Abbild eines bewegten Gegenstandes auf der Netzhaut verschiebt, oder daß sich die Netzhaut bei unbewegtem Gegenstand infolge einer Augendrehung "unter" dem ortfesten Abbild des Gegenstandes verschiebt; denkbar ist auch, daß beides gleichzeitig geschieht. Aus der Afferenz alleine sind die beiden verschiedenen Ursachen für die Detektormeldung nicht zu erschließen. Bei der Bestimmung der "wahren" Geschwindigkeit des Gegenstandes muß daher die Eigenbewegung des Auges in Rechnung gestellt werden. Ein anderes Beispiel ist die Meldung des Statolithenapparats, die den Winkel angibt, den die Achse dieses Apparats mit der Schwerkraftrichtung bildet. Diese Meldung ändert sich sowohl, wenn der Kopf bei unbewegtem Rumpf geneigt wird, als auch dann, wenn die Rumpforientierung zur Schwerkraft geändert wird, der Kopf aber relativ zum Rumpf fixiert bleibt. Bei der Bestimmung des Winkels zwischen der Schwerkraftrichtung und der Körperlängsachse müssen daher die Meldungen des Statolithenapparats "rechnerisch" um die Kopfneigungen bereinigt werden. In beiden Beispielen muß also eine umweltbezogene Größe aus Sinnesdaten ermittelt werden, die auf ein eigenbewegliches Sinnesorgan 3 zurückgehen, d.h. auf einen Detektor, welcher nicht fest an die zu ermittelnde Größe gekoppelt ist. Wahrnehmungstechnisch gesehen handelt es sich bei dieser Fremd- Eigendifferenzierung daher um die Erbringung einer Konstanzleistung. Ein ähnlicher, wenngleich nicht identischer Sachverhalt ist gegeben, wenn eine umweltbezogene sensorische Meldung zwar eigenbewegungsbereinigt vorliegt, sich aber sowohl spontan als auch unter der Einwirkung des Individuums selbst verändern kann. Nunmehr steht dasselbe Problem wie vorhin zur Lösung an, nur auf einer anderen (höheren) Ebene. Ein Beispiel hierfür ist die visuelle Position der Fingerspitze, erfaßt in (eigenbewegungsbereinigten) umweltbezogenen Koordinaten. Diese Position wird normalerweise mittels der Willkürmotorik verstellt, meist so, daß sie mit einer vorgegebenen Zielposition in Deckung gebracht wird. Die Fingerspitze kann jedoch auch von Einwirkungen ausgelenkt werden, welche das Indviduum nicht selbst verursacht hat, sondern die unabhängig von ihm sind, etwa zufallsbedingtes Angestoßenwerden durch Dritte. Eigenbewegungsbereinigte Meldungen über Änderungen von Umweltgrößen können also im Prinzip ebenfalls selbstverursacht oder fremdverursacht sein. Obwohl letztere einteilbar sind in einerseits in unsystematische und unvorhergesehene, andererseits in systematische und vorhersagbare, spricht man in beiden Fällen in wenig qualifizierender Weise meist von "Störungen". Die Unterscheidung zwischen all diesen Signalarten ist eine für eigenaktive Organismen lebenswichtige Frage. Denn auf die gleiche sensorische Konstellation muß ggf. in sehr unterschiedlicher Weise reagiert werden, je nachdem ob sie selbst- oder fremderzeugt ist: Eine Faust, die sich systematisch dem Auge nähert, erfordert, wenn es die eigene ist, eine andere motorische Aktivität als dann, wenn es sich um eine fremde handelt. Für den Organismus besteht entsprechend bei sensorischen Meldungen ständig das Problem der Fremd-EigenDifferenzierung auf verschiedenen Ebenen. Wie löst der Organismus diese Probleme, kommt also zu einer zuverlässigen Trennung von umwelt- und selbsterzeugten sensorische Zuflüssen und Wahrnehmungsinhalten? In Beantwortung dieser Frage wurden Begriffe wie "rückläufige Afferentation" (Anochin 1967; später: "reverse afferentation" in Anokhin 1974) oder - im Rahmen des Reafferenzprinzips - "Exafferenz", "Reafferenz" und "Efferenzkopie" (v. Holst und Mittelstaedt 1950) eingeführt. Weiterführende Ansätze waren der "Korrelationsspeicher" (Hein & Held 1962) oder das "Sensumotorische Selbst" (Kalveram & Merz 1976) und seine "Umkehrung" (Kalveram 1981). Im folgenden Abschnitt wird das ursprüngliche Reafferenzprinzip zunächst dargelegt, sodann modifiziert. Im darauf folgenden Kapitel dann wird dieses Prinzip durch Hinzunahme des Konzepts der Werkzeugtransformation und ihrer Inversen erweitert. 4.1.3.1 Das ursprüngliche Reafferenzprinzip Wie man sich grundsätzlich die Fremd-Eigen-Differenzierung vorstellen kann, zeigt das in Abb.4.1 in ein Blockschaltbild umgesetzte Reafferenzprinzip. Hier werden, um Verwechselungen zu vermeiden, physikalisch definierte Signale, welche auf ein Sinnesorgan treffen und auf nicht vom Individuum herbeigeführte Änderungen in der Umwelt zurückgehen, nach Kalveram & Merz (1976) allochthone oder Fremd-Signale genannt, eben weil sie durch Fremdeinwirkung entstehen. Physikalische Signale, welche durch selbst-initiierte Handlungen des Individuums entstehen, können entsprechend als autochthone oder Eigen-Signale bezeichnet werden, da sie ihre Ursache in der Eigen-Aktivität des Organismus haben. Exafferenzen sind dann die neuronalen Entsprechungen der Fremdsignale und Reafferenzen diejenigen der Eigensignale. Im Sinnesorgan vermischen sich die beiden Signalarten, so daß auch die insgesamt zufließende Afferenz ein Gemisch von Exafferenz und Reafferenz ist. Bezogen auf die Motorik sollten also die Eigensignale Auskunft über den physikalischen Bewegungszustand des eigenen Körpers und seiner Glieder geben und daher insbesondere auch beim motorischen Lernen eine entscheidende Rolle spielen. Die Fremdsignale hingegen enthalten die Information über den Zustand der Umwelt, der ggf. reaktiv zu Bewegungen Anlaß gibt oder auf den aktive (eigeninitiierte) Bewegungen zu beziehen sind. Aufgabe der Anordnung in Abb.4.1 ist, ein umweltbezogenes Fremdsignal x1 aus den Meldungen a eines Sinnesorgans zu ermitteln, welches selbst eigenbeweglich ist. In der ursprünglichen Fassung des Reafferenzprinzips (v. Holst und Mittelstaedt 1950, z.B. S.467) war der gestrichelt umrandete Block insgesamt als Effektor bezeichnet und nicht weiter unterteilt, auch fehlte die explizite Angabe der mit S1 bezeichneten Funktionseinheit, welche von Hein & Held (1962) als 'Korrelationsspeicher' eingeführt wurde und später (Kalveram 1981) als Vorwärtsmodell der Effektorwirkung aufgefaßt und von dessen Umkehrung abgehoben wurde. Abbildung 4.1 : Ursprüngliches Reafferenzmodell Auf ein Kommando z (K bei v. Holst & Mittelstaedt 1950) wird eine Efferenz e1 an die Peripherie geschickt, welche die afferente Meldung a nach sich zieht. a ist die Summe aus der Reafferenz, das ist - wie gesagt - der Anteil der Afferenz, welcher allein auf die Efferenz e1 zurückgeht, und der Exafferenz, welche der eigentlich zu 4 erfassenden Umweltgröße x1 entspricht. a ist damit nicht eindeutig auf die zu messende Umweltgröße x1 beziehbar. Die aufgrund der eigenen Aktivität zu erwartende Reafferenz kann aber aus der Efferenz e1 vorhergesagt werden. Dazu ist von e1 eine 'Efferenzkopie' abzuzweigen, welche - nach Passage der als Korrelationsspeicher S1 bezeichneten Funktionseinheit - als Schätzwert r'1 für die Reafferenz genommen werden kann. Die in Abb.4.1 vorgenommene Zwischenschaltung von S1 soll lediglich hervorheben, daß die an die Peripherie geschickte Efferenz im allgemeinen erst nach einem mehr oder weniger komplizierten Umkodierungsverfahren einen Schätzwert für die Reafferenz liefert. Wenn jedoch, wie offensichtlich bei von Holst und Mittelstaedt, Efferenz e1 und Eigensignal r1 (bzw. die Reafferenzschätzung r'1) als proportional zueinander angenommen werden, ist diese Funktionseinheit natürlich entbehrlich. Zieht man den von S1 ausgegebenen Reafferanz-Schätzwert r'1 von a1 ab, erhält man mit x'1 einen Schätzwert für die Exafferenz, der um so besser ist, je genauer die Reafferenz mittels der Efferenzkopie geschätzt wird. Das ist die wesentliche Aussage des Reafferenzprinzips. Es zeigt auf genial einfache Weise, wie der Einfluß der Eigenbewegung eines Detektors, der die mit der Eigenbewegung konfundierte Gesamtafferenz a1 abgibt, so in Rechnung gestellt werden kann, daß das eigentlich interessierende Fremdsignal x1 durch die Exafferenz x'1 abgebildet wird. Das Reafferenzprinzip beschreibt damit eine bestimmte Konstanzleistung des Wahrnehmungsapparates, die dadurch erbracht wird, daß die durch Eigenbewegung verursachte Reafferenz kompensiert wird, und zwar noch auf der Ebene der Verarbeitung sensorieller Daten. Die Reafferenz ist hier also eine Meldung, die zwar auf die eigene motorische Aktivität zurückgeht, die aber nicht als Rückmeldung der sensorischen Konsequenzen der Bewegung im Rahmen einer Erfolgskontrolle verwendet wird. Die Autoren koppeln nunmehr, wie in Abb.4.1 gezeigt, die geschätzte Exafferenz x'1 mittels des Summierers links unten wieder mit dem Kommando z zusammen. Dadurch soll ein übergeordneter Regelkreis angedeutet werden, mit dessen Hilfe das Fremdsignal x1 automatisch auf einen durch z vorgegebenen Wert gebracht werden soll. Allerdings ist so auch festgelegt, daß die Regelung sich auf denselben Effektor (Regelstrecke) bezieht, durch den das Fremdsignal x1 mit dem Eigensignal r1 konfundiert wird, nämlich auf den Effektor F1. Dies ist jedoch nicht einsehbar, weil nach der Bereinigung des Sensorsignals ein anderes Teilsystem mit einem anderen Effektor zugrunde zu legen ist, um das Fremdsignal x1 auf den neuen durch z gegebenen Wert einzustellen. Am Statolithenapparat etwa geschieht ersteres durch Kopfbewegungen und letzteres durch Rumpfbewegungen. Des weiteren ergibt sich in der Anordnung der Abb.4.1 eine positive Rückkopplungsschleife, welche die Efferenz e1 bis zur maximal möglichen Stärke anwachsen lassen würde. Diese Unstimmigkeiten machen daher das ursprüngliche Schema der beiden Autoren nur aus dem Text, nicht jedoch aus der Zeichnung, verständlich. 4.1.3.2 Modifiziertes Reafferenzprinzip Zieht man die in Abb.4.1 verflochtenen beiden Teilsysteme auseinander, wie dies in Abb.4.2a und Abb.4.2b geschehen ist, und führt zwei Effektorsysteme ein, nämlich F1 und F, so tritt die Struktur des Gesamtsystems klarer hervor. Allerdings ist die ursprüngliche Idee der beiden Autoren, eine gestufte Fremdeigendifferenzierung einzuführen und gleichzeitig auf der höheren Stufe das eigenbewegungsbereinigte Fremdsignal einer Regelung zu unterwerfen, wiederum nicht ohne weiteres in einer einzigen Zeichnung darzustellen, wenn nicht dieselben Probleme wie in Abb.4.1 auftreten sollen. Aus diesem Grunde werden diese Aspekte in zwei getrennten Zeichnungen behandelt, in Abb.4.2a der Aspekt der Fremdeigendifferenzierung, in Abb.4.2b derjenige der Regelung der intendierten externen Größe. Abbildung 4.2 : Auseinandergezogenes und vervollständigtes Reafferenzmodell (a u. b) Zunächst zur Abb.4.2a. Der gestrichelt umrandete Teil kennzeichnet das Reafferenzsystem mit dem Effektor F1. Dieses System filtert das umweltbezogene Fremdsignal x1 aus dem von der Eigenbewegung r1 verfälschten Signal a wieder heraus und stellt den bereinigten Wert der nächsten Verarbeitungsstufe als x'1 zur Verfügung. Auf dieser Stufe nun gilt es ein anderes Fremdsignal zu erfassen, nämlich die Größe x , welche jetzt durch die Efferenz e über die vom Effektor F erzeugte Wirkung r konfundiert ist. Zur Bereinigung dieser Konfundierung ist ein zweiter Korrelationsspeicher S erforderlich, welche aus der Efferenz e die auf dieser Stufe in Anschlag zu bringende Reafferenz r schätzt. Zieht man den Schätzwert r' von x'1 ab, steht mit der Differenz x1-r' dann die interessierende umweltbezogene Größe x zur Verfügung. In Abb.4.2b wird das Fremdsignal x der zweiten Stufe zwar wiederum als umweltbezogene Größe interpretiert, aber nicht mehr als eine, die es zu messen gilt, sondern als Störgröße, welche die Einstellung jetzt des Eigensignals r auf einen durch die Zielgröße z vorgegebenen Wert erschwert. D.h., in dieser Sichtweise ist es im Gegensatz zur Abb.4.2a jetzt das Eigensignal, welches durch das Fremdsignal konfundiert wird. Als Mittel, das Eigensignal gegen die Fremdeinwirkungen zu 'verteidigen', wird nun ein Regelkreis angesetzt, in den das Reafferenzsystem der Stufe 1 eingebettet ist. Der Sensor in diesem System bekommt also ein Signal x1 angeboten, welches sich additiv aus der Störung x und dem Eigensignal r der Stufe 2 zusammensetzt und dem 5 zusätzlich noch das Eigensignal r1 der Stufe 1 überlagert ist. Nach Subtraktion der geschätzten Reafferenz r'1 von der Afferenz a steht mit x'1 ein Istwert zur Verfügung, welcher - nunmehr eigenbewegungsbereinigt - auf den Sollwert z einzustellen ist. Hierzu wird die Differenz dx=-x'=z-x'1 als durch die Störgröße x induzierte Regelabweichung dx (=Fehler) interpretiert, welcher, ggf. um einen Faktor p verstärkt, als Efferenz e den Effektor F antreibt. Der Effektor F bleibt dann automatisch solange aktiv, wie der Fehler dx=-x' verschieden von Null ist. Beim Auge scheinen auf der Stufe 1 in der Tat die durch Eigenbewegungen des Augapfels hervorgerufenen Änderungen der sensorischen Daten durch die Kopie der Efferenz an die Augenmuskeln kompensiert zu werden. Die in Abb.4.2a bzw. Abb.4.2b gestrichelt umrandete Anordnung trifft am besten auf die Blickfolgebewegung zu, eine relative langsame und stetige Augenwegung, welche durch einen sich mit der Geschwindigkeit v auf der Netzhaut bewegenden Reiz ausgelöst wird und dazu dient, diesen Reiz durch eine Drehung des Augapfels mit derselben Geschwindigkeit auf der fovea centralis zu halten. Entsprechend ist die langsame Blickfolgebewegung auch ein häufig gewähltes Beispiel zur Erläuterung des Reafferenzprinzip: Bezeichnet man die Geschwindigkeit, mit der sich das Bild eines äußeren Gegenstandes relativ zur Netzhaut bewegt, also das Fremdsignal, als vx, und die Geschwindigkeit, mit der sich die Netzhaut relativ zum Kopf bewegt, also das Eigensignal, als vr, so mischen sich auf der Netzhaut beide Signalarten - hier subtraktiv - zum Geschwindigkeitssignal vs=vx-vr, der resultierenden Bildgeschwindigkeit des Gegenstandes, bezogen auf ein mit der Netzhaut mitbewegtes Koordinatensystem. Man nimmt dann an, daß sich in der Netzhaut (oder an anderen Stellen der Sehbahn, welche über retinotope Abbildungen aufeinander bezogen sind) Geschwindigkeitsdetektoren (Reichardt 1961, 1987) befinden, welche ein zu vs proportionales afferentes Signal a liefern. Weiter wird angenommen, daß die Efferenz, und damit auch die davon abgeleitete Efferenzkopie er, auf prämotorischer Ebene proportional zur erzeugten Winkelgeschwindigkeit des Auges ist (Eckmiller 1985). Um die Reafferenz v'r zu schätzen, braucht das Vorwärtsmodell also lediglich die Efferenzkopie mit einer Konstanten zu multiplizieren. Hinzufügen - hier durch Addition - dieser Reafferenz zum Detektorsignal a ergibt dann die fremdbestimmte Geschwindigkeit vx . Bis hierhin hat das Reafferenzprinzip also den Charakter eines Wahrnehmungsprinzips. Bezieht sich vx dann weiter z.B. auf die Geschwindigkeit der Spitze eines in der Hand gehaltenen Stiftes, so kann diese - bereinigt von den Effekten der Augenbewegung - durch Regelung auf ein von anderen Zentren vorgegebenes Zielgeschwindigkeits-Muster gebracht werden. Das betrifft dann den motorischen Aspekt der Handbewegung. An Hand der Abb.4.2a oder Abb.4.2b kann man sich allerdings auch überlegen, daß die Schätzung derjenigen Größe, welche die Eigenbewegung des Sensors beschreibt, nicht nur über die Efferenzkopie e - und damit über die Reafferenz r'1 - geschehen kann, sondern alternativ auch über eine direkte propriozeptive Messung. Wie man weiß, ist dies bei der Bestimmung des Winkels zwischen Kopf und Rumpf der Fall. Hier werden die Längenmessungen durch die Muskelspindeln in den Halsmuskeln herangezogen, die den Kopf halten. Falls also geeignete Propriozeptoren in Muskeln, Sehnen und Gelenken zur Verfügung stehen, können auch deren Signale zur Fremd-Eigen-Differenzierung auf Sensorebene (Stufe 1) benutzt werden. Auf der Stufe 2 ist, bezogen auf Abb.4.2b, das Fremdsignal bzw. die Störung x jedoch nicht objektiv zu erfassen. Zwar könnte man als Schätzwert für x den Fehler x' (mit umgekehrtem Vorzeichen) als Schätzung der Exafferenz heranziehen, infolge des Regelungsmechanismus wird dieser aber ganz automatisch stets so klein als möglich gehalten und kann daher keine valide Auskunft über die jeweils vorliegende Höhe der Störung geben. Der Fall liegt jedoch anders, wenn das sensorische Ziel z nicht durch Regelung (negative feedback), sondern durch eine Steuerung (feed forward), also gleichsam automatisch ohne einen rückgeführten Fehlerwert, eingestellt werden könnte. Dieser Fall ist im Reafferenzprinzip nicht enthalten und soll im nächsten Kapitel behandelt werden, in dem dann die Begriffe der Werkzeugtransformation und - vor allem - ihrer Inversen die entscheidende Rolle spielen. Hierbei wird die Bereinigung der sensorischen Daten von Eigenbewegungseffekten vorausgesetzt, geschehe dies nun über die Propriozeption oder nach dem Reafferenzprinzip, und nicht mehr explizit erwähnt 4.1.4 Die Werkzeugtransformation als Bindeglied zwischen Motorik und Sensorik Der Begriff der Werkzeugtransformation gestattet es, die gegenseitigen Abhängigkeiten zwischen Wahrnehmung und Motorik endgültig zu ordnen. Die Werkzeugtransformation beschreibt den Effekt der efferenten Aktivität auf die aktuelle Afferenz, bindet also die Veränderung der materiellen Umwelt, soweit sie sensorisch erfaßt wird, kausal an die Eigenaktivität (vgl. auch Abb. 1.6). Es ist dabei unerheblich, ob die betroffenen Gliedmaßen noch ein Arbeitswerkzeug, z.B. einen Stock oder ein Automobil, bedienen oder nicht, da es nur auf den effektiven Teil des Werkzeugs ankommt. Beim Zeigen z.B. kann dieser die Stockspitze, aber auch die Fingerspitze sein, beim Kraftfahrzeug die Position des Autos bezogen auf die Straße, oder die Position der Hand bezogen auf das Lenkrad. Somit ist "vom Standpunkt des Gehirns" auch der Gebrauch der eigenen unbewaffneten Gliedmaßen 6 Werkzeuggebrauch. Ein linearer oder gar proportionaler Zusammenhang zwischen Ursache und Wirkung wird hierbei aber nicht mehr vorausgesetzt. Abbildung 4.3 : Umgeschriebenes Reafferenzmodell mit inversem Modell Der Werkzeugeffekt ist in der Regel auf die materielle Umwelt bezogen. Also wird man auch sowohl die sensorisch bzw. perzeptiv erfaßten Werkzeugeffekte als auch die vorausgegangenen sensorischen bzw. perzeptiven Ziele in umweltzentrierten, also exterozeptiven, Koordinaten formulieren. Hierbei wird im weiteren stets davon ausgegangen, daß, soweit die sensorische Ebene (Stufe 1) betroffen ist, Effekte von Eigenbewegungen bereits kompensiert sind. Das Problem, welches der motorische Apparat bei der Realisierung solcher exterozeptiv definierter Ziele zu lösen hat, ist dann, Gliedmaßenbewegungen so zu planen, daß nach Durchführung dieser Bewegungen der aktuelle Wahrnehmungszustand mit dem Ziel übereinstimmt. Dazu ist es unerläßlich, nicht nur die Regeln, nach denen die Umwelt funktioniert, zu kennen, sondern auch, die physikalischen Eigenschaften und den Bewegungszustand der dabei zu bewegenden Körperglieder zu berücksichtigen. Letztere aber werden mit Hilfe von körperzentrierten (propriozeptiven) Koordinaten erfaßt. Man kann daher den motorischen Apparat auch als "Interface" ansehen, welches zwischen exterozeptiv orientierter Sensorik und propriozeptiv orientierter Aktuatorik vermittelt. Die Funktionsweise einer solchen sensumotorischen Einheit, welche zur Kontrolle und Planung der Bewegungen des eigenen Körpers mit Blick auf exterozeptive Ziele erforderlich ist, kann formal als Invertierung der Werkzeugtransformation dargestellt werden. Hierauf liegt in den folgenden Ausführungen insbesondere der Akzent. Die Abb.4.3 soll diese Sichtweise unter Rückgriff auf die Abb.4.2b genauer, aber zunächst noch unter Annahme vereinfachter Zusammenhänge, verdeutlichen. Zweckmäßigerweise stelle man sich zur Illustration eine schnell durchgeführte (ballistische) Drehung des Oberarms bei versteiftem Ellbogengelenk vor, wie sie z.B. in Abb.4.5a angedeutet ist. 4.1.4.1 Definition der Werkzeugtransformation Beginnen wir zur Erklärung der Begriffe im oberen Teil der Abb.4.3. Die hinausgehende Efferenz e bewirkt über die 'motorische Transformation' in der Regel Lage- und Stellungsveränderungen der betroffenen Gliedmaßen, welche im einfachsten Falle vermittels der 'sensorischen Tranformation' direkt wahrnehmungsmäßig erfaßt und dem agierenden Organismus als Afferenz a zur Kenntnis gebracht werden, wobei bereits eigenbewegungsbereinigte sensorische Daten vorausgesetzt werden. Die bewegten Gliedmaßen können aber auch auf ein mechanisches Werkzeug einwirken, wobei erst die dadurch hervorgerufene Umweltveränderung - also der Werkzeugeffekt - wahrnehmungsmäßig von Belang ist. Beispiele für einen solchen Werkzeuggebrauch sind Hantierungen mit einem den Arm verlängernden Stock, oder das Lenken eines Fahrzeugs durch Drehen des Steuerrades. Vom Standpunkt des Gehirns ist es jedoch, wie schon gesagt, prinzipiell unerheblich, ob die in Bewegung gesetzten Gliedmaßen auch noch physikalische Werkzeuge in engeren Sinne betätigen oder nicht: Auch der Gebrauch der eigenen Gliedmaßen ist Werkzeuggebrauch im weiteren Sinne; denn die hinausgehenden Efferenzen bestimmen letztendlich den darauf zurückgehenden afferenten Zufluß. Abbildung 4.3 Prozeß-Schema der Wechselwirkung .. (neues Re-Afferenz-Modell) In Abb.4.3 sind der physikalische Werkzeugeffekt als Eigensignal r, das davon unabhängige Fremdsignal mit x und die organismische Einwirkung mit k bzw. e bezeichnet. Legt man den "unbewaffneten" Arm der Abb. 4.5 zu Grunde, so kann als Werkzeugeffekt r z.B. die jeweilige Winkelposition ϕ des Arms oder eine ihrer zeitlichen Ableitungen genommen werden, während die Muskelkraft bzw. das muskuläre Drehmoment als einwirkende Variable k infrage kommt. Das am Sinnesorgan eintreffende physikalische Signal ist in Abb.4.3 mit s bezeichnet. Aus physikalischer Sicht ist s eine Kombination des Eigensignals r, welches auf die Efferenz e zurückgeht, und des Fremdsignals x, welches auf eine davon unabhängige Einwirkung x der Umgebung zurückgeht (z.B. ein Windstoß oder Schlag auf den Arm). In Abb.4.3 wird angenommen, daß sich s additiv aus x und r ergibt: s=x+r. Das Fremdsignal x wird also entsprechend Abb.4.2b als Störung interpretiert. Das Signal-Gemisch s ist es, welches mittels der 'sensorischen Transformation' FS in die Gesamtafferenz a, die sich während (bzw. nach) der Bewegungsdurchführung einstellt, transformiert wird. Entsprechend kann man sich die Gesamtafferenz a aus der Re-Afferenz r'=FS(r) , welche den Werkzeugeffekt neuronal beschreibt, und der Ex-Afferenz x'=FS(x), welche der Störung entspricht, zusammengesetzt denken. Nimmt man Linearität an, gilt a=r'+x'. Wegen der hier als linear angesetzten Transformationen erhält man also r'+x'=a=FS(s)=FS(r+x)=FS(r)+FS(x). Rein physikalisch wird ein Werkzeug beschrieben durch seine "physikalische Werkzeugtrans-formation" FP, welche den Zusammenhang zwischen der Kraft k, die auf das Werkzeug über die Muskelkontraktionen einwirkt, und den dadurch veränderten Zustand r der physikalischen Umwelt beschreibt, was in Abb.4.3 durch 7 r=FP(k) angedeutet wird. Die physikalische Werkzeugtransformation FP verknüpft also ausschließlich physikalisch definierte Variable. Entsprechend bezeichne FM die "motorische Transformation", welche von den Efferenzen e auf die dadurch erzeugten Kräfte k führt: k=FM(e). Die Werkzeugtransformation, hier mit F bezeichnet, wird dann als funktionaler Zusammenhang zwischen Efferenz e (unabhängige Variable) und Reafferenz r' (abhängige Variable) definiert: r'=F(e). Mit diesen Definitionen ergibt sich F als Hintereinanderausführung von FM,, FP und FS, in Formelzeichen: F=FS *FP *FM,, oder r'=F(e)=FS{FP[FM(e)]}. 4.1.4.2 Werkzeugtransformation und Reafferenz-Prinzip Das Problem ist, daß in der Gesamtafferenz a zwischen der Re-Afferenz r' und der Ex-Afferenz x' ohne zusätzliche Informationen nicht unterschieden werden kann. Im Reafferenzmodell nach Abb.4.2a besteht die Lösung darin, daß auch auf der zweiten Stufe, die nun in Betracht steht, ein Vorwärtsmodell S der Werkzeugtransformation angewendet wird, welches aus der Efferenz e die zugehörige Reafferenz r' vorhersagt. Im unteren Teil der Abb.4.3 wird eine weitere Möglichkeit gezeigt, wie der Organismus an die Exafferenz auch ohne Inanspruchnahme eines Vorwärtsmodells gelangen kann, nämlich durch direkten Vergleich der ZielAfferenz z mit der hereinkommenden (eigenbewegungsbereinigten) Afferenz a. Wie im Zusammenhang mit Abb.4.2b bereits angedeutet wurde, eröffnet sich diese Möglichkeit jedoch nur, wenn das Fremdsignal r bzw. die Reafferenz r' nicht durch Regelung an die Zielgröße z angeglichen wird, denn ansonsten wäre die Größe x' durch die vom Regler herbeigeführten Aktionen verfälscht. Als Alternative Zur Fehlerverminderung durch Regelung wird in Abb.4.3 eine Steuerung über ein inverses Modell der Werkzeugtransformation vorgeschlagen. Was hat es damit auf sich? 4.1.4.3 Definition des Modells der inversen Werkzeugtransformation Bei der Werkzeugtransformation F wird die Efferenz e als Ursache angesehen, welche die sensorische Wirkung r' nach sich zieht. Bei der Verwirklichung eines gewünschten sensorischen Zustands, so wie er durch die Zielafferenz z vorgegeben wird, ist jedoch die "Umkehrung" dieser Kausalrichtung angesagt; denn jetzt gilt es, ausgehend von einem sensorischen Ziel, diejenigen Efferenzen zu finden, welche dieses Ziel konkret herbeiführen. Von der Wirkung ist also auf die Ursache, welche diese Wirkung hervorbringt, zu schließen. Hierzu ist die Umkehrfunktion zur Werkzeugtransformation erforderlich, welche formal durch das Symbol F-1 gekennzeichnet wird. Bezeichnet man also mit z eine gewünschte Reafferenz, so wird die Efferenz e , welche bei ihrer Anwendung die Reafferenz z herbeiführt, durch e =F-1(z) festgelegt, wobei die Frage nach der Existenz einer inversen Werkzeugtransformation zunächst ausgeklammert wird. Um selbstgesetzte sensorisch-perzeptive Ziele durch eigene motorische Aktivität zu verwirklichen, kann das Individuum also auch von einem neuronalen Modell S-1 der inversen Werkzeugtransformation F-1 ausgehen und dieses jetzt zur Steuerung benutzten. Gilt, was angestrebt wird, S-1=F-1, so kann mittels S-1 zu einem afferenten Ziel z eine Efferenz eS gefunden werden, welche emittiert werden muß, um eine Reafferenz r' zu erhalten, die mit z übereinstimmt. Es liegt damit auch nahe, in diesem Falle das sensorische Ziel z als 'Schätzung der Reafferenz' zu betrachten, welche - analog zum ursprünglichen Reafferenzprinzip - von der Gesamtafferenz a subtrahiert - unmittelbar auf eine Schätzung x' der Exafferenz x führt. In diesem Falle kann auf die Implementierung eines Vorwärtsmodells der Werkzeugtransformation verzichtet werden, eine Möglichkeit, auf die auch Varju (1990) hinweist. Erzeugt bei einer solchen Aktion die über das inverse Modells S-1 ermittelte Efferenz eS =S-1(z) eine Afferenz, die nicht mit der gewünschten Afferenz z übereinstimmt , so entsteht eine von Null verschiedene Exafferenz x', also ein Fehler dx=-x'. Diese Diskrepanz kann, folgt man dem Reafferenzprinzip in seiner ursprünglichen Form, auf ein Fremdsignal bzw. eine Störung x zurückgeführt werden. Nach dem Prinzip der inversen Modellierung, so wie es hier ausgearbeitet wurde, kann darüberhinaus auch ein Fehler im Modell S-1 vorliegen. Welche von diesen zwei Möglichkeiten zutrifft, kann auf dieser Verarbeitungs-Ebene nicht mehr entschieden werden, so daß eine hierarchisch höher angesiedelte Ebene eingeschaltet werden muß. Von dieser höheren Ebene (nicht in Abb.4.3 eingezeichnet) sollte dann, je nach der angenommenen Ursache, entweder eine Reaktion auf einen korrekt ermittelten Fehler, oder eine Nachbesserung des Modells S-1 vorgenommen werden. Voraussetzung für die Fehlererkennung ist jedoch, daß eine Regelung unter Verwendung eben dieses Fehlers als Regelabweichung ausgesetzt wird, bis der Steuerungsvorgang über das inverse Modell zum Ende gekommen ist. Aus diesem Grunde ist der über den Regler P verlaufende Rückkopplungszweig in Abb.4.3 unterbrochen worden. Den zeitlichen Ablauf einer motorischen Aktion muß man sich dann grundsätzlich wie folgt vorstellen: Die gegenwärtige Afferenz avor stellt die Ausgangslage vor Durchführung der Aktion dar. Nach Anlegen des neuen sensorischen Ziels z besteht dann zwischen Ziel und Realität die Diskrepanz z-avor. Diese wird jedoch noch nicht als Fehler interpretiert. Denn gleichzeitig wird z in das inverse Modell S-1 gegeben und so diejenige Efferenz eS ermittelt, welche das sensorische Ziel im Rahmen einer Steuerung realisiert. Nach Abschluß 8 der Aktion hat sich eine neue sensorische Konstellation anach ergeben, deren Unterschied zu z jetzt als Fehler gesehen wird. Nunmehr kann einerseits der verbliebene Fehler zur Verbesserung des inversen Modells benutzt werden und andererseits - bei geschlossenem Schalter - eine an diesem Fehler ausgerichtete Korrekturbewegung vermittels der Efferenz eR als Stellgröße durchgeführt werden, was einer Regelung über den als proportional angenommenen Regler P gleichkommt. Sollte - das sei jedoch angemerkt - die Werkzeugtransformation F zweifach integrierend sein, was bei Gliedmaßenbewegungen der Fall ist, so darf der Regler im Interesse der Stabilität nur kleine Verstärkungsfaktoren anwenden, Verstärkungsfaktoren, die nicht ausreichen, einen bestehenden Fehler dx durch Regelung zum Verschwinden zu bringen. Davon abgesehen können mit alleiniger Anwendung von Regelung auch die empirisch gefundenen Geschwindigkeitsprofile nicht erzeugt werden (vgl. Kalveram 1991). 4.1.4.4 Erwerb des inversen Modells durch Auto-Imitation Um ein Modell der inversen Werkzeugtransformation einzurichten, muß der Organismus die sensorischen Konsequenzen seiner eigenen Motorik kennenlernen. In Abb.4.4a wird gezeigt, wie die mit S-1 bezeichnete Funktionseinheit in der Lernphase unter Anwendung eines speziellen Lernalgorithmus (Kalveram 1981), der als "Selbst-" oder "Auto-Imitation" (Kalveram 1990) bezeichnet werden kann, eine entsprechende interne Repräsentation erwirbt. In der gezeichneten Schalterstellung "2" muß das Individuum bei zunächst fehlenden fremderzeugten Umweltveränderungen (dh. x=0) motorisch aktiv sein, also irgendein efferentes Muster erzeugen, was durch das Agieren eines sog. "Blinden Lehrers" (blind teacher, vgl. Kalveram 1993b) angedeutet wird. Blind heißt der Lehrer deswegen, weil er mit diesen Aktionen keine eigenen Ziele zu verfolgen braucht und auch nicht das Ergebnis kennen muß. Der blinde Lehrer sendet im Prinzip ungerichtete Efferenzen eB aus, die einerseits Bewegungen induzieren und andererseits über den gestrichelten Pfeil in den Lerneingang (teaching input) der mit S-1 bezeichneten Funktionseinheit gelangen. Über den Normaleingang der Funktionseinheit S-1 wird die Gesamtafferenz a eingegeben, welche zeitgleich infolge der durch eB induzierten Bewegung entsteht. Wegen x=0 ist die Gesamtafferenz jetzt nur durch die Reafferenz r' bestimmt. Somit sind die auf die Umwelt gerichtete motorische Efferenz und die dadurch veränderte Gesamtafferenz im Prinzip umkehrbar eindeutig aufeinander beziehbar und können miteinander verknüpft werden, so daß sich das Individuum ein sensorischperzeptives Abbild der Wirkung seiner eigenen Motorik verschaffen kann. Eine treffende Bezeichnung dieser Zuordnung, welche die Motorik auf die Sensorik zurückführt, ist daher "sensumotorisches Selbst" (Kalveram & Merz 1976, Kalveram 1981). Der Lernvorgang, der auf die beschriebene Weise zum Erwerb des sensumotorischen Selbstes führt, wird deswegen als "Auto-Imitation" (Selbstnachahmung) bezeichnet, weil das Individuum hierbei die Funktionsweise seiner eigenen Gliedmaßen neuronal nachahmt. Vermutlich dienen die bei Säuglingen z.B. zu beobachtenden Strampelbewegungen diesem auto-imitativen Lernen. Im Kontrast dazu steht ein als "Allo-Imitation" (Fremdimitation) bezeichneter Lernalgorithmus, der beim taktischen Apparat behandelt wird und dazu dient, bei anderen Artgenossen beobachtete Verhaltensweisen zu übernehmen. Systemtheoretisch handelt es sich bei beiden Lernarten um die Identifikation des inversen Modells eines zur Kontrolle anstehenden Systems. Abbildung 4.4.a : Auto-imitatives Lernen des inversen Modells Der vom Funktionselement S-1 wegweisende Pfeil steht für die Output-Variable, die nach Abschluß des Lernens an dieser Stelle verfügbar ist. Während des Lernens hat die hier abgegriffene Variable keine Steuerfunktion, daher besteht in der Lernphase keine Verbindung des Ausgangs zum System. In der Kannphase sollte diese Variable dann Werte für diejenigen Efferenzen liefern, welche ein ggf. eingegebenes afferentes Ziel z verwirklichen. Im günstigsten Falle ist, wie schon gesagt, S-1=F-1. Von großer Bedeutung für die Qualität dieses inversen Modells ist, daß beim Lernvorgang die Efferenzen eB und die daraufhin eintreffenden Gesamtafferenzen a in eindeutiger Weise aufeinander bezogen sind. Nicht auf Eigensignale zurückgehende afferente Zuflüsse sind also in der Lernphase möglichst vollständig zu eliminieren (Kalveram 1981). In Abb.4.4a wird diese Abschirmung gegenüber äußeren Einflüssen durch die Unterbrechung des Pfeils, der das Fremdsignal x symbolisiert, angedeutet. Abbildung 4.4.b: Auto-Imitation, alternativer Blinder Lehrer Die Abb.4.4b zeigt eine alternative Einbindung des Blinden Lehrers in den auto-imitativen Lernprozeß, ist aber ansonsten identisch mit der Abb.4.4a. Der Blinde Lehrer wird hier als Generator für Zielafferenzen eingesetzt, der beliebige afferente Vorgaben z erzeugt, von denen in der Subtraktionseinheit die jeweils aktuellen Afferenzen a abgezogen werden. Die erhaltenen Differenzen dx werden im Regler P in Efferenzen eR umgesetzt, die, da sie unmittelbar auf den Blinden Lehrer zurückgehen, auch mit dem Symbol eB belegt werden können; 9 denn mit Bezug auf den Lernvorgang sind die Darstellungsweisen in den Abb.4.4a und 4.4b funktional gleichwertig. Abbildung 4.4.c: Auto-Imitation mit Erfolgsrückmeldung Eine weitere Variante auto-imitativen Lernens zeigt die Abb.4.4.c. Diese Zeichnung ist bis auf die Stellung des Schalters links vom Modul S-1 und den gepunkteten Pfeil vom Vergleicher (Variable dx) zum Modul S-1 mit Abb.4.4.a identisch. Der Schalter leitet nunmehr permanent das afferente Ziel z auf den Normaleingang des Moduls S-1. Der Pfeil so zu lesen, daß auschließlich dann, wenn das vom Blinden Lehrer erzeugte efferente Muster eB zu einer Übereinstimmung zwischen dem Ziel z und der afferenten Rückmeldung a geführt hat, also wenn dx=0 ist, die Lernfunktion des Moduls S-1 aktiviert wird und die momentane Efferenz e am Lerneingang an das afferente Ziel z gebunden wird. Da dx=0 bedeutet, daß in diesem Moment die durch die efferente Maßnahme e tatsächlich erzeugte Afferenz a am Lerneingang verfügbar ist, und da das Lernen auf die Momente mit dx=0 beschränkt wird, ist auch Abb.4.4.c funktional äquivalent mit Abb.4.4.a. bzw. Abb.4.4.b. Die Abb.4.4.c hat den Vorteil, daß durch Verwendung des gepunkteten Pfeils erfolgsgesteuertes Lernen bzw. Verstärkerwirkung im Rahmen des auto-imitativen Schemas präzise definiert werden kann. Welcher der Anordnungen in den Abb.4.4.a,b,c der Vorzug gegeben wird, kann daher nach didaktischen Gesichtspunkten entschieden werden. Beim Strampeln lernt der Säugling, so kann man vermuten, die inverse Dynamik seiner Arme und Beine. Hier wird man eher die Darstellung der Abb.4.4.a in Anschlag bringen. Beim Erlernens des motorischen Vollzuges des artspezifischen Gesanges nach vorheriger "Gesangsprägung" der Jungvögel ist eher die Darstellungsweise der Abb.4.4b oder Abb.4.4.c angemessen; denn man kann davon ausgehen, daß hier vorab auditorische Muster eingeprägt werden, zu denen bei Eintritt der Geschlechtsreife efferente Muster so gesucht werden, daß die erzeugten auditorischen Signale mit dem eingeprägten Muster übereinstimmen. Im weiteren wird, wenn dem keine Gründe entgegen stehen, der Darstellung der Abb.4.4.a mit dem Blinden Lehrer in der Funktion des Efferenzgenerators der Vorzug gegeben. Auto-imitatives Lernen ist, das sei nochmals wiederholt, ist dadurch gekennzeichnet, daß dem lernenden Modul sowohl die momentane efferente Aktivität als auch diejenige Afferenz "gezeigt" wird, die auf diese efferente Aktivität zurückgeht. Doch welche von den obigen drei Darstellungsformen auch immer gewählt wird, stets gilt, daß während des auto-imitativen Lernens das inverse Modell S-1 nicht zur motorischen Steuerung einsetzbar ist. Ob also der Lernvorgang erfolgreich war, kann nur nach Umschaltung in die alternative, für die Kannphase gültige, Schalterstellung getestet werden, in dem ein perzeptives Ziel vorgegeben und der Fehler dx beurteilt wird. Lernen und Anwenden des Gelernten geschehen in unterschiedlichen Systemstrukturen! Da infolgedessen während des Lernens etwa gem. Abb.4.4.c in der Regel ein primitiveres Modell für die Bewegungskontrolle angewendet wird, welches im Regler P realisiert ist, kann das Umschalten vom Lernen zum Testen und wieder umgekehrt als das Umschalten zwischen zwei Modellen erscheinen, so wie es Neilson, Neilson, & O'Dwyer (1998) beschrieben haben. Nur scheinbar handelt es sich bei dem hier dargestellten Lernprozeß um assoziatives Lernen, bei dem jedem konkreten afferenten Eingabewert punktuell ein konkreter efferenter Ausgabewert zugeordnet wird. Wäre dies der Fall, so könnte das Modul S-1 nicht interpolieren oder gar extrapolieren, wenn - was später im Alltag der Normalfall sein dürfte - Werte für sensorische Ziele eingegeben werden, die in der Lernphase nicht vorgekommen sind. Tatsächlich muß das Modul S-1 die Gesetzmäßigkeiten repräsentieren, welche Ein- und Ausgangsvariable verknüpfen, damit es auch zu beliebigen Realisationen der Eingangsvariablen den zugehörigen Wert der Ausgangsvariablen berechnen kann. Der Lernvorgang muß demnach ein induktiver sein, bei dem die Gesetzmäßigkeit aus den beispielhaft vorgegebenen Input/Output-Wertepaaren erschlossen wird. Wie später noch gezeigt werden wird, sind spezielle Typen von neuronalen Netzwerken, z.B. das Potenzierungsnetzwerk der Abb.4.2.1, für diese Art von Lernen geeignet. Abschließend sei darauf hingewiesen, daß das Reafferenzschema der Abb.4.3 sowohl taxische Komponenten, nämlich die Steuerung über das inverse Modell, als auch appetente Komponenten, die erfolgsorientiert das emitierte Verhalten beeinflussen, nämlich die Ausregelung des Fehlers, enthält. Allerdings findet man nur globale, aber keine näheren Angaben über die Art und Weise der Efferenz-Erzeugung. Wie bei Mehrdeutigkeit der Beziehung zwischen Efferenz und Re-Afferenz - und das dürfte dann doch die Regel sein - ein inverses Modell der Werkzeugtransformation ermittelt werden kann, wurde gleichfalls ausgeklammert. Zur Behebung der Mehrdeutigkeit müssen weitere Signale hinzugenommen werden, was in Abb.4.3 durch den gestrichtelten Pfeil mit der Bezeichnung 'Zustandsrückführung' angedeutet wird. Eine Frage ist auch, an welcher Stelle zweckmäßigerweise das Fremdsignal x in den Informationsfluß eingeschleust wird. In Abb.4.3 bzw. Abb.4.4a oder 4.4b ist dies im sensorischen Ast der Werkzeugtransformation geschehen, was lineare Interaktionen zwischen Störung und Eigensignal nahelegt. Mit gleicher Berechtigung kann man aber Störvariable auch in den motorischen Ast legen. Da die Werkzeugtransformation in der Regel 10 nichtlinear sein dürfte, sind dann auch die Auswirkungen der Störungen auf die Sensorik als nichtlinear anzusetzen. Den im Rahmen der inversen Modellierung angestellten Überlegungen tut dies jedoch keinen Abbruch. Die bislang eher allgemeine Darstellung des Reafferenzprinzips und seiner Erweiterung soll im folgenden Kapitel unter Zugrundelegung von Zielbewegungen mit einem Arm inhaltlich ausgefüllt werden. Hierbei werden auch weitere aus der Systemtheorie folgende Bedingungen aufgezeigt, die erfüllt sein müssen, damit - vor allem - ein inverses Modell einer Werkzeugtransformation ermittelt werden kann, was sich dann wiederum als Voraussetzung für Durchführung von Regelungsvorgängen erweist. 4.2 Zielbewegungen mit den Arm Die Ausführungen in den folgenden Kapiteln sind mathematisch-physikalisch orientiert. Sie dienen dazu, sowohl die physikalische Wirklichkeit unseres Körpers, seiner Gliedmaßen und der zu manipulierenden Umwelt zu beschreiben, als auch die Leistung des neuronalen Kontrollers, der ja über Gliedmaßenbewegungen die Umwelt gezielt zu verändern hat, darzustellen. Ohne Kenntnis der physikalischen Wirklichkeit ist es unmöglich, die Arbeitsweise des neuronalen Kontrollers zu begreifen, mit dem eben diese Wirklichkeit beherrscht wird. Physikalische Wirklichkeit und neuronaler Kontroller bilden eine Einheit, bei der das eine ohne das andere keinen Sinn macht. Ausgegangen wird von einem zunächst eingelenkigen Arm, dem später zunächst ein zweites und danach ein drittes Gelenk hinzugefügt werden soll. Die Hinzunahme jedes weiteren Gelenks wirft jeweils typische Probleme bei der internen Modellierung der entsprechenden inversen Werkzeugtransformationen auf. Die mathematischen Gleichungen vermitteln durch ihre steigende Komplexität einen Eindruck davon, welche Höchstleistungen von unserem Nervensystem erbracht werden, wenn es Gliedmaßenbewegungen ”durchführen” läßt, Leistungen, die dem bewußten Erleben meist nicht unmittelbar zugänglich sind. 4.2.1 Kontrolle der Zielbewegung eines eingelenkigen Arms 4.2.1.1 Der Arm, physikalisch ein Drehpendel Der in diesem Kapitel verwendete Arm ist in Abb.4.5a dargestellt. Er ist in einer vertikalen Ebene um das Gelenk 1 (Schultergelenk) drehbar. Der Pfeil bei g zeigt die Richtung der Schwerkraft an. Die Körperachse ist gestrichelt gezeichnet, sie kann mit der Schwerkraftrichtung den Winkel ϕg einschließen, in Abb.4.5a ist jedoch angenommen, daß Schwerkraftrichtung und die Richtung der Körperachse übereinstimmen, dh. ϕg=0 gilt. ϕ bezeichnet die momentane Winkelposition des Arms mit Bezug auf Körperachse. Nicht in Abb.4.5 eingezeichnet ist der Zielwinkel ϕz, den der Arm bei Bewegungsende mit der Geschwindigkeit 0 erreichen soll. Abbildung 4.5a,b : Eingelenkiger Arm und ϕ die momentanen Werte für die Winkelgeschwindigkeit bzw. die Bezeichnet man mit ϕ Winkelgeschleunigung, so ist die Physik des Arms durch die folgende Differentialgleichung gegeben: (t ) + R ⋅ ϕ (t ) + D ⋅ (ϕ (t ) − ϕ 0 ) − m ⋅ g ⋅ a ⋅ sin(ϕ (t ) − ϕ g ) = Q(t ) M ⋅ϕ (4.1) Darin bedeuten: M mechanisches Trägheitsmoment, bezogen auf den Drehpunkt R Reibungsmoment (visköse Dämpfung), D Richtmoment (Federkonstante) des Arms. ϕ 0 Winkel, bei dem mechanisches Gleichgewicht eintritt. m Masse des Arms. a Abstand zwischen Schwerpunkt und Drehpunkt des Arms. Bezeichnet MS das Trägheitsmoment, bezogen auf den Schwerpunkt als Drehachse, so gilt der Steinerscher Satz: M=MS+m.a2 . Q Resultierende der muskulären Drehmomente (einschl. äußerlicher ‘Störkräfte’) g Erdbeschleunigung bzw. Schwerefeldstärke (9,81 m/s2 bzw. N/Kg). ϕ g Winkel zwischen Körperachse und Schwerkraftrichtung. 11 und Q sind als Zeitfunktionen zu betrachten, die deswegen in der Form ϕ( t ), ϕ ( t ), ϕ ( t ), Q(t) ϕ, ϕ , ϕ geschrieben sind, wobei t die Zeit bedeutet. Der Buchstabe t mitsamt der Klammern kann aber auch weggelassen werden, wenn keine Mißverständnisse zu befürchten sind. Gl. (4.1) beschreibt das Verhalten eines Drehpendels. Auf der rechten Seite steht das "von außen" einwirkende Drehmoment Q, welches hier als Summe der auf den Drehpunkt bezogenen muskulär verursachten Drehmomente angesehen wird. Der erste Term auf der linken Seite der Gleichung steht für die Trägheitskraft, welche das Pendel dem beschleunigenden äußeren Drehmoment entgegensetzt. Der zweite Term stellt das durch (visköse) mechanische Dämpfung verursachte Drehmoment dar, der dritte das rücktreibende Drehmoment, welches entsteht, wenn das Pendel aus seiner mechanischen Gleichgewichtslage ausgelenkt wird. Der vierte und letzte Term auf der linken Seite wird durch die Schwerkraft hervorgerufen. Wie alle Drehmomente, ergibt sich auch dieses Drehmoment als Produkt aus Kraft m.g und Kraftarm a* = a ⋅ sin( ϕ( t ) − ϕ g ) , wobei der Kraftarm als senkrechter Abstand des Drehpunktes von der durch den Schwerpunkt gehenden Parallelen zur Schwerkraftrichtung definiert ist. In (4.1) ist das muskuläre Drehmoment Q - also die in Abb.4.3 mit "k" bezeichnete organismische Einwirkung - in Abhängigkeit von den kinematischen Größen Winkel-Beschleunigung, -Geschwindigkeit und Position dargestellt, so daß man - nach Vertauschung der linken mit der rechten Seite - die physikalische Werkzeugtransformation in invertierter Form bereits vor sich hat. Nach Division durch M und Auflösung nach ( t) erhält man aus (4.1) dann eine die physikalische Werkzeugtransformation in Vorwärtsrichtung ϕ widerspiegelnde Form ( t) = ϕ 1 Q( t) − R ⋅ ϕ ( t) − D ⋅ (ϕ( t) − ϕ 0 ) + m ⋅ g ⋅ a ⋅ sin(ϕ( t) − ϕ g ) M { } . (4.2) Mit den in Abb.1.5 definierten Funktionselementen läßt sich (4.2) auch als Analogschaltung darstellen, wie in Abb.4.5b gezeigt ist. Solche Schaltungen lassen die systemische Struktur des in Frage stehenden Prozesses meist klarer als die an sich äquivalente Differentialgleichung hervortreten. Sowohl an (4.1), (4.2) oder Abb.4.5b läßt sich aber ablesen, daß in die betreffenden Transformationen auf der Argumentseite nicht nur eine einzige Variable eingeht, wie in Abb.4.3 suggeriert wird, sondern jeweils mehrere: In die physikalische Werkzeugtransformation (4.2) gehen außer dem muskulären Drehmoment Q jeweils noch die und die Winkelposition ϕ ein. Auch in die inverse physikalische Winkelgeschwindigkeit ϕ Werkzeugtransformation (4.1) gehen diese beiden Variablen zusätzlich zu der als Zielvariable zu noch ein. Winkelgeschwindigkeit ϕ und Winkelposition ϕ interpretierenden Winkelbeschleunigung ϕ kennzeichnen den Bewegungszustand des physikalischen Armsystems, sie werden daher auch "Zustandsvariable" oder "Zustandsgrößen" genannt. Ohne Kenntnis dieser Zustandsgrößen sind daher die Gleichungen (4.1) und (4.2) nicht anwendbar. 4.2.1.2 Die vorläufige Vereinfachung des Problems Zunächst seien Reibungsmoment R, Richtmoment D und Schwerkraft m.g zu Null angenommen - eine Annahme, die später wieder fallengelassen wird. Dann geht (4.2) über in ( t ) = Q( t ) M ϕ (4.3) Diese Gleichung soll für den betrachteten Fall und unter Annahme, daß Q(t) auschließlich muskulär bedingt ist, als physikalische Werkzeugtransformation angenommen werden: Bezogen auf die Abb.4.3 stellt also die ( t ) das Eigensignal dar, während die einwirkende Kraft durch das muskuläre Drehmoment kinematische Größe ϕ Q(t) repräsentiert wird. Zur Vereinfachung des Problems wird weiter angenommen, daß die motorische und die sensorische Teiltransoformation beide gleich der Identität sind. Dann fallen die physikalische und (äußere) Werkzeugtransformation zusammen. Dies bedeutet, daß das erzeugte muskuläre Drehmoment Q mit der an die ( t ) mit der Peripherie geschickten Efferenz e betragsmäßig gleichgesetzt wird und daß auch das Eigensignal ϕ Reafferenz identisch ist. z ( t ) den gewünschten Beschleunigungsverlauf bezeichnet, so folgt aus (4.3) sofort, daß Wenn man mit ϕ das Modell der inversen Werkzeugtransformation als Multiplikation dieses gewünschten Verlaufs mit der Trägheit des Arms angesetzt werden muß: z ( t) , Q( t) = M' ⋅ϕ (4.4) 12 Hierin stellt M' stellt einen neuronalen Schätzwert des physikalischen Trägheitsmoments M dar. Ist dieser Schätzwert präzise, stimmen gewünschte und tatsächliche Beschleunigung überein. 4.2.1.3 Der Mustergenerator für den gewünschten Beschleunigungsverlaufs ϕ z erforderliche Bewegung soll von einem "zentralen Mustergenerator" z ( t ) der Dauer T (CPG) gesteuert werden, der ein "gewünschtes" Beschleunigungs-/Bremsmuster (pattern) ϕ Die für das Erreichen des Zielwinkels emittiert. Dieses Muster wird nach Passage durch das inverse Modell des Arms - hier also durch Multiplikation mit der geschätzten Armträgheit M' - gem. (4.4) ein muskuläres Drehmoment so erzeugen, daß das gewünschte Beschleunigungsmuster auch tatsächlich zu beobachten ist. Der Arm soll nun aus der Ausgangslage ϕ(0) mit der Geschwindigkeit Null starten und den Zielwinkel wiederum mit der Geschwindigkeit Null erreichen, und zwar genau bei Beendigung des vom Mustergenerator ausgegebenen Beschleunigungsmuster. Damit das der Fall ist, muß das Beschleunigungsmuster hinsichtlich Dauer, Amplitude und Symmetrie entsprechend abgestimmt ( T ) zum Zeitpunkt T, also bei Beendigung des Musters, wird gleich Null, wenn werden. Die Geschwindigkeit ϕ für das erzeugte Beschleunigungsmuster die Beziehung gilt: T ( t) dt = 0 ϕ ( T) = ∫ ϕ 0 für ϕ (0) = 0 . (4.5) Diese Bedingung ist erfüllt, wenn die Fläche zwischen der Zeitachse und dem positiven Ast der Beschleunigungskurve gleich der Fläche zwischen der Zeitachse und dem negativen Ast der Beschleunigungskurve ist. Da diese Flächen Drehimpulsen entsprechen, kann (4.5) als "Impuls-Bedingung" bezeichnet werden, die bei unserer Zielbewegung zunächst einmal zu erfüllen ist. In Abb.4.6 unten sind die ( t ), ϕ ( t ), ϕ( t ) veranschaulicht, wobei man sich die Kurve Beziehungen zwischen den kinematischen Größen ϕ ( t ) aus zwei Kurven ϕ a ( t ) und ϕ b ( t ) additiv zusammengesetzt denken kann, welche jeweils auf einen ϕ (fiktiven) Agonisten und Antagonisten zurückgehen. Abbildung 4.6 Beschleunigungs-, Geschwindigkeits- und Positionsverlauf Um die Bedingungen für das Treffen des Ziels genauer herauszuarbeiten, wird von einem Prototypmuster 'z ( t ') der Dauer T' (0≤t'≤T'), gespeichert im zentralen Mustergenerator (CPG), ausgegangen, der die ϕ Impulsbedingung bereits erfüllt. Durch zeitliche Stauchung oder Streckung (T=cT'; t=ct'; 0≤t≤T; c=T/T' . ) und/oder Veränderung der Amplitude gehe daraus das gewünschte Beschleunigungsmuster z ( t ) = q ⋅ ϕ 'z ( c t ') , T = cT' , ϕ (4.6) hervor, wobei T die veränderte zeitliche Dauer und q den neuen Amplitudenfaktor bedeuten. T und q sind Parameter, die in die mustererzeugende neuronale Struktur (CPG) so einzugeben sind, daß das gewünschte Ziel zum Zeitpunkt t=T erreicht wird. Wenn nun ϕ( 0 ) die Startposition und ϕ( T ) die Winkelposition nach Beendigung der vom zentralen Mustergenerators vorgegebenen Beschleunigungskurve darstellen, so gilt für den tatsächlich durchfahrenen Winkel ∆ϕ nach (4.3) T t T 'z ( ⋅ t ) dt dt ∆ϕ = ϕ( T) − ϕ(0) = q ⋅ ∫ ∫ ϕ 0 T' , 0 = p ⋅ q ⋅ T2 (4.7) wobei p eine Konstante darstellt, die sich nur aus den Eigenschaften des Prototyps errechnet (vgl. Kalveram 1991). Mit δϕ = ϕ z − ϕ( 0 ) (4.8) sei nun die Zieldiskrepanz vor Bewegungsbeginn bezeichnet, welche vom Wahrnehmungsapparat in Zusammenarbeit mit der neuronalen Struktur, welche den Zielwinkel ϕz vorhält, quantitativ zu ermitteln ist. Unter der Annahme, daß p exakt eingestellt worden ist, und unter freier Wahl einer Bewegungsdauer T, kann 13 dann die Amplitude q des zu erzeugenden gewünschten Beschleunigungsmusters wie folgt bestimmt werden: q = p ⋅ δϕ T 2 . (4.9) Eine Bewegung mit dieser Beschleunigungsamplitude q und dieser Dauer T sollte also die gewünschte Winkelposition ϕ z konkret herbeiführen . 4.2.1.4 Der allgemeine Fall erfordert Zustandsrückführung Reale zielgerichtete Bewegungen müssen nicht nur das Trägheitsmoment des Arms überwinden, sondern auch die mechanische Impedanz des Arms, worunter Dämpfungskräfte und elastische Kräfte in den Muskeln und Gelenken sowie die Schwerkraft zusammengefaßt werden. Aus diesem Grunde soll die in (4.3) gemachte anfängliche Einschränkung, daß außer Trägheits- und Muskelkräften keine weiteren Kräfte auf den Arm einwirkensollen, wieder fallen gelassen und von der kompletten Gleichung (4.1) bzw. (4.2) ausgegangen werden. Aus (4.2) geht dann hervor, daß man die vereinfachte Form (4.3) beibehalten kann, wenn man dem muskulären z ( t ) , welches auf den Mustergenerator zurückgeht, eine Komponente QK(t) so Drehmoment QM ( t ) = M' ⋅ϕ hinzufügt, daß die durch Dämpfung, Federrückstellungskräfte und Schwere hervorgerufenen Drehmomente eben gerade kompensiert werden. Das insgesamt im Zusammenhang mit der inversen Modellierung aufzubringende muskuläre Drehmoment ist dann Q( t) = QM ( t ) + QK ( t ) z ( t) + QK ( t) , = M'⋅ϕ wobei (4.10) QK ( t) = R'⋅ϕ ( t) + D'⋅(ϕ( t) − ϕ 0 ) − C'⋅ sin(ϕ( t) − ϕ g ) die mechanische Impedanz gerade eben aufhebt, wenn für die neuronalen Größen R', D' und C' die genauen Werte von R, D und m.g.a eingesetzt werden und für Winkelgeschwindigkeit und Winkelposition ebenfalls genaue neuronale Repräsentationen zur Verfügung stehen. Sind diese Bedingungen erfüllt, kann also der in (4.3) und (4.4) niedergelegte einfache Zusammenhang trotz der Wirkung zusätzlicher mechanischer Kräfte, welche durch Reibung, Federeigenschaften und Schwerkraft vermittelt werden, wieder hergestellt werden. Abbildung 4.7 : Invertierung der Werkzeugtransformation durch Impedanz-Kompensation Die Abb.4.7 zeigt an Hand eines Flußdiagramms, in dem die in Abb.1.5 eingeführten Symbole verwendet werden, wie im neuronalen Kontroller das muskuläre Drehmoment Q(t) unter Einschluß des zur Kompensation dienenden Drehmoments Qk(t) - also die Invertierung der Werkzeugtransformation im allgemeinen Fall - mittels analoger Rechentechnik berechnet werden kann. Die Funktionsweise des Arms ist in Abb.4.5 niedergelegt. Man ( t ) dem neuronalen Rechenwerk unbedingt erkennt, daß die an der Peripherie zu messenden Werte ϕ( t ) und ϕ zur Verfügung gestellt werden müssen. Die Konstanten M', R', D' und C' werden als bekannt angenommen und dem Kontroller über "absteigende Bahnen" zugeführt. Diese Konstanten können, wie weiter unten gezeigt wird, im Prinzip im Rahmen eines Auto-Imitationsprozesses bestimmt (identifiziert) werden. Bei hinreichend genauer ( t ) ist die am Arm zu Identifizierung der Konstanten M, R, D, C und Messung der Zustandsvariablen ϕ( t ) und ϕ beobachtende Winkelbeschleunigung gleich der vom zentralen Mustergenerator CPG vorgegebenen gewünschten Beschleunigung. Bei mechanischen Systemen werden, wie schon gesagt wurde, Position und Geschwindigkeit als die Zustandsgrößen bezeichnet, welche in jedem Augenblick den Systemzustand vollständig beschreiben, dh., bei Kenntnis dieses Systemzustands und der Eingangsvariablen (hier der äußeren Kräfte bzw. Drehmomente) zu einem bestimmten Zeitpunkt können der Systemzustand und die Ausgangsvariable (hier: die Beschleunigung) bei Kenntnis des Vorwärtsmodells zu einem beliebigen späteren Zeitpunkt vorhergesagt werden. Zur Berechnung der inversen Transformation eines zu kontrollierenden Prozesses werden in der Regel alle diese Zustandsvariablen explizit benötigt, was in der Systemtheorie auch als 'Zustandsrückführung' (s. auch (1.2)) bezeichnet wird. 4.2.1.5 Reflexanaloge Verarbeitung und Zustandsrückführung Auch im vorliegenden Fall ist eine solche Zustandsrückführung zum "Betrieb" des Modells der inversen ( t ) sind in diesem Falle die Werkzeugtransformation erforderlich. Die rückgeführten Zustände ϕ( t ) und ϕ Zustandsvariablen, welche den Zustand des mechanischen Armsystems zum Zeitpunkt t wiedergeben. Diese 14 werden in Abb.4.7 nicht im Rahmen einer Regelung (negative feedback), sondern vielmehr im Rahmen einer Steuerung (feedforward) verwendet. Die spezielle Signalführung legt nahe, diese Art der Steuerung als positive Rückkopplung zu interpretieren, welche bei Kontrollaufgaben gewöhnlich als unerwünscht gilt, weil sie auf das System destabilisierend wirkt. Im vorliegenden Fall jedoch ist das Koppelungsnetz so ausgelegt, daß es das System steuerbar macht, indem die mechanische Impendanz neuronal kompensiert wird. Die davorgeschaltete z ( t ) mit der geschätzten Trägheit M' komplettiert dann die Invertierung Multiplikation der Zielbeschleunigung ϕ der Werkzeugtransformation. Analogrechner-Flußdiagramme nach Art der Abb.4.7 repräsentieren verteiltes Rechnen und sind häufig unmittelbar in eine auch neuronal plausible Form zu überführen. Hier etwa kann man annehmen, daß die ( t ) an der Peripherie durch geeignete 'Sensoren' gemessen werden, deren 'Axone' dann mit Variablen ϕ( t ), ϕ dem 'Motoneuron', welches den Arm antreibt, in synaptischen Kontakt treten. Die Konstanten R', D' und C' sind dann als die entsprechenden synaptischen Gewichte zu interpretieren, während über einen weiteren synaptischen z ( t) zugeführt Kontakt mit dem Gewicht M' die vom Mustergenerator (CPG) vorgegebene Zielbeschleunigung ϕ wird. Die Funktion des Motoneurons ist dabei die eines Addierers mit vier Eingängen. Die Abb.4.8 zeigt eine entsprechende Darstellung eines neuronalen Kontrollers, der sich allerdings gerade in der Lernphase befindet. Die Einspeisung und Verarbeitung des Armzustands geschieht danach also nach Art von 'Reflexen', was die Bezeichnung 'reflexanaloge Verarbeitung' nahelegt (Kalveram 1991). 4.2.1.6 Parameter-Identifizierung durch auto-imitatives Lernen Wie im Rahmen der Invertierung der Werkzeugtransformation die Konstanten M', R', D' und C' im Prinzip bestimmt werden können, ist im Schaltbild der Abb.4.8 dargestellt. Die Bedeutung der Symbole in dem gestrichelt umrandeten Kästchen ist dieselbe wie in Abb 1.5 und Abb. 2.6. Das langgestreckte ovale Neuron mit der Bezeichnung "+" wird als 'Moto-Neuron' aufgefaßt, das im Normalbetrieb über die oben und seitlich angebrachten Synapsen aktiviert werden kann und als Output das muskuläre Drehmoment Q erzeugt. Diese Synapsen werden als plastisch angesehen und müssen auf die Parameter M, R, D und C des physikalischen Systems abgestimmt werden. Die beiden anderen Neurone dienen zur Einstellung der mechanischen Gleichgewichtsposition und zur Eingabe der Schwerkraftrichtung. Die betreffenden synaptischen Gewichten sind 1 und -1. Die in der linken unteren Ecke der Abb.4.8 dargestellt Teilschaltung zeigt eine Möglichkeit auf, wie mit Hilfe eines lernfähigen neuronalen Netzwerkes die Sinus-Funktion berechnet werden kann. Es handelt sich hierbei um eine Approximation der Sinus-Funktion durch eine dreigliedrige Potenzreihe; denn die Zahlen 1, 3 und 5 an den Synapsen der Multiplizier-Zellen stehen für die Exponenten, mit denen Eingangsvariablen jeweils zu potenzieren sind, während die synaptischen Gewichte beim Summationsneuron "+" die Koeffizienten darstellen. Ein Beispiel für ein solches "Potenzierungsnetzwerk" größeren Umfangs ist bei der Behandlung des zweigelenkigen Arms zu finden. Dieses Teilnetzwerk kann an die Stelle des Blocks mit der Bezeichnung "Sinus" gesetzt werden. Die Synapse C muß in diesem Falle durch drei Synapsen mit den Stärken C'1, C'3 und C'5 ersetzt werden. Zu Beginn des auto-imitativen Lernprozesses werden die drei neuronalen Schalter in die eingezeichnete Stellung 2 gebracht und den oberen Synapsen zunächst das Gewicht Null zugeordnet Die untere Synapse übernimmt die Rolle des 'teaching input', über den dem Neuron die vom Signalgenerator mit der Bezeichnung 'blinder Lehrer' vorgegebene Aktivierung Q(t) gezeigt wird, die als Drehmoment gleichen Betrages auch den Arm in Bewegung versetzt. Q(t) entspricht also der Efferenz e in Kapitel 4.2.1 bzw. Abb.4.3. Die vom blinden Lehrer emittierte Zeitfunktion Q(t) ist dabei beliebig und verfolgt, abgesehen vom Training des Netzes, keine weiteren Zwecke. Der Name 'blinder Lehrer' soll andeuten, daß der Lehrer den Erfolg des Trainings nicht zur Kenntnis nimmt, ja nichteinmal erkennen kann, ob das Training überhaupt erfolgreich ist. Über die Rückführung ( t ) und ϕ ( t ) erhält man die für das Lernen benötigten präsynaptischen Aktivierungen. von ϕ( t ), ϕ Abbildung 4.8 : Invertierung der Werkzeugtransformation des Arms durch Zustandsrückführung, dargestellt als "reflexanaloge Verarbeitung" Eine Möglichkeit, die Gewichte der Synapsen zu bestimmen, ist folgende: Man geht von der Differenzialgleichung (4.1) aus und initiiert über den blinden Lehrer eine Armbewegung. Zu den Zeitpunkten t1, t2, ...., tn mißt man die kinematischen Werte (Winkel-Beschleunigung, -Geschwindigkeit und -Position) des Arms sowie das auf den Arm vom blinden Lehrer ausgeübte Drehmoment. Schreibt man für diese Werte die Differentialgleichung 4.1) n-mal aus, erhält man 15 ( t 1 ) ⋅ M'+ ϕ ( t 1 ) ⋅ R'+ ϕ( t 1 ) ⋅ D'+ sin{ϕ( t 1 )} ⋅ C' = Q( t 1 ) ϕ ( t 2 ) ⋅ M'+ ϕ ( t 2 ) ⋅ R'+ ϕ( t 2 ) ⋅ D'+ sin{ϕ( t 2 )} ⋅ C' = Q( t 2 ) ϕ . . ( t n ) ⋅ M'+ ϕ ( t n ) ⋅ R'+ϕ( t n ) ⋅ D'+ sin{ϕ( t n )} ⋅ C' = Q( t n ) ϕ (4.11) Zur Vereinfachung sind hierbei ϕ0 und ϕg zu Null angenommen. Mathematisch gesehen ist (4.11) ein lineares , ϕ als Koeffizienten und den Konstanten inhomogenes Gleichungssystem mit den kinematischen Werten ϕ, ϕ M', R', D', C' als Unbekannte. Als Lösung des Gleichungssystems - sofern sie existiert - erhält man dann die entsprechenden Werte für die Konstanten. Wenn die Sinusfunktion, wie in Abb.4.8 in der linken unteren Ecke angedeutet ist, durch eine Potenzreihe dargestellt wird, die nach drei Gliedern abgebrochen wird, so muß man natürlich in (4.11) den jeweils letzten Term vor dem Gleichheitszeichen durch die (abgebrochene) TaylorEntwicklung ϕ( ti ) ⋅ C'1+ϕ 3 ( ti ) ⋅ C'2 +ϕ 5 ( ti ) ⋅ C'3 (i=1,2,...,n) ersetzen. In der anschließenden Aktivitätsphase werden die Schalter in Abb.4.8 in die Position 1 gebracht und damit auch der blinde Lehrer abgeschaltet. An den Zustandsrückführungen und ihrer Verarbeitung wird jedoch nichts verändert. Bei zutreffender Bestimmung der Konstanten M', R', D' und C' ist dann der Arm voll und präzise steuerbar. Eine alternative Bestimmung der Konstanten wird in Abb.4.11 gegeben. Ein zu erwähnender Umstand ist allerdings, daß Propriozeptoren, welche Winkelgeschwindigkeit und Winkelposition bei Gliedmaßenbewegungen erfassen können, bekannt sind, aber keine, welche auf die Winkelbeschleunigung reagieren. Andererseits weiß man, daß die in den Sehnen herrschende Zugspannung propriozeptiv erfaßt wird. Diese Zugspannung setzt sich in den Sehnen, mit denen die Muskeln am Skelett angesetzt sind, zusammen aus den muskulären Drehmomenten und den mechanisch-dynamischen Rückwirkungen von Dämpfung, Federkonstante und Schwerkraft. Sie kann nach Gleichung (4.2) bzw. Abb.4.5 unmittelbar hinter ( t) ⋅ M , also zum Produkt dem Vierfach-Addierer als Variable k(t) abgegriffen werden und ist proportional zu ϕ aus Winkelbeschleunigung und Trägheit. Das bedeutet, daß dem Organismus zumindest eine der Winkelbeschleunigung proportionale Größe zur Verfügung steht. Im Interesse der Klarheit der Ausführungen ( t) direkt propriozeptiv erfaßt wird, durchgeführt. Sie werden die Berechnungen aber unter der Annahme, daß ϕ ( t) ⋅ M bezogen werden, was hier aber könnten bei Bedarf mit leicht vergrößertem Aufwand auch auf ϕ unterbleiben soll. Da der System-Zustand des Arms, also Winkelgeschwindigkeit und -position, propriozeptiv erfaßt wird, kann die Art der Zustandsrückführung auch als propriozeptive Steuerung (propriozeptive feedforward, s. Mittelstaedt 1990) bezeichnet werden, oder, da die Einarbeitung der Zustandsvariablen in den Signalkreislauf nach Art von Reflexen geschieht, auch, wie oben bereits angedeutet, als reflexanaloge Verarbeitung (reflex-like processing; s. Kalveram 1991). Die neuronal repräsentierten Konstanten M', R', D' und C' sind in diesem Bilde dann als die Verstärkungsgrade (gains) der betreffenden Reflexe zu interpretieren. Die Schwierigkeiten, die sich hierbei aus der neuronal verursachten endliche Leitungsgeschwindigkeit ergeben, werden weiter unten behandelt. 4.2.1.7 Ermittlung des inversen Modells: Ein schlecht gestelltes Problem? In bisher angestellten Simulationsversuchen hat sich sich herausgestellt, daß die Parameter des inversen Modells, also die Konstanten M', R', D' und C' (bzw. M', R', D' und C'1, C'2, C'3) in der Tat identifiert werden können , ϕ und die dynamischen Werte Q des allerdings nur unter der Voraussetzung, daß die kinematischen Werte ϕ, ϕ Arms mit hoher Präzision zur Verfügung stehen. Schon bei geringen unsystematischen Variationen der Meßwerte können sich von Fall zu Fall ganz verschiedene Lösungen ergeben, in denen die physikalisch vorgegebenen Parameter nicht wiederzuerkennen sind. Das liegt daran, daß die Koeffizientenmatrix des Gleichungssystems (4.11) bei Wahl eines ungünstigen Bewegungsmusters durch den blinden Lehrer eine Determinante hat, welche nahezu Null ist. Man sagt auch: Das Gleichungssystem hat eine schlechte Kondition. In einem solchen Falle wird die Lösung instabil, dh. schon bei geringen unsystematischen Schwankungen der eingehenden Werte (hier der die , ϕ ) findet man große Koeffizienten repräsentierenden Meßwerte für die kinematischen Größen ϕ, ϕ Schwankungen der Ausgangswerte (hier der Lösungen für die Parameter M', R', D' und C'). Nach Hadamard (1923) ist ein Problem schlecht gestellt, wenn von den drei Bedingungen "Existenz", "Eindeutigkeit" und "Stabilität" der Lösung (mindestens) eine nicht erfüllt ist. Offensichtlich also handelt es sich bei der Aufgabe, das Modell der inversen Werkzeugtransformation zu bestimmen, um ein Problem, welches dazu neigt, schlecht 16 gestellt zu sein, und zwar wegen der fehlenden Stabilität der Lösung. Was nun bedeutet es für die Aktivitätsphase, in der das inverse Modell angewendet wird, wenn der autoimitative Prozeß infolge der Schlechtgestelltheit neuronale Konstanten auswirft, welche von den physikalischen Konstanten deutlich abweichen? Diese Frage ist leicht zu beantworten: Sind die neuronalen Konstanten zu klein, wird der betroffene Teil der Impedanz nicht kompensiert und die tatsächliche Beschleunigung bleibt hinter der gewünschten zurück. Haben die neuronalen Konstanten hingegen zu hohe Werte, ergibt sich eine Überkompensation. Da dies meist gleichbedeutend mit positiver Rückkopplung ist, wird in diesen Fällen der Arm die Tendenz zeigen, aus dem vorgegebenen Beschleunigungsrahmen auszubrechen, dh. instabil zu werden. In jedem Falle wird der Arm weniger gut oder auch überhaupt nicht steuerbar sein und schlimmstenfalls 'wild' um sich schlagen. Dies unterstreicht nochmals die Wichtigkeit des Unterdrückens von Fremdsignalen beim autoimitativen Lernen gem. Abb.4.4a . 4.2.1.8 Regularisierung, Relaxation und Hebb-sches Lernen Unter Regularisierung versteht man die Anwendung von Methoden, welche bei einem schlecht gestellten Problem obiger Art dennoch zu vernünftigen Lösungen führen. Unsere Versuche, solche Methoden auf das Gleichungssystem (4.11) mit "verrauschten" Koeffizienten anzuwenden, sind anfangs jedoch allesamt fehlgeschlagen (Kalveram & Natke 1997). Vermutlich lag das daran, daß wir bei dem Gleichungssystems der Art (4.11) zunächst keine geeignete fehlerreduzierende Mittelwertbildung für die Koeffizienten angewendet hatten. Erfolgversprechend erwies sich jedoch, sehr viele Einzelmessungen durchzuführen, also von einem stark überbestimmten Gleichungssystem der Art (4.11) auszugehen und die Lösung mit der Methode der kleinsten Quadrate zu ermitteln. Eine solche Methode dürfte jedoch keine neuronale Entsprechung haben. Eine andere Idee ist , den Erwerb des inversen Modells konsequent als Relaxations-Aufgabe des Gesamtsystems, bestehend aus dem physikalischen Arm und seinem Kontroller, zu definieren und auf Hebbsches Lernen zurückzuführen. Dies soll im folgenden im einzelnen beschrieben werden. Technisch gesehen handelt sich bei dem Arm-Kontroller-System um einen geschlossenen Kreis, in dem sich die in Abb.4.8 eingezeichneten synaptischen Gewichte so einstellen müssen, daß zwischen präsynaptisch erzeugter Erregungssumme (entspricht den linken Seiten der Gleichungen (4.11)) und postsynaptischer Erregungseinprägung (rechte Seiten der Gleichungen (4.11)) ein Ausgleich erzielt wird. Dieser Ausgleich kann über geeignet modifzierte Hebb-sche Synapsen erfolgen. Wie man sich die Funktionsweise von normalen Hebb-Synapsen (Hebb 1949) vorstellen kann, soll zunächst kurz erläutert werden: Ausgegangen wird von einem formalen Neuron mit input x, synaptischem Gewicht w und linearer Charakteristik. Die Synapse soll Hebbsch sein, dh. ihre Stärke w soll sich von anfänglich Null in der anschließenden Lernphase als Produkt aus präsynaptischer Erregung x und der gleichzeitig herrschenden postsynaptischen Erregung y ergeben, wobei die postynaptische Erregung y der Nervenzelle über eine erzwingende Synapse während der Lernphase eingeprägt wird. Diese erzwingende Synapse stellt also eine Art “teaching” input der Zelle dar. Nach Abschluß der Lernphase, also in der Kannphase, hat die Synapse das Gewicht w und der output der Nervenzelle nimmt einen gegenüber der Ausgangslage veränderten Wert z=w.x an, wenn der input x angelegt wird. Verallgemeinert für den kontinuierlichen Fall lautet die Hebbsche Lernregel also T w = r ⋅ ∫ x (t ) ⋅ y (t ) dt , 0 (4.12) wobei T die Dauer der Lernphase und die Konstante r die Lernrate bedeuten. w ist also ein Maß für die Kreuzkorrelation zwischen prä- und postsynaptischer Erregung, berechnet über die Zeitdauer T. Abbildung 4.9 : Blockschaltbild einer Hebb-schen Synapse. Auf der Abb.4.9 ist für den kontinuierlichen Fall das Blockschaltbild einer Hebbschen Synapse in der Lernphase zu sehen. In der Lern-Phase ist der Integrator I auf "integrieren" gestellt, so daß er das Produkt aus x(t) und y(t) kontinuierlich aufsummieren kann. Nach dem Lernen wird der Integrator auf "halt" geschaltet (etwa durch Abtrennen der Eingangsvariablen des Integrators) und/oder die Eingangsvariable y auf Null gesetzt. Der Input x erzeugt dann den Anteil z=w.x am postsynaptischen Potential. Ist nur eine Eingangsynapse vorhanden, ist z auch gleich dem Output der Zelle. Ein grundsätzlicher Nachteil dieser Trainingsart ist, daß die so bestimmte Synapsenstärke divergiert, und zwar gegen (plus oder minus) unendlich (MacKay & Miller 1990), dh. bei langer Trainingsphase wird stets der maximal mögliche Wert angenommen, wenn x und y positiv korreliert sind, und der minimal mögliche Wert, wenn die Korrelation zwischen x und y negativ ist. Zur Erzwingung von Konvergenz können verschiedene Normierungsmethoden angewendet werden (vgl. Shouval & Perrone 1995). In vielen Fällen würde sicher auch die Division des Integrals durch die Trainingsdauer T genügen, also die Bildung des zeitlichen Mittelwerts des Produktes x(t).y(t). 17 Abbildung 4.10 : Relaxations-Synapse als Modifikation der Hebb-Synapse In der Abb.4.10 wird ein hiervon abweichender Weg vorgeschlagen: Innerhalb der gestrichelten Umrandung ist eine Modifikation der Hebb-schen Synapse dargestellt, bei der die Lernrate r mit negativem Vorzeichen in die Berechnung der Synapsenstärke eingeht. Im unteren Teil der Abb.4.10 ist die Verschaltung angedeutet, in den diese Synapse - zusammen mit anderen Synapsen gleichen Typs - eingebettet ist. Nach der in Abb.4.9 vermittelten Auffassung müßte der Nervenzelle die später zu zeigende Ausgangs-Aktivität y während der Lernphase über den Lern-Eingang eingeprägt werden. Im Gegensatz dazu bildet in Abb.4.10 die Variable y mit der Zelle eine gewöhnliche, aber hemmende Synapse mit dem Gewicht -1 aus. Die über den Lern-Eingang zugeführte Variable y wird nunmehr von der Aktivierungssumme, die über die n plastischen synaptischen Eingänge erzeugt wird, abgezogen. Die resultierende Erregung der Nervenzelle ist somit bei nur einer Synapse wi.xi - y, oder, wenn mit n z = ∑ w i ⋅ xi die i=1 Erregungssumme aller n Eingangssynapsen bezeichnet wird, z-y. In der Lernphase ist also die Differenz z-y als postsynaptische Erregung anzusetzen, welche entsprechend der Hebbschen Regel mit der präsynaptischen Erregung xi zu multiplizieren ist. Integration über das Produkt und Berücksichtigung der Lernrate mit -r ergibt sodann T n 0 i =1 wi = − r ⋅ ∫ xi ⋅ ( z − y ) dt mit z = ∑ wi ⋅ xi und T → ∞ . (4.13) Können in der Lernphase die synaptischen Gewichte wi so bestimmt werden, daß die Differenz z-y bei jeder Belegung der Variablen xi und y konstant den Wert Null ergibt, so folgt, daß die Integrale konvergieren. Der Lernvorgang ist also - so kann man sagen - auf Relaxation angelegt, denn er bringt die postsynaptische Erregung der Nervenzelle zum Verschwinden. Entsprechend kann für den in Abb.4.10 dargestellten Übertragungstyp auch die Bezeichnung "Relaxations-Synapse" gewählt werden. Eine zu lange Dauer der Lernphase kann das Ergebnis nicht mehr verfälschen, ebenso geht der Betrag r der Lernrate im Prinzip nicht in das Ergebnis ein. Bei kleinem r ist lediglich die Lernphase zu verlängern. Bildet man die zeitliche Ableitung der in (4.13) dargestellten Funktion, so erhält man dwi = r ⋅ xi ⋅ ( y − z ) ⋅ dt . Offenbar also entspricht die obige Formel (4.13) einer linearen Delta-Regel zur Bestimmung von synaptischen Gewichten für den kontinuierlichen Fall, wobei die algebraische Lösung im Rahmen des rekursiven Schemas der Abb.4.11 erfolgt. Für die Aktivitätsphase ist der Integrator dann wieder auf "Halt" zu schalten und am Lern-Eingang muß y=0 gesetzt werden. Aus Abb.4.10 ergibt sich dann, daß das Ausgangssignal gleich y sein muß, wenn der Lernvorgang erfolgreich war. In Abb.4.11 findet man diese Überlegungen auf das Erlernen der inversen Werkzeugtransformation des eingelenkigen Arms angewendet (vgl. Kalveram 1998b). Der Fluß der Informationen in diesem rekursiven Schema entspricht dem der Abb.4.7. bzw. 4.8. Die Kästchen M', R', D' und C1', C3', C5' bezeichneten Relaxations-Synapsen, allerdings können, was nicht zu ersehen ist, verschiedene Lernraten r verwirklicht sein. In diesem Schema wird deutlich, daß die Relaxation am neuronalen Netz unter Einbeziehung der Umwelt, hier des Arms, erfolgt, was nochmals verdeutlicht, daß bei diesem Lernvorgang das zu kontrollierende System und sein Kontroller eine unzertrennbare Einheit bilden. Abbildung 4.11 : Erwerb des inversen Modells durch Relaxation In Ergänzung zu Abb.4.4a und Abb.4.8 wird in der das vom blinden Lehrer abgegebene Signal vor Einspeisung in den Lerneingang des neuronalen Netzes einer Verzögerung ∆t unterworfen. Dies dient dazu, diejenige Verzögerung auszugleichen, die bei einem biologischen Arm durch die propriozeptive Erfassung der Positions-, Geschwindigkeits- und Beschleunigungs-Signale sowie deren endliche Übertragungsgeschwindigkeit notwendigerweise auftreten. Entspricht ∆t der Signalverzögerungszeit dieser drei Variablen, so sind die am Lerneingang und dem Normaleingang des zu trainierenden Netzwerkes eintreffenden neuronalen Signale zeitlich exakt aufeinander bezogen, eine Vorbedingung für auto-imitatives Lernen. Die Simulation ergibt, daß die Konstanten M', R', D' und C' prinzipiell auf diese Weise exakt bestimmt werden können. Bei Zuschaltung von weißem Rauschen auf die kinematischen Größen des Arms ist jedoch erforderlich, daß die Lernrate herabgesetzt wird, das Lernen also verlangsamt wird, und die vom blinden Lehrer initiierten Trainingsbewegungen mehrfach wiederholt werden. Ferner ist erforderlich, daß in den vom blinden Lehrer herbeigeführten Trainingsbewegungen sowohl schnelle wie auch langsame Anteile vorkommen. Die schnellen Anteile führen zum Erwerb der inversen Dynamik, die langsamen zum Erwerb der inversen Statik. In Abb.4.12 ist ein entsprechender Lernverlauf (für D=0) dargestellt. Man sieht deutlich, daß die synaptischen Gewichte auf die vom Armodell vorgegebenen Werte konvergieren. 18 Abbildung 4.12 : Konvergenz der synaptischen Gewichte beim modifizierten Hebb-schen Lernen Mit der Rückführung auf die Hebbsche Lernregel ist damit der Erwerb des inversen Modells der Werkzeugtransformation - und damit der Grundgedanke, daß zielgerichtetes Handeln durch inverse Modellierung des Umweltverhaltens ermöglicht wird - an einen physiologisch und biochemisch plausiblen Mechanismus neuronalen Lernens, nämlich an die Langzeitpotenzierung, angebunden. 4.2.1.9 Parallel-Serien-Wandlung, Serien-Parallel-Wandlung und Mehrebenenkontrolle Die Abb.4.13 faßt den bisherigen Gedankengang nochmals zusammen und ergänzt ihn dabei durch zwei zusätzliche Überlegungen. Als erstes fällt auf, daß die Abb.4.13 zwei verschiedene Kontrollebenen enthält, welche an den Übergangstellen durch die gestrichelt gezeichneten Funktionseinheiten 'Parallel-Serien-Wandlung' und 'Serien-Parallel-Wandlung' verbunden sind. Unter einer Parallel-Serien-Wandlung versteht man in der Nachrichtentechnik einen Vorgang, bei dem ein Ereignis aus einer quasi räumlichen in eine zeitliche Dimension umgesetzt wird. Mit "quasi räumlich" ist gemeint, daß das Ereignis in einem Code vorliegt, der die Zeit nicht enthält. Oft ist damit zusätzlich auch eine symbolische Kodierung verbunden. Umgekehrt bedeutet eine SerienParallel-Wandlung, daß ein Ereignis, welches zeitlich erstreckt ist, eine Kodierung erhält, in welcher die Zeit keine Beschreibungskategorie mehr ist. Hier wird der parallel vorliegenden Zieldiskrepanz δϕ durch den z ( t ) , zugeordnet. Die Funktion der Serien-Parallel-Wandlung ist, Mustergenerator eine Zeitfunktion, nämlich ϕ die Zeit aus dem Strom der Ereignisse wieder zu eliminieren, also die Umkehrung der Parallel-Serienwandlung vorzunehmen. Sie wird im wesentlichen durch die sensorische Verarbeitung vollzogen, welcher der zeitlich erstreckten Bewegungsfigur den Endpunkt ϕ(T) zuordnet. Beide Wandelprozesse werden uns bei der Besprechung des taktischen Apparates wiederbegegnen. Abbildung 4.13 : Mehrebenenkontrolle, Parallel-Serien-Wandlung und Serien-Parallel-Wandlung bei der eingelenkigen Bewegung Die Ebene, auf der die Information parallel vorliegt, wird im weiteren auch die 'parallele Ebene' genannt. Die Wirkungsübertragung auf dieser Ebene wird durch Doppelpfeile angezeigt. Die hier interessierenden Teile des Bewegungsverlaufs reduzieren sich auf den Anfangs- und den Endpunkt der Bewegung. Dh. die Zeit wird als diskret angesehen und es werden nur die Winkelpositionen zu Beginn (t=0) und am Ende (t=T) des vom CPG ausgegebenen Musters für die Steuerung der Bewegung herangezogen: Die Startposition dient zur Bestimmung der Zieldiskrepanz, die Endposition kann zur Adjustierung des Parameters p herangezogen werden, wenn dieser ungenau eingestellt ist. Die Adjustierung kann nach der Vorschrift p←p+r.d erfolgen, wobei der links vom Pfeil stehende Wert der neue Wert für p ist, der sich aus dem rechts vom Pfeil stehenden alten Wert für p durch Addition des Korrekturterms r.d ergibt. Hierbei bedeuten dϕ = ϕ z − ϕ( T ) den Fehler zum Zeitpunkt T, also bei Beendigung der Musterausgabe, und r die Lernrate. Wählt man die Lernrate r zu p/ (wobei ∆ϕ = ϕ( T ) − ϕ( 0 ) der tatsächlich zwischen den Zeitpunkten t=0 und t=T überstrichene Winkel ist), erhält man den korrekten Wert für p bereits nach einer einzigen Bewegung. Die Ebene, auf der serielle Informationsverarbeitung vorliegt, wird im weiteren auch als 'serielle Ebene' bezeichnet. Hier wird die Wirkungsübertragung durch einfache Pfeile angedeutet. Die verarbeiteten Variablen (Drehmoment, Winkelgeschwindigkeit usw.) sind in kontinuierlicher Zeit definiert. Es ist dies die Ebene, die durch die Differentialgleichung (4.1) bestimmt wird. In diesem Subsystem geschieht auch die reflexanaloge Verarbeitung der peripheren Signale. Technisch gesehen bilden die parallele und die serielle Verarbeitung eine aus zwei Systemen bestehende Hierarchie, bei welcher die parallele Ebene der seriellen übergeordnet ist. In jedem der Systeme erfolgt die Bewegungskontrolle in anderen Zeiteinheiten. Der zeitdiskrete Prozeß läuft auf der 'höheren Kontroll-Ebene' ab, auf der die Parameter bestimmt und adjustiert (also geregelt) werden, welche auf der 'unteren Kontroll-Ebene' für die seriellen Prozesse benötigt werden. Sowohl die im parallelen Teil angeordnete Ermittlung der Zieldiskrepanz als auch die im seriellen Teil on-line durchgeführte Invertierung der Werkzeugtransformation sind Steuerungsvorgänge, haben also den Rang von Taxien. Die erfolgsabhängige Adjustierung des Parameters p im parallelen Teil ist hingegen ein Regelungvorgang und daher biologisch unter "Appetenzverhalten", lerntheoretisch unter "Selbstabgleich" (s. auch Kapitel 3.4.1) einzuordnen. Auch im seriellen System kann Regelung hinzugefügt werden, wie später noch näher erörtert werden wird. 4.2.1.10 Motorvariabilität bei Zielinvarianz: Das Redundanzproblem Ein- und dasselbe sensorische Ziel kann motorisch auf verschiedene Weise herbeigeführt werden, z.B. kann ein 19 Ziel schnell oder langsam und auch mit unterschiedlichen Geschwindigkeitsverläufen angefahren werden. Aus (4.9) folgt, daß bei derselben Zieldiskrepanz sowohl Amplitude q als auch Dauer T des erzeugten Musters beträchtlich variieren können, ohne das die Bewegungsgenauigkeit beeinträchtigt wird, da nur das Produkt q.T2 konstant gehalten werden muß, was man auch als Spezialfall einer Re-Skalierbarkeit von Kraft und Zeit (Heuer 1984) ansehen kann. Eine weitere Redundanz ist dadurch gegeben, daß die Form des vorgegebenen Musters varieren kann, wenn nur die in Abb.4.6angedeuteten Flächen jede für sich gleich bleiben. Dieses sind Ursachen wenn auch nicht alle - für die immer wieder beobachtete Motorvariabilität bei Zielinvarianz. Die relative Freiheit der Wahl der Bewegungsdauer T kann ferner dazu ausgenutzt werden, die Dauern weiterer gleichzeitig auszuführender Automatismen aufeinander abzustimmen. Ein außenstehender Beobachter kann dann den Eindruck gewinnen, daß die verschiedenen Automatismen der Phase nach intrinsisch gekoppelt sind und mag auf eine koordinative Struktur schließen, welche trotz variierender Geschwindigkeiten und Amplituden wie eine einzige Einheit arbeitet. Auch das Isochronie-Prinzip, welches die Beobachtung beschreibt, daß hoch automatisierte Bewegungen unterschiedlicher Bewegungsamplituden oft nahezu zeitgleich ausgeführt werden, wird durch (4.9) erklärt. 4.2.1.11 Lernen und Anwenden des inversen Modells bei Verzögerung der Zustandsrückführung Unter physiologischen Bedingungen sind die Meldungen über Winkelbeschleunigung, -geschwindigkeit und position des Arms, sofern sie propriozeptiv vermittelt sind, infolge endlicher Leitungsgeschwindigkeiten bei ihrer Ankunft am Eingang des Kontrollers gegenüber dem vom blinden Lehrer in den Lerneingang abgegebenen Signal zeitlich verschoben. Erfolgreiches Lernen und späteres Anwenden des inversen Modells erfordern aber das Einhalten der relativen Gleichzeitigkeit aller dieser Signale, dh. die zum gleichen Zeitpunkt am physikalischen Objekt abgenommenen Meßwerte für Beschleunigung, Geschwindigkeit und Position einerseits und das antreibende Drehmoment andererseits müssen in derselben zeitlichen Ordnung auch dem Kontroller zur Verfügung stehen. In der Lernphase ist der Kontroller nur "beobachtend" tätig. Relative Gleichzeitigkeit ist dann dadurch zu gewährleisten, daß das vom blinden Lehrer ausgehende Motor-Signal, bevor es in den Lerneingang eingespeist wird, um denjenigen Betrag verzögert wird, den auch die propriozeptive Rückmeldung aufweist. In Abb.4.11 wird diese Verzögerung durch das kleine Quadrat mit der Bezeichnung "∆t" in der Zuleitung zum Lerneingang angedeutet. Die in der Aktivitätsphase ebenfalls erforderliche relative Gleichzeitigkeit zwischen den Signalen, welche den momentanen Bewegungszustand (Winkelgeschwindigkeit und -position) des Arms melden, und dem aktuellen Drehmoment ist nicht so einfach zu erreichen, weil der Kontroller hier steuernd in den physikalischen Prozeß eingreift und zur Berechnung des aktuell zu erzeugenden Drehmoments die momentanen Zustandswerte des Prozesses tatsächlich auch kennen muß. Hier kommen die neuronal vermittelten Zustandsrückmeldungen in jedem Falle zu spät, ein handicap, welches sich insbesondere bei im Vergleich zur Verzögererungszeit schnellen Bewegungen auswirkt. Abhilfe kann hier nur die Vorhersage des Systemzustands schaffen. Unter der Annahme, daß in der Lernphase das inverse Modell der Werkzeugtransformation präzise identifiziert worden ist, läßt sich dieses Problem jedoch prinzipiell lösen: Der Systemzustand läßt sich nämlich nun aus der gewünschten z ( t ) durch Integration vorausberechnen. Abb.4.14 zeigt eine hierfür geeignete Anordnung: Beschleunigung ϕ ( t ) wird vom inversen Modell S-1 des Das von links herangeführte gewünschte Beschleunigungssignal ϕ z Kontrollers in ein Drehmoment Qs(t) umgesetzt, welches den Arm in der gewünschten Weise antreibt. z ( t ) und ϕ z ( t ) durch ein- bzw. zweimalige Integration von ϕ z ( t ) vorhergesagt. Gleichzeitig werden ϕ Abbildung 4.14 : Zustandsvorhersage durch Integration des Beschleunigungs-Ziels Die Existenz entsprechender neuronaler Integratoren kann biologisch als gesichert gelten, sie wurden z.B. von Eckmiller (1985) experimentell im Bereich der Okulomotorik nachgewiesen. Bei fehlenden äußeren Störungen ( t ) und ϕ( t ) mit den müssen dann die am physikalischen System abgenommenen aktuellen Werte ϕ vorhergesagten Werten übereinstimmen, so daß das inverse Modell jetzt mit den vorhergesagten Zustandsgrößen betrieben werden kann. Dem wird in Abb.4.14 dadurch Rechnung getragen, daß die Pfeile, welche die jeweils aktuellen Zustandsgrößen symbolisieren, vom inversen Modell abgetrennt sind und statt dessen die vorhergesagten zugeführt werden. In diesem Falle arbeitet die Steuerung über die inverse Modellierung vollständig automatisch, dh. ohne jede periphere Rückmeldung, eine Betriebsart, die man als Steuerung mittels "predicted feedback" bezeichnen kann (Kalveram 1991b). 4.2.1.12 Einbettung der Steuerung durch inverse Modellierung in Regelkreise In den bisherigen Ausführungen war, zumindest soweit die serielle Ebene betroffen war, ausschließlich die 20 Steuerung über die Inversion der Werkzeugtransformation Gegenstand der Betrachtungen. Unter Anwendungsgesichtspunkten ist das sicherlich nicht ausreichend, weil bei jeder Einwirkung einer nicht vorhergesehenen äußeren Störkraft das Ziel verfehlt werden würde, und zwar auch dann, wenn das im Kontroller repräsentierte inverse Modell in seiner Struktur nicht von der Inversen der physikalisch vorgegebenen Werkzeugtransformation abweicht. Denn vorausgesetzt, der Kontroller arbeitet im predicted feedback Modus, dann hat die Störung eine Abweichung des vorhergesagten Systemzustands vom tatsächlichen Systemzustand zur Folge, was die weitere Steuerbarkeit des Systems durch den jetzt fehlerhaft informierten Kontroller verschlechtert. Setzt der Kontroller dennoch seine Tätigkeit ohne Korrekturen fort, so muß es zwangsläufig zu Abweichungen auch zwischen (übergeordneten) sensorischen Zielen und dem tatsächlich erreichten Bewegungsergebnis kommen. Der Kontroller muß daher an die Realität 'angebunden' werden. Dies kann einerseits dadurch geschehen, daß die vorgesagten Systemzustände (Geschwindigkeit und Beschleunigung) an die tatsächlich vorliegenden angeglichen werden, damit die Kontrolle durch inverse Modellierung fortgesetzt werden kann. Andererseits kann eine Nachbesserung der Bewegung selbst vorgesehen werden, wenn sich herausstellt, daß das Bewegungsergebnis mit dem Bewegungsziel nicht übereinstimmt. Abb.4.15 zeigt zwei Möglichkeiten, wie dies durch Regelungsvorgänge (negative feedback control), die sich entweder auf die vorhergesagten oder erreichten Systemzustände beziehen, im Prinzip erreicht werden kann. Abbildung 4.15 : Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise Zur Vorhersage des Systemzustands werden wieder wie in Abb.4.14 zwei Integratoren benutzt, die jetzt jeweils einen weiteren Eingang haben, der mit dem ursprünglichen Eingang additiv zusammenwirkt. In diesen zweiten Eingang wird Differenz zwischen der momentan geltenden Vorhersage und dem betreffenden aktuellen Wert, so wie er an der Peripherie propriozeptiv gemessen wird, eingegeben. Vor der Bildung dieser Differenzen wird die jeweils vorhergesagte Variable zeitlich verzögert, was in Abb.4.15 durch ein kleines Quadrat mit einbeschriebenem ∆t angedeutet wird. Diese Verzögerung dient dazu, ähnlich wie bei Erlernen der inversen Werkzeugtransformation durch Auto-Imitation, die relative Gleichzeitigkeit der durch die Differenzbildung verglichenen Signale sicherzustellen, also das zeitliche Nachlaufen der peripheren Signale gegenüber den zugehörigen vorhergesagten Signalen auszugleichen. Die in den ersten Integrator zusätzlich eingegebene Größe ist u ⋅ δ ϕ ( t) = u ⋅ {ϕ ( t) − ϕ z ( t − ∆t)} . Es handelt sich also um einen proportionalen Regler mit der Verstärkung u und einer integrierenden Regelstrecke, bei der die tatsächliche periphere Geschwindigkeit ϕ ( t ) ϕ z ( t ) als der zu regulierende Istwert aufgefaßt werden. Entsprechend gilt für den zweiten Integrator v ⋅ δ ϕ( t) = v ⋅ {ϕ( t) − ϕ z ( t − ∆t)} . Hier hat der als Sollwert und die vorhergesagte Geschwindigkeit Proportionalregler die Verstärkung v, während die aktuelle Position den Sollwert und die vorherzusagende Position den Istwert darstellen. Die Nachbesserung hinsichtlich der Winkelposition ist in dem gestrichelt umrandeten Kästchen veranschaulicht. Wie schon in Abb.4.14, wird zunächst das von links herangeführte gewünschte z ( t ) vom inversen Modell S-1 des Kontrollers in ein Drehmoment Qs(t) umgesetzt, Beschleunigungssignal ϕ welches nunmehr vor der Anwendung auf den Arm noch einem Eingang eines Addierer eingegeben wird. Die Differenz d ϕ( t ) = ϕ z ( t ) − ϕ( t ) wird, w-fach verstärkt und nun als Qr(t) bezeichnet, dem anderen Eingang des Addierers zugeführt, dessen Ausgangssignal Q(t) dann den Arm antreibt. ϕ z ( t ) , ϕ( t ) und d ϕ( t ) können also als Sollwert, Istwert und Regelabweichung aufgefaßt werden, die einen weiteren Regelkreis mit proportionalem Regler konstituieren, in welchen die über das inverse Modell laufende Steuerung eingebettet ist. In diesem Regelkreis hat, im Gegensatz zu den im vorigen Abschnitt besprochenen beiden Regelkreisen, die vorhersagende Variable ϕ z ( t ) Sollwertcharakter, während die aktuelle periphere Größe ϕ( t ) die zu regelnde Größe darstellt. Die Regelstrecke ist in diesem Falle der physikalische Arm, welcher zweifach integrierend ist. Dieser Regelkreis neigt damit zur Instabilität, wenn die Verstärkung w zu groß wird. Ebenso wie die oben beschriebenen beiden, tritt auch er erst dann in Aktion, wenn Störungen auftreten oder das inverse Modell nicht zutrifft, ansonsten bleibt er unbeansprucht. De facto führt er eine neuronal erzeugte Federsteifigkeit mit zeitlich variabler Gleichgewichtslage ein, wobei ϕ z ( t ) die zum Zeitpunkt t geltende Gleichgewichtslage darstellt. D.h., nur dann, wenn sich die aktuelle Position von dieser Gleichgewichtslage entfernt, wird ein rücktreibendes Drehmoment erzeugt, welches die Abweichung zu verkleinern trachtet. Zur Unterdrückung von Schwingungen kann dann ggf. auch noch eine zur aktuellen Geschwindigkeit proportionale Größe mit negativem Vorzeichen auf den unteren Addierer geschaltet werden (in Abb.4.15 gepunktet eingezeichnet). Vor dem Hintergrund der Abb.4.3 können ϕ z ( t ) auch als "Efferenzkopie im weiteren Sinne", ϕ( t ) als "Gesamtafferenz" und d ϕ( t ) als "Exafferenz" interpretiert werden; mit dieser Bemerkung soll nochmals darauf hingewiesen werden, wie eng Sensorik und Motorik zusammenhängen, wie wenig sachgerecht eine Trennung 21 zwischen neuronalem Kontroller und kontrollierter Realität ist und wie physiologische und systemtheoretische Ansätze letzten Endes zu einer einheitlichen Sichtweise konvergieren. 4.2.2 Kontrolle der Zielbewegung eines zweigelenkigen Arms Das eingelenkige Arm-Modell der Abb.4.5 soll nun um ein weiteres Gelenk erweitert werden, wobei das ursprüngliche Gelenk (Gelenk 1) als Schultergelenk, das neue Gelenk (Gelenk 2) als Ellbogengelenk aufgefaßt wird. Physikalisch handelt es sich jetzt um ein Doppelpendel, von dem bekannt ist, daß es sich nur sehr schwer kontrollieren läßt. Der Grund dafür ist, daß sich die Beschreibung des Armverhaltens mittels seiner Werkzeugtransformation - und dadurch natürlich auch die Kontrolle des Arms - durch Hinzunahme eines zweiten Gelenks stark verkompliziert. In Abb.4.16 wird eine Zielbewegung mit solch einem Arm veranschaulicht, der zur Vereinfachung des Problems jedoch nur in einer Ebene beweglich sein soll. Die aktuelle Position P der Armspitze wird im Rahmen eines umgebungsbezogenen x-y-Koordinatensystems beschrieben, welches als Cartesisch angenommen wird. Weiter wird angenommen, daß das Individuum die Armspitze exterozeptiv - hier über das visuelle System - erfaßt und in einem internen Koordinatensystem lokalisiert, welches mit dem umgebungsbezogenen übereinstimmt. Die Armbewegungen selbst werden durch Drehungen im Schultergelenk und im Ellbogengelenk ausgeführt. Die betreffenden Drehwinkel sind jedoch im Rahmen eines körperzentrierten Koordinatensystems festgelegt. Wiederum wird angenommen, daß sowohl die Gelenkwinkel als auch die sie verstellenden Drehmomente propriozeptiv erfaßt werden und daß auch hier die sensorischen mit den physikalischen Meßwerten übereinstimmen. Abbildung 4.16 : Zweigelenkiger Arm Die Abb.4.17 gibt zunächst einen groben Überblick über den Funktionskreis, der einer Zielbewegung mit diesem Arm unterlegt werden kann. Eine Zielbewegung beginnt damit, daß eine gewünschte Position Pz im Rahmen des visuellen Koordinatensystem festgelegt wird. Aufgabe der Motorik ist es dann, die Armspitze von der aktuellen Position in die gewünschte Position zu überführen. Der motorische Apparat hat also muskuläre Drehmomente um die beiden Gelenkwinkel so zu erzeugen, daß die Armspitze in der gewünschten Weise versetzt wird. Abbildung 4.17 : Vereinfachter Funktionskreis von Werkzeugtransformation und ihrer Invertierung Die 'Werkzeugtransformation' wird wieder mit F bezeichnet und ist jetzt definiert als dasjenige Funktionselement, dessen Eingangsgröße der Vektor der muskulär erzeugten Drehmomente Q1 und Q2 um die Gelenke 1 und 2 ist und dessen Ausgangsgröße durch den Vektor des physikalischen Werkzeugeffekts repräsentiert wird. Der Werkzeugeffekt wird hier durch die cartesische Position P=(x,y) der Armspitze nach dem Ende der Bewegung wiedergegeben; denkbar sind aber auch in cartesischen Koordinaten ausgedrückte Geschwindigkeits- oder Beschleunigungsvektoren. Der neuronale Kontroller hat nun diejenigen muskulären Kräfte bereitzustellen, die das vorgegebene Ziel Pz verwirklichen. Dazu muß er die Werkzeugfunktion in inverser Form widerspiegeln. Das ist durch das Funktionssymbol S-1 angedeutet. Der vermittels S-1 berechnete Drehmomentvektor (Q1, Q2) wird dann dem Armsystem eingeprägt und veranlaßt die Armbewegung, dh. wird über die Werkzeugtransformation F in den Werkzeugeffekt umgesetzt. Der rückwärts von F nach S-1 verlaufende Pfeil deutet an, daß zu dieser Inversion eine Zustandsrückführung erforderlich ist, welche hier die auf die beiden Gelenke bezogenen Winkelpositionen und -geschwindigkeiten umfaßt. Die Doppelpfeile kennzeichnen wiederum zeitdiskrete (parallele), die dünnen zeitkontinuierliche (serielle) Arbeitsweise. Nach Bewegungsende können dann die gewünschte und die erreichte Position der Armspitze verglichen werden und der Fehler dP, wenn ungleich Null, ggf. zu Korrekturzwecken herangezogen werden. 4.2.2.1 Vorwärts-Kinematik und -Dynamik des zweigelenkigen Arms Um die auftretenden Kontrollprobleme eingehender zu veranschaulichen, sei die Werkzeugtransformation F des Arms zunächst in den kinematischen und den dynamischen Teil aufgespalten. In der Physik versteht man unter Kinematik die Beschreibung von Bewegungen mit Hilfe räumlicher Koordinaten und ihrer zeitlichen Ableitungen, also z.B. mit Hilfe von Größen wie Position, Geschwindigkeit und Beschleunigung (vgl. Pohl 1962 S.19). Bei mehrgliedrigen bewegten Körpern sind bei der Beschreibung der Einzelbewegungen und ihres Zusammenhangs insbesondere auch die geometrischen Beziehungen zwischen den Teilen zu berücksichtigen. Von der Kinematik zu unterscheiden ist die Dynamik, welche die Veränderungen der kinematischen Größen, welche das in Bewegung befindliche System beschreiben, unter der Wirkung von Kräften zum Gegenstand hat. Der Hinweis sei gestattet, daß in den Verhaltens- und Neurowissenschaften das Wort "dynamisch" zwar häufig benutzt, ihm allerdings selten auch eine entsprechend präzise Bedeutung zugeordnet wird. Wenn im folgenden 22 die Bezeichnungen Kinematik und Dynamik benutzt werden, so werden ihnen auschließlich die oben genannten physikalischen Bedeutungen unterlegt. Bleiben wir zunächst bei der Kinematik des Arms. Die Beschreibung seiner Bewegungen kann sowohl in cartesischen Koordinaten der Armspitze als auch in Winkelkoordinaten der beiden Gelenkwinkel geschehen. Der Zusammenhang beider Beschreibungssysteme ergibt sich auf rein geometrischer Basis aus der vektoriellen Addition der die Endpunkte von Ober- und Unterarm darstellenden Vektoren: x = l1 sin ϕ1 + l2 sin(ϕ1 + ϕ 2 ) y = l1 cos ϕ1 + l2 cos(ϕ1 + ϕ 2 ) (4.12) Die in diese Transformation eingehenden Variablen sind also die Winkelpositionen hinsichtlich der beiden Gelenke, während die Ausgangsgröße die von diesen Winkeln festgelegte cartesische Position (x,y) der Armspitze ist. Aus diesem Grunde sagt man auch, daß die Gleichungen (4.12) die Vorwärtskinematik des Arms festlegen. Der Teil der Werkzeugtransformation, welcher die Vorwärtskinematik beschreibt, soll im folgenden mit FK bezeichnet werden, eine geeignete Modellierung mit SK, entsprechende inverse Modelle mit SK-1. Unter der Dynamik - genauer: der Vorwärtsdynamik - des Arms sollen die Veränderungen der Winkelkoordinaten und ihrer zeitlichen Ableitungen unter dem Einfluß von Kräften verstanden werden. Hierunter zählen nicht nur die von aktivierten Muskeln und anderen Einflußgrößen ausgeübten "äußeren" Kräfte, also diejenigen Kräfte bzw. Drehmomente, welche dem mechanischen Armsystem von außen eingeprägt werden, sondern es müssen auch die "inneren" Kräfte berücksichtigt werden. Diese entstehen auch ohne Anwesenheit äußerer Kräfte allein dadurch, daß sich die Bewegungen von Ober- und Unterarm gegenseitig beeinflussen. Z. B. wird durch eine Drehung des Unterarms eine Zentrifugalkraft erzeugt, welche den Oberarm in Richtung Unterarm wegzieht, während umgekehrt der Unterarm durch eine Drehung des Oberarms eine Zentripetalkraft erfährt, welche den Unterarm in Richtung Oberarm treibt. Die Dynamik der Drehbewegungen des zweigelenkigen Arms um das Schultergelenk (Gelenk 1) und das Ellbogengelenk (Gelenk 2) wird mathematisch durch die folgenden beiden gekoppelten Differentialgleichungen beschrieben (vgl. Kalveram 1991b): 1 + Cϕ 2 − Dϕ 22 − 2Dϕ 1ϕ 2 − E + R1ϕ 1 + D1 (ϕ1 − ϕ 01) = Q1 Aϕ 2 + Cϕ 1 + Dϕ 12 Bϕ − F + R2ϕ 2 + D2 (ϕ 2 − ϕ 02 ) = Q 2 (4.13) Hierbei bedeuten: ϕ1, ϕ 2 : Winkelpositionen von Gelenk 1 (Schulter) und Gelenk 2 (Ellbogen) ϕ 01, ϕ 02 : mechanische Gleichgewichtslagen M =Trägheitsmoment des Armsegments i, bezogen auf Gelenk i (i=1,2) mi = Masse des Armsegments i li = Länge des Armsegments i ai = Abstand vom Gelenk i zum Schwerpunkt des Armsegments i A = M1 + M2 + m2l12 + l1a2m2 cos ϕ2 B = M2 C = M2 + l1a2m2 cos ϕ2 D = + l1a2m2 sin ϕ2 E = g(a1m1+l1m2).sin(ϕ1-ϕg) + g a2m2.sin (ϕ1+ϕ2-ϕg) F = + g a2m2.sin (ϕ1+ϕ2-ϕg) Ri = Reibungskoeffizient (visköse Dämpfung), Di = Federsteifigkeit, g = 9.81 N/kg (Gravitationskonstante), ϕg = Richtung der Schwerkraft mit Bezug auf den Körper Qi = Drehmoment um Gelenk i (Kraft mal Kraftarm), ausgeübt vom Kontroller auf den Arm. (i=1, 2) Diese gekoppelten Differentialgleichungen beschreiben also das dynamische Verhalten des Arms. Zu beachten ist, daß der Bewegungszustand des Systems 'Arm' nunmehr durch die Winkelpositionen ϕ1, ϕ 2 und die 23 1, ϕ 2 gegeben ist. Die oben erwähnten Wechselwirkungen zwischen den Winkelgeschwindigkeiten ϕ Armsegmenten drücken sich dadurch aus, daß in der Gleichung für den Oberarm (erste Zeile) die Winkelbeschleunigung und die Zustandsgrößen des Unterarms (zweite Zeile) auftreten und umgekehrt: Der Koeffizient C kennzeichnet die beiden Terme, welche den Kopplungen über die reaktiven Trägheitskräfte Rechnung tragen. Die beiden Terme mit dem Koeffizienten D stellen Zentrifugal- bzw. Zentripetalkräfte dar, der Term mit dem Koeffizienten 2D die Coriolis-Kraft, die auftritt, wenn eine Drehbewegung mit Bezug auf ein ebenfalls sich drehendes Koordinatensystem ausgedrückt wird. Die Terme E und F vermitteln Einflüsse und Kopplungen, die durch die Schwerkraft entstehen. Die Terme mit den Koeffizienten R1, R2 und D1, D2 schließlich entsprechen den schon in Gleichung (4.1) eingeführten und dort mit R und D bezeichneten Dämpfungs- und Federmomenten. Der Teil der Werkzeugtransformation F, welcher die Vorwärtsdynamik beschreibt, soll im folgenden mit FD abgekürzt werden, eine geeignete Modellierung mit SD, entsprechende inverse Modelle mit SD-1. Um die Vorwärtsdynamik des Arms im expliziter Darstellungsweise zu erhalten, z.B. in der Form 1, ϕ 2 ) = FD ( Q1, Q 2 ) , müßte man die Gleichungen (4.13) formal nach den Beschleunigungen der beiden (ϕ Gelenkwinkel auflösen. Dieses ist jedoch für den allgemeinen Fall in geschlossener Form so nicht zu erreichen, für die hier angestellte Analyse aber auch nicht erforderlich. Die Abb.4.18 zeigt, wie man sich, ausgehend von der Bewegungskontrolle beim eingelenkigen Arm (s. Abb.4.13) die neuronale Kontrolle einer Zielbewegung mit einem zweigelenkigen Arm vorstellen kann. Im unteren Teil der Abb.4.18 ist dargestellt, wie Vorwärtsdynamik FD und Vorwärtskinematik FK kombiniert werden können, um die komplette Werkzeugtransformation zu erhalten. Die neuronale Kontrolle der Zielbewegung erfordert dann den Einsatz von inversen Modellen dieser Werkzeug-Teiltransformationen. Wie dies im Prinzip gemacht werden kann, ist im oberen Teil der Abb.4.18 zu erkennen: Abbildung 4.18 : Zweigelenkiger Arm und seine Kontrolle Sobald die gewünschte cartesische Zielposition Pz=(xz, yz) der Armspitze vorgegeben ist, hat der Organismus das Problem, solche Muskelkräfte bzw. Drehmomente Q1, Q2 zu finden, welche die Gelenkwinkel so verstellen, daß nach Ablauf der Bewegungsdauer T die gewünschte Position der Armspitze verwirklicht ist, d.h. die Beziehungen x=xz und y=yz gelten. Hierzu werden die gewünschten cartesischen Zielkoordinaten zunächst in das Modul 'Inverse Kinematik' (SK-1) eingegeben, welches die zugehörigen Zielwinkel ϕ1z , ϕ 2z bestimmt. ϕ1( 0 ), ϕ 2 ( 0 ) erhält man daraus die Ziel-Diskrepanzen δϕ1, δϕ 2 , welche ensprechend (4.9) in die beiden Beschleunigungsmuster-Generatoren CPG1 und CPG2 Durch Subtraktion der Winkel-Ausgangspositionen eingegeben werden. Nach Wahl der Periodenlänge T emittieren diese die gewünschten Beschleunigungsmuster 1z ( t ) und ϕ 2z ( t ) . Ab dieser Stelle beginnt die serielle (zeitkontinuierliche) Verarbeitung. Die gewünschten ϕ Beschleunigungen bilden den Input für das Modul mit der Bezeichnung 'Inverse Dynamik' (SD-1). Dieses Modul wiederum ermittelt daraus unter Zuhilfenahme der rückgeführten aktuellen Zustandsvariablen ϕ1, ϕ 2 und ϕ 1, ϕ 2 die muskulären Drehmomente Q1, Q2 , die auf den Arm einwirken und von der Vorwärts-Dynamik 1, ϕ 2 umgesetzt werden. Bei fehlerfreier Arbeitsweise der zunächst in die aktuellen Winkelbeschleunigungen ϕ inversen Dynamik gilt ϕ1 = ϕ1z , ϕ 2 = ϕ 2z . Auf physikalischem Wege ein- bzw. zweimalig integriert ergeben 1, ϕ 2 bzw. sich aus den Beschleunigungen die zugehörigen aktuellen Winkelgeschwindigkeiten ϕ Winkelpositionen ϕ1, ϕ 2 , also der Zustand des Armsystems, ausgedrückt in körperzentrierten Koordinaten, von denen hier angenommen wird, daß sie mit den propriozeptiv ermittelten Werten übereinstimmen. Auf die Darstellung der Möglichkeit, die Zustandgrößen aus dem output der Mustergeneratoren vorherzusagen, wurde hier aus Gründen der Übersichtlichkeit verzichtet. Der Funktionsblock mit der Bezeichnung 'physikalische und sensorische Integration' führt eine Serien-ParallelWandlung durch. De facto bedeutet das hier, daß aus der zeitlichen Abfolge der Winkelwerte die Anfangspositionen ϕ1( 0 ), ϕ 2 ( 0 ) und Endpositionen ϕ1( T ), ϕ 2 ( T ) herausgefiltert und für eine zeitdiskrete Verarbeitung zur Verfügung gestellt werden. Die Serien-Parallel-Wandlung reduziert also den Bewegungsverlauf wieder auf die Anfangs- und Endpunkte der Bewegung. Die Vorwärts-Kinematik transformiert sodann die so erhaltenen Winkel in die aktuelle Position P=(x,y) der Armspitze. Die Anfangspositionen der Gelenkwinkel werden, wie schon schon beim eingelenkigen Arm beschrieben, zur Berechnung der Zielddiskrepanzen benutzt, die Endpositionen können nach Subtraktion von den Zielwinkeln Fehlerwerte dϕ1 und dϕ2 liefern, die entsprechend Abb.4.13 zur Adjustierung der Parameter p1 und p2 des amplitudenbestimmenden Netzwerkes herangezogen werden können, welches den Mustergeneratoren vorgeschaltet ist. Weggelassen in Abb.4.17 ist der Vergleich der Cartesischen Ziel- und Endpositionen zur Ermittlung von Fehlerwerten dx=xz-x(T), dy=yz-y(T), die ggf. für weitere Parameteradjustierungen benutzt werden können. 24 4.2.2.2 Reflexanaloge Verarbeitung und inverse Dynamik des zweigelenkigen Arms 1 = ϕ 1z , ϕ 2 = ϕ 2z . Bezogen Bei fehlerfreier Arbeitsweise der inversen Dynamik gelten die Beziehungen ϕ auf die Differentialgleichung (4.13), welche die Physik des zweigelenkigen Arms beschreibt, bedeutet dies, daß die muskulären Drehmomente Q1, Q2 so bestimmt werden müssen, daß in jedem Moment alle Terme auf der linken Seite - mit Ausnahme der mit A und B beginnenden - genau kompensiert werden. Ähnlich wie beim eingelenkigen Arm (s. 4.4), kann man also auch hier den Ansatz Q1( t) = Q1M ( t) + Q1K ( t) Q 2 ( t) = Q 2M ( t) + Q 2K ( t) machen, wobei 1z ( t) = Q1M ( t) M'1 ⋅ ϕ 2z ( t) = Q 2M ( t) M'2 ⋅ϕ (4.14) die auf den Mustergenerator zurückgehenden Drehmomente zur Überwindung der Trägheitsmomente von Oberund Unterarm bedeuten. Gelingt es also, die kompensierenden Drehmomente Q1K, Q2K im Rahmen der inversen Dynamik hinreichend genau einzustellen, so sind aus der Sicht der beiden Mustergeneratoren (CPG1 und CPG2) weder Schwerkraft-, Dämpfungs- und Federkräfte zu berücksichtigen, noch auch Wechselwirkungen zwischen den Gliedmaßen. Bei richtiger Einstellung auch der Trägheitsmomente der beiden Armsegmente können diese dann von den Mustergeneratoren angesteuert werden, als ob sie unabhängig voneinander wären und auch keine Trägheitskräfte auf sie wirken würden. Abbildung 4.19 Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm. (Modifiziert nach Kalveram 1991b) Wie die on-line erfolgenden Berechnungen und Verrechnungen der Signale hierfür aussehen müssen, ist in Abb.4.19 dargelegt. Die mit "+" gekenzeichneten ovalen Summiereinheiten erzeugen die muskulären Drehmomente Q1 und Q2, also den Motor-Output. An den Außenseiten links und rechts ist jeweils die Kompensation für die mechanische Dämpfung und die mechanische Federkraft zu erkennen. Zwischen den Summiereinheiten ist die Verschaltung angeordnet, welche die Rückwirkungen eines Gelenks auf das jeweils andere kompensieren. Die Berechnung der Koeffizienten A-F, die gemäß (4.13) von den Winkelpositionen der Armsegmente abhängen, geschieht in der unteren mit GC-Netzwerk bezeichneten Einheit. 4.2.2.3 Erlernen der inversen Dynamik durch Auto-Imitation Es liegt nahe, die Werkzeugtransformation, insofern als sie als Hintereinanderschaltung von Vorwärtskinematik und Vorwärtsdynamik angesetzt ist, entsprechend auch in zwei Schritten zu invertieren. Als erste Teiltransformation muß dann die inverse Dynamik erworben werden. Dieses kann, wie bereits in Abb.4.4a angedeutet wurde, mittels Auto-Imitation geschehen. Das Blockdiagramm in Abb.4.20 zeigt, wie dieser Lernalgorithmus hier im Prinzip anzusetzen ist. In der Lernphase befinden sich die Schalter in Stellung 1. Abbildung 4.20 : Erwerb der inversen Dynamik des zweigelenkigen Arms. Die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 treiben einerseits den Arm zu irgendwelchen Bewegungen an und werden andererseits dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die an den beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung, geschwindigkeit und -position gelangen in den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und Positionswerte dienen dabei der Zustandsrückführung, welche sowohl in der Lern- als auch der späteren Aktivitätsphase erforderlich ist, während die aktuellen Beschleunigungswerte später durch die Zielbeschleunigungen ersetzt werden. Die von oben herangeführte Variable ϕg symbolisiert wechselnde Winkel mit der Schwerkraftrichtung während des Lernens. Da die Beziehung zwischen den Drehmomenten um die Gelenkwinkel und den erzeugten Winkelbeschleunigungen nicht umkehrbar eindeutig ist, kann bei der Berechnung der inversen Dynamik auf die Zustandsrückführung und die Orientierung zur Schwerkraftrichtung nicht verzichtet werden. War der Lernvorgang erfolgreich, so können die Schalter in die Stellung 2 gebracht werden. Der Kontroller ist dann in der Lage, zu beliebigen Zielbeschleunigungen Drehmomente so zu finden, daß die tatsächlichen Beschleunigungen gleich den gewünschten sind und der Arm auch bei Veränderungen der Orientierung des Körpers zur Schwerkraftrichtung automatisch im Gleichgewicht gehalten wird. Hierbei wird angenommen, daß sowohl in der Lernphase als auch in der anschließenden Aktivitätsphase hinsichtlich der 25 relevanten Signale relative Gleichzeitigkeit herrscht, also Verzögerungen der peripheren Meldungen zu vernachlässigen sind. Ist dies nicht der Fall, so muß, ähnlich wie schon beim eingelenkigen Arm ausgeführt wurde, in der Lernphase das Motorsignal des blinden Lehrers vor Eingabe in den Lerneingang verzögert werden und in der Aktivitätsphase auf predicted feedback der Zustandsgrößen des Arms zurückgegriffen werden. Der neuronale Kontroller muß, sollen die Bewegungen hinreichend genau sein, die inverse Dynamik sehr präzise repräsentieren. Backpropagation Netzwerke sind dazu jedoch nicht in der Lage, wohl aber das bereits erwähnte Potenzierungsnetzwerk (Power Network; Kalveram 1993). Dieses ist ein dreilagiges feedforward Netzwerk mit festen synaptischen Gewichten in der hidden layer und plastischen Gewichten in der output layer. Wenn q die Anzahl der Neurone in der Eingangschicht bedeutet und p eine weitere natürliche Zahl ist, so berechnet jeder Knoten i (i=1,2,...,N) in der hidden layer einen Ausdruck der Form yi = x1r ⋅ x2s ⋅.... ⋅ xqt (r, s, t: natürliche Zahlen mit r+s+t≤p) , wobei die xl (l=1,2,...,q) die von den q Eingangsneuronen gelieferten Werte und yi den output des Knotens i bedeuten. Die Knoten der Zwischenschicht berechnen also die Produkte aus potenzierten Eingangsvariablen. In der Terminologie der Abb.1.5 handelt es sich bei diesen Knoten daher um Multiplizier-Einheiten, bei denen die synaptischen Gewichte als Exponenten interpretiert werden. Der output zj des output Neurons j (j=1,2,...,k) ist dann definiert als N zj = ∑ w i j ⋅ yi , (j=1,2,...,k) , i=1 wobei die wij die synaptischen Gewichte der k Neuronen der output layer repräsentieren. Diese Neuronen berechnen also die gewichtete Summe der Produkte, welche von der hidden layer angeliefert werden. Dieser Netzwerktyp repräsentiert damit k Potenzreihen der Dimension q und der Ordnung p, bei denen die synaptischen Gewichte wij als Koeffizienten als interpretiert werden. Der Lernvorgang beschränkt sich dann auf die Bestimmung dieser Koeffizienten. Abbildung 4.21 : Potenzierungsnetzwerk, die inverse Dynamik des zweigelenkigen Arms repräsentierend. Die Abb.4.21 zeigt ein Beispiel für ein solches Potenzierungsnetzwerk. Es berechnet die inverse Dynamik des zweigelenkigen Arms. Die Sinus- und Cosinus-Funktionen sind dabei zu Teilnetzwerken zusammengefaßt, welche man aber ebenfalls als Potenzreihen darstellen kann. Wie schon in der Abb.4.8 angedeutet, reicht es hierzu, die Reihen jeweils nach drei Gliedern abzubrechen, für den Sinus also nach der 5. Potenz und für den Cosinus nach der 4. Potenz. Im Prinzip können die Knoten für die trigonometrischen Funktionen natürlich ebenfalls noch in die Zwischenschicht eingearbeitet werden, wodurch sich jeder Knoten, der eine solche Funktion beansprucht, in drei Knoten aufsplittert. Zur Bestimmung der synaptischen Gewichte der Neuronen der output layer muß wiederum eine simultane Lernregel herangezogen werden, ähnlich wie dies schon beim eingelenkigen Arm mittels eines überbestimmtes inhomogenes Gleichungsystem nach Art von (4.11) oder mittels eines Relaxationsverfahrens nach Art von (4.13) und Abb.4.11 geschah. Wie in Computersimulationen gezeigt wurde, kann das geschilderte Verfahren die Parameter des mechanischen Systems sehr genau identifizieren, wenn die relative Gleichzeitigkeit der zu verarbeitenden Signale gewährleistet ist und die Signale selbst frei von Meßfehlern sind. Für nähere Einzelheiten muß jedoch hier auf Kalveram (1991b und 1993b) verwiesen werden. 4.2.2.4 Erlernen der inversen Kinematik durch Auto-Imitation. Nach der Etablierung der inversen Dynamik kann das Erlernen der inversen Kinematik in Angriff genommen werden. Das kann wiederum im Rahmen eines Auto-Imitations-Algorithmus stattfinden, wie in Abb.4.22 angedeutet wird: Abbildung 4.22 : Erwerb der inversen Kinematik des zweigelenkigen Arms In der Lernphase sind, ähnlich wie in Abb.4.20, die Schalter in Stellung 1. Der blinde Lehrer gibt diesmal willkürlich Winkelpositionen ϕ'1 und ϕ'2 vor, welche einerseits in den Lerneingang des neuronalen Kontrollers gelangen, andererseits von der inversen Dynamik als Zielwinkel aufgefaßt und über die entsprechende Ansteuerung der Mustergeneratoren CPG1 und CPG2 (s. Abb.4.18) verwirklicht werden. Dieser Verarbeitungsschritt ist in Abb.4.22 jedoch nicht eigens veranschaulicht. Die Vorwärtskinematik setzt die aktuell erzeugten Winkel dann in die zugehörigen aktuellen cartesischen Koordinaten x, y der Armspitze um, welche, visuell rückgemeldet, dem Normaleingang des Kontrollers zugeführt werden. Beim zweigelenkigen Arm ist die Beziehung zwischen den Gelenkwinkeln und den cartesischen Koordinaten der Armspitze umkehrbar eindeutig, 26 so daß weitere Eingangsvariablen zur Invertierung der Kinematik hier nicht benötigt werden. Den Kontroller denke man sich wieder repräsentiert durch ein Potenzierungsnetzwerk, das mit Hilfe einer simultanen Lernregel ähnlich wie oben trainiert wird. Schon mit 16 Knoten in der hidden layer erhält man auf diese Weise eine sehr genaue Annäherung an die inverse Kinematik (Kalveram 1993a). 4.2.2.5 Einbettung der Steuerung durch inverse Modellierung in Regelkreise Auch beim zweigelenkigen Arm muß die Steuerung durch die inverse Modellierung der Werkzeugtransformation durch Regelungsvorgänge ergänzt werden, um die Steuerungsprozesse an die Wirklichkeit anzubinden. Nimmt man an, daß das Model der inversen Dynamik richtig angelegt ist, so können dieselben Regelkreise hinzugefügt werden, die bereits beim eingelenkigen Arm vorgeschlagen worden waren (s. Abb.4.15), nur muß jeder der dort eingezeichneten drei Regelkreise jetzt zweimal angesetzt werden, und zwar sowohl für das Schultergelenk 1z ( t ), ϕ1z ( t ) und ϕ1( t ) als auch für das Ellbogengelenk hinsichtlich hinsichtlich ϕ ϕ 2z ( t ), ϕ 2 z ( t ) und ϕ 2 ( t ). 4.2.3 Kontrolle der Zielbewegung eines dreigelenkigen Arms Die Erweiterung des zweigelenkigen Armmodells der Abb.4.16 um ein drittes Gelenk - z.B. ein Handgelenk bringt gegenüber dem zweigelenkigen Arm weitere Komplikationen, weil auch die umkehrbare Eindeutigkeit der Vorwärtskinematik noch verlorengeht. Dh. dieselbe cartesische Position der Armspitze kann nunmehr durch verschiedene Kombinationen der drei Gelenkwinkel realisiert werden. Dies verhindert zunächst einmal die Invertierung der Vorwärtskinematik. Abbildung 4.23 : Dreigelenkiger Arm Bei der Dynamikkontrolle hingegen treten keine prinzipiell neuen Probleme auf, wenn man einmal davon absieht, daß nunmehr drei gekoppelte Differentialgleichungen erforderlich sind, um die physikalischen Vorgänge zu beschreiben, und daß die Anzahl der Möglichkeiten für Wechselwirkungen zwischen den einzelnen Armsegmenten erheblich zunehmen: Entsprechend zusammengefaßt, treten in jeder dieser Differentialgleichungen etwa 15 Terme nach Art von (4.13) auf. Im Prinzip aber kann zur Invertierung der Dynamik wieder die Auto-Imitation mit entsprechender Zustandsrückführung herangezogen werden. Wie Simulationsexperimente gezeigt haben (Kalveram & Natke 1996), kann ein Modell der inversen Dynamik auf diese Weise tatsächlich erstellt werden, nach dessen Etablierung die Armsegmente - wie schon im zweigelenkigen Fall - angesteuert werden können, als ob sie trägheitslos und unabhängig voneinander wären, weil die Interaktionsmomente kompensiert werden. Auf die eingehendere Behandlung der Dynamik des dreigelenkigen Arms und ihrer Invertierung soll daher verzichtet werden. 4.2.3.1 Das Problem der redundanten Vorwärtskinematik Die Vorwärts-Kinematik des dreigelenkigen Arms der Abb.4.23 wird durch die folgenden beiden Formeln dargestellt: x = l1 sin ϕ 1 + l2 sin(ϕ 1 + ϕ 2 ) + l3 sin(ϕ 1 + ϕ 2 + ϕ 3 ) y = l1 cosϕ 1 + l2 cos(ϕ 1 + ϕ 2 ) + l3 cos(ϕ 1 + ϕ 2 + ϕ 3 ) (4.15) Hier tritt ein Problem in den Vordergrund, welches uns - wenngleich in weniger auffälliger Weise - bereits beim eingelenkigen Arm begegnet ist, nämlich das Redundanzproblem: Beim eingelenkigen (und natürlich auch beim zweigelenkigen) Arm besteht es darin, daß nach (4.9) Amplitude und Periodenlänge der emittierten ZielBeschleunigung sich gegenseitig vertreten können, so daß bei jeder Bewegung vorab entschieden werden muß, welche Periodendauer z.B. zugrunde zu legen ist. Eine weitere Redundanz ist durch die Formgebung des Beschleunigungsmusters gegeben: Unendlich viele verschiedene Muster nämlich führen über entsprechend viele verschiedene Bewegungen zum gleichen Ziel, wenn nur die Impulsbedingung (4.5) erfüllt ist. Beim dreigelenkigen Arm schließlich kann dieselbe cartesische Position der Armspitze durch unendlich viele verschiedene Kombinationen der drei Gelenkwinkel erzeugt werden. Bei jeder Zielbewegung muß daher eine Entscheidung darüber getroffen werden, welche dieser Kombinationen realisiert werden soll. Die folgenden Ausführungen sollen am Beispiel des dreigelenkigen Arms zeigen, wie man sich das Zustandekommen dieser Entscheidungen vorstellen kann. 27 In der Literatur sind diese Redundanz-Phänomene allgemein unter der Bezeichnung "Motorvariabilität bei Zielinvarianz" bekannt. Hiermit wird die allgemein bekannte Beobachtung umschrieben, daß bei Bewegungen zum selben Ziel diese von Wiederholung zu Wiederholung unterschiedlich ausfallen, ohne daß die Zielgenauigkeit sich verändert. In den folgenden Ausführungen soll unter anderem gezeigt werden, daß dieses Phänomen mit einem anderen in Zusammenhang steht, nämlich damit, daß Bewegungen im Übungsverlauf optimiert werden können, z.B. im Hinblick auf minimalen Energieaufwand, minimales Rucken, möglichst gerade Bahn der Armspitze, maximale Bequemlichkeit der Endstellung der Gliedmaßen usw.. Die Variabilität von Bewegungen ist eine notwendige Voraussetzung für deren Optimierung! 4.2.3.2 Redundanzerzeugung beim dreigelenkigen Arm Für den dreigelenkigen Arm ergibt sich nach Auswahl eines exterozeptischen Bewegungsziels xz, yz die Notwendigkeit, entsprechend dem anzuwendenden Kriterium die erforderlichen Drehungen auf die drei Gelenkwinkel nach einer geeigneten Regel zu verteilen. ϕ3=2.ϕ2,, ϕ3=1 oder ϕ1+ϕ2=ϕ3 sind Beispiele für Regeln, welche zu einer solchen Redundanzerzeugung herangezogen werden können. Wie kann man sich einen entsprechenden Generator und seine Programmierung vorstellen? Abbildung 4.24 : redundanzerzeugende inverse Kinematik Zur Beantwortung dieser Frage soll von der Abb.4.24 ausgegangen werden. Hier wird zunächst angenommen, daß die inverse Dynamik bereits gelernt wurde. Oben in Abb.4.24 wird zunächst die gewünschte cartesische Position xz, yz in den gestrichelt umrandeten Block eingegeben, welcher die globale Bezeichnung 'Inverse Kinematik' trägt. Im Gegensatz zu Abb.4.18 ist dieser Block jedoch in zwei Untereinheiten aufgespalten, welche die Bezeichnungen 'nicht-redundante inverse Kinematik' und 'Redundanzgenerator' tragen. Die nicht-redundante inverse Kinematik bezieht sich auf eine Kinematik, bei welcher keine Mehrdeutigkeit zwischen Eingangs- und Ausgangsvariablen besteht. Dies wird dadurch erreicht, daß die Zahl der ausgegebenen Winkel auf zwei eingeschränkt wird, welche mit β1 und β2 bezeichnet sind und die einem fiktiven zweigelenkigen Arm zugeordnet sind. Beispielsweise können β1 und β2 - bei konstant gehaltenem Handgelenkwinkel - als Schulter- und Ellbogengelenkwinkel interpretiert werden, wobei die Fingerspitze auf die entsprechende cartesische Position zeigt. Ändert sich der Handgelenkwinkel, so ändern sich auch die beiden Winkel β1 und β2, dh. es kommt eine andere Formel für die nicht-redundante Vorwärtskinematik zu Anwendung. β1 und β2 werden in den Redundanzgenerator gegeben, welcher daraus die drei Zielwinkel 1z, 2z, 3z nach der Formel ϕ1z c11 c12 ß1 ϕ 2 z = c21 c22 ∗ ß 2 ϕ 3 z c31 c32 mit C = {cij} . (4.16) bestimmt. Die Matrix C wird im weiteren als "Koordinationsmatrix" bezeichnet, ihre Elemente cij (i=1,2; j=1,2,3) als "Koordinationskoeffizienten". Eine Transformation gem. (4.16) könnte, wenn ein Wechsel der Koordinationskoeffizienten nicht erforderlich ist, von einem zweischichtigen feedforward Netz durchgeführt werden, in welchem die cij die synaptischen Gewichte von drei Ausgangsneuronen darstellen. Ein sehr einfacher Satz von Koeffizienten wäre z.B. c11=c21=1, c12=c22=c31=0, c32=c, welche zu den Zielwinkeln ϕ1z=ß1, ϕ2z=ß2 und ϕ3z=c. ϕ2z führen. Es ist aber auch denkbar, daß die Koordinationskoeffizienten über absteigende Bahnen in die Modellierung der inversen Kinematik eingeschleust werden, was eine schnelle Anpassung der Bewegungsausführung an wechselnde Anforderungen ermöglichen würde. Die Koordinationskoeffizienten werden nicht nur dem Redundanzgenerator zur Verfügung gestellt, sondern auch in die Modellierung der nichtredundanten inversen Kinematik eingegeben, wo sie dazu dienen, dasjenige Modell der inversen Kinematik zu selegieren und zu aktivieren, welches der vom Redundanzgenerator momentan angewendeten Formel entspricht. Der Redundanzgenerator erzeugt also eine spezifische Abhängigkeit zwischen den drei Gelenkwinkeln, welche durch den zur Anwendung gekommenen Koeffizientensatz cij gekennzeichnet wird, während der vorgeschaltete Block die dazu passende inverse Kinematik bereitstellt. In diesem Sinne kann man sagen, daß diese Koeffizienten eine bestimmte 'koordinative Struktur' repräsentieren, welche von anderen Ursachen für eventuelle Abhängigkeiten zwischen den Gelenkwinkeln, z.B. den physikalisch bedingten Interaktionen, unterschieden werden kann. Die weitere Verarbeitung der vom Redundanzgenerator ausgegegenen Zielwinkel geschieht analog zum zweigelenkigen Arm (vgl. Abb.4.13) und bedarf daher keiner weiteren Erläuterung mehr. 28 4.2.3.3 Erlernen der Kontrolle redundanter Freiheitsgrade durch Auto-Imitation Das Problem bei der Anwendung der Redundanzerzeugung nach Formel (4.16) ist, daß jede Regel das Bereitstellen einer genau darauf abgestimmten nicht-redundanten inversen Kinematik erfordert. Wie können solche inversen Kinematiken gelernt werden? Die Antwort soll anhand der Abb.4.25 gegeben werden, in welcher der entsprechende Lernvorgang skizziert ist. Abbildung 4.25 : Lernen des passenden inversen Modells bei redundanter Vorwärtskinematik Wie immer beim auto-imitativen Lernen, gibt der blinde Lehrer willkürliche Bewegungskommandos ab, die einerseits dem Lerneingang der zu trainierenden Einheit zugeführt werden, andererseits den betreffenden Bewegungsapparat zu Bewegungen anregen, deren sensorisch erfaßte Wirkungen in den Normaleingang der zu trainierenden Einheit gegeben werden. In diesem Falle bestehen die Bewegungskommandos aus den (fiktiven) Gelenkwinkeln β'1, β'2, aus denen der Redundanzgenerator unter Anwendung der momentan aktuellen Koordinationsmatrix C die drei Zielwinkel ϕ1z, ϕ2z, ϕ3z erzeugt. Gleichzeitig werden die Koordinationskoeffizienten cij der Matrix C auch der zu trainierenden Einheit an zusätzlichen Normaleingängen zur Verfügung gestellt. Die cij erhalten so den Charakter von Zustandsvariablen, welche nach dem Lernen jenes Modell der inversen Kinematik adressieren, welches exakt der vom Redundanzgenerator jeweils angewendeten Formel zur Berechnung der Zielwinkel entspricht. 4.2.3.4 Ein Simulationsexperiment zur Invertierung einer redundanten Vorwärtskinematik In einem Simulationsexperiment (Kalveram & Natke 1996) wurde die durch (4.15) gegebene Vorwärtkinematik zu Grunde gelegt. Die Längen der drei Armsegmente wurden gleich 1 gesetzt. Die BeschleunigungsmusterGeneratoren CPG1, CPG2 und CPG3 wurden, ebenso wie die inverse Dynamik, als bereits etabliert angenommen. Zur Implementation des Modells der nicht-redundanten inversen Kinematik wurde wieder das Potenzierungsnetzwerk (Kalveram 1993a) benutzt, als simultane Lernregel die ebenda beschriebene LSQ-Regel. Trainiert wurde das Netz im Rahmen des Auto-Imitations-Algorithmus der Abb.4.25. Für die vom Redundanzgenerator angewendete Formel gem. (4.16) wurden die Koordinationskoeffizienten zu c11=c21=1, c12=c22=c31=0, c32=c (0<c<1) gewählt, was zu den Zielwinkeln ϕ1z=ß1, ϕ2z=ß2 und ϕ3z=c. ϕ2z führte. Dieses sehr einfache Koordinationsmodell hat also nur einen Parameter, nämlich c, was aber zur Demonstration der Richtigkeit der Überlegungen ausreicht. Eingangsvariable des Netzwerks waren die cartesischen Positionen x und y der Armspitze sowie die Größe c, Ausgangsvariable die beiden fiktiven Gelenkwinkel β1 und β2. In der Lernphase wurde pro Schritt zunächst ein Zufallswert für c, gleichverteilt im Intervall [0,1], gewählt. Sodann wurde ein Paar von fiktiven Winkeln β'1, β'2 erzeugt, welche in den Lerneingang des Netzwerks gegeben wurden. Dieselben Winkel wurden vom Redundanzgenerator mittels der Formel (4.16) in die Zielwinkel ϕ1z, ϕ2z, ϕ3z umgerechnet und über die Vorwärtskinematik (4.15) die zugehörige cartesische Position x, y bestimmt. x und y wurden dann zusammen mit dem gewählten Wert für c in den Normal-Eingang des Netzwerkes gegeben. Die Zwischenschicht des Netzwerks 2 2 2 2 bestand aus 26 Knoten, welche den Ausdrücken x, y, c, xy, yc, xc, x2, y2, c2, xyc, x y, ..., x y c entsprachen. . Bei zwei Ausgangs-Neuronen sind dann die insgesamt 2 26=52 Koeffizienten dieser Ausdrücke, interpretiert als Synapsenstärken der Ausgangsneuronen, zu bestimmen. Die dazu verwendete LSQ-Regel ist eine simultane Lernregel, welche erfordert, daß ein ganzer Block von Trainingsvektoren gleichzeitig zur Verfügung steht. Im vorliegenden Fall bestand ein solcher Trainingsvektor aus den beiden zufällig ausgewählten fiktiven Gelenkwinkeln β'1, β'2, dem Zufallswert für c und der daraus resultierenden Position x,y der Armspitze. Um den ausnutzbaren Variationsbereich für die die Armspitze möglichst groß zu machen, ohne daß die Zahl der Trainingsvektoren dabei ins Uferlose wuchs, wurde im Bereich 0,5≤x≤2 und -2,5≤y≤-0,5 ein Trainingsgitter von 10 mal 10 Punkten in der x-y-Ebene festgelegt. Jedoch nur dann, wenn für ein Tripel β'1, β'2, c die zugehörigen Werte für x und y um weniger als 0,1 von einem dieser Gitterpunkte abwich, wurde der betreffende Trainingsvektor beibehalten. Auf diese Weise wurden aus einer großen Zahl von potentiellen Trainingsvektoren 100 ausgewählt, welche auf die in Abb.4.26a eingezeichneten Positionen wiesen. Mitttels dieser 100 Vektoren wurden dann die Synapsenstärken berechnet. Abbildung 4.26 : Simulationsexperiment zum Erlernen einer redundanten Kinematik des dreigelenkigen Arms. Um die Güte der so bestimmten Modellierung der inversen Kinematik zu demonstrieren, wurde ein Testgitter von 21 mal 21 cartesischen Zielpunkten definiert, welche mit Ausnahme der vier Eckpunkte an keiner Stelle mit den Gitterpunkten des Trainingsgitters übereinstimmten. Unter Anwendung des vorher gelernten Modells der 29 inversen Kinematik wurden nun für c=0, c=0,5 und c=1 Punkte des Testgitters als Ziele eingegeben und mit den tatsächlich getroffenen Positionen verglichen. Die Abb.4.26 b1-b3 zeigen, daß die Fehler ziemlich klein sind, was bedeutet, daß das erworbene Modell recht gut ist. Nur in der Ecke x=0,5, y=-0,5) ist der Fehler relativ groß, besonders für c=0. Der Grund hierfür ist, daß diese Ecke bei gestrecktem Handgelenk nur bei sehr großem Ellbogengelenkwinkel (nahe an π) erreicht werden kann. Man kann vermuten, daß für solche Fälle die Approximation des inversen Modell bei den im Netzwerk vorgegebenen höchsten Potenzen nicht genau sein kann. Mehr Terme mit höheren Potenzen sollten daher eine bessere Genauigkeit bringen. 4.2.3.5 Bewegungsoptimierung und motorische Variabilität bei Zielinvarianz Die beschriebene Kontrolle von Bewegungen mit redundanten Freiheitsgraden impliziert auch eine Möglichkeit für die eingangs schon erwähnte Bewegungsoptimierung. Hierzu kann ein sog. Evolutionsalgorithmus angesetzt werden. Voraussetzung dafür ist, daß ein Optimierungskriterium gegeben ist und für eine durchgeführte Bewegung an Hand dieses Kriteriums angegeben werden kann, ob man sich verbessert oder verschlechtert hat. Dann können die zur Anwendung kommenden Koordinationskoeffizienten vor der Ausführung einer neuen Zielbewegung einer Zufallsvariation unterworfen werden. Diese bewirkt, daß die Bewegungen zwar alle unterschiedlich sind, aber dennoch - eben wegen der speziellen Art der Redundanzerzeugung - alle ihr Ziel erreichen. Ergibt sich dabei eine Annäherung an das Optimum, so müssen nun die Koeffizienten, die zu dieser Verbesserung geführt haben, die vorigen Koeffizienten ersetzen. Auf diese Weise sollte es möglich sein, für einen bestimmten Zweck im Laufe vieler Wiederholungen eine Koordinationsmatrix mit optimierten Eigenschaften zu finden. Abbildung 4.27 : Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten Die Abb.4.27 zeigt eine Möglichkeit, wie unter Benutzung eines neuronalen Netzes mit feedforward Architektur sogar für unterschiedliche Situationen mit unterschiedlichen Optimalitätskriterien die geeigneten Koordinationskoeffizienten gelernt und vorgehalten werden können. Den Eingang dieses Netzes bilden Parameter, welche die jeweilige Situation, besser: das zur Anwendung vorgesehene Kriterium, kennzeichnen. Am Ausgang des Netzes wird die Matrix mit dem für diesen Zweck in der Vergangenheit erarbeiteten Satz von Koordinationskoeffizienten zur Verfügung gestellt. Vor der Bewegungsdurchführung werden dann Zufallsvariable ri (i=1,2,...,6) (Rauschen) von geringer Streubreite zu den ausgegebenen Koeffizienten addiert und die Bewegung mit diesen so veränderten Koeffizienten durchgeführt. Ergibt der Bewertungsvorgang eine Kriteriumsannäherung, so können unter Anwendung der Deltaregel (oder der backpropagation Regel) die synaptischen Gewichte des Netzwerkes so verändert werden, daß beim nächsten Mal in derselben Situation diese veränderten Koeffizienten ausgegeben werden, wobei vor der Bewegungsausführung erneut Rauschen zugegeben wird. Diese Vorgehensweise bewirkt also, daß Bewegungsvariablität gegeben ist, das intendierte Ziel dennoch erreicht wird und gleichzeitig die dazu notwendigen Bewegungen mit Blick auf ein beliebiges Kriterium optimiert werden können. 4.3 Motorischer Apparat. Rückblick und Zusammenfassung. Zur Analyse des motorischen Apparates wurde aus Gründen der Einheitlichkeit als Beispielbewegung die Zielbewegung mit dem Arm gewählt. Die unterlegte Bewegung war dabei ehe ballistisch (Kornhuber 1971) bzw. vom "Typ II" (Freund 1986). Andere Bewegungsformen, z.B. das Schreiben von Buchstaben oder das Zeichnen von Figuren, erfordern modifizierte Kontroller (vgl. Kalveram 1998a), was das hier beschriebene Grundprinzip der Bewegungskontrolle jedoch nicht in Frage stellt. Die am Beispiel des mehrgelenkigen Arms ausgearbeiten Funktionskreise besitzen biologische Plausibilität; ob sie allerdings in der vorliegenden Form auch biologisch realisiert sind, soll hier nicht erörtert werden. Die Armbewegung eignet sich jedenfalls gut, um den Finger auf die grundsätzlichen Probleme zu legen, die für ein effektives Herbeiführen selbstgestellter Ziele notwendigerweise zu lösen sind. Im Rückblick erweist sich der motorische Apparat als unerwartet komplex. Der Grund ist, daß die physikalischen Gesetzmäßigkeiten, welche die Bewegungen des Körpers und seiner Gliedmaßen beherrschen, bei Zielbewegungen vom neuronalen Kontroller berücksichtigt werden müssen, sollen diese schnell, präzise, stabil und selbsterlernbar sein. Die - im technischen Sinne - Unvollkommenheiten des neuromuskulären Apparates, z.B. lange Signallaufzeiten oder die Neigung zur Instabilität, müssen vom Kontroller zusätzlich beachtet werden. Abbildung 4.28 : Zusammenfassendes Schema des Reafferenzmodells 30 Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom Reafferenzprinzip, welches unter Zuhilfenahme der Efferenz e den sensorischen Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der Efferenz e als verursachender Größe auf die Reafferenz r' als Werkzeugeffekt führt. Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt werden, das zur Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein neuronales Modell S-1 eingespeist wird, welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung der das Ziel herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während der motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und dem neuronalen Kontroller zur Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als Istwert im Rahmen einer Regelung über den Regler P dazu, die Steuerung über das inverse Modell S-1 gegebenenfalls nachzubessern. In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen Ex- und ReAfferenzen (r' bzw. x') und denjenigen Repräsentationen u des Umweltzustands unterschieden, welche eben nicht auf den intendierten Werkzeugeffekt bezogen sind, aber ebenfalls zur Bewegungssteuerung benötigt werden. Hierbei wird es sich in der Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln. Die den zusätzlich benötigten Umweltzustand u erfassenden Sensoren sind in Abb.4.28 in der Einheit FR untergebracht. Infolge der endlichen Signallaufzeiten und neuronalen Verarbeitungsgeschwindigkeiten kommen die Meldungen dieser Sensoren jedoch in der Regel zu spät. Der auf dem inversen Modell S-1 basierende neuronale Kontroller braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand. Wenn das inverse Modell hinreichend genau ist, kann dieser jedoch aus den bereits zurückliegenden Umweltzuständen u und der momentan handlungsbestimmenden Zielafferenz z vorhergesagt werden (=Variable u*). Dazu dient in Abb.4.28 der Zustandsprädiktor. Aus der Sicht des neuronalen Kontrollers (Module S-1 plus P) haben die sensorischen Meldungen u des Umweltzustands Steuerfunktionen (sensory feedforward), während die werkzeugbezogene Afferenz a Regelungszwecken (negative sensory feedback) dient. Das sensorische Ziel z hat dabei eine dreifache Funktion: Erstens wird es zusammen mit dem vorhergesagten Umweltzustand u* vom Modul S-1 für die Invertierung der Werkzeugtransformation im Sinne einer Steuerung benötigt, zweitens dient es im Verein mit dem gemeldeten Umweltzustand u der Berechnung von u*, und drittens hat es im Rahmen der Regelung die Rolle des Sollwerts, mit der die aktuelle Afferenz a verglichen wird. Eine Diskrepanz zwischen a und z kann dabei als Exafferenz x' interpretiert werden, welche auszuregeln ist, aber auch auf einen Fehler im inversen Modell zurückgehen, welcher dann auszubessern ist. Die Einführung des inversen Modells der Werkzeugtransformation ermöglicht so eine weitere Modifikation des Reafferenzprinzips, bei der auf das Vorwärtsmodell der Werkzeugtransformation und die Efferenzkopie zur Vorhersage des reafferenten Werkzeugeffekts r' verzichtet werden kann: Zur Reafferenzschätzung kann nunmehr das sensorische Ziel, also der gewünschte reafferente Werkzeugeffekt z, herangezogen werden. Alle bis hierher besprochenen Variablen, die Zielafferenz z eingeschlossen, sind kontinuierlich in der Zeit, d.h. sie definieren die serielle Ebene der Informationsverarbeitung. Erzeugt wird die Zielafferenz von einem Mustergenerator, der als Eingangsgröße ein perzeptives Ziel erhält, z.b. eine neue Position des Arms, und daraufhin eine Folge von gewünschten Afferenzen ausgibt. Zur Kontrolle der Herbeiführung solcher perzeptiven Ziele sind weitere Variable erforderlich, die in Abb.4.28 nicht eingezeichnet sind. Diese Variablen sind, wie auch das perzeptive Ziel, zeitdiskret und definieren die parallele Ebene der Informationsverarbeitung. Den Zusammenhang zwischen den Ebenen stiftet der Mustergenerator in der Funktion als Parallel-Serienwandler. Im Schema der Abb.4.28 sind die wichtigsten Ergebnisse der vorausgegangenen Analyse zusammengefaßt. Das vorgeschlagene Kontrollprinzip geht aus vom Reafferenzprinzip, welches unter Zuhilfenahme der Efferenz e den sensorischen Zufluß a in einen exafferenten (fremderzeugten) Zufluß x' und einen reafferenten (eigenerzeugten) Zufluß r' einteilt. Hierbei wird a als bereits eigenbewegungsbereinigt vorausgesetzt. Die Werkzeugtransformation F beschreibt dann dasjenige Umweltverhalten, welches von der Efferenz e als verursachender Größe auf die Reafferenz r' als Werkzeugeffekt führt. Ein selbstgestelltes afferentes Ziel z kann als gewünschte Reafferenz aufgefaßt werden, das zur Realisierung - jetzt in Erweiterung des Reafferenzprinzips - in ein neuronales Modell S-1 eingespeist wird, welches online die Invertierung der Werkzeugtransformation F besorgt. Hierbei zeigt sich, daß die Festlegung der das Ziel herbeiführenden Efferenzen eine 'Zustandsrückführung' erfordert; das heißt, während der motorischen Aktion müssen weitere Variablen an der Peripherie gemessen und dem neuronalen Kontroller zur 31 Verfügung gestellt werden. Dieses sind Variable, welche den jeweiligen - über den intendierten Werkzeugeffekt r hinausgehenden - Zustand u der Umwelt widerspiegeln. Die zurückfließende Afferenz a dient dann als Istwert im Rahmen einer Regelung über den Regler P dazu, die Steuerung über das inverse Modell S-1 gegebenenfalls nachzubessern. In der Gesamtafferenz wird also zwischen den auf den Werkzeugeffekt bezogenen Ex- und Re-Afferenzen und denjenigen Repräsentationen u des Umweltzustands unterschieden , welche eben nicht auf den intendierten Werkzeugeffekt bezogen sind, aber ebenfalls zur Bewegungssteuerung benötigt werden.Hierbei wirdes sich in der Regel um (nicht beabsichtigte) Nebeneffekte der eigenen Tätigkeit handeln . Die den benötigten Umweltzustand u erfassenden Sensoren sind in Abb.4.28 in der Einheit FR untergebracht . Infolge der endlichen Signallaufzeiten und neuronalen Verarbeitungsgeschwindigkeiten kommen die Meldungen dieser Sensoren jedoch in der Regel zu spät. Der auf dem inversen Modell S-1 basierende neuronale Kontroller braucht jedoch für die zu jedem Zeitpunkt erneut zu treffende Entscheidung, welche Efferenz die 'richtige' ist und ausgesendet werden soll, den in diesem Moment herrschenden Umweltzustand. Wenn das inverse Modell hinreichend genau ist, kann dieser aus den bereits zurückliegenden Umweltzuständen u und der momentan handlungsbestimmenden Zielafferenz z vorhergesagt werden (=Variable u*). Dazu dient in Abb.4.28 der Zustandsprädiktor. Aus der Sicht des neuronalen Kontrollers (Module S-1 plus P) haben die sensorischen Meldungen u des Umweltzustands Steuerfunktionen (sensory feedforward), während die werkzeugbezogene Reafferenz r' Regelungszwecken (negative sensory feedback) dient. Das sensorische Ziel z hat eine dreifache Funktion: Erstens wird es zusammen mit dem vorhergesagten Umweltzustand u* vom Modul S-1 für die Invertierung der Werkzeugtransformation im Sinne einer Steuerung benötigt, zweitens hat es im Rahmen der Regelung die Rolle des Sollwerts, der mit der die werkzeugbezogene aktuelle Afferenz a verglichen wird, und drittens dient es im Verein mit dem gemeldeten Umweltzustand u der Berechnung von u*. Eine Diskrepanz dx zwischen a und z kann dabei als Exafferenz x' interpretiert werden, welche es auszuregeln gilt, aber auch auf einen Fehler im inversen Modell zurückgeführt werden, welcher dann auszubessern ist. Die Einführung des inversen Modells der Werkzeugtransformation ermöglicht so eine weitere Modifikation des Reafferenzprinzips, bei der auf das Vorwärtsmodell der Werkzeugtransformation und die Efferenzkopie zur Vorhersage des reafferenten Werkzeugeffekts r' verzichtet werden kann: Zur Reafferenzschätzung kann nunmehr das sensorische Ziel, also der gewünschte reafferente Werkzeugeffekt z, herangezogen werden. Alle bis hierher besprochenen Variablen, die Zielafferenz z eingeschlossen, sind kontinuierlich in der Zeit, d.h. sie definieren die serielle Ebene der Informationsverarbeitung. Erzeugt wird die Zielafferenz von einem Mustergenerator, der als Eingangsgröße ein perzeptives Ziel erhält, z.b. eine neue Position des Arms, und daraufhin eine Folge von gewünschten Afferenzen ausgibt. Zur Kontrolle der Herbeiführung solcher perzeptiven Ziele sind weitere Variable erforderlich, die in Abb.4.28 nicht eingezeichnet sind. Diese Variablen sind, wie auch das perzeptive Ziel, zeitdiskret und definieren die parallele Ebene der Informationsverarbeitung. Den Zusammenhang zwischen den Ebenen stiftet der Mustergenerator in der Funktion als Parallel-Serienwandler. Im nächsten Kapitel wird höher organisiertes Appetenzverhalten behandelt, wobei die Funktionsweise des motorischen Apparates Modell stehen soll. 32 5 Abbildungen Fremdsignal x1 Eigensignal r1 Einwirkung k1 Effektor F1 x1 + r1 Sensor GesamtAfferenz a (geschätzte) Exafferenz x'1 Kommando, Zielafferenz (geschätzte) Reafferenz r'1 Korrelationsspeicher S1 Motorik Efferenz e1 z Abbildung 4.1: Ergänztes "Allgemeines Schema zur Erläuterung des Reafferenzprinzips" nach von Holst und Mittelstaedt (1950, S.467) 33 Teil a Fremdsignal x Eigensignal r Teil b Einwirkung k Effektor F Eigensignal r1 Einwirkung k1 Effektor F1 Sensor Eigensignal r1 Einwirkung k1 Effektor F1 Reafferenz (geschätzte) Motorik (geschätzte) Reafferenz r'1 Korr.speicher S1 (geschätzte) Efferenz e1 r' Sensor Afferenz a (geschätzte) Exafferenz x'1 (geschätzte) Fremdsignal x1 Motorik r'1 Exafferenz x' Einwirkung k Effektor F x1 + r1 x1 + r1 Afferenz a Eigensignal r x1 = r + x x1 = r + x Fremdsignal x1 Fremdsignal, Störung x Exafferenz x'1 Korr.speicher S1 Efferenz e1 Korr.speicher S Fehler dx = -x' Efferenz e Kommando, Zielafferenz Regelung Efferenz e z Abbildung 4.2: Reafferenzprinzip, aufgespalten in zwei Teile. Teil a: Bereinigung der Sensor-Afferenz a von den Konfundierungen , hervorgerufen von den Effektoren F1 und F bzw. den Efferenzen e1 und e. Alternativ dazu Teil b: Bereinigung der Sensor-Afferenz a von der Konfundierung, hervorgerufen vom Effektor F1 bzw. der Efferenz e1 , Einstellung der bereinigten Afferenz auf einen vorgegebenen Wert z , und Festhalten dieses Wertes auch unter Störeinflüssen im Rahmen einer Regelung. 34 Werkzeugtransformation F: Fremdsignalx 'Störung' { [ Eigensignal r + s=r+x UMWELT INDIVIDUUM Sensorische Transform. FS Reafferenz: Exafferenz: Afferenz: Fehler dx = - x' - ]} r' = F(e) = FS FP FM (e ) r' = FS(r) x' = FS(x) a = x' + r' = FS(s) + z Zielafferenz Physikalische Werkzeug-Transf. FP r = FP (k) Kraft k k = FM (e) Motorische Transform. FM Efferenz e = eS+ eR Zustandsrückführung u Steuerung Inverses Modell S-1 Efferenz eS S-1(z) = eS + Regelung Regler P 1 Efferenz eR Abbildung 4.3: Erweitertes Reafferenzmodell. Die Hinzunahme des inversen Modells S-1 der Werkzeugtransformation F ermöglicht das Erreichen des Ziels z im Rahmen einer Steuerung. Bei Abwesenheit von Störungen und korrektem Modell ist a=r'=z. Die Beibehaltung der Regelung (Schalter 1 geschlossen) gewährleistet die Fehlerkorrektur auch bei Störungen und/oder Modellfehlern. Fremd/Eigendifferenzierung bzw. Fehlererkennung ist also auch ohne ein Vorwärtsmodell von F möglich, jedoch nur bei inaktiviertem Regler (Schalter 1, wie gezeichnet, offen). Zum Betrieb von S-1 müssen außer z oft noch Variable, welche den Umweltzustand u kennzeichnen, gemessen und rückgeführt werden. Dies ist durch den dünnen gestrichelten Pfeil angedeutet. 35 Fremdsignal x 'Störung' Werkzeugtransformation F: { [ Eigensignal r + INDIVIDUUM Fehler dx = - x' - k k = FM ( e) r = FP (k) Sensorische Transform. FS Reafferenz: Exafferenz: Afferenz: Kraft Physikalische Werkzeug-Transf. FP s=r+x UMWELT ]} r' = F(e) = FS FP FM (e) r' = FS(r) x' = FS(x) =0 a = x' + r' = FS(s) Zustandsrückführung Motorische Transform. FM Efferenz e u LernEingang + 2 1 z Zielafferenz " Inverses" Modell S-1 S-1(z) = eS ! Regler P Blinder Lehrer 1 2 + Efferenz eS 1 2 Efferenz eR Efferenz eB Abbildung 4.4a: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F in Schalterstellung 2 (gezeichnet). Der "blinde Lehrer" erzeugt beliebige Efferenzen eB, welche dem Lerneingang der Einheit S-1 angeboten werden. Dem Normaleingang der Einheit S-1 werden gleichzeitig die afferenten Konsequenzen a dieser Efferenzen zugeführt. Auf diese Weise können den Afferenzen die sie erzeugenden Efferenzen zugeordnet werden. Auch beim Lernen von S-1 müssen normalerweise außer der Zielvariablen z noch solche Variable, welche den Umweltzustand u kennzeichnen, gemessen und rückgeführt werden. Dies ist durch den dünnen gestrichelten Pfeil angedeutet. Nach Abschluß des Lernens werden für die Aktivitätsphase die Schalter wieder in die Stellung 1 gebracht. 36 Fremdsignal x 'Störung' Werkzeugtransformation F: { [ Eigensignal r + INDIVIDUUM Fehler dx = - x' - k k = FM ( e) r = FP (k) Sensorische Transform. FS Reafferenz: Exafferenz: Afferenz: Kraft Physikalische Werkzeug-Transf. FP s=r+x UMWELT ]} r' = F(e) = FS FP FM (e) r' = FS(r) x' = FS(x) =0 a = x' + r' = FS(s) Zustandsrückführung Motorische Transform. FM Efferenz e u LernEingang + 2 1 z Zielafferenz " Inverses" Modell S-1 S-1(z) = eS ! Regler P Blinder Lehrer 1 2 + Efferenz eS 1 2 Efferenz eR = Efferenz eB Abbildung 4.4b: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit alternativ zugeschaltetem "blinden Lehrer". Dieser erzeugt in der gezeichneten Schalterstellung 2 jetzt beliebige afferente Signale z , die als afferente Ziele interpretiert werden, und - nachdem die Afferenz a subtrahiert worden ist - vom Regler P in Efferenzen eR umgesetzt werden. Diese werden wie in Abb.4.4a dem Lerneingang der Einheit S-1 angeboten werden, während dem Normaleingang der Einheit S-1 gleichzeitig die afferenten Konsequenzen a dieser Efferenzen zugeführt werden. Die Abb.4.4.a und 4.4.b sind, das Lernen betreffende, funktional äquivalent. . 37 Fremdsignal x 'Störung' Werkzeugtransformation F: { [ Eigensignal r + INDIVIDUUM Fehler dx = - x' - k k = FM ( e) r = FP (k) Sensorische Transform. FS Reafferenz: Exafferenz: Afferenz: Kraft Physikalische Werkzeug-Transf. FP s=r+x UMWELT ]} r' = F(e) = FS FP FM (e) r' = FS(r) x' = FS(x) =0 a = x' + r' = FS(s) Zustandsrückführung Motorische Transform. FM Efferenz e u LernEingang + 2 1 dx = 0 " Inverses" Modell S-1 1 2 + Efferenz S-1(z) = eS ! eS Regler P 1 2 Efferenz eR Zielafferenz z Blinder Lehrer Abbildung 4.4.c: Auto-imitatives Lernen des inversen Modells S-1 der Werkzeugtransformation F mit Veranschaulichung der "Erfolgsrückmeldung" durch den gepunkteten Pfeil mit dem Blitzsymbol. Wenn dx=0 ist, wird das Modul S-1 "verstärkt" auf Lernen" geschaltet. Auch diese Darstellung ist mit der Abb.4.4.a oder 4.4.b funktional äquivalent. 38 a a ϕ -mg (ϕ g = 0) Gelenk 1: M = −m ⋅ g ⋅ a * b Q(t) k( t ) + - - a* = a ⋅ sin ϕ ( t) ϕ ϕ ( t) ϕ( t ) 1/M R - D C sin C = m ⋅ g⋅ a - ϕ0 + + ϕg Abbildung 4.5: Eingelenkiger Arm als Drehpendel. a (oberer Teil der Abbildung): Die gestrichelte Linie zeigt die Körperlängsachse an, die hier mit der Richtung der Schwerkraft übereinstimmt (ϕg=0). Der Schwerpunkt des Arms befindet sich im Abstand a vom Drehpunkt. Die hier angreifende Kraft -m.g, multipliziert mit dem zugehörigen Kraftarm a* = a ⋅ sin( ϕ( t ) − ϕ g ) , ergibt das durch die Schwerkraft hervorgerufene Drehmoment. b (unterer Teil der Abbildung): Das Analogschaltbild folgt direkt aus der Differentialgleichung (4.1) bzw. (4.2) und beschreibt das Drehverhalten unter den von Muskeln, Trägheit, Reibung, Federeigenschaften und Schwere hervorgerufenen Drehmomenten. 39 1 0.9 0.8 0.7 Drehmoment Agonist [N.m] 0.6 Agonist 0.5 0.4 0.3 0.2 0.1 0 -0.1 -0.2 Drehmoment Antagonist [N.m] Antagonist -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 -1 Winkelbeschleunigung ( t ) ϕ [radian/s-2] 0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1600 0 200 400 600 800 1000 1200 1400 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 -1 Winkelgeschwindigkeit ϕ(t) [radian/s-1] 3 2.5 2 1.5 1 0.5 0 Winkelposition ϕ(t) [radian] 10 9 8 7 6 5 4 3 2 1 0 T 1600 Zeit [ms] Abbildung 4.6: Zusammenhang zwischen muskulären Drehmomenten einerseits und Winkelbeschleunigung, -geschwindigkeit und -position andererseits. Bewegungsdauer: T=1500 ms. Die gestrichelte Linie liegt bei T/2=750 ms. 40 M' R' D' C' ϕg ϕ0 ϕ ( t ) _ ϕ( t ) + _ + sin _ CPG z ( t ) ϕ + Q(t) Arm ( t ) ϕ Abbildung 4.7: Invertierung der Werkzeugtransformation des Arms durch Kompensation der Impedanz unter ( t ). Die neuronalen Schätzwerte M', R', D', C', ϕ 0 und ϕ g für Rückführung der Zustandsvariablen ϕ( t ) und ϕ die entsprechenden mechanischen Größen werden auf absteigenden Bahnen eingeschleußt. Die Sinus-Funktion wird als neuronal implementiert angenommen. 41 ϕg ϕ0 ϕ ( t ) + ϕ( t ) + sinus 2 1 z ( t ) ϕ M' R' D' C' Q(t) + 2 1 3 5 C'1 C'3 C'5 Arm 2 inverses Modell sinus 1 ( t) ϕ Q(t) blinder Lehrer Abbildung 4.8: Erlernen des inversen Modells der Werkzeugtransformation des Arms durch Auto-Imitation ( t ). Die neuronalen Schätzwerte M', R', unter "reflexanaloger Verarbeitung" der Zustandsvariablen ϕ( t ) und ϕ D' und C' für die entsprechenden mechanischen Größen sind hier durch die (plastischen) Gewichte von Synapsen auf einem formalen "Moto-Neuron" repräsentiert. Über den Lerneingang auf der unteren Seite dieses Neurons wird das Potential übermittelt, welches der blinde Lehrer im Rahmen des dargestellten auto-imitativen Lernvorgangs vorgibt. Die Sinus-Funktion im gepunktet umrandeten Viereck kann durch ein "Power-Net" (Kalveram 1994) approximiert werden, was in der linken unteren Ecke angedeutet ist. Hier wird eine Potenreihenentwicklung mit den Koeffizienten C'1, C'3 und C'5 angenommen, die nach der 5-ten Potenz abgebrochen wird (zur Bedeutung der Symbole: s. Abb. 1.5 und Abb.2.6). 42 x Synapse w z = w .x Korrelator I r T y w = r ⋅ ∫ x( t) ⋅ y( t) dt 0 Abbildung 4.9: Analogschaltbild einer konventionellen Hebbschen Synapse. In der Lernphase wird das synaptische Gewicht w durch Kreuzkorrelation von präsynaptischer (axonaler) Erregung x und postynaptischer Aktivierung y, die dem (hier nicht eingezeichneten) Neuron über dessen Lern-Eingang aufgezwungen wird, bestimmt. T bedeutet die Dauer der Lernphase und r>0 eine Konstante, welche die Lerngeschwindigkeit festlegt. Der gepunktet umrandete Teil kennzeichnet die Funktion der Synapse nach Abschluß der Lernphase. Der Integratoreingang wird dann auf 0 gesetzt, so daß der Integrator seinen Inhalt beibehält. z ist dann der Beitrag dieses Axons zum postsynaptischen Potential des Neurons und kann mit dessen output gleichgesetzt werden, wenn keine weiteren Synapsen vorhanden sind und die Übertragungscharakteristik linear ist. 43 xi Eingang Synapse wi w 1 ⋅ x1 wi ⋅ xi .... + Korrelator I -r wn ⋅ xn .... y LernEingang Su = z - y n z = ∑ wi ⋅ xi i=1 Ausgang T wi = −r ∫ xi ⋅ ( z − y) dt 0 Abbildung 4.10: Analogschaltbild einer modifizierten Hebb-Synapse (gestrichelt umrandet), bei der gegenüber Abb.4.6 die Konstante r>0 durch -r<0 ersetzt ist. Insgesamt n gleichartige Synapsen sind mit dem Neuron so verschaltet, daß Relaxations-Lernen ermöglicht wird, d.h., die Summenvariable Su=z-y gegen Null geht. Der Lerneingang hat keinen erzwingenden Charakter, sondern die hier eingehende Variable y wird von der über die anderen Synapsen erzeugten Erregungssumme z lediglich abgezogen. Die Gewichte wi sollten sich dann so einstellen, daß z-y gegen Null geht. Nach Abschaltung von y erscheint dann am Ausgang z. 44 - ϕ0 + ϕg + 1 ( t ) ϕ sinus 2 ϕ( t ) M' z ( t ) ϕ R' D' C' Su(t)= 0 ! 1 + 2 - Addierer ∆t ϕ ( t ) Q(t) Arm 1 1 blinder Lehrer Abbildung 4.11: Auto-imitativer Erwerb des Modells der inversen Werkzeugtransformation des Arms. Die Kästchen M', R', D' und C' bezeichnen modifizierte Hebb-Synapsen vom Typ der Abb.4.10. Das rekursive Schema macht deutlich, daß die in Schalterstellung 1 herbeizuführende Relaxation des neuronalen Netzes - hier das Einstellen des Summenpotentials Su(t) am Ausgang des Addierers auf den Wert 0 bei voller Variation der Werte Q(t) am Lern-Eingang - unter Einbeziehung der Umwelt (des Arms) erfolgt. Die Verzögerungseinheit dient dabei der Sicherstellung der relativen Gleichzeitigkeit der sich gegenseitig kompensierenden Signale. 45 2.5 C'=2.5 2 Q(t) 1.5 1 0.5 R'=0.3 M'=0.1 0 Su(t) -0.5 -1 -1.5 0 10 20 Time (second) 30 40 Abbildung 4.12: Simulation der Relaxations-Anordnung in Abb.4.8. Die im Arm-Modell eingestellten Parameter waren M=0.1, R=0.3, D=0, C=2.5. Bei voller Variation der vom blinden Lehrer dem Armsystem eingeprägten Kräfte Q(t) konvergierte das Summenpotential Su(t) am Ausgang des Motoneurons nach etwa 30 Sekunden gegen den Wert 0. Während dessen nahmen die modifizierten Hebb-Synapsen die am Arm-Modell eingestellten Parameterwerte an. 46 Startposition ∆ϕ = ϕ( 0 ) ϕ( T ) − ϕ( 0 ) durchmessener Winkel ϕ( T ) SerienParallelWandlung (SP) Sensorische Integration Endposition ( t ) ϕ Werkzeugtransformation F ϕ ( t ) ϕ( t ) p=p+rdϕ ZustandsRückführung _ + Fehler dϕ Physikalischer Arm Q(t) Inverses Modell S-1 der Werkzeugtransformation Neuronales Netz z ( t ) ϕ ParallelSerienWandlung (PS) Mustergenerator (CPG) q p q = p ⋅ δϕ T 2 Zieldiskrepanz _ δϕ + Ziel ϕz T Abbildung 4.13: Mehrebenenkontrolle, Parallel-Serien-Wandlung und Serien-Parallel-Wandlung bei der eingelenkigen Bewegung. Die zeitdiskrete Verarbeitung auf der parallelen Ebene ist durch Doppelpfeile, die zeitkontinuierliche auf der seriellen Ebene durch einfache Pfeile gekennzeichnet. Auf der parallelen Ebene sind nur Anfangs- und Endzeitpunkte der Bewegung und die davon ableitbaren Größen Fehler dϕ und Zieldiskrepanz δϕ von Belang. δϕ dient zur Steuerung der Bewegung über den CPG, dϕ zur Regelung von dessen Verstärkungsparameter p. Auf der seriellen Ebene ist nur die Steuerung über die "on-line" erfolgende Inversion der Werkzeugtransformation F eingezeichnet. 47 ϕ( t ) z ( t) ϕ Inverses Modell S-1 ϕ z ( t ) Q(t) ϕ ( t ) Werkzeugtransf. F ( t ) ϕ ϕ z ( t) ϕ( t ) und ϕ ( t ) durch die Variablen ϕ z ( t ) und ϕ z ( t ) , die aus der gewünschten Beschleunigung ϕ z ( t ) durch Integration gewonnen werden. Die vorhergesagten Abbildung 4.14: Vorhersage der Zustandsvariablen Geschwindigkeits- und Positionswerte können verwendet werden, um die aktuell gemessenen Werte bei der Zustandsrückführung im Rahmen der inversen Modellierung zu ersetzen ("predicted feedback", s. Kalveram 1991b). Dies wird notwendig, wenn, bedingt durch den bei der Rückführung enstehenden Zeitverlust, die aktuellen Zustandvariablen gegenüber dem Steuersignal Q(t) zu stark verzögert sind. 48 u ∆t v u ⋅ δ ϕ ( t ) v ⋅ δ ϕ( t ) z ( t) ϕ ∆t ϕ ( t ) - + Inverses Modell S-1 ϕ z ( t ) - + ϕ( t ) Qs + Q Qr ϕ z ( t) Werkzeugtransf. F ( t) ϕ w Fehler dϕ + - Abbildung 4.15: Einbettung der Steuerung über das inverse Modell S-1 in Regelkreise (negativ feedback controller). Alle drei Regler sind vom Typ proportional mit den Verstärkungen u, v und w. Die mit ∆t bezeichneten Verzögerungselemente sollen die relative Gleichzeitigkeit der zu vergleichenden Signale sicherstellen. Die Regler u und v regeln die Vorhersage der Zustandsvariablen, der Regler w das Ergebnis der Steuerung (dh. hier, die auf das Steuersignal QS zurückgehende aktuelle Position). Der gestrichelt umrandete Teil legt eine Interpretation im Sinne des Reafferenzprinzips nahe, indem die vorhergesagte momentane Position ϕ z ( t ) als gewünschte Reafferenz und dϕ als Exafferenz aufgefaßt werden, die es ggf. zu beseitigen gilt. ϕ z ( t ) repräsentiert somit die momentane Gleichgewichtslage, w die neuronal erzeugte Federkonstante. 49 Abbildung 4.16: Zielbewegung mit einem zweigelenkigen Arm, bei dem die Bewegung in der Zeichenebene erfolgt. Die Zielposition Pz wird erreicht, indem bei Schulter und Ellbogen geeignete Zielwinkel ϕ1z und ϕ2z motorisch realisiert werden. Die Kreise bezeichnen die Massenmittelpunkte, m1, m2 die Massen und M1, M2 die Trägheitsmomente der beiden Armsegmente. Schwerkraftrichtung verläuft wie in Abb.4.5 parallel zur y-Achse. zweigelenkiger aktuelle Arm Steuergröße Position inverses Modell Q = ( Q1, Q 2 ) P = ( x , y) Q = S−1(Pz ) P = F( Q ) gewünschte Position Pz = ( x z , yz ) Zustandsrückführung: ϕ1, ϕ 2 und ϕ 1, ϕ 2 Fehler dP + Abbildung 4.17: Vereinfachte Darstellung der Ansteuerung des zweigelenkigen Arms der Abb.4.16. mittels eines inversen Modells S-1 der Werkzeugtransformation F des Arms. Der neuronale Kontroller muß über S-1 diejenigen muskulären Drehmomente Q1, Q2 als Steuersignal bereitstellen, die das gewünschte Ziel Pz verwirklichen. Der von F zurück nach S-1 verlaufende Pfeil symbolisiert die erforderliche Zustandsrückführung (hier: Winkelpositionen und -geschwindigkeiten, bezogen auf beide Gelenke). Die Doppelpfeile kennzeichnen wiederum zeitdiskrete (parallele), die dünnen zeitkontinuierliche (serielle) Arbeitsweise. Nach Bewegungsende können die gewünschte und die aktuell erreichte Position der Armspitze verglichen werden und der Fehler dP ggf. zur Korrekturzwecken herangezogen werden. 50 aktuelle cartesische Position y x Physikalischer Arm Vorwärts - Kinematik FK ϕ 1( 0 ) ϕ 1( T ) ϕ 2 (T) aktuelle WinkelPosition Physikalische + sensorische Integration 1( t ) ϕ ϕ 2 (t) ϕ 1( t ) ϕ 2 ( t ) Q1 ( t ) Physikalischer Arm 1z ( t ) ϕ 2z ( t ) ϕ CPG1 ϕ 1( T ) Startposition Endposition _ Q 2 ( t) Inverse Dynamik S -1 D ZustandsRückführung ϕ 1( 0 ) q1 p1 ← p1 + r ⋅ dϕ1 Fehler dϕ ϕ1 _ ϕ 2(T) ϕ 2 ( 0) Endposition q2 δϕ 1 + ParallelSerienWandlung (PS) CPG2 q1 = p1 ⋅ δϕ 1 T 2 + Serien-ParallelWandlung (SP) 2 ( t ) ϕ Vorwärts - Dynamik FD ϕ1( t ) ϕ 2 ( 0) Startposition q2 = p 2 ⋅ δϕ 2 T 2 T p2 ← p2 + r ⋅ dϕ 2 δϕ 2 Zieldiskrepanz _ + _ + Fehler dϕ ϕ2 Zielwinkel ϕ1z ϕ 2z Inverse Kinematik S -1 K xz yz cartesische Zielkoordinaten Abbildung 4.18: Blockschaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm. Die Werkzeugtransformation F ist aufgeteilt in die Vorwärtsdynamik und die Vorwärtskinematik. Bei der inversen Modellierung ist entsprechend zuerst das inverse Modell der Vorwärtskinematik und dann das inverse Modell der Vorwärtsdynamik anzuwenden. Da die Invertierung der Dynamik die Entkopplung der Armsegmente bedeutet, kann Steuerung der Bewegungsweite, die für eingelenkigen Arms entworfen wurde (s. Gl. (4.9)), auch beim zweigelenkigen Arm angewendet werden. Weitere Erläuterungen im Text. 51 Abbildung 4.19: Analog-Schaltbild der Kontrolle einer Zielbewegung mit dem zweigelenkigen Arm. Die mit "+" gekenzeichneten ovalen Summiereinheiten erzeugen on-line die muskulären Drehmomente Q1 und Q2, also den Motor-Output. An den Außenseiten links und rechts ist jeweils die Kompensation für die mechanische Dämpfung und die mechanische Federkraft zu erkennen. Zwischen den Summiereinheiten ist die Verschaltung (hohle Pfeile) angeordnet, welche die Rückwirkungen eines Gelenks auf das jeweils andere kompensieren. Die Berechnung der Koeffizienten A-F, die gemäß (4.13) von den Winkelpositionen der Armsegmente abhängen, geschieht ebenfalls on-line in der unteren mit GC-Netzwerk bezeichneten Einheit. Die breiten Doppelpfeile stehen für parallele (zeitdiskrete), die schmalen Pfeile für serielle (zeitkontiniuierliche) Variable. (Modifiziert nach Kalveram 1991b). 52 Abbildung 4.20: Erwerb der inversen Dynamik des zweigelenkigen Arms durch Auto-Imitation. In der Schalterstellung 1 treiben die vom blinden Lehrer erzeugten Drehmomente Q'1und Q'2 den Arm zu Bewegungen an. Gleichzeitig werden diese Signale dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die an den beiden Gelenken abgenommenen aktuellen Werte für die Winkelbeschleunigung, -geschwindigkeit und -position gelangen in den Normal-Eingang des Kontrollers. Die Geschwindigkeits- und Positionswerte dienen dabei der Zustandsrückführung, die Beschleunigungswerte als die späteren Zielbeschleunigungen. ϕg symbolisiert wechselnde Winkel mit der Schwerkraftrichtung während des Lernens. Nach Etablierung des inversen Modells der Vorwärtsdynamik kann der Schalter in Stellung 2 gebracht werden, um beliebige Zielbeschleunigungen konkret herbeizugeführen. 53 Abbildung 4.21: Potenzierungsnetzwerk, die inverse Dynamik des zweigelenkigen Arms repräsentierend. Die Knoten der hidden layer werden als Multiplizierer interpretiert, die zugehörigen Synapsen (kleine angesetzte Kreise) als Exponenten. Exponenten ungleich 1 kommen jedoch nur bei den Knoten 6 und 7 vor, wenn man von den trigonometrischen Subnetzwerken absieht. Die Ausdrücke vor der Ausgabeschicht bezeichnen die synaptischen Gewichte, die für die Neuronen dieser Schicht, welche als Addierer arbeiten, einzusetzen sind. Das Netzwerk repräsentiert also eine Potenzreihe mit 2 als höchstem Exponenten. 54 Abbildung 4.22: Erwerb der inversen Kinematik des zweigelenkigen Arms durch Auto-Imitation. In der Schalterstellung 1 treiben die vom blinden Lehrer willkürlich vorgebenen Winkel ϕ'1und ϕ'2 über die bereits etablierte inverse Dynamik und die Mustergeneratoren (nicht eingezeichnet) den Arm zu Bewegungen an. Gleichzeitig werden die Winkel dem Lern-Eingang des neuronalen Kontrollers zugeführt (gestrichelte Pfeile). Die Vorwärtskinematik setzt die aktuell erzeugten Winkel dann in die zugehörigen aktuellen cartesischen Koordinaten x, y der Armspitze um, welche, visuell rückgemeldet, dem Normaleingang des Kontrollers zugeführt werden. Nach Etablierung des inversen Modells der Vorwärtskinematik kann der Schalter in Stellung 2 gebracht werden, um beliebige cartesische Zielpositionen xz, yz konkret herbeizugeführen. 55 Abbildung 4.23: Zielbewegung mit einem dreigelenkigen Arm, bei dem die Bewegung in der Zeichenebene erfolgt. Die Zielposition Pz wird erreicht, indem bei Schulter-, Ellbogen- und Handgelenk geeignete Zielwinkel ϕ1z, ϕ2z und ϕ3z motorisch realisiert werden. Die Kreise bezeichnen die Massenmittelpunkte. m1, m2 und m3 stellen die Massen und M1, M2 und M3 die Trägheitsmomente der drei Armsegmente dar. Die Richtung der Schwerkraft ist parallel zur y-Achse. Im Unterschied zum zweigelenkigen Arm (s. Abb.4.12) ist nunmehr einund dieselbe Position der Armspitze durch verschiedene Kombinationen der Gelenkwinkel zu erreichen. 56 aktuelle cartesische Position x( T ) y( T ) Vorwärts-Kinematik ϕ1 ( 0) ϕ 1( T ) ϕ 2 (T) ϕ 3 (T) aktuelle WinkelPosition ϕ 3 ( 0) Physikalische + sensorische Integration 1( t ) ϕ 2 ( t ) ϕ 3 ( t ) ϕ Physikalischer Arm Vorwärts-Dynamik ϕ (t) Q1 ( t ) ϕ ( t ) Serien-ParallelWandlung (SP) Q3 ( t ) Q 2 (t ) 1z ( t) ϕ Inverse Dynamik ZustandsRückführung 1z ( t) ϕ 3z ( t) ϕ 2z ( t) ϕ Beschleunigungs-Mustergeneratoren q1 q3 q2 q i = p i ⋅ δϕ i T 2 T δϕ1 _ + _ ϕ1z ParallelSerienWandlung (PS) δϕ 2 _ + i = 1, 2, 3 δϕ 3 Zieldiskrepanzen ϕ 3z konkrete Zielwinkel + ϕ 2z Redundanz-Generator β1 β2 nicht-redundante inverse Kinematik Koordinationsmatrix C xz fiktive Zielwinkel Inverse Kinematik yz cartesische Zielkoordinaten 57 Abbildung 4.24: Kontrolle der Zielbewegung eines dreigelenkigen Arms unter Anwendung einer redundanzerzeugenden inversen Kinematik. Die beiden cartesischen Zielkoordinaten werden zunächst mittels eines von unendlich vielen nichtredundanten Modellen der inversen Kinematik (fiktive zweigelenkige Arme mit z.B. unterschiedlichen Segmentlängen) in zwei fiktive Ausgabe-Winkel β1 und β2 umgerechnet. Aus diesen bestimmt der Redundanzgenerator dann die drei Zielwinkel 1z, 2z, 3z, und zwar unter Anwendung der Koordinationsregel, die von der Koordinationsmatrix C festgelegt wird. Die Matrix C adressiert gleichzeitig auch das durch die angewendete Koordinationsregel definierte nichtredundante inverse Modell der Kinematik. Dieses Vorgehen gewährleistet, daß ein in cartesischen Koordinaten vorgegebenes Ziel auch bei zufällig variierenden Elementen der Matrix C getroffen wird. 58 aktuelle cartesische Position x y Integration Vorwärts-Kinematik Vorwärts-Dynamik Inverse Dynamik Beschleunigungsmustergenerator ϕ1z ϕ 2z konkrete Zielwinkel ϕ 3z Redundanz-Generator β '2 β '1 β1 Blinder Lehrer β2 nicht-redundante inverse Kinematik zu trainierende Funktionseinheit Inverse Kinematik Koordinationsmatrix C xz yz cartesische Zielkoordinaten Abbildung 4.25: Lernen der redundanzerzeugenden inversen Kinematik durch Auto-Imitation. Die vom blinden Lehrer ausgegebenen (jetzt fiktiven) Gelenkwinkel β'1, β'2 gelangen in den Lerneingang (schattierte Doppelpfeile) der zu trainierenden Einheit. Gleichzeitig erzeugt der Redundanzgenerator daraus unter Anwendung der aktuellen Koordinationsmatrix C die drei Zielwinkel 1z, 2z, 3z, welche über die bereits funktionsfähigen Stufen (s. Abb.4.24) in aktuelle cartesische Positionen x, y umgesetzt werden. Diese werden rückgeführt und zusammen mit den Elementen der aktuellen Koordinationsmatrix C den Normaleingängen der zu trainierenden Einheit eingegeben, der damit alle zum Lernen notwendigen Signale zur Verfügung stehen. 59 a b2: Testen mit c=0.5 b1: Testen mit c=0 b3: Testen mit error 0.8 error error 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 -1 -1.5 y -2 0.5 1 1.5 x x = 0.1268, s = 0.2213 2 -1 -1.5 y -2 0.5 1 1.5 x x = 0.0225 , s = 0.0337 2 c=1 -1 -1.5 y -2 0.5 1 1.5 2 x x = 0.0310, s = 0.0166 Abbildung 4.26: Simulationsexperiment zum Erlernen einer redundanten inversen Kinematik des dreigelenkigen Arms durch Auto-Imitation (Koordinationsregel: 1z=ß1, 2z=ß2 und 3z=c. 2z). a : Lernphase. Die Kreuze markieren die Positionen der Armspitze für die vom blinden Lehrer vorgegebenen 100 fiktiven Gelenkwinkel ß1, ß2. Der Koordinationsparameter c variierte dabei zufällig zwischen 0 und 1. b1, b2, b3 : Aktivitätsphase. Die zu treffenden Zielpositionen x, y bestanden aus den 441 Kreuzungspunkten eines Test-Gitters, dessen Eckpunkte mit dem in der Lernphase verwendeten Gitter übereinstimmten. Dargestellt sind die Fehler (Differenzen zwischen Zielvorgaben und tatsächlichen Positionen) bei drei verschiedene Werte von c in der Aktivitätsphase. x und s bedeuten Mittelwert und Standard-Abweichung der Fehler. 60 kriteriumsbewertetes Bewegungsergebnis Koordinationsmatrix C c11 Zuschalten von Rauschen r1 + c12 r2 c21 r3 c22 r4 c31 r5 c32 r6 - C-Generator Anpassung der synaptischen Gewichte bei Annäherung an das Kriterium Situation, Optimierungskriterium Abbildung 4.27: Feedforward Netzwerk zur Optimierung von Koordinationskoeffizienten. Der obere Eingang dient zur Adressierung des in einer gegebenen Situation anzuwendenden Optimierungskriteriums. Die mit r1-r6 bezeichneten Pfeile stellen weitere Eingänge dar, über welche den Ausgangs-Neuronen Rauschen (= kleine Zufallsschwankungen mit dem Mittelwert 0) zugeschaltet werden können. Die nach der Zuschaltung von Rauschen resultierenden Koordinationskoeffizienten cij werden dann für die redundanzerzeugende inverse Kinematik (s. Abb.24) verwendet. Ergibt die Bewertung der erzeugten Bewegung hinsichtlich des Optimierungskriteriums eine Annäherung, so können z.B. mittels der Deltaregel (oder der backpropagation Regel) die synaptischen Gewichte des Netzwerkes so verändert werden, daß in der Folge entsprechend verbesserte Koordinationskoeffizienten ausgegeben werden. 61 Werkzeugtransformation F: Fremdsignal x 'Störung' { [ Eigensignal r + s=r+x UMWELT INDIVIDUUM Sensorische Transform. FS Reafferenz: Exafferenz: Afferenz: Fehler dx = - x' - ]} r' = F(e) = FS FP FM (e ) r' = FS(r) x' = FS(x) a = x' + r' k Physikalische Werkzeug-Transf. FP r = FP (k) FR Zustandsrückführung u Kraft k = FM (e) Motorische Transform. FM Efferenz e = eS+ eR Zustandsprädiktion u* + Zielafferenz z Mustergenerator perzeptives Ziel Inverses Modell S-1 S-1(z) = eS Steuerung Efferenz eS + Regelung Regler P 1 Efferenz eR Abbildung 4.28: Zusammenfassendes Schema des Reafferenzmodell der Sensumotorik 62 Literatur2 Literatur Anochin, P. K. (1967) Das funktionelle System als Grundlage der physiologischen Architektur des Verhaltensaktes. In: J. Bures, E. Roy John, P.G. Kostjuk, L. Pickenhain (Hrgr) Abhandlungen aus dem Gebiet der Hirnforschung und Verhaltensphysiologie, Band 1. Jena: Gustav Fischer Anokhin, P. K. (1974) Biology and neurophysiology of the conditioned reflex and its role in adaptive behavior. New York: Pergamon Arnold, M. B. (1960) Emotion and personality. Columbia, New York Beer, R. D. (1990). Intelligence as adaptive behavior. An experiment in computational neuroetholgy. Boston: Academic Press. Berlyne, D. E. (1960) Conflict, arousal and curiosity. New York: McGraw-Hill Bischof, N. (1975) A systems approach toward the functional connections of attachment and fear. Child Development 46, 801-817 Bischof, N. (1985). Das Rätsel Ödipus. München: Piper. Bossel, H. (1987) Systemdynamik. Braunschweig: Vieweg Boyd, R. (1985) Culture and the evolutary process. Chicago: University of Chicago Press Braitenberg, V. (1986) Künstliche Wesen: Verhalten kybernetischer Vehikel. Braunschweig: Vieweg Bronstein, I. N., Semendjajew, K. A. (1986). Taschenbuch der Mathematik. Ergänzende Kapitel. 4. Auflage. Hrsg. G. Grosche, V. Ziegler, D. Ziegler. Thun: Verlag Harri Deutsch (S.164). Brown, R., Freeman, S., McFarland, D. (1974) Toward a modell for the copulatory behavior of the male rat. In: McFarland, D.(ed.) Motivational control systems analysis. Academic Press, London Collins, J. J., Stewart, I. (1993) Coupled nonlinear oscillators and the symmetries of animal gaits. J Nonlinear Sci. 3, 349-392 Cruse, H. (1990) What mechanisms coordinate leg movements in walking arthropods? Trend in Neurosciences 13, 15-21 Dawkins, R. (1976) The selfish gene. Oxford: Oxford University Press. Desmond, J. E., Moore, J. W. (1988). Adaptive timing in neural networks: The conditioned response. Biol. Cybern, 58, 405-415. Dörner, D. (1979) Problemlösen als Informationsverarbeitung. Stuttgart: Kohlhammer Duffy, E. (1962) Activation and behavior. New York: Wiley Düker, H. (1975) Untersuchungen über die Ausbildung des Wollens. Bern: Huber Eckmiller E. (1985) The transition between pre-motor eye velocity signals and oculomotor eye position signals im primate brain stemm neurons during pursuit. In E. L. Keller, D.S. Zee (Eds.) Adaptive processes in visual and oculomotor systems. Oxford: Pergamon Press Ehrhardt, K. J. (1975) Neuropsychologie motivierten Verhaltens. Stuttgart: Enke Eibl-Eibesfeld, I. (1975). Krieg und Frieden aus der Sicht der Verhaltensforschung (Neuausgabe 1984) München: Piper. Eibl-Eibesfeld, I. (1987) Grundriß der vergleichenden Verhaltensforschung - Ethologie. (7. Auflage). München: Piper Franck, D. (1979) Verhaltensbiologie. Stuttgart: Thieme Freund, H. J. (1986) Time control of hand movements. In.: H.J. Freund, U. Büttner, B. Coghen, J. Noth (Eds) The oculomotor and skeletalmotor systems. Progress in Brain Res. 1986, 287-294 Glenberg, A. M. (1997) What is memory for. Behavioral and Brain Sciennces 20, 1-55 Grillner, S. (1975) Locomotion in vertebrates: Central mechanisms and Reflex interaction. Physiological Review, 55, 247-304 63 Grossberg, S., Schmajuk, N. A. (1989). Neural dynamics of adaptive timing and temporal discrimination during associative learning. Neural Net, 2, 79-102. Hadamard, J. (1923) Lectures on the Cauchy problem in linear partial differential equations. New Haven: Yale University Press Hamilton, W. D. (1970). Selfish and spiteful behavior in an evolutionary model. Nature, 228, 1218-1220. Hamilton, W.D. (1964). The genetical evolution of social behavior I and II. Journal of Theoretical Biology, 7, 116 and 17-52. Hammerl, M. (1991) Effekte signalisierter Verstärkung. Regensburg: Roederer Harper, D. G. C. (1991). Communication. In: J.R. Krebs , N.B. Davies (Eds.), Behavioural ecology. An evolutionary approach (3rd edn.). Oxford: Blackwell Scientific Publications (pp. 374-397). Hassenstein, B. H. (1980) Instinkt, Lernen, Spielen, Einsicht. München: Piper Hebb, D. O. (1949) The Organization of behaviour. New York: Plenum Press Hein, A., Held, R. (1962) A neural model for labile sensorimotor coordinations. In A. Hein, R. Held (Ed.) Biological prototypes and synthetic systems. New York: Plenum Press Heisenberg, M. (1983). Initiale Aktivität und Willkürverhalten bei Tieren. Naturwissenschaften 70, 70-78 Heisenberg, M., Wolf, R. (1979). On the fine structure of yaw torque in visual flight orientation of drosophila melanogaster. J. Comp. Physiol. 130, 113-130 Held, R., Hein, A. (1963) Movement produced stimulations in the development of visually guided behavior. Journal of Comparative and physiological Psychology, 56, 872-876 Helson, H. (1964) Adaptation-level theory. New York: Harper , Row Henry, J. P., Stephens, P. (1977) Stress, health and social environment: A sociobiologic approach to medicine. New York: Springer Heuer, H. (1983) Bewegungslernen. Stuttgart: Kohlhammer Heuer, H. (1984) On re-scaleability of force and time in aiming movements. Psychol. Research, 46, 73-86 Hitchcock, J. M., Davis, M. (1991). Efferent pathways of the Amygdala involved in conditioned fear as measured with the fear-potentiated startle paradigm. Behav Neurosci, 105, 826-842 Hoffmann, J. H. (1998) Kognition im Dienste der Handlungssteuerung. Ein Kommentar zu Wolfgang Prinz ((1997). Psychologische Rundschau, 49, 21-30 Holst E. von (1938) Die relative Koordination als Phänomen und Methode zentralnervöser Funktionsanalyse. Ergebnisse der Physiologie, 42, 228-306 (Z-Name?) Holst, D. von (1972) Renal failure as the cause of death in Tupaja belangeri exposed to persistent social stress. J. Comp. Physiol., 78, 236-273 Holst, E. von, Mittelstaedt, H. (1950) Das Reafferenzprinzip (Wechselwirkungen zwischen Zentralnervensystem und Peripherie). Naturwissenschaften 37, 464-476 Holzapfel, M. (1940) Triebbedingte Ruhezustände als Ziel von Appetenzhandlungen. Die Naturwissenschaften, 28, 273-280 James, W. (1884) The physical basis of emotion. Psychol. Rev. 1, 516-529 Jansen, G. (1986) Zur "erheblichen Belästigung" und "Gefährdung" durch Lärm. Z. f. Lärmbekämpfung 33, 2-7 Jordan, M. I. (1988) Supervised learning and systems with excess degrees of freedom. COINS Technical Report 88-27, 1 - 41 Kalveram, K.Th. (1971). Modell und Theorie in systemtheoretischer Sicht. Psychologische Beiträge, 13, 366-375 Kalveram, K.Th. (1975) Das Marburger System: 1. Teil: Das Digital-System. Marburg: Bericht Nr. 44 aus dem Institut für Psychologie. Kalveram, K.Th. (1981) Erwerb sensumotorischer Koordinationen unter störenden Umwelteinflüssen: Ein Beitrag zum Problem des Erlernens von Werkzeuggebrauch. In L. Tent (Ed.): Erkennen, Wollen, Handeln. Festschrift für Heinrich Düker (S. 336-348). Göttingen: Hogrefe 64 Kalveram, K.Th. (1985). Grundzüge eines psychobiologischen Funktionsmodells der Wechselwirkung zwischen Individuum und Umwelt. Psychologische Beiträge, 27, 402-415. Kalveram, K.Th. (1990) A neural network acquiring the inverse of a tool or limb transformation by "selfimitation learning". Poster at the ICNC - 10th Cybernetic Congress of the DGK, Düsseldorf Kalveram, K.Th. (1991a) Pattern generating and reflex-like processes controlling aiming movements in the presence of inertia, damping and gravity. Biol. Cybern. 64, 413-419 Kalveram, K.Th. (1991b) Controlling the dynamics of a two-jointed arm by central patterning and reflex-like processing. Biol. Cybern. 65, 65-71 Kalveram, K.Th. (1991c) Sensumotorik des Sprechens oder Wie man "ta-ta-tas" spricht und gegebenenfalls dabei stottert. Psychologische Beiträge, Bd. 33, 94-121 Kalveram, K.Th. (1991d) Über Aggression und Friedensfähigkeit des Menschen. Ein Beitrag zur Verhaltensbiologie des Krieges. Psychologische Beiträge, Bd. 33, 177-201 Kalveram, K.Th. (1992) A neural network model rapidly learning gains and gating of reflexes necessary to adapt to an arm's dynamics. Biol. Cybern. 68, 183-191 Kalveram, K.Th. (1993a) Power series and neural-net computing. Neurocomputing 5, 165-174 Kalveram, K.Th. (1993b) A neural-network model enabling sensorimotor learning: Application to the control of armmovements and some implications for speech-motor control and stuttering. Psychol. Res. 55, 299-314 Kalveram, K.Th. (1998) A neural oscillator model learning given trajectories, or how an "allo-imitation algorithm" can be implemented into a motor controller. In J. Piek (Ed.), Motor control and human skill: A multidisciplinary perspective. Champaign: Human Kinetics (pp. 127-140) Kalveram, K.Th., Merz F. (1976) Über die Unterscheidung zwischen Eigenem und Fremden oder Warum Hühner beim Laufen mit dem Kopf nicken. Psychologische Beiträge, 18, 135-142 Kalveram, K.Th., Natke, U. (1996) Movement control by inverse modelling of the tool transformation: Redundancy generation and wasting by coordinative structures. Conference on Bernstein's Traditions in Motor Control, 1996, Pennsylvania State University Kalveram, K.Th., Natke, U. (1997) Stuttering and misguided learning of articulation, or why it is extremely difficult to estimate the physical parameters of limbs. In H. F. M. Peters, W. Houstijn, P. H. H. M. van Lieshout (Eds.), Speech Motor Control and Fluency Disorders. Amsterdam: Elsevier. (pp 89-98) Keele S. W. (1968) Movement control in skilled motor performance. Psychological Bulletin, 70, 387-403 Klopf, A. H. (1988). A neuronal model of classical conditioning. Psychobiology, 16, 85-125 Kohler I. (1964) The formation and transformation of the visual world. Psychological Issues, Monograph 12. (pp.174-176) Kohler I. (1966) Die Zusammenarbeit der Sinne und das allgemeine Adaptationsproblem. In W. Metzger (Hrsg.) Handbuch der Psychologie (Bd.1). Göttingen: Verlag für Psychologie (pp.173-175) Kohonen, T. (1982a). Selforganized formation of topologically correct feature maps. Biol Cybern, 43, 59-69. Kohonen, T. (1982b). Analysis of a simple self-organizing process. Biol Cybern 44, 135-140. Kornhuber, H. H. (1971) Motor functions of cerebellum and basal ganglia: The cerebellocortical saccadic (ballistic) clock, the cerebellonuclear hold regulator, and the basal ganglia ramp (voluntary speed smooth movement) generator. Kybernetic 8, 157-162 Krebs, J. R. ,Dawkins R. (1984). Animal signals: mind reading and manipulation. In: J.R. Krebs , N.B. Davies (Eds.), Behavioural ecology. An evolutionary approach (2nd edn.) Oxford: Blackwell Scientific Publications. (pp. 380-402). Küpfmüller, K. , Poklekowski, R. (1956) Der Regelmechanismus willkürlicher Bewegungen. Z. Naturforschung 11b, 1-7 Lauterbach, W., Sarris, V (1980) Beiträge zur psychologischen Bezugssystemforschung. Bern usw.: Hans Huber Lazarus, R. S. (1966) Psychological stress and the coping process. New York: McGraw-Hill Lorenz K. (1953) Über angeborene Instinktformeln beim Menschen. Deutsche medizinische Wochenschrift, 45, 45-46 65 Lorenz K., Tinbergen N. (1939) Taxis und Instinkthandlung in der Eirollbewegung der Graugans. Z. Tierpsychologie, 2, 1-29 Lorenz, K. (1966) Über tierisches und menschliches Verhalten. München: Piper Lorenz, K. (1978) Vergleichende Verhaltensforschung. Grundlagen der Ethologie. Wien: Springer Lorenz, K. (1979). Die Rückseite des Spiegels. München: Deutscher Taschenbuchverlag. Lorenz, K. (1983) Das Wirkungsgefüge der Natur und das Schicksal des Menschen (2. Auflage, Erstauflage 1978). München: Piper MacGuigan, F. J. (1983) Einführung in die Experimentelle Psychologie. Frankfurt: Fachbuchhandlung für Psychologie MacKay, D. J., Miller, K. D. (1990) Analysis of Linsker's simulations of Hebbian rules to linear networks. Network, 1, 257-297 Mackintosh, N. J. (1975). A theory of attention: Variations in the associability of stimuli with reinforcement. Psychol Review, 82, 276-298. Markl, H. (1982). Evolutionsbiologie des Aggressionsverhaltens. In: R. Rilke , W. Kempf (Hrsg.), Aggression. Bern: Huber. Markowitsch, H. J. (1996) Neuropsychologie des menschlichen Gedächtnisses. Spektrum der Wissenschaft, 9, 52-61 Maynard Smith, J. (1974). The theory of games and the evolution of animal conflicts. Journal of Theoretical Biology, 47, 209-221. McDougall, W. (1908) An introduction to social psychology. London: Methuen Merz, F. (1965). Aggression und Aggressionstrieb. In: H. Thomae (Hr), Handbuch der Psychologie, Bd.2 Motivationslehre (S. 569-601). Göttingen: Hogrefe. Miller J. P., Selverstone, A. I. (1985) Neural mechanisms for the production of the lobster pyloric motor pattern. In: A.I. Selverstone (Ed.) Model neural networks and behavior. New York: Plenum Press Miller, E. K., Desimone, R. (1991). A neural mechanism for working and recognition memory in Inferior Temporal Cortex. Science, 254, 1377-1379. Miller, G. A., Galanter, E. , Pribram, K. H. (1960) Plans and the structure of behavior. Holt, Rinehart and Winston, New York Mittelstaedt H. (1971) Reafferenzprinzip - Apologie und Kritik. In: W.D. Keidel, K. H. Plattig (Hrsg) Vorträge der Erlanger Physiologentagung 1970. Berlin usw.: Springer (pp. 161-171) Mittelstaedt H. (1990) Basic solutions to the problem of head-centric visual localization. In: R. Warren, A. H.Wertheim (Eds.) The perception and control of self-motion. Hilsdale: Erlbaum Mowrer, O. H. (1960) Learning theory and behavior. New York: Wiley Neilson P. D. , Neilson M. D., O'Dwyer N. J. (1992) Adaptive model theory: Application to disorders of motor control. In: J J Summers (ed) Approaches to the study of motor control and learning (pp 495-548). Elsevier Neilson P. D., Neilson M. D., O'Dwyer N. J. (1995) Adaptive optimal control of human tracking. In: D J Glencross , J P Piek (eds) Motor control and sensory motor integration: Issues and directions (pp 97-140). Elsevier Neilson, P. D., Neilson, M. D., O'Dwyer, N. J. (1998) Evidence for rapid switching of sensory-motor models. In: J P Piek (ed.) Motor behavior and human skill. A multidisciplinary approach. Human Kinetics (pp. 105-126) Pohl R. W. (1962) Mechanik, Akustik und Wärmelehre. 15. Auflage. Berlin usw.: Springer Verlag Prinz, W. (1998) Die Reaktion als Willenshandlung. Psychologische Rundschau, 49, 10-20 Pusey, A. E. , Packer, C. (1987). Dispersal and philopatry. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R. W. Wrangham, Th., T. Struhsaker (Eds), Primate societies (pp. 250-266). Chicago: The University of Chicago Press. Reichardt W. (1961) Autocorrelation as a principle for evaluation of sensory information by the central nervous system. In. W A Rosenblith (ed) Principles of sensory communications. Wiley, New York 66 Reichardt W. (1987) Evaluation of optical motion information by movement detectors. J. Comp. Physiol., A 161, 533-547 Rescorla, R. A., Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A. H. Black. , W. F. Prokasy (Eds.), Classical conditioning II: Current research and theory (pp. 64-99). New York: Appleton-Century-Crofts Riechert, S. E., Hammerstein, P. (1983). Game theory in the ecological context. Annual Reviews in Ecological Systems, 14, 377-409. Sanders, A. F. (1971) Psychologie der Informationsverarbeitung. Bern: Huber Schachter, S., Singer, J. (1962) Cognitive, social and physiological determinants of emotional state. Psychological Review, 69, 379-399 Schneider, K. , Schmalt, H.D. (1981) Motivation. Stuttgart: Kohlhammer Schneider, K. , Wothe, K. (1979) The contribution of naso-oral and postingestional factors in taste aversion learning in the rat. Behavioral an Neural Biology 25, 30-38 Schneider, K., Posse N. (1982) Risk-taking in achievement-oriented situations: Do people really maximize affect or competence information? Motivation and Emotion, 6, 259-271 Schneider, W., Shiffrin, R. M. (1977) Controlled and automatic human information processing: I, Detection, search and attention. Psychol. Review, 84, 1-66 Seligman, M. E. P. (1975) Helplessness: On Depression, development and death. San Fransisco: Freeman Shiffrin, R. M., Schneider, W. (1977) Controlled and automatic human information processing: II, Perceptual learning, automatic attending, and a general theory. Psychol. Review, 84, 127-190 Shouval, H. Z., Perrone M. P. (1995) Post-Hebbian learning rules. In: M. A. Arbib (ed.) The handbook of brain theory and neural networks. Cambridge: The MIT Press (pp. 745-748) Silby, R. , Mcfarland, D. (1974) A state-space approach to motivation. In: McFarland, D.(ed.) Motivational control systems analysis. Academic Press, London Silk, J. B. (1987) Social behavior in evolutionary perspective. In: B. B. Smuts, D. L. Cheney, R. M. Seyfarth, R. W.Wrangham, Th. T. Struhsaker (Eds), Primate societies. Chicago: The University of Chicago Press (pp.318329) Sillito, A. M., Murphy, P. C. (1987), The cholinergic modulation of cortical funktion. In: E. G. Jones, A. Peter (Eds) The cerebral cortex, Vol 6. New York: Plenum Press Smuts, B.B., Cheney, D. L., Seyfarth, R.M., Wrangham, R.W., Struhsaker, Th. T. (1987). Primate societies. Chicago: The University of Chicago Press. Sparenborg, S., Gabriel, M. (1990). Neuronal encoding of conditional stimulus duration in the Cingulate Cortex and the Limbic Thalamus of rabbits. Behav Neurosci, 104, 919-933. Spitz, R. A. (1960): The first year of life. International Universities Press, New York Thorndike, E. L. (1931) Human learning. Cambridge: Massachusetts Institute of Technology Press Toates, F. M. , Birke, L. I. A (1982) Motivation: A new perspective on some old ideas. In: P. P. Bateson, P. H. Klopfer (eds) Perspectives in Ethology 5. Plenum Press, New York, 191-241 Tocco, G., Devgan, K. K., Hauge, S. A., Weiss, C., Baudry, M., Thomson, R. F. (1991). Classical conditioning selectively increases AMPA/Quisqualate receptor binding in rabbit Hippocampus. Brain Res, 599, 331-336. Tolman, E.C. (1932) Purposive behavior in animals and men. New York: Century Trivers, R.L. (1985). Social evolution. Menlo Park (California): Benjamin Cummings. Vanden Berghe, J., Wouters, J. (1998) Adaptive noise canceller for hearing aids using two nearby microphones. J. Acoust. Soc. Am. 103, 3621-3626 Varju D. (1990) A Note on the reafference principle. Biol. Cybern. 63, 315-323 Velden, M. (1982). Die Signalentdeckungstheorie in der Psychologie. Stuttgart usw.: Kohlhammer Walter, W. G. (1961) Das lebende Gehirn. Berlin 67 Yeo, C. H. (1991). Cerebellum and classical conditioning of motor responses. Ann N Y Acad Sci, 627, 292-304 Zippelius, H. M. (1992). Die vermessene Theorie. Braunschweig: Vieweg 68
© Copyright 2024 ExpyDoc