PDF herunterladen - Max-Planck

Multimodale Verarbeitung
und Interaktion
MASCHINEN SPIEGELN MENSCHEN
D
ie moderne Informationstechnik hat unser Leben in den
letzten 30 Jahren dramatisch
verändert. Information ist
heute auf Knopfdruck fast
überall verfügbar. Immer schneller, billiger
und effizienter können IT-Systeme Daten
sammeln, speichern, verarbeiten und übermitteln. Dabei bewältigen sie nicht nur
eine ständig wachsende Informationsmenge, sondern auch deren zunehmende Vielgestaltigkeit.
Noch vor zehn Jahren bestanden digitale Inhalte überwiegend aus Texten. Doch
längst sind Sprache und Musik, Bilder, Videos und vieles mehr hinzugekommen.
Moderne PCs sind »Multimediageräte«;
immer mehr Menschen nutzen Mehrzweckhandys, intelligente Sensoren und
Displays, ja teilweise sogar schon in die
Kleidung integrierte Computerchips. Die
Flut an multimodalen Daten, die immer
mehr elektronische Geräte speisen, gilt es
heute auf intelligente und effiziente Weise zu erschließen.
REDEN MIT DEM RECHNER
Der Mensch kommuniziert und erkennt
seine Umgebung von jeher multimodal –
das heißt auf verschiedenen Kanälen. Wir
nehmen die Welt über unsere fünf Sinne
wahr und äußern uns durch Sprache, Mimik, Blickkontakt, Körperhaltung, Berührung und Bewegung. In dieser Hinsicht
sind Computersysteme dem Menschen bis
heute immer noch weit unterlegen. Zwar
können sie große, wohlstrukturierte Datenmengen mit unglaublich hoher Geschwindigkeit verarbeiten. Sie versagen
jedoch bei vielen Aufgaben, die einem
Menschen leichtfallen, wie zum Beispiel
gesprochene Sätze zu verstehen oder einen
Gesichtsausdruck richtig zu deuten.
Mittels multimodaler Rechentechnik
versuchen Forscher, Interaktionen zwischen Mensch und Computer wie zwischenmenschliche Kommunikation zu gestalten. Dann erst kann die Verständigung
zwischen Mensch und Maschine auf intuitive Art klappen. Den Computer fordert
das allerdings ganz erheblich: Er muss in
Echtzeit große Datenmengen unterschiedlicher Formate analysieren und interpretieren können, die möglicherweise zudem
verzerrt, verrauscht und unvollständig
sind. Anders gesagt: Er muss multimodale
Informationen verarbeiten, die ihn in rohem Zustand erreichen. Die gewonnenen
Daten gilt es dann so zu organisieren, dass
wir sie über Suchanfragen leicht wiederfinden können. Darüber hinaus muss der
Computer fähig sein, die komplexen Informationen ohne Zeitverlust einleuchtend
auf dem Bildschirm darzustellen.
Wie lässt sich multimodale Information gewinnen, organisieren und wiederauffindbar machen? Eine maschinelle Suche kann Bild-, Video- und Audiodateien
gegenwärtig nur erfassen, wenn diese mit
Schlüsselwörtern versehen oder durch einfache Texte beschrieben sind. Solche manuell erstellten Annotationen schränken
bestimmte Arten der Suche ein oder verzerren die Suchergebnisse. So finden zwar sowohl professionelle als auch gelegentliche
Nutzer sehr viele auf sie ausgerichtete Datensammlungen im Internet; aber bislang
sind die verschiedenen Quellen und Formate kaum zusammengeführt worden.
Die Zukunft der multimodalen Verarbeitung gehört vor allem Verfahren, die in
der Lage sind, die natürliche Sprache1 zu
verarbeiten sowie automatisch den Inhalt
von digitalen Bildern zu erkennen2 und
sinnvoll zu interpretieren. Darüber hinaus
sollen künftige Systeme ableiten können,
wie verschiedene Informationsinhalte mit-
F
orscher am Max-Planck-Institut für Informatik entwickelten
aus einem Multi-View-Video einen neuen markerlosen Ansatz
zur Erfassung komplexer menschlicher Bewegungen (de Aguiar, E. et al., ACM TOG 27(3), 2008). Darüber hinaus schlugen sie den
58
Forschungsperspektiven der Max-Planck-Gesellschaft | 2010+
einander zusammenhängen, und sie erschließen aus dem Kontext die jeweils
richtige Bedeutung eines mehrdeutigen
Ausdrucks3. Wissenschaft und Technik
werden von solchen Hilfsmitteln stark
profitieren. Vor allem Mediziner und Biowissenschaftler4 können die zunehmende
Flut wissenschaftlicher Veröffentlichungen auf diese Weise besser bewältigen.
VIRTUELLE WELTEN MIT
KÜNSTLICHEN GESTALTEN
Doch dies alles beschreibt nur einen Teil
der Herausforderungen. Das Ziel ist, komplexe multimodale Information in realistischen virtuellen Umgebungen darzustellen. Deren Visualisierungen können
entweder von Grund auf errechnet werden5, oder man verwendet Standbilder, Videos und dreidimensionale Modelle realer
Gegenstände (3-D-Scans)6, die dann durch
raffinierte Algorithmen vom Computer in
die Umgebungen eingebaut werden. Hierfür sind fortgeschrittene Techniken der
Computergraphik, Bildverarbeitung, des
maschinellen Sehens und der geometrischen Datenverarbeitung7 gefragt.
Die Forscher wollen diese virtuellen
Welten auch mit künstlichen Gestalten
bevölkern, die in Aussehen, Sprache, Mimik und Verhalten wie Menschen wirken.
Solche virtuellen Figuren stellen eine
mächtige und intuitive Schnittstelle für
die Präsentation komplexer multimodaler
Daten dar.
Ein entscheidendes Leitprinzip für die
multimodale Interaktion ist die symmetrische Kommunikation: Mensch und
Maschine sollen nach dem Vorbild eines
normalen Gesprächs dieselben Kommunikationsmoden verwenden8. In der Zukunft wird sich kein Autofahrer mehr vom
Verkehr ablenken lassen, weil er nach ir-
Aufbau umfassender Wissensbasen vor, die den heutigen, auf
Schlüsselwörtern basierenden Suchmaschinen weit überlegen sind
(de Aguiar, E. et al., ACM TOG 27(3), 2008; Weikum, G. et al., Comm. ACM
52(4), 2009).
CHEMIE, PHYSIK UND TECHNIK
Multimodale Computersysteme verarbeiten Text, Sprache und visuelle
Daten.
Herausforderungen dabei sind, multimodale Information auf intelligente,
effiziente und robuste Weise zu organisieren, zu verstehen und zu
durchsuchen.
Auf dieser Grundlage lassen sich Systeme entwickeln, mit denen wir intuitiv
und auf natürliche Weise kommunizieren können.
➟ Bibliographie siehe Seiten 70 und 71
Symmetrien von Gebäuden – automatisch extrahierte
semantische Informationen (in diesem Fall sind
es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten [Data courtesy IKG Hannover].
oben
Bild 1 | Eine Ontologie semantischer Zusammenhänge zwischen
Begriffen und Konzepten
Einheit
Unterklasse
Unterklasse
Standort
Unterklasse Unterklasse
Unterklasse
Unterklasse
Biologie
Forscher
Stadt
Land
KONZEPTE
Person
Unterklasse
Physiker
Teil von
Erwin Planck
Nobelpreis
Kiel
bekam den
4. Oktober
1947
starb am
bedeutet
»Max
Planck«
Vater von
Max Planck
bedeutet
»Max Karl
Ernst Ludwig
Planck«
geboren in
geboren
am
INDIVIDUEN
Teil von
23. April
1858
bedeutet
»Dr.
Planck«
BEGRIFFE
gendwelchen Knöpfen sucht. Stattdessen
spricht er einfach mit seinem Fahrzeug –
»Wo ist die nächste Tankstelle?«, »Schalte
auf Vierradantrieb!« –, während die Maschine mittels ausgeklügelter Algorithmen
seine Worte interpretiert und in genauso
natürlicher Sprache antwortet. Dabei führt
sie nicht einfach nur ihre Aufgabe aus,
sondern registriert beispielsweise, ob die
Aufmerksamkeit des Fahrers gerade stark
beansprucht ist. So kann das System auf
die Situation eingehen und geeignete multimodale Antworten geben.
Plattformen für multimodale Verarbeitung funktionieren allerdings nur dann an
jedem Ort und zu jeder Zeit zuverlässig,
wenn sie die Fähigkeit zur Selbstorganisation besitzen und weit gehend unabhängig sind von ihrer Systeminfrastruktur. Alle
manuellen Eingriffe sollten sich darauf beschränken, lediglich Hardware zu installieren oder auszuwechseln. Tastatur und
Maus als Eingabemedien hätten dann ausgedient.
Die multimodale Zukunft hat uns bereits in Gestalt von Multifunktionshandys,
GPS-Navigationsgeräten und auch hyperrealistischen Computerspielen erreicht.
Multimodale Systeme werden eines Tages
praktisch überall und jederzeit verfügbar
sein. Als Vision werden sie autonom agieren und sich selbst organisieren. Sie werden menschliches Verhalten spiegeln und
auf natürlichem Weg kommunizieren,
indem sie uns zuhören und mit uns
sprechen. Dem Nutzer werden sie maßgeschneiderte Informationen und Interaktionsmöglichkeiten zur Verfügung stellen, aber auch dessen persönliche Daten
und Aktivitäten verarbeiten. Eine große
Herausforderung ist es daher, im Spannungsfeld von Privatsphäre und Verantwortung für eigenes Tun praktikable Lösungen zu finden. Bereits heute gilt es, die
grundlegenden Prinzipien zur Realisierung
und zum Betrieb solcher Systeme zu erforschen9,10. Sie dürften uns bald in die Lage
versetzen, gewaltige Mengen multimodaler Information sicher und verlässlich zu
bewältigen.
2010+ | Forschungsperspektiven der Max-Planck-Gesellschaft
59