Multimodale Verarbeitung und Interaktion MASCHINEN SPIEGELN MENSCHEN D ie moderne Informationstechnik hat unser Leben in den letzten 30 Jahren dramatisch verändert. Information ist heute auf Knopfdruck fast überall verfügbar. Immer schneller, billiger und effizienter können IT-Systeme Daten sammeln, speichern, verarbeiten und übermitteln. Dabei bewältigen sie nicht nur eine ständig wachsende Informationsmenge, sondern auch deren zunehmende Vielgestaltigkeit. Noch vor zehn Jahren bestanden digitale Inhalte überwiegend aus Texten. Doch längst sind Sprache und Musik, Bilder, Videos und vieles mehr hinzugekommen. Moderne PCs sind »Multimediageräte«; immer mehr Menschen nutzen Mehrzweckhandys, intelligente Sensoren und Displays, ja teilweise sogar schon in die Kleidung integrierte Computerchips. Die Flut an multimodalen Daten, die immer mehr elektronische Geräte speisen, gilt es heute auf intelligente und effiziente Weise zu erschließen. REDEN MIT DEM RECHNER Der Mensch kommuniziert und erkennt seine Umgebung von jeher multimodal – das heißt auf verschiedenen Kanälen. Wir nehmen die Welt über unsere fünf Sinne wahr und äußern uns durch Sprache, Mimik, Blickkontakt, Körperhaltung, Berührung und Bewegung. In dieser Hinsicht sind Computersysteme dem Menschen bis heute immer noch weit unterlegen. Zwar können sie große, wohlstrukturierte Datenmengen mit unglaublich hoher Geschwindigkeit verarbeiten. Sie versagen jedoch bei vielen Aufgaben, die einem Menschen leichtfallen, wie zum Beispiel gesprochene Sätze zu verstehen oder einen Gesichtsausdruck richtig zu deuten. Mittels multimodaler Rechentechnik versuchen Forscher, Interaktionen zwischen Mensch und Computer wie zwischenmenschliche Kommunikation zu gestalten. Dann erst kann die Verständigung zwischen Mensch und Maschine auf intuitive Art klappen. Den Computer fordert das allerdings ganz erheblich: Er muss in Echtzeit große Datenmengen unterschiedlicher Formate analysieren und interpretieren können, die möglicherweise zudem verzerrt, verrauscht und unvollständig sind. Anders gesagt: Er muss multimodale Informationen verarbeiten, die ihn in rohem Zustand erreichen. Die gewonnenen Daten gilt es dann so zu organisieren, dass wir sie über Suchanfragen leicht wiederfinden können. Darüber hinaus muss der Computer fähig sein, die komplexen Informationen ohne Zeitverlust einleuchtend auf dem Bildschirm darzustellen. Wie lässt sich multimodale Information gewinnen, organisieren und wiederauffindbar machen? Eine maschinelle Suche kann Bild-, Video- und Audiodateien gegenwärtig nur erfassen, wenn diese mit Schlüsselwörtern versehen oder durch einfache Texte beschrieben sind. Solche manuell erstellten Annotationen schränken bestimmte Arten der Suche ein oder verzerren die Suchergebnisse. So finden zwar sowohl professionelle als auch gelegentliche Nutzer sehr viele auf sie ausgerichtete Datensammlungen im Internet; aber bislang sind die verschiedenen Quellen und Formate kaum zusammengeführt worden. Die Zukunft der multimodalen Verarbeitung gehört vor allem Verfahren, die in der Lage sind, die natürliche Sprache1 zu verarbeiten sowie automatisch den Inhalt von digitalen Bildern zu erkennen2 und sinnvoll zu interpretieren. Darüber hinaus sollen künftige Systeme ableiten können, wie verschiedene Informationsinhalte mit- F orscher am Max-Planck-Institut für Informatik entwickelten aus einem Multi-View-Video einen neuen markerlosen Ansatz zur Erfassung komplexer menschlicher Bewegungen (de Aguiar, E. et al., ACM TOG 27(3), 2008). Darüber hinaus schlugen sie den 58 Forschungsperspektiven der Max-Planck-Gesellschaft | 2010+ einander zusammenhängen, und sie erschließen aus dem Kontext die jeweils richtige Bedeutung eines mehrdeutigen Ausdrucks3. Wissenschaft und Technik werden von solchen Hilfsmitteln stark profitieren. Vor allem Mediziner und Biowissenschaftler4 können die zunehmende Flut wissenschaftlicher Veröffentlichungen auf diese Weise besser bewältigen. VIRTUELLE WELTEN MIT KÜNSTLICHEN GESTALTEN Doch dies alles beschreibt nur einen Teil der Herausforderungen. Das Ziel ist, komplexe multimodale Information in realistischen virtuellen Umgebungen darzustellen. Deren Visualisierungen können entweder von Grund auf errechnet werden5, oder man verwendet Standbilder, Videos und dreidimensionale Modelle realer Gegenstände (3-D-Scans)6, die dann durch raffinierte Algorithmen vom Computer in die Umgebungen eingebaut werden. Hierfür sind fortgeschrittene Techniken der Computergraphik, Bildverarbeitung, des maschinellen Sehens und der geometrischen Datenverarbeitung7 gefragt. Die Forscher wollen diese virtuellen Welten auch mit künstlichen Gestalten bevölkern, die in Aussehen, Sprache, Mimik und Verhalten wie Menschen wirken. Solche virtuellen Figuren stellen eine mächtige und intuitive Schnittstelle für die Präsentation komplexer multimodaler Daten dar. Ein entscheidendes Leitprinzip für die multimodale Interaktion ist die symmetrische Kommunikation: Mensch und Maschine sollen nach dem Vorbild eines normalen Gesprächs dieselben Kommunikationsmoden verwenden8. In der Zukunft wird sich kein Autofahrer mehr vom Verkehr ablenken lassen, weil er nach ir- Aufbau umfassender Wissensbasen vor, die den heutigen, auf Schlüsselwörtern basierenden Suchmaschinen weit überlegen sind (de Aguiar, E. et al., ACM TOG 27(3), 2008; Weikum, G. et al., Comm. ACM 52(4), 2009). CHEMIE, PHYSIK UND TECHNIK Multimodale Computersysteme verarbeiten Text, Sprache und visuelle Daten. Herausforderungen dabei sind, multimodale Information auf intelligente, effiziente und robuste Weise zu organisieren, zu verstehen und zu durchsuchen. Auf dieser Grundlage lassen sich Systeme entwickeln, mit denen wir intuitiv und auf natürliche Weise kommunizieren können. ➟ Bibliographie siehe Seiten 70 und 71 Symmetrien von Gebäuden – automatisch extrahierte semantische Informationen (in diesem Fall sind es Symmetrien) aus a priori unstrukturierten 3-DScannerdaten [Data courtesy IKG Hannover]. oben Bild 1 | Eine Ontologie semantischer Zusammenhänge zwischen Begriffen und Konzepten Einheit Unterklasse Unterklasse Standort Unterklasse Unterklasse Unterklasse Unterklasse Biologie Forscher Stadt Land KONZEPTE Person Unterklasse Physiker Teil von Erwin Planck Nobelpreis Kiel bekam den 4. Oktober 1947 starb am bedeutet »Max Planck« Vater von Max Planck bedeutet »Max Karl Ernst Ludwig Planck« geboren in geboren am INDIVIDUEN Teil von 23. April 1858 bedeutet »Dr. Planck« BEGRIFFE gendwelchen Knöpfen sucht. Stattdessen spricht er einfach mit seinem Fahrzeug – »Wo ist die nächste Tankstelle?«, »Schalte auf Vierradantrieb!« –, während die Maschine mittels ausgeklügelter Algorithmen seine Worte interpretiert und in genauso natürlicher Sprache antwortet. Dabei führt sie nicht einfach nur ihre Aufgabe aus, sondern registriert beispielsweise, ob die Aufmerksamkeit des Fahrers gerade stark beansprucht ist. So kann das System auf die Situation eingehen und geeignete multimodale Antworten geben. Plattformen für multimodale Verarbeitung funktionieren allerdings nur dann an jedem Ort und zu jeder Zeit zuverlässig, wenn sie die Fähigkeit zur Selbstorganisation besitzen und weit gehend unabhängig sind von ihrer Systeminfrastruktur. Alle manuellen Eingriffe sollten sich darauf beschränken, lediglich Hardware zu installieren oder auszuwechseln. Tastatur und Maus als Eingabemedien hätten dann ausgedient. Die multimodale Zukunft hat uns bereits in Gestalt von Multifunktionshandys, GPS-Navigationsgeräten und auch hyperrealistischen Computerspielen erreicht. Multimodale Systeme werden eines Tages praktisch überall und jederzeit verfügbar sein. Als Vision werden sie autonom agieren und sich selbst organisieren. Sie werden menschliches Verhalten spiegeln und auf natürlichem Weg kommunizieren, indem sie uns zuhören und mit uns sprechen. Dem Nutzer werden sie maßgeschneiderte Informationen und Interaktionsmöglichkeiten zur Verfügung stellen, aber auch dessen persönliche Daten und Aktivitäten verarbeiten. Eine große Herausforderung ist es daher, im Spannungsfeld von Privatsphäre und Verantwortung für eigenes Tun praktikable Lösungen zu finden. Bereits heute gilt es, die grundlegenden Prinzipien zur Realisierung und zum Betrieb solcher Systeme zu erforschen9,10. Sie dürften uns bald in die Lage versetzen, gewaltige Mengen multimodaler Information sicher und verlässlich zu bewältigen. 2010+ | Forschungsperspektiven der Max-Planck-Gesellschaft 59
© Copyright 2024 ExpyDoc