Was ist Information Retrieval? - Institut für Informatik - Johannes

Dr. Thomas Gottron
Institut für Informatik, FB08
Johannes Gutenberg-Universität Mainz
Was ist Information Retrieval?
Überblick
●
Beispiele
●
Worum geht es im IR
●
Daten, Wissen, Informationen
●
Definitionen zu IR
●
Teilgebiete und Aufgaben
●
Aufbau eines IR Systems
Beispiele
Beispiel: Bibliothekskatalog
4
Beispiel: Bibliothekskatalog
●
●
Suche im
Bibliotheksbestand
Klassisches
Einsatzgebiet
5
Beispiel: Web Suchmaschine
6
Beispiel: Web Suchmaschine
●
●
Seit Einführung und
Boom des Web sind
Suchmaschinen DAS
Thema im IR
Heutzutage vielfach
der Standardeinstieg
ins Web
–
Suche nach „wikipedia“
7
Beispiel: Web Directory
8
Beispiel: Web Directory
●
●
●
●
Anderes IR System
für die Suche nach
Webinhalten
Hierarchisch und
thematisch gegliedert
Manuelle Wartung
Kleinerer
Datenbestand
9
Beispiel: Desktop Suche
10
Beispiel: Desktop Suche
●
●
In vielen modernen
Betriebssystemen
integriert
Sogar in einigen
Mobiltelefonen
verfügbar
11
Worum geht es im
Information Retrieval
Worum geht es im IR
●
In allen Beispielen:
–
●
Versorgung von Nutzern mit Informationen
Wichtige Voraussetzung:
–
Nutzer haben Informationsbedürfnis!
13
Mögliche
Informationsbedürfnisse
●
●
●
●
●
●
●
●
Bei welchem Stand ging der DAX am Freitag aus dem
Handel?
Wie hat die Handballmannschaft meines Heimatortes
gestern gespielt?
Welche theoretischen Modelle gibt es im IR?
Wie funktioniert Quicksort?
Wann und wo findet die Vorlesung Information Retrieval
statt?
Was kann ich gegen den stechenden Schmerz im Fuß
unternehmen?
Welche Schauspieler haben die besten Chancen den
Oscar zu gewinnen?
Wie steht die breite Masse dem letzten Konjunkturpaket
14
der Regierung gegenüber?
Information Seeking
●
Unterschiedliche Möglichkeiten Informationen
zu suchen:
–
●
Information Seeking
Wie gehen Informationssuchende vor?
15
Experten befragen
●
●
●
Jemanden fragen, der die Information hat
Experte muss kein Spezialist sein (Passant
nach Weg fragen)
Schwierigkeit: Experten finden!
16
Literaturrecherche
●
●
Suche in bekannter, geeigneter Literatur:
–
Fachbuch
–
Zeitschrift
–
Zeitung
–
Webseite
Verwendung von Hilfsmitteln (Index,
Inhaltsverzeichnis) oder Vorwissen (Sport- oder
Wirtschaftsseite)
17
Bibliotheksrecherche
●
Suche nach geeigneter Literatur:
–
Titel
–
Autor
–
Thematische Klassifikation (RVK, DDC)
●
Elektronisch nach verschiedenen Kriterien
●
Heutzutage auch Online Suche:
–
OPAC – Online Public Access Catalog
18
Websuche
●
●
●
Anders als Bibliothekssuche:
–
Umfang
–
Heterogenität
–
Qualität
–
Formate (technisch und inhaltlich)
–
Automatische Erfassung
Urheberschaft, Qualität, Aktualität schwer
prüfbar
„Gefälschte“ Informationen
19
Nutzer wollen relevante
Informationen
●
Relevanz zentraler Begriff im IR
●
Arten der Relevanz:
–
Situative Relevanz (schwer messbar)
–
Subjektive Relevanz (für Nutzer interessant)
–
Objektive Relevanz (für IR Evaluation interessant)
–
Systemrelevanz (Retrieval Status Value)
20
Vagheit der Sprache
●
Größtes Problem im IR
●
Sprache muss interpretiert werden – schwierig!
●
Beispiele:
–
Bank, modern
–
Bildschirm, Screen, Monitor, Display
–
„Das ist aber eine tolle Vorlesung“
–
„russische Qualität“ (Wodka, Autos)
21
Daten, Wissen, Informationen
Daten, Wissen, Informationen
●
Bisher viel über Information
●
Was ist Information?
●
Abgrenzung über Daten, Wissen
●
Definitionen nicht immer gleich
–
Insbesondere Wissen und Information gelegentlich
gerade vertauscht
23
Daten
●
●
●
„Einträge“ mit syntaktischer Struktur
Für die maschinelle Verarbeitung geeignete
Kodierung von Informationen
Beispiel:
–
–
–
49 6e 66 6f 72 6d 61 74 69 6f 6e
UTF8 (Hexadezimal) für „Information“
1999-11-05
Zeichenkettenformat: ZZZZ-ZZ-ZZ
ST 2700 RIJ1
Zeichenkettenformat: BB ZZZZ BBBZ
24
Daten
●
Beispiel XML:
–
●
<entry>
<room id='00 511'/>
<building id='1 342'/>
<time>1240308900</time>
</entry>
XML beschreibt nur Syntax!
–
<alice>
<peace id='00 511'/>
<orchid id='1 342'/>
<bla>1240308900</bla>
</alice>
25
Wissen
●
Wissen ist Daten mit Semantik
–
●
Beispiele:
–
–
–
●
Was stellen die Daten dar?
Information
Buchtitel
1999-11-05
5. November 1999, Ausflug nach Inverness
ST 2700 RIJ1
PMC Signatur und Standort eines Buches
Gesamtheit aller Kenntnisse eines
Fachgebietes
26
Information
●
Aspekt der Pragmatik
–
●
●
Teilmenge des Wissens um spezielle Aufgabe zu
lösen
Beispiel:
–
Wie lautet der Titel zu ...?
–
Wann war ich in Inverness?
–
Wo steht „The Geometry of Information Retrieval“?
Information ist nutzbares Wissen
27
Definitionen zu
Information Retrieval
Definition zu IR
●
Verschiedene Definition
●
Verschiedene Aspekte und Teilaufgaben
●
Auch: Entwicklung über die Zeit!
●
Idee, worum es uns geht.
29
Definition (Fuhr)
●
●
●
Will man den Gegenstand des Information
Retrieval [...] mit wenigen Worten beschreiben,
so ist die Formulierung ”inhaltliche Suche in
Texten“ wohl am treffendsten.
Klassisch: Texte
Heute unter anderem auch Multimedia (Video,
Audio, Bilder)
30
Definition (GI Fachgruppe IR)
●
●
Im Information Retrieval (IR) werden
Informationssysteme in Bezug auf ihre Rolle im
Prozeß des Wissenstransfers vom
menschlichen Wissensproduzenten zum
Informations-Nachfragenden betrachtet.
Abstrakteres Ziel: Wissenstransfer
31
Definition (Baeza-Yates / RibeiroNeto)
●
●
●
Information Retrieval [...] deals with the
representation, storage, organization of, and
access to information items.
Technische Aspekte:
–
Darstellung
–
Speicherung
–
Verwaltung
–
Zugriff
Allgemein: „Informationsobjekte“
32
Definition (Henrich)
●
Gegenstand des Information Retrieval ist die
Suche nach Dokumenten. Traditionell handelt
es sich dabei um Textdokumente. In neuerer
Zeit kommt aber verstärkt die Suche nach
multimedialen Dokumenten (Bilder, Videos,
Audios, Hypertext-Dokumente) oder z.B. die
Suche nach Experten und Arbeitsgruppen mit
einem bestimmten Kompetenzprofil hinzu.
●
Expertensuche
●
Hypertext
33
Definition (Manning, Rhagavan,
Schütze)
●
●
●
Information retrieval (IR) is finding material
(usually documents) of an unstructured nature
(usually text) that satisfies an information need
from within large collections (usually stored on
computers).
Gemeinsamkeit der Informationsobjekte:
–
Unstrukturiert
–
Große Sammlungen
Einsatz von Computern
34
Anmerkung (van Rijsbergen /
Lancaster)
●
●
●
●
Eigentlich: „Document Retrieval“
An information retrieval system does not inform
(i.e. change the knowledge of) the user on the
subject of his inquiry. It merely informs on the
existence (or non-existence) and whereabouts
of documents relating to his request.
Nur Dokumente im System (Was heißt bei
Google „0 Treffer“)
Nimmt Question Answering aus
35
Abgrenzung Daten – Information
Retrieval
Matching
Inference
Model
Classification
Query Language
Query specification
Items wanted
Error response
Data Retrieval
Exact match
Deduction
Deterministic
Monothetic
Artificial
Complete
Matching
Sensitive
Information Retrieval
Partial or best match
Induction
Probabilistic
Polythetic
Natural
Incomplete
Relevant
Insensitive
36
Beispiel: SQL-Anfrage
●
Datenbank mit passender Tabelle
●
SQL-Abfrage:
–
●
select * from PFLANZEN where GATTUNG =
„Obstbaum“
Erwartung:
–
Alle Einträge in der Tabelle Pflanzen, bei denen im
Feld Gattung der Eintrag Obstbaum steht
–
Keine anderen Ergebnisse! („obstbaum“)
–
Fehlerhafte Anfrage „Ibstbaum“: keine Ergebnisse
37
Beispiel: IR-Anfrage
●
Suche im Web
●
Such-Anfrage:
–
●
Obstbaum
Erwartung:
–
Dokumente zum Thema Obstbaum
–
Auch wenn Inhalt „obstbaum“, „Obstbäume“,
„Fruchtbaum“, „Apfelbaum“
–
„Ibstbaum“: Meinten Sie vielleicht ...
38
Teilgebiete und Aufgaben im
Information Retrieval
Text IR
●
Klassischste Disziplin
●
Unterschiedliche Textdokumente:
●
●
–
Bücher
–
Wissenschaftliche Artikel
–
E-Mails
–
...
Text kann komplex sein: Struktur, Tabellen,
Abbildungen
Begrifflichkeit „IR arbeitet auf Dokumenten“
40
Hypertext IR
●
Beziehungen zwischen Dokumenten (Links)
●
Nicht nur im Web!
●
–
Hypertextidee von 1945
–
Zitate, Referenzen
Zusätzliche Information über den Text hinaus:
–
Googles PageRank
–
HITS
41
Question Answering
●
Direkte Beantwortung von Fragen
●
Statt Suchanfrage mit Ergebnisliste
–
„TGI Sommersemester 2009 Dozent Mainz“
●
●
●
Idealerweise:
–
„Wer liest in diesem Semester TGI?“
●
●
www.informatik.uni-mainz.de/lehre/tgi/
jogustine.uni-mainz.de/...
Prof. Ernst Althaus
Kein Document Retrieval mehr!
42
Multimedia IR
●
●
●
●
Suche nach Bild-, Audio-, Videodaten
Experimentell sogar: Animationen, Musiknoten,
Bewegungen
Problematisch:
–
Wie formuliert man Anfragen?
–
Wo steckt in einem Bild „Wissen“?
Ansatz: Beschreibende Texte (Metadaten)
43
Expertensuche
●
Wen muss ich zu einem Thema fragen?
●
Analyse von:
–
Dokumenten (Thema <=> Autor)
–
Personenbeschreibungen
–
Sozialen Netzwerken
44
Aufgaben im IR
●
In (fast) jedem Teilgebiet
●
Typische Aufgaben
●
Probleme
●
Answendungsszenarien
45
Ad hoc Anfragen
●
●
●
Klassische Vorstellung:
–
Feste Sammlung von Dokumenten
–
Nutzer formuliert Informationsbedürfnis als Anfrage
Aufgabe:
–
Finde die zur Anfrage relevanten Dokumente
–
Sortierung nach Relevanz
Beispiel:
–
Suche Dokumente zum Thema „Information
Retrieval“
46
Routing
●
●
●
Geändert Aufgabenstellung
–
Feste Anfrage
–
Strom neuer Dokumente
Aufgabe:
–
Welche Dokumente passen zur Anfrage?
–
(Meist) kein Ranking nötig
Beispiel:
–
Neu erscheinende Nachrichten zum Thema
„Internet“
47
Klassifikation
●
●
Gegeben:
–
Sammlung von Dokumenten
–
Verschiedene (thematische) Kategorien
Aufgabe:
–
●
Sortiere die Dokument in passende Kategorien ein
Beispiel:
–
Sortiere Dokument in die Themenbereiche Sport,
Politik, Wirtschaft
48
Cluster Analyse
●
Vergleichbar zur Klassifikation, aber:
–
●
Aufgabe:
–
●
Keine festen Kategorien vorgegeben
Gruppiere ähnliche Dokument zusammen
Beispiel:
–
Finde Themenschwerpunkt in Dokumentsammlung
–
Finde dicht vernetzte Bereiche im Web
49
Evaluation
●
Bewertung von IR Systemen
●
Kriterien:
●
–
Effektivität
–
Effizienz
–
Nutzerzufriedenheit
Schaffung von Testkollektionen
50
Nutzerinteraktion
●
●
Schnittstelle zum Nutzer
–
Wie wird Informationsbedürfnis ausgedrückt?
–
Wie werden Ergebnisse präsentiert?
Ansätze
–
Freitextsuche
–
Explorative Suche
–
Query-by-Example
51
Peer-2-Peer
●
Verteilte IR Systeme
●
Probleme:
–
Verteilung der Dokument
–
Verteilung der Anfragen
–
Auffinden von verteilten Dokumenten
–
...
52
Duplikaterkennung
●
●
Erkennung von ähnlichen oder gleichen
Dokumenten
Einsatz:
–
Verkleinerung der Datenbasis
–
Erkennung von Plagiaten
–
Finden von Kopien, wenn Original fehlt
53
Spamerkennung
●
●
●
Spam stört in vielen IR Anwendungen
Spam ist nie relevant, täuscht aber Relevanz
vor
Beispiele:
–
E-Mailfilter
–
Web Suchmaschinen
–
Bilddatenbanken
54
Angrenzende Gebiete
●
●
Angrenzende Forschungsgebiete:
–
Bibliothekswissenschaften
–
Linguistik
–
Psychologie
Innerhalb der Informatik
–
Datenbanken
–
KI (NLP, Data Mining, Machine Learning)
–
Visualisierung
–
HCI
55
Aufbau eines IR-Systems
Aufbau eines IR Systems
Feedback
Dokumentverarbeitung
Dokumentsammlung
Anfragen
Nutzer
Matching
Dokumentdarstellung
*
*
*
*
Dokument 42
Dokument 7
Dokument 25
...
Ergebnis
IR System
57
Dokumentverarbeitung
●
Erfassung der
Dokumente
●
Extraktion der Inhalte
●
Normalisierung
●
(Ständige
Aktualisierung)
58
Dokumentendarstellung
●
Internes Format
●
Nur Repräsentation
●
Datenstrukturen
59
Anfragen
●
●
●
Formulierung des
Informationsbedürfnis
Anpassung an
Dokumentdarstellung
Interaktionsfragen
60
Matching und Ergebnisliste
●
●
●
Vergleich der
Anfragen mit den
Dokumenten
Berechnung der
Systemrelevanz
Erstellen der
Ergebnisliste
61
Feedback
●
●
●
Rückmeldungen des
Nutzers
Auswertung
Berücksichtigung in
Anfrage
62
Zusammenfassung
●
●
●
●
Im Information Retrieval geht es um
Informationssysteme, die den Nutzer bei der
Informationssuche unterstützen.
Man hat es mit unstrukturierten Daten zu tun
Mit dem Boom des Web hat das Gebiet enorm
an Wichtigkeit gewonnen
Dokumentverarbeitung und -darstellung,
Anfrageverarbeitung und Matching sowie die
Ergebnisdarstellung und Feedbackauswertung
sind die wichtigsten Teile eines IR-Systems
63
Ergänzung: Nutzloses Wissen
●
●
Schotts Sammelsurium: Enzyklopädie des
nutzlosen Wissens
Tatsächlich schwer daraus Informationen
(nutzbares Wissen) zu ziehen:
–
Kein Inhaltsverzeichnis
–
Kein Index
–
Keine (erkennbare) Sortierung der Einträge
64
Ergänzung: Calvin Mooers
●
Pionier der Informatik
●
Begriff „Information Retrieval“ geprägt
●
Mooers Law:
–
An information retrieval system will tend not to be
used whenever it is more painful and troublesome
for a customer to have information than for him not
to have it.
65
Fragen ???
66