Dr. Thomas Gottron Institut für Informatik, FB08 Johannes Gutenberg-Universität Mainz Was ist Information Retrieval? Überblick ● Beispiele ● Worum geht es im IR ● Daten, Wissen, Informationen ● Definitionen zu IR ● Teilgebiete und Aufgaben ● Aufbau eines IR Systems Beispiele Beispiel: Bibliothekskatalog 4 Beispiel: Bibliothekskatalog ● ● Suche im Bibliotheksbestand Klassisches Einsatzgebiet 5 Beispiel: Web Suchmaschine 6 Beispiel: Web Suchmaschine ● ● Seit Einführung und Boom des Web sind Suchmaschinen DAS Thema im IR Heutzutage vielfach der Standardeinstieg ins Web – Suche nach „wikipedia“ 7 Beispiel: Web Directory 8 Beispiel: Web Directory ● ● ● ● Anderes IR System für die Suche nach Webinhalten Hierarchisch und thematisch gegliedert Manuelle Wartung Kleinerer Datenbestand 9 Beispiel: Desktop Suche 10 Beispiel: Desktop Suche ● ● In vielen modernen Betriebssystemen integriert Sogar in einigen Mobiltelefonen verfügbar 11 Worum geht es im Information Retrieval Worum geht es im IR ● In allen Beispielen: – ● Versorgung von Nutzern mit Informationen Wichtige Voraussetzung: – Nutzer haben Informationsbedürfnis! 13 Mögliche Informationsbedürfnisse ● ● ● ● ● ● ● ● Bei welchem Stand ging der DAX am Freitag aus dem Handel? Wie hat die Handballmannschaft meines Heimatortes gestern gespielt? Welche theoretischen Modelle gibt es im IR? Wie funktioniert Quicksort? Wann und wo findet die Vorlesung Information Retrieval statt? Was kann ich gegen den stechenden Schmerz im Fuß unternehmen? Welche Schauspieler haben die besten Chancen den Oscar zu gewinnen? Wie steht die breite Masse dem letzten Konjunkturpaket 14 der Regierung gegenüber? Information Seeking ● Unterschiedliche Möglichkeiten Informationen zu suchen: – ● Information Seeking Wie gehen Informationssuchende vor? 15 Experten befragen ● ● ● Jemanden fragen, der die Information hat Experte muss kein Spezialist sein (Passant nach Weg fragen) Schwierigkeit: Experten finden! 16 Literaturrecherche ● ● Suche in bekannter, geeigneter Literatur: – Fachbuch – Zeitschrift – Zeitung – Webseite Verwendung von Hilfsmitteln (Index, Inhaltsverzeichnis) oder Vorwissen (Sport- oder Wirtschaftsseite) 17 Bibliotheksrecherche ● Suche nach geeigneter Literatur: – Titel – Autor – Thematische Klassifikation (RVK, DDC) ● Elektronisch nach verschiedenen Kriterien ● Heutzutage auch Online Suche: – OPAC – Online Public Access Catalog 18 Websuche ● ● ● Anders als Bibliothekssuche: – Umfang – Heterogenität – Qualität – Formate (technisch und inhaltlich) – Automatische Erfassung Urheberschaft, Qualität, Aktualität schwer prüfbar „Gefälschte“ Informationen 19 Nutzer wollen relevante Informationen ● Relevanz zentraler Begriff im IR ● Arten der Relevanz: – Situative Relevanz (schwer messbar) – Subjektive Relevanz (für Nutzer interessant) – Objektive Relevanz (für IR Evaluation interessant) – Systemrelevanz (Retrieval Status Value) 20 Vagheit der Sprache ● Größtes Problem im IR ● Sprache muss interpretiert werden – schwierig! ● Beispiele: – Bank, modern – Bildschirm, Screen, Monitor, Display – „Das ist aber eine tolle Vorlesung“ – „russische Qualität“ (Wodka, Autos) 21 Daten, Wissen, Informationen Daten, Wissen, Informationen ● Bisher viel über Information ● Was ist Information? ● Abgrenzung über Daten, Wissen ● Definitionen nicht immer gleich – Insbesondere Wissen und Information gelegentlich gerade vertauscht 23 Daten ● ● ● „Einträge“ mit syntaktischer Struktur Für die maschinelle Verarbeitung geeignete Kodierung von Informationen Beispiel: – – – 49 6e 66 6f 72 6d 61 74 69 6f 6e UTF8 (Hexadezimal) für „Information“ 1999-11-05 Zeichenkettenformat: ZZZZ-ZZ-ZZ ST 2700 RIJ1 Zeichenkettenformat: BB ZZZZ BBBZ 24 Daten ● Beispiel XML: – ● <entry> <room id='00 511'/> <building id='1 342'/> <time>1240308900</time> </entry> XML beschreibt nur Syntax! – <alice> <peace id='00 511'/> <orchid id='1 342'/> <bla>1240308900</bla> </alice> 25 Wissen ● Wissen ist Daten mit Semantik – ● Beispiele: – – – ● Was stellen die Daten dar? Information Buchtitel 1999-11-05 5. November 1999, Ausflug nach Inverness ST 2700 RIJ1 PMC Signatur und Standort eines Buches Gesamtheit aller Kenntnisse eines Fachgebietes 26 Information ● Aspekt der Pragmatik – ● ● Teilmenge des Wissens um spezielle Aufgabe zu lösen Beispiel: – Wie lautet der Titel zu ...? – Wann war ich in Inverness? – Wo steht „The Geometry of Information Retrieval“? Information ist nutzbares Wissen 27 Definitionen zu Information Retrieval Definition zu IR ● Verschiedene Definition ● Verschiedene Aspekte und Teilaufgaben ● Auch: Entwicklung über die Zeit! ● Idee, worum es uns geht. 29 Definition (Fuhr) ● ● ● Will man den Gegenstand des Information Retrieval [...] mit wenigen Worten beschreiben, so ist die Formulierung ”inhaltliche Suche in Texten“ wohl am treffendsten. Klassisch: Texte Heute unter anderem auch Multimedia (Video, Audio, Bilder) 30 Definition (GI Fachgruppe IR) ● ● Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Abstrakteres Ziel: Wissenstransfer 31 Definition (Baeza-Yates / RibeiroNeto) ● ● ● Information Retrieval [...] deals with the representation, storage, organization of, and access to information items. Technische Aspekte: – Darstellung – Speicherung – Verwaltung – Zugriff Allgemein: „Informationsobjekte“ 32 Definition (Henrich) ● Gegenstand des Information Retrieval ist die Suche nach Dokumenten. Traditionell handelt es sich dabei um Textdokumente. In neuerer Zeit kommt aber verstärkt die Suche nach multimedialen Dokumenten (Bilder, Videos, Audios, Hypertext-Dokumente) oder z.B. die Suche nach Experten und Arbeitsgruppen mit einem bestimmten Kompetenzprofil hinzu. ● Expertensuche ● Hypertext 33 Definition (Manning, Rhagavan, Schütze) ● ● ● Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). Gemeinsamkeit der Informationsobjekte: – Unstrukturiert – Große Sammlungen Einsatz von Computern 34 Anmerkung (van Rijsbergen / Lancaster) ● ● ● ● Eigentlich: „Document Retrieval“ An information retrieval system does not inform (i.e. change the knowledge of) the user on the subject of his inquiry. It merely informs on the existence (or non-existence) and whereabouts of documents relating to his request. Nur Dokumente im System (Was heißt bei Google „0 Treffer“) Nimmt Question Answering aus 35 Abgrenzung Daten – Information Retrieval Matching Inference Model Classification Query Language Query specification Items wanted Error response Data Retrieval Exact match Deduction Deterministic Monothetic Artificial Complete Matching Sensitive Information Retrieval Partial or best match Induction Probabilistic Polythetic Natural Incomplete Relevant Insensitive 36 Beispiel: SQL-Anfrage ● Datenbank mit passender Tabelle ● SQL-Abfrage: – ● select * from PFLANZEN where GATTUNG = „Obstbaum“ Erwartung: – Alle Einträge in der Tabelle Pflanzen, bei denen im Feld Gattung der Eintrag Obstbaum steht – Keine anderen Ergebnisse! („obstbaum“) – Fehlerhafte Anfrage „Ibstbaum“: keine Ergebnisse 37 Beispiel: IR-Anfrage ● Suche im Web ● Such-Anfrage: – ● Obstbaum Erwartung: – Dokumente zum Thema Obstbaum – Auch wenn Inhalt „obstbaum“, „Obstbäume“, „Fruchtbaum“, „Apfelbaum“ – „Ibstbaum“: Meinten Sie vielleicht ... 38 Teilgebiete und Aufgaben im Information Retrieval Text IR ● Klassischste Disziplin ● Unterschiedliche Textdokumente: ● ● – Bücher – Wissenschaftliche Artikel – E-Mails – ... Text kann komplex sein: Struktur, Tabellen, Abbildungen Begrifflichkeit „IR arbeitet auf Dokumenten“ 40 Hypertext IR ● Beziehungen zwischen Dokumenten (Links) ● Nicht nur im Web! ● – Hypertextidee von 1945 – Zitate, Referenzen Zusätzliche Information über den Text hinaus: – Googles PageRank – HITS 41 Question Answering ● Direkte Beantwortung von Fragen ● Statt Suchanfrage mit Ergebnisliste – „TGI Sommersemester 2009 Dozent Mainz“ ● ● ● Idealerweise: – „Wer liest in diesem Semester TGI?“ ● ● www.informatik.uni-mainz.de/lehre/tgi/ jogustine.uni-mainz.de/... Prof. Ernst Althaus Kein Document Retrieval mehr! 42 Multimedia IR ● ● ● ● Suche nach Bild-, Audio-, Videodaten Experimentell sogar: Animationen, Musiknoten, Bewegungen Problematisch: – Wie formuliert man Anfragen? – Wo steckt in einem Bild „Wissen“? Ansatz: Beschreibende Texte (Metadaten) 43 Expertensuche ● Wen muss ich zu einem Thema fragen? ● Analyse von: – Dokumenten (Thema <=> Autor) – Personenbeschreibungen – Sozialen Netzwerken 44 Aufgaben im IR ● In (fast) jedem Teilgebiet ● Typische Aufgaben ● Probleme ● Answendungsszenarien 45 Ad hoc Anfragen ● ● ● Klassische Vorstellung: – Feste Sammlung von Dokumenten – Nutzer formuliert Informationsbedürfnis als Anfrage Aufgabe: – Finde die zur Anfrage relevanten Dokumente – Sortierung nach Relevanz Beispiel: – Suche Dokumente zum Thema „Information Retrieval“ 46 Routing ● ● ● Geändert Aufgabenstellung – Feste Anfrage – Strom neuer Dokumente Aufgabe: – Welche Dokumente passen zur Anfrage? – (Meist) kein Ranking nötig Beispiel: – Neu erscheinende Nachrichten zum Thema „Internet“ 47 Klassifikation ● ● Gegeben: – Sammlung von Dokumenten – Verschiedene (thematische) Kategorien Aufgabe: – ● Sortiere die Dokument in passende Kategorien ein Beispiel: – Sortiere Dokument in die Themenbereiche Sport, Politik, Wirtschaft 48 Cluster Analyse ● Vergleichbar zur Klassifikation, aber: – ● Aufgabe: – ● Keine festen Kategorien vorgegeben Gruppiere ähnliche Dokument zusammen Beispiel: – Finde Themenschwerpunkt in Dokumentsammlung – Finde dicht vernetzte Bereiche im Web 49 Evaluation ● Bewertung von IR Systemen ● Kriterien: ● – Effektivität – Effizienz – Nutzerzufriedenheit Schaffung von Testkollektionen 50 Nutzerinteraktion ● ● Schnittstelle zum Nutzer – Wie wird Informationsbedürfnis ausgedrückt? – Wie werden Ergebnisse präsentiert? Ansätze – Freitextsuche – Explorative Suche – Query-by-Example 51 Peer-2-Peer ● Verteilte IR Systeme ● Probleme: – Verteilung der Dokument – Verteilung der Anfragen – Auffinden von verteilten Dokumenten – ... 52 Duplikaterkennung ● ● Erkennung von ähnlichen oder gleichen Dokumenten Einsatz: – Verkleinerung der Datenbasis – Erkennung von Plagiaten – Finden von Kopien, wenn Original fehlt 53 Spamerkennung ● ● ● Spam stört in vielen IR Anwendungen Spam ist nie relevant, täuscht aber Relevanz vor Beispiele: – E-Mailfilter – Web Suchmaschinen – Bilddatenbanken 54 Angrenzende Gebiete ● ● Angrenzende Forschungsgebiete: – Bibliothekswissenschaften – Linguistik – Psychologie Innerhalb der Informatik – Datenbanken – KI (NLP, Data Mining, Machine Learning) – Visualisierung – HCI 55 Aufbau eines IR-Systems Aufbau eines IR Systems Feedback Dokumentverarbeitung Dokumentsammlung Anfragen Nutzer Matching Dokumentdarstellung * * * * Dokument 42 Dokument 7 Dokument 25 ... Ergebnis IR System 57 Dokumentverarbeitung ● Erfassung der Dokumente ● Extraktion der Inhalte ● Normalisierung ● (Ständige Aktualisierung) 58 Dokumentendarstellung ● Internes Format ● Nur Repräsentation ● Datenstrukturen 59 Anfragen ● ● ● Formulierung des Informationsbedürfnis Anpassung an Dokumentdarstellung Interaktionsfragen 60 Matching und Ergebnisliste ● ● ● Vergleich der Anfragen mit den Dokumenten Berechnung der Systemrelevanz Erstellen der Ergebnisliste 61 Feedback ● ● ● Rückmeldungen des Nutzers Auswertung Berücksichtigung in Anfrage 62 Zusammenfassung ● ● ● ● Im Information Retrieval geht es um Informationssysteme, die den Nutzer bei der Informationssuche unterstützen. Man hat es mit unstrukturierten Daten zu tun Mit dem Boom des Web hat das Gebiet enorm an Wichtigkeit gewonnen Dokumentverarbeitung und -darstellung, Anfrageverarbeitung und Matching sowie die Ergebnisdarstellung und Feedbackauswertung sind die wichtigsten Teile eines IR-Systems 63 Ergänzung: Nutzloses Wissen ● ● Schotts Sammelsurium: Enzyklopädie des nutzlosen Wissens Tatsächlich schwer daraus Informationen (nutzbares Wissen) zu ziehen: – Kein Inhaltsverzeichnis – Kein Index – Keine (erkennbare) Sortierung der Einträge 64 Ergänzung: Calvin Mooers ● Pionier der Informatik ● Begriff „Information Retrieval“ geprägt ● Mooers Law: – An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it. 65 Fragen ??? 66
© Copyright 2024 ExpyDoc