Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern Prof. Dr. Dirk Lewandowski [email protected] Gliederung Einführung: Wo stehen Suchmaschinen heute? Spezialangebote der Suchmaschinen Bündelung von Inhalten Ranking Fazit Gliederung Einführung: Wo stehen Suchmaschinen heute? Spezialangebote der Suchmaschinen Bündelung von Inhalten Ranking Fazit Web search: „Always different, always the same“ AltaVista 1996 3 | http://web.archive.org/web/19961023234631/http://altavista.digital.com/ Wo stehen Suchmaschinen heute? • Große Web-Datenbanken sind vorhanden • Google, Yahoo, MSN/Live.com, Ask, Cuil • Betrieb dieser Datenbanken technisch möglich. • Navigationsanfragen können zuverlässig beantwortet werden. • Informationsorientierte Anfragen können meist zufriedenstellend beantwortet werden. • Großer Unterschied zwischen den Anfragen. • Keine Suchmaschine kann alle Anfragen am besten beantworten. • Integration zusätzlicher Quellen • Spezialisierte Web-Datenbanken: News, Blogs, Video, Bücher, wissenschaftliche Inhalte, usw. • Shortcuts: Wetter, Reise, Patente, usw. • Zukunft: Faktenextraktion • Einbindung kostenpflichtiger Dokumente 4 | Universal Search • x Additional databases Universal Search News results ads • x organic results image results video results organic results (contd.) Herausforderungen für Bibliotheken • Nutzer verwenden Suchmaschinen zur Suche nach „Bibliotheksinhalten“ • Suchmaschinen „erziehen“ Nutzer zu „schlechtem“ Rechercheverhalten. • Suchmaschinen zielen auf Kernbereiche der Bibliotheken – Buchsuche – Wissenschaftliche Inhalte „Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“ (Machill et al. 2003) • Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen – kaum Verwendung von Operatoren und erweiterter Suche • Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten. • Nutzer sind meist mit ihren Suchergebnissen zufrieden. • Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google. Selektionsverhalten (Top11 Treffer) (Granka et al. 2004) 9 | „Most people are looking for quick wins.“ (Nicholas 2008) • Beispiele aus der wissenschaftlichen Suche • Nutzer kommen über Suchmaschinen, schauen herum und nehmen das mit, was sie brauchen können. • Es wird eine Vielzahl von Quellen benutzt. • Die Hälfte der Nutzer betrachtet nur 1-3 Seiten. • 40% der Nutzer kommen innerhalb von sechs Monaten nicht mehr auf die Website zurück. • Nutzer sehen sich Artikel online nur ein paar Minuten lang an, vor allem kurze Artikel werden gelesen. • Nutzer sammeln zwar Artikel (als Ausdrucke oder Downloads), lesen sie dann aber nicht. Was wäre, wenn Ihre Nutzer auch so suchen? 10 | (Nicholas 2008) Gliederung Einführung: Wo stehen Suchmaschinen heute? Spezialangebote der Suchmaschinen Bündelung von Inhalten Ranking Fazit Bücher • Microsoft hat sein Engagement in der Buchsuche eingestellt. • Google Book Search könnte durch die Einigung mit (US-)Verlegern/Autoren zum wichtigsten Anbieter von E-Books werden. • Direkter Verkauf und Lizenzierung (z.B. an Bibliotheken). • Die Buchsuche wird in die regulären Trefferlisten eingebunden. Bücher Wissenschaftliche Inhalte • Recherche kostenlos - Inhalte kostenlos – Forschungsportal – Alle Open-Access-Suchmaschinen • Recherche kostenlos - Inhalte kostenlos/kostenpflichtig – Google Scholar – Scirus • Zugang zur Recherche kostenpflichtig – Thomson Scientific Web Plus Google ist in der Lage, wissenschaftliche Inhalte in die reguläre Websuche einzubinden. Microsoft hat seine Wissenschaftssuchmaschine eingestellt. Google Scholar: Inhalte Inhalte von Google Scholar • Wissenschaftliche Literatur aus dem Web – Zeitschriftenaufsätze (peer review), Konferenzbeiträge – Bücher – Preprints, Postprints – Reports – Seminararbeiten – ... • Quellen – freies Web – Verlage und Fachgesellschaften (Crawling; keine Feeds!) – Open-Access-Archive und -Zeitschriften – Kein Quellenverzeichnis; Umfang der Quellen unklar Gliederung Einführung: Wo stehen Suchmaschinen heute? Spezialangebote der Suchmaschinen Bündelung von Inhalten Ranking Fazit Rankingfaktoren • Textspezifische Faktoren – „Wie gut passen Anfrage und Dokument zusammen?“ – Worthäufigkeiten, Position der Suchbegriffe im Dokument, ... • Popularität – „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses Dokument treffen würde?“ – Linkpopularität, Klickpopularität. • Aktualität – „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ – Datumsangaben, Linkstruktur, ... • Lokalität – „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ – Länderinterfaces 17 | Im Detail: Lewandowski 2005, Kap. 6 Qualität der Inhalte im Web vs. der Treffer in Suchmaschinen • Suchmaschinen bewerten mehr als nur den Dokumententext • Ergebnisse werden an die Anfrage angepasst – Allgemeine Anfragen werden mit allgemeinen Dokumenten beantwortet, spezifische Anfragen mit spezifischen. – Durchmischung der Trefferliste. – Für viele Anfragen gibt es Seiten, die in den Ergebnissen auftauchen “müssen”. • Qualitätsbestimmung nur aufgrund formaler Merkmale – Ungeklärte Frage der Verlässlichkeit der Dokumente. – Keine Quellenkontrolle. – Relevanzuntersuchungen messen nur die empfundene Qualität der Ergebnisse. 18 | Dirk Lewandowski Additional databases Universal Search News results ads • x organic results image results video results organic results (contd.) Probleme der OPACs • Unvollständiger Datenbestand – Aufsätze, Literaturdatenbanken fehlen (weitgehend) • “Elektronischer Zettelkatalog”? • Das Nutzerverhalten hat sich geändert – Kurze Suchanfragen, schnelle Ergebnisse, ein Ergebnisset – Nutzererwartungen werden stark von den Web-Suchmaschinen beeinflusst. • Known-Item-Suche vs. thematische Suche – OPACs müssen mit beidem klarkommen. Wie der OPAC verbessert werden soll (“Katalog 2.0”) • Nutzerpartizipation – Rezensionen – Bewertungen • Anreicherung der bibliographischen Daten – Rezensionen – Inhaltsverzeichnisse • Verbesserung der Navigation – Auswahlmenüs auf den Trefferseiten (Kombination von Suche und Browsing) • Erweiterung der Datenbasis – Federated search Kern aller Suchanwendungen: Relevanzranking • Web 2.0 Anwendungen verbessern den Katalog, berühren aber den Kern (die Suche) nur am Rand. • “Search must work” • Nutzererwartungen – Schneller Weg zu den Ergebnissen. – Kein allzu großes Nachdenken über die Formulierung der Suchanfrage. – Keine Suche nach der passenden Datenbank vor der Suche. – Nachdem ein paar Ergebnisse auf der ersten Trefferseite angesehen wurden, wird entschieden, wie/ob die Recherche fortgeführt wird. Ranking: Mißverständnisse • Ein klares Sortierkriterium ist besser als ein Ranking nach Relevanz. – Ranking verändert nicht die Anzahl der Ergebnisse, sondern nur die Reihenfolge. – Andere Sortieroptionen können angeboten werden. • Bibliothekskataloge arbeiten ohne Ranking – Konventionelle OPACs sortieren nach dem Erscheinungsjahr. • Ranking ist nutzlos: Es funktioniert einfach nicht. – Es ist schwer, “Relevanz” zu bestimmen. Relevanz ist sowohl vom Kontext abhängig als auch vom individuellen Nutzer. Trotzdem kann Ranking wenigstens eine befriedigende Trefferliste ergeben. • Ranking ist gar nicht so kompliziert. Man muss doch nur ein paar Standardmaße (TF/IDF) anwenden. – Text matching reicht für ein gutes Ranking bei weitem nicht aus! Gemischte Trefferlisten • Ranking-Algorithmen bevorzugen „das immer gleiche“. Nutzer verlangen aber nach einer gewissen Vielfalt in der Trefferliste. • Beispiel: Allgemeine Anfrage – Nachschlagewerk – Lehrbuch – Einschlägige Datenbank – Aktuelle Literatur – Einschlägige Zeitschriften Additional databases Universal Search News results ads • x organic results image results video results organic results (contd.) Gliederung Einführung: Wo stehen Suchmaschinen heute? Spezialangebote der Suchmaschinen Bündelung von Inhalten Ranking Fazit #1 27 | Suchmaschinen entwickeln sich beständig weiter. Sie verbessern das Ranking und erweitern ihre Datenbestände. #2 28 | Suchmaschinen konkurrieren mit Bibliotheken auch hinsichtlich der angebotenen Inhalte. #3 29 | Suche ist ein Kern der Bibliotheksangebote und sollte entsprechend behandelt werden. Der OPAC muss der zentrale Zugang zu allen Bibliotheksangeboten sein. #4 30 | Ranking ist essentiell. Bibliotheken müssen eine echte Suchmaschine für ihre Inhalte anbieten. Vielen Dank für Ihre Aufmerksamkeit. www.bui.haw-hamburg.de/lewandowski.html Aktuelles Buch: Handbuch Internet-Suchmaschinen (Akademische Verlagsgesellschaft Aka, 2009) E-Mail: [email protected]
© Copyright 2024 ExpyDoc