Wie Suchmaschinen (immer noch) die Bibliotheken - search studies

Wie Suchmaschinen (immer noch) die
Bibliotheken herausfordern
Prof. Dr. Dirk Lewandowski
[email protected]
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Web search: „Always different, always the same“
AltaVista 1996
3 |
http://web.archive.org/web/19961023234631/http://altavista.digital.com/
Wo stehen Suchmaschinen heute?
•  Große Web-Datenbanken sind vorhanden
•  Google, Yahoo, MSN/Live.com, Ask, Cuil
•  Betrieb dieser Datenbanken technisch möglich.
•  Navigationsanfragen können zuverlässig beantwortet werden.
•  Informationsorientierte Anfragen können meist zufriedenstellend beantwortet
werden.
•  Großer Unterschied zwischen den Anfragen.
•  Keine Suchmaschine kann alle Anfragen am besten beantworten.
•  Integration zusätzlicher Quellen
•  Spezialisierte Web-Datenbanken: News, Blogs, Video, Bücher, wissenschaftliche
Inhalte, usw.
•  Shortcuts: Wetter, Reise, Patente, usw.
•  Zukunft: Faktenextraktion
•  Einbindung kostenpflichtiger Dokumente
4 |
Universal Search
•  x
Additional databases
Universal Search
News
results
ads
•  x
organic results
image results
video results
organic results (contd.)
Herausforderungen für Bibliotheken
•  Nutzer verwenden Suchmaschinen zur Suche nach „Bibliotheksinhalten“
•  Suchmaschinen „erziehen“ Nutzer zu „schlechtem“ Rechercheverhalten.
•  Suchmaschinen zielen auf Kernbereiche der Bibliotheken
–  Buchsuche
–  Wissenschaftliche Inhalte
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres
Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
(Machill et al. 2003)
•  Suchanfragen
–  Durchschnittliche Länge: 1,7 Wörter
–  Ca. 50% Einwort-Anfragen
–  kaum Verwendung von Operatoren und erweiterter Suche
•  Ergebnisseiten
–  80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus.
–  Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”).
–  Pro Session werden bis etwa fünf Dokumente angesehen.
–  Sessions dauern i.d.R. weniger als 15 Minuten.
•  Nutzer sind meist mit ihren Suchergebnissen zufrieden.
•  Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
Selektionsverhalten (Top11 Treffer)
(Granka et al. 2004)
9 |
„Most people are looking for quick wins.“
(Nicholas 2008)
•  Beispiele aus der wissenschaftlichen Suche
•  Nutzer kommen über Suchmaschinen, schauen herum und nehmen das mit, was
sie brauchen können.
•  Es wird eine Vielzahl von Quellen benutzt.
•  Die Hälfte der Nutzer betrachtet nur 1-3 Seiten.
•  40% der Nutzer kommen innerhalb von sechs Monaten nicht mehr auf die Website
zurück.
•  Nutzer sehen sich Artikel online nur ein paar Minuten lang an, vor allem kurze
Artikel werden gelesen.
•  Nutzer sammeln zwar Artikel (als Ausdrucke oder Downloads), lesen sie dann aber
nicht.
 Was wäre, wenn Ihre Nutzer auch so suchen?
10 |
(Nicholas 2008)
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Bücher
•  Microsoft hat sein Engagement in der Buchsuche eingestellt.
•  Google Book Search könnte durch die Einigung mit (US-)Verlegern/Autoren
zum wichtigsten Anbieter von E-Books werden.
•  Direkter Verkauf und Lizenzierung (z.B. an Bibliotheken).
•  Die Buchsuche wird in die regulären Trefferlisten eingebunden.
Bücher
Wissenschaftliche Inhalte
•  Recherche kostenlos - Inhalte kostenlos
–  Forschungsportal
–  Alle Open-Access-Suchmaschinen
•  Recherche kostenlos - Inhalte kostenlos/kostenpflichtig
–  Google Scholar
–  Scirus
•  Zugang zur Recherche kostenpflichtig
–  Thomson Scientific Web Plus
Google ist in der Lage, wissenschaftliche Inhalte in die reguläre Websuche
einzubinden.
Microsoft hat seine Wissenschaftssuchmaschine eingestellt.
Google Scholar: Inhalte
Inhalte von Google Scholar
•  Wissenschaftliche Literatur aus dem Web
–  Zeitschriftenaufsätze (peer review), Konferenzbeiträge
–  Bücher
–  Preprints, Postprints
–  Reports
–  Seminararbeiten
–  ...
•  Quellen
–  freies Web
–  Verlage und Fachgesellschaften (Crawling; keine Feeds!)
–  Open-Access-Archive und -Zeitschriften
–  Kein Quellenverzeichnis; Umfang der Quellen unklar
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Rankingfaktoren
•  Textspezifische Faktoren
–  „Wie gut passen Anfrage und Dokument zusammen?“
–  Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
•  Popularität
–  „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“
–  Linkpopularität, Klickpopularität.
•  Aktualität
–  „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“
–  Datumsangaben, Linkstruktur, ...
•  Lokalität
–  „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“
–  Länderinterfaces
17 |
Im Detail: Lewandowski 2005, Kap. 6
Qualität der Inhalte im Web vs. der Treffer in Suchmaschinen
•  Suchmaschinen bewerten mehr als nur den Dokumententext
•  Ergebnisse werden an die Anfrage angepasst
–  Allgemeine Anfragen werden mit allgemeinen Dokumenten beantwortet,
spezifische Anfragen mit spezifischen.
–  Durchmischung der Trefferliste.
–  Für viele Anfragen gibt es Seiten, die in den Ergebnissen auftauchen “müssen”.
•  Qualitätsbestimmung nur aufgrund formaler Merkmale
–  Ungeklärte Frage der Verlässlichkeit der Dokumente.
–  Keine Quellenkontrolle.
–  Relevanzuntersuchungen messen nur die empfundene Qualität der Ergebnisse.
18 | Dirk Lewandowski
Additional databases
Universal Search
News
results
ads
•  x
organic results
image results
video results
organic results (contd.)
Probleme der OPACs
•  Unvollständiger Datenbestand
–  Aufsätze, Literaturdatenbanken fehlen (weitgehend)
•  “Elektronischer Zettelkatalog”?
•  Das Nutzerverhalten hat sich geändert
–  Kurze Suchanfragen, schnelle Ergebnisse, ein Ergebnisset
–  Nutzererwartungen werden stark von den Web-Suchmaschinen beeinflusst.
•  Known-Item-Suche vs. thematische Suche
–  OPACs müssen mit beidem klarkommen.
Wie der OPAC verbessert werden soll (“Katalog 2.0”)
•  Nutzerpartizipation
–  Rezensionen
–  Bewertungen
•  Anreicherung der bibliographischen Daten
–  Rezensionen
–  Inhaltsverzeichnisse
•  Verbesserung der Navigation
–  Auswahlmenüs auf den Trefferseiten (Kombination von Suche und Browsing)
•  Erweiterung der Datenbasis
–  Federated search
Kern aller Suchanwendungen: Relevanzranking
•  Web 2.0 Anwendungen verbessern den Katalog, berühren aber den Kern (die
Suche) nur am Rand.
•  “Search must work”
•  Nutzererwartungen
–  Schneller Weg zu den Ergebnissen.
–  Kein allzu großes Nachdenken über die Formulierung der Suchanfrage.
–  Keine Suche nach der passenden Datenbank vor der Suche.
–  Nachdem ein paar Ergebnisse auf der ersten Trefferseite angesehen wurden,
wird entschieden, wie/ob die Recherche fortgeführt wird.
Ranking: Mißverständnisse
•  Ein klares Sortierkriterium ist besser als ein Ranking nach Relevanz.
–  Ranking verändert nicht die Anzahl der Ergebnisse, sondern nur die Reihenfolge.
–  Andere Sortieroptionen können angeboten werden.
•  Bibliothekskataloge arbeiten ohne Ranking
–  Konventionelle OPACs sortieren nach dem Erscheinungsjahr.
•  Ranking ist nutzlos: Es funktioniert einfach nicht.
–  Es ist schwer, “Relevanz” zu bestimmen. Relevanz ist sowohl vom Kontext
abhängig als auch vom individuellen Nutzer. Trotzdem kann Ranking wenigstens
eine befriedigende Trefferliste ergeben.
•  Ranking ist gar nicht so kompliziert. Man muss doch nur ein paar
Standardmaße (TF/IDF) anwenden.
–  Text matching reicht für ein gutes Ranking bei weitem nicht aus!
Gemischte Trefferlisten
•  Ranking-Algorithmen bevorzugen „das immer gleiche“. Nutzer verlangen aber
nach einer gewissen Vielfalt in der Trefferliste.
•  Beispiel: Allgemeine Anfrage
–  Nachschlagewerk
–  Lehrbuch
–  Einschlägige Datenbank
–  Aktuelle Literatur
–  Einschlägige Zeitschriften
Additional databases
Universal Search
News
results
ads
•  x
organic results
image results
video results
organic results (contd.)
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
#1
27 |
Suchmaschinen entwickeln sich beständig
weiter. Sie verbessern das Ranking und
erweitern ihre Datenbestände.
#2
28 |
Suchmaschinen konkurrieren mit
Bibliotheken auch hinsichtlich der
angebotenen Inhalte.
#3
29 |
Suche ist ein Kern der Bibliotheksangebote
und sollte entsprechend behandelt werden.
Der OPAC muss der zentrale Zugang zu
allen Bibliotheksangeboten sein.
#4
30 |
Ranking ist essentiell. Bibliotheken müssen
eine echte Suchmaschine für ihre Inhalte
anbieten.
Vielen Dank für Ihre
Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelles Buch:
Handbuch Internet-Suchmaschinen
(Akademische Verlagsgesellschaft Aka, 2009)
E-Mail:
[email protected]