Semantische Suche @ ZEIT ONLINE

Leitthema Social Analytics & Enterprise Search:
Semantische Suche @ ZEIT ONLINE
Ron Drongowski, Teamleiter Webentwicklung, ZEIT ONLINE GmbH &
Franz Kögl, Vorstand, IntraFind Software AG
Inhalte




Vorstellung der Unternehmen ZEIT ONLINE und IntraFind
Anforderungen an Suche und Analytics im Projekt – Motivation für das Projekt
Projektziele
Beschreibung der Lösung:
 Kurze Vorstellung des Retrieval Verfahrens der ZEIT ONLINE unter Verwendung von
semantischen Technologien mit Apache SOLR
 Linguistische Suche als eine zentrale Komponente für eine Verbesserung der Suchqualität
 Navigation über das ZEIT ONLINE Angebot durch eine automatische Annotation der Inhalte in
ein internes Ordnungssystem. Der Benutzer kann so zielgerecht Informationen filtern & finden.
 Einbettung der automatischen Annotation von Artikeln in die redaktionellen Prozesse bei ZEIT
ONLINE
 Onlinedemo:
Suche auf www.zeit.de + automatisches Tagging im Redaktionssystem
 Nutzen für ZEIT ONLINE
 Ausblick
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
2
VORSTELLUNG
ZEIT ONLINE GMBH &
INTRAFIND SOFTWARE AG
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
3
ZEIT ONLINE GmbH
ZEIT ONLINE ist führendes Nachrichtenportal für
anspruchsvollen Online-Journalismus und Leserdebatten
 Unser Newsroom ist in Berlin
 60 Redakteure
 Wir stehen für seriösen Online-Journalismus ohne Boulevardelemente
 Wir erreichen etwa 4 Millionen Leserinnen und Leser
 Das Archiv der gesamten ZEIT-Geschichte ist in digitalisierter Form online und
für unsere User frei recherchierbar
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
4
ZEIT ONLINE GmbH
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
5
IntraFind Software AG
IntraFind ist Ihr Spezialist für die Informationsgewinnung in unstrukturierten
und strukturierten Unternehmensdaten.




Kundenbasis in Deutschland, Österreich und Schweiz
Kunden:
> 850
Mitarbeiter:
26
Gründung:
Jahr 2000
Wir bieten unseren Kunden Softwareprodukte, Lösungen und Beratung rund um die Themen
Enterprise Search, Information Access & Text Mining und verfügen über mehr als 10 Jahre
Erfahrung in der Planung und Umsetzung von Suchprojekten.
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
6
IntraFind Software AG – Projekte 2011 & 2012
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
7
Leistungsspektrum
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
8
Worauf kommt es an?
Suche wird Commodity
Was zählt ist Text Analytics!
darüber funktioniert
erfolgreiche Differenzierung
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
9
MOTIVATION
FÜR DAS PROJEKT
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
10
Ausgangssituation
 Ausgangssituation www.zeit.de
 Volltextsuche zum Zeitpunkt des Projektbeginns überarbeitungsbedürftig
 Unzufriedenheit seitens der Redaktion hinsichtlich Ergebnisqualität
 Aktualität vs. Archiv vs. Google
 Dynamische Seiten aus manueller Verschlagwortung wirken nicht einheitlich
 Stark eingeschränktes Vokabular mit ca. 1500 Schlagworten
 Erste Erfahrungen mit Solr
 Ausgangssituation im Redaktionssystem
 XML-Dokument zentriertes CMS mit WebDAV-Backend und ZTK-Frontend
 Diverse REST-Schnittstellen
 Unübersichtliches GUI zur Verschlagwortung
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
11
Ausgangssituation
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
12
Ausgangssituation
Früheres GUI zur Verschlagwortung
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
13
Anforderungen
 Fachliche Anforderungen
 Verbesserung des Suchergebnisses nach subjektiven Tests
 Facetten, Spellchecker, Autocomplete
 Einheitliche Verschlagwortung der Artikel von www.zeit.de
 Vergrößerung des Schlagwortkatalogs
 Definition von Themen
 Extraktion und Zuordnung von Entitäten
 Steuerung zulässiger Schlagworte (whitelisting)
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
14
Anforderungen
 Technische Anforderungen
 Integration via RESTful Service (sowohl Live als auch CMS)
 Nachvollziehbarkeit von Morphologie, NER, TopicFinder
 Vollständige, gut dokumentierte Konfiguration der Komponenten
 Ranking einstellbar: Berücksichtigung von Aktualität im Basescore
 Flexibles Datenschema
 Zeitunkritische Neuindexierung
 Eigenständiges Hosting
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
15
Anbieterauswahl
 Erfüllung eines Kriterienkatalogs durch Selbsteinschätzung und persönliches
Gespräch
 Prüfung einer Teststellung mit definiertem Textkorpus (ZEIT-Archiv)
 Gezielte Volltextsuche zu bestimmten Themen und Beurteilung der Ergebnisse
durch eine Testgruppe
 Verschlagwortung: subjektive Qualitätsbeurteilung der Relevanz / Artikel
mit einer Testgruppe
 Beratungskompetenz und Einordnung von für ZEIT ONLINE relevanten Trends
wie Web-Techniken und Semantic Web Standards
 Flexible Software / Lizenzen, die durch die Entwickler des ZEIT ONLINE Teams
oder durch IntraFind erweitert werden kann
 Erweiterung von SOLR durch eigene Module (ZEIT ONLINE)
 Produktungebundene Erweiterung des Tagging Service (INTRAFIND)
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
16
ZIELE DES PROJEKTS
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
17
Warum sollte etwas verbessert werden?
Gründe
 Suchqualität verbessern
 Boosting von Dokumentfeldern (Titel, Autor, Ressort),
Aktualität, typisierte Keywords, Kommentare war nicht möglich
 Indexierung zu unflexibel und zu zeitintensiv
 Archiv mit über 500.000 Artikel nutzbar machen
 dadurch SEO verbessern durch genaue Metdadatenanreicherung bzw.
bidirektionale Verlinkungen (z.B. via. Themenseite, Related, TagCloud)
 Redaktionsprozesse automatisieren
 Kosten und Zeit sparen
 Herausforderung:
Qualitativ hochgesteckte Anforderungen der ZEIT-Redaktion erfüllen
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
18
LÖSUNGSBESCHREIBUNG
SUCHE AUF WWW.ZEIT.DE
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
19
Was wurde gemacht?
Darstellung der Lösung
 Suche: Qualitativer Ausbau der Solr-Installation im Portal mit Linguistik
 In Absprache mit der Redaktion genaue Einstellung des Rankings
 Indexierung aller Content-Typen (Artikel, Blogs, Videos, Bildergalerien, etc. aus
unterschiedlichen Systemen in nahezu Echtzeit)





Vereinfachtes User Interface
Aus der Suchtechnologie dynamisch erstellte Seiten
SEO Optimierung durch Anzeige sinnvoller Schlagwörter (am und im Text)
Implementierung gut verständlicher REST-Services
Erstellung redaktioneller Werkzeuge (Whitelist Editor, Verschlagwortung)
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
20
Suche: Sortierung Datum + Relevanz
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
21
Suche: Linguistische Analyse
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
22
LÖSUNGSBESCHREIBUNG
SEMANTISCHE TEXTANALYSE
IM REDAKTIONSBACKEND
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
23
Was wurde gemacht?
Darstellung der Lösung – der ZEIT Tagger
 Verbesserung des Content-Erstellungsprozesses
 Automatische Verschlagwortung:
Qualitativ hochwertige Vorschläge für den Redakteur; mit intellektueller Qualitätssicherung
 Mit folgenden Verfahren:
 TopTerm-Analyse,
 Themenerkennung,
 Entitätenerkennung,
 Content-Verlinkung
 Aufbau eines kontrollierten Vokabulars aus dem ZEIT-Archiv für höhere Wertung der
erkannten Tags / freien Schlagworte
 Vorsystem Wissensnetz
 Ablösung wegen hohem Pflegeaufwand und geringer interner Expertise
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
24
Redaktionswerkzeuge
Lösung:
 Verschlagwortung: Qualitativ hochwertige Vorschläge für den Redakteur
 Themenerkennung, Entitätenerkennung, Content-Verlinkung
 SEO / Optimierungsvorschläge
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
25
Whitelist Editor
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
26
Test-Interface
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
27
Result des Test-Interface
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
28
Result Set Content-Verlinkung
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
29
Verschlagwortung im CMS
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
30
NUTZEN & AUSBLICK
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
31
Worin besteht der Nutzen?
 Erhöhte Zugriffe durch
 Bessere Volltextsuche
 Bessere Verlinkung der Artikel durch Related Links
 Schlagwort- und Registerseiten
 Klickoptimierung und Zeitersparnis durch automatische Verschlagwortung
 Bessere Recherchemöglichkeit intern
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
32
Ausblick
 KeyWord-Suggestor für neu identifizierte Themen
 Re-Training der Textklassifikation durch ZEIT ONLINE für neuere/bessere Themen
 Identifikation von Themenseiten, die sich aus Schnittmengen bilden
(wie: „Fukushima“ und „Energiewende“)




TagClouds, Grafiken mit Statistiken
Redaktionelle Pflege von Suchbegriffen
Verbessertes Template-Matching bei gleichen Begriffen wie „Essen“ (Stadt vs. Nahrung)
Integration von Daten aus anderen Quellen wie SemanticWeb (z.B. dbPedia)
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
33
Kontakt
Ron Drongowski
Teamleiter Webentwicklung
Franz Kögl
Vorstand
Tel:
+49 (40) 32802079
E-Mail: [email protected]
Web: www.zeit.de
Tel:
+49 (89) 3090446-0
E-Mail: [email protected]
Web: www.intrafind.de
ZEIT ONLINE GmbH
Buceriusstraße, Eingang Speersort 1
20095 Hamburg
IntraFind Software AG
Landsberger Straße 368
80687 München
© ZEIT ONLINE GmbH & IntraFind Software AG, 2012
34