Leitthema Social Analytics & Enterprise Search: Semantische Suche @ ZEIT ONLINE Ron Drongowski, Teamleiter Webentwicklung, ZEIT ONLINE GmbH & Franz Kögl, Vorstand, IntraFind Software AG Inhalte Vorstellung der Unternehmen ZEIT ONLINE und IntraFind Anforderungen an Suche und Analytics im Projekt – Motivation für das Projekt Projektziele Beschreibung der Lösung: Kurze Vorstellung des Retrieval Verfahrens der ZEIT ONLINE unter Verwendung von semantischen Technologien mit Apache SOLR Linguistische Suche als eine zentrale Komponente für eine Verbesserung der Suchqualität Navigation über das ZEIT ONLINE Angebot durch eine automatische Annotation der Inhalte in ein internes Ordnungssystem. Der Benutzer kann so zielgerecht Informationen filtern & finden. Einbettung der automatischen Annotation von Artikeln in die redaktionellen Prozesse bei ZEIT ONLINE Onlinedemo: Suche auf www.zeit.de + automatisches Tagging im Redaktionssystem Nutzen für ZEIT ONLINE Ausblick © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 2 VORSTELLUNG ZEIT ONLINE GMBH & INTRAFIND SOFTWARE AG © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 3 ZEIT ONLINE GmbH ZEIT ONLINE ist führendes Nachrichtenportal für anspruchsvollen Online-Journalismus und Leserdebatten Unser Newsroom ist in Berlin 60 Redakteure Wir stehen für seriösen Online-Journalismus ohne Boulevardelemente Wir erreichen etwa 4 Millionen Leserinnen und Leser Das Archiv der gesamten ZEIT-Geschichte ist in digitalisierter Form online und für unsere User frei recherchierbar © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 4 ZEIT ONLINE GmbH © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 5 IntraFind Software AG IntraFind ist Ihr Spezialist für die Informationsgewinnung in unstrukturierten und strukturierten Unternehmensdaten. Kundenbasis in Deutschland, Österreich und Schweiz Kunden: > 850 Mitarbeiter: 26 Gründung: Jahr 2000 Wir bieten unseren Kunden Softwareprodukte, Lösungen und Beratung rund um die Themen Enterprise Search, Information Access & Text Mining und verfügen über mehr als 10 Jahre Erfahrung in der Planung und Umsetzung von Suchprojekten. © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 6 IntraFind Software AG – Projekte 2011 & 2012 © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 7 Leistungsspektrum © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 8 Worauf kommt es an? Suche wird Commodity Was zählt ist Text Analytics! darüber funktioniert erfolgreiche Differenzierung © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 9 MOTIVATION FÜR DAS PROJEKT © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 10 Ausgangssituation Ausgangssituation www.zeit.de Volltextsuche zum Zeitpunkt des Projektbeginns überarbeitungsbedürftig Unzufriedenheit seitens der Redaktion hinsichtlich Ergebnisqualität Aktualität vs. Archiv vs. Google Dynamische Seiten aus manueller Verschlagwortung wirken nicht einheitlich Stark eingeschränktes Vokabular mit ca. 1500 Schlagworten Erste Erfahrungen mit Solr Ausgangssituation im Redaktionssystem XML-Dokument zentriertes CMS mit WebDAV-Backend und ZTK-Frontend Diverse REST-Schnittstellen Unübersichtliches GUI zur Verschlagwortung © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 11 Ausgangssituation © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 12 Ausgangssituation Früheres GUI zur Verschlagwortung © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 13 Anforderungen Fachliche Anforderungen Verbesserung des Suchergebnisses nach subjektiven Tests Facetten, Spellchecker, Autocomplete Einheitliche Verschlagwortung der Artikel von www.zeit.de Vergrößerung des Schlagwortkatalogs Definition von Themen Extraktion und Zuordnung von Entitäten Steuerung zulässiger Schlagworte (whitelisting) © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 14 Anforderungen Technische Anforderungen Integration via RESTful Service (sowohl Live als auch CMS) Nachvollziehbarkeit von Morphologie, NER, TopicFinder Vollständige, gut dokumentierte Konfiguration der Komponenten Ranking einstellbar: Berücksichtigung von Aktualität im Basescore Flexibles Datenschema Zeitunkritische Neuindexierung Eigenständiges Hosting © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 15 Anbieterauswahl Erfüllung eines Kriterienkatalogs durch Selbsteinschätzung und persönliches Gespräch Prüfung einer Teststellung mit definiertem Textkorpus (ZEIT-Archiv) Gezielte Volltextsuche zu bestimmten Themen und Beurteilung der Ergebnisse durch eine Testgruppe Verschlagwortung: subjektive Qualitätsbeurteilung der Relevanz / Artikel mit einer Testgruppe Beratungskompetenz und Einordnung von für ZEIT ONLINE relevanten Trends wie Web-Techniken und Semantic Web Standards Flexible Software / Lizenzen, die durch die Entwickler des ZEIT ONLINE Teams oder durch IntraFind erweitert werden kann Erweiterung von SOLR durch eigene Module (ZEIT ONLINE) Produktungebundene Erweiterung des Tagging Service (INTRAFIND) © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 16 ZIELE DES PROJEKTS © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 17 Warum sollte etwas verbessert werden? Gründe Suchqualität verbessern Boosting von Dokumentfeldern (Titel, Autor, Ressort), Aktualität, typisierte Keywords, Kommentare war nicht möglich Indexierung zu unflexibel und zu zeitintensiv Archiv mit über 500.000 Artikel nutzbar machen dadurch SEO verbessern durch genaue Metdadatenanreicherung bzw. bidirektionale Verlinkungen (z.B. via. Themenseite, Related, TagCloud) Redaktionsprozesse automatisieren Kosten und Zeit sparen Herausforderung: Qualitativ hochgesteckte Anforderungen der ZEIT-Redaktion erfüllen © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 18 LÖSUNGSBESCHREIBUNG SUCHE AUF WWW.ZEIT.DE © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 19 Was wurde gemacht? Darstellung der Lösung Suche: Qualitativer Ausbau der Solr-Installation im Portal mit Linguistik In Absprache mit der Redaktion genaue Einstellung des Rankings Indexierung aller Content-Typen (Artikel, Blogs, Videos, Bildergalerien, etc. aus unterschiedlichen Systemen in nahezu Echtzeit) Vereinfachtes User Interface Aus der Suchtechnologie dynamisch erstellte Seiten SEO Optimierung durch Anzeige sinnvoller Schlagwörter (am und im Text) Implementierung gut verständlicher REST-Services Erstellung redaktioneller Werkzeuge (Whitelist Editor, Verschlagwortung) © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 20 Suche: Sortierung Datum + Relevanz © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 21 Suche: Linguistische Analyse © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 22 LÖSUNGSBESCHREIBUNG SEMANTISCHE TEXTANALYSE IM REDAKTIONSBACKEND © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 23 Was wurde gemacht? Darstellung der Lösung – der ZEIT Tagger Verbesserung des Content-Erstellungsprozesses Automatische Verschlagwortung: Qualitativ hochwertige Vorschläge für den Redakteur; mit intellektueller Qualitätssicherung Mit folgenden Verfahren: TopTerm-Analyse, Themenerkennung, Entitätenerkennung, Content-Verlinkung Aufbau eines kontrollierten Vokabulars aus dem ZEIT-Archiv für höhere Wertung der erkannten Tags / freien Schlagworte Vorsystem Wissensnetz Ablösung wegen hohem Pflegeaufwand und geringer interner Expertise © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 24 Redaktionswerkzeuge Lösung: Verschlagwortung: Qualitativ hochwertige Vorschläge für den Redakteur Themenerkennung, Entitätenerkennung, Content-Verlinkung SEO / Optimierungsvorschläge © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 25 Whitelist Editor © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 26 Test-Interface © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 27 Result des Test-Interface © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 28 Result Set Content-Verlinkung © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 29 Verschlagwortung im CMS © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 30 NUTZEN & AUSBLICK © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 31 Worin besteht der Nutzen? Erhöhte Zugriffe durch Bessere Volltextsuche Bessere Verlinkung der Artikel durch Related Links Schlagwort- und Registerseiten Klickoptimierung und Zeitersparnis durch automatische Verschlagwortung Bessere Recherchemöglichkeit intern © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 32 Ausblick KeyWord-Suggestor für neu identifizierte Themen Re-Training der Textklassifikation durch ZEIT ONLINE für neuere/bessere Themen Identifikation von Themenseiten, die sich aus Schnittmengen bilden (wie: „Fukushima“ und „Energiewende“) TagClouds, Grafiken mit Statistiken Redaktionelle Pflege von Suchbegriffen Verbessertes Template-Matching bei gleichen Begriffen wie „Essen“ (Stadt vs. Nahrung) Integration von Daten aus anderen Quellen wie SemanticWeb (z.B. dbPedia) © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 33 Kontakt Ron Drongowski Teamleiter Webentwicklung Franz Kögl Vorstand Tel: +49 (40) 32802079 E-Mail: [email protected] Web: www.zeit.de Tel: +49 (89) 3090446-0 E-Mail: [email protected] Web: www.intrafind.de ZEIT ONLINE GmbH Buceriusstraße, Eingang Speersort 1 20095 Hamburg IntraFind Software AG Landsberger Straße 368 80687 München © ZEIT ONLINE GmbH & IntraFind Software AG, 2012 34
© Copyright 2024 ExpyDoc