Ernten für die Wissenschaft von morgen

Langzeitarchivierung
von Websites
durch
Gedächtnisinstitutionen
- Lessons learned -
Tobias Beinert, Bayerische Staatsbibliothek
München, 10.03.2016
Der Ansatz der Bayerischen Staatsbibliothek
• Selektives Harvesting für die Fachinformationsdienste (ViFaS), Bavarica
sowie Websites bayerischer Ministerien und Behörden
-> Wissenschaftlich relevante Inhalte dauerhaft sichern
• Genehmigungseinholung für Harvesting, Langzeitarchivierung sowie
öffentliche Zugänglichmachung (Information bei amtl. Websites)
• Erstellung von zwei Zeitschnitten pro Jahr für jede Website
• Ca. 1500 Websites mit mehreren Zeitschnitten
• Manuelle (und semi-automatisierte) Qualitätskontrolle
• Zugriff: BSB-Katalog und Gateways der FIDs
• Viewer: OpenWayback
2
Präsentation in BSB-OPAC
Übersicht in OpenWayback
Erste historische Dokumente…
Collection Focus
• Official Websites of the Bavarian Ministries and Authorities
• Websites of our Virtual Subject Libraries:
• Music (www.vifamusik.de)
• Eastern Europe (www.vifaost.de)
• Histohttp://ww5.fdp-fraktion-bayern.de/ry
(www.propylaeum.de, www.historicum.net)
• Library and information management (www.b2i.de)
• Romanic culture area (www.vifarom.de)
• Bavarica (www.bayerische-landesbibliothek-online.de)
-> focus mainly on scientific users to ensure sustainability of
scientific information and discourse published in the web
Technik: Das Web Curator Tool
Ziele des laufenden DFG-Projekts
• Entwicklung eines kooperativen Servicemodells (mit SUB Hamburg)
• Collection Policy (Inhaltliche und technische Kriterien)
• Analyse der Machbarkeit der retrospektiven Archivierung von bereits in
Academic Linkshare erschlossenen Ressourcen
• Verbesserung von Harvesting und Qualitätskontrolle
• Dauerhafter Erhalt von Zugänglichkeit und Nutzbarkeit von archivierten
Websites (Preservation Planning)
• Ausweitung der nationalen Aktivitäten in der Webarchivierung
8
Lektion 1: Erschließung ≠ Archivierung
• Feingranulare Erschließung vs. umfassende Genehmigungseinholung
• Feingranulare Erschließung vs. Informationserhaltung im Gesamtkontext
• Metadatensätze brauchen Pflege
• Technische Machbarkeit bei der Auswahl berücksichtigen
• Konsequenz: Entwicklung einer Collection Policy
9
Lektion 2: Im Archiv ist der Content König
• Flüchtigkeit begegnen, Zitierbarkeit ermöglichen
• Dynamischen Charakter von Websites im Archiv dokumentieren
• Ownership statt Access
• Services (z.B. Text Mininig) brauchen Content als Grundlage
• Künftiges Vorgehen der BSB: Erst Archivierung, dann Erschließung
• Neudefintion des Vollständigkeitsbegriffs notwendig
-> repräsentative Vollständigkeit?
• Auch Archivlinks sind nicht zwangsläufig stabil
-> Vergabe eines URNs pro Zeitschnitt sinnvoll
-> Entwicklung eines Zitierhinweises als Pop-Up
10
Lektion 3: Qualität(skontrolle) zählt
• Selektiver Ansatz ermöglicht hohes Maß an Qualität
• Qualität
•
•
•
•
Vollständigkeit/Konsistenz
Vorhandensein der intellektuellen Inhalte
Erhalt der Funktionalität
Erhalt des Look and Feel
• Überwiegend intellektueller und ressourcenintensiver Prozess
• Know-How, Erfahrung und Zentralisierung sind wichtige Faktoren
• Festlegung von Preservation Level macht Abstufungen in der
Qualitätskontrolle möglich
12
Abgestufte Qualitätssicherung (exemplarisch)
Prozessschritt QS
PL 1 (hoch)
PL 2 (mittel)
PL 3 niedrig
Frequenz der Zeitschnitte
halbjährlich
halbjährlich
halbjährlich
Frequenz der Kontrolle der
Zeitschnitte
Alle
Alle
Alle
Gewichtung der Qualitätsmerkmale
Größtmögliche Qualität für alle
vier Merkmale anzustreben
Größtmögliche Qualität für
Vollständigkeit und Vorhandensein
der intellektuellen Inhalte
anzustreben, Funktionalität und
Look and Feel mit geringerer
Priorität
Vollständigkeit und Vorhandensein
der intellektuellen Inhalte wichtig,
Erhalt von Funktionalität und Look
and Feel vernachlässigbar
Verzicht auf visuelle Kontrolle
Nein
Nein
Ja
Verzicht auf Vergleich mit der LiveWebsite
Nein
Ja
Ja
Beschränkung auf Teilbereiche
einer Website
Nein
Nein
Nein
Festlegung eines Zeitlimits für die
Qualitätskontrolle
30 Minuten
15 Minuten
8 Minuten
Wiederholungen des Crawles
limitieren
Max. 3 Wiederholungen
Max. 1 Wiederholung
Keine Wiederholung
Lektion 4 : Webarchivierung benötigt Ressourcen
Prozesschritt
Dauer (minimal)
Dauer (maximal)
Allg. Zeitrahmen
Archivierungsanfrage
verschicken
2 Min
4 Min
2 -4 Min
Ergebnis
Archivierungsanfrage
bearbeiten
1 Min
3 Min
1-3 Min
Erstellung Target
2 Min
5 Min
2 – 5 Min
42 Min
10-20 Min
15 Min
3 – 10 Min
(B3kat, 7 Min
8 Min
7 – 8 Min
1 Min
1 Min
1 Min
Erste QK
Crawl
/
Wiederholung 2 Min
((Fortlaufende QK))
((Katalogisierung
WCT, ALS))
Archivierung
3 Min
+ Fortlaufende Erwerbung neuer Zeitschnitte
+ Technische Weiterentwicklungen der Infrastrukturen notwendig
14
Lektion 5: Emulation für Webarchive geht
• Emulation als praxistaugliche Emulationsstrategie
• oldweb.today greift auf Zeitschnitte unterschiedlicher Webarchive zu
->
15
Lektion 6: Zusammenarbeit funktioniert
• Anforderungsanalyse mit SUB Hamburg
• Test- und Produktivbetrieb mit eigenem Servicesystem
• Betriebsmodell im Sinne von Software as a Service
=> keine technische Infrastruktur des Kooperationspartners nötig
• Leistungen der BSB
•
•
•
•
Betrieb und Wartung der Hardware (mit LRZ)
Datenhaltung und –präsentation
Betrieb und Wartung Software (WCT, OpenWayback, Anpassungen)
Support für Crawl-Engineering und Qualitätskontrolle
• Verfahren zur Kostenumlage abhängig von steuerrechtlicher Prüfung
16
Lektion 7: Servicemodell funktioniert nicht (vorerst)
• Neuregelung der Umsatzbesteuerung der öffentlichen Hand in §2b UStG
zum 01.01.2016
• Zentrale Administration prüft welche Gestaltungsmöglichkeiten sich für
die öffentliche Verwaltung im Hinblick auf Kooperationsmodelle
ergeben
• Umsetzung eines Servicemodells wird weiter angestrebt
17
Lektion 8: Herausforderungen bestehen weiter
• Technische Limits: Flash, JavaScript, Video streaming, Datenbanken,
dynamischer Content
• Wachsende Komplexität und Vernküpfung der Daten und Einbettung in
geschlossene Systeme
• Copyright, Copyright, Copyright
• Mehr Automatisierung möglich
• Koordination der Veranwortlichkeiten auf einem nationalen Level
18
Weitere Entwicklungsperspektiven
• Verbesserung der Nutzungsmöglichkeiten von Webarchiven
• Verbesserter Access über thematische Kollektionen
• Volltext-Indexierung
• Datenanalysen
-> Nutzung von Webarchiven als Forschungsdaten
• Integration der Inhalte in das Live-Web
• Memento
• oldweb.today
19
Nutzung von
Webarchiven
heute
Artofdreaming_via flickr_CC BY-NC-ND 2.0
Nutzung morgen?
Kelly Kline_via_Flickr_CC BY-NC-ND 2.0
Vielen Dank für Ihr Interesse.
Fragen?
http://creativecommons.org/license
s/bysa/4.0/http://creativecommons.org/l
icenses/by-sa/4.0/
[email protected]
Mit Ausnahme aller gekennzeichneten Fotos und Grafiken sind diese Folien lizenziert unter einer
Creative Commons Namensnennung -Weitergabe unter gleichen Bedingungen 4.0 International Lizenz.