Langzeitarchivierung von Websites durch Gedächtnisinstitutionen - Lessons learned - Tobias Beinert, Bayerische Staatsbibliothek München, 10.03.2016 Der Ansatz der Bayerischen Staatsbibliothek • Selektives Harvesting für die Fachinformationsdienste (ViFaS), Bavarica sowie Websites bayerischer Ministerien und Behörden -> Wissenschaftlich relevante Inhalte dauerhaft sichern • Genehmigungseinholung für Harvesting, Langzeitarchivierung sowie öffentliche Zugänglichmachung (Information bei amtl. Websites) • Erstellung von zwei Zeitschnitten pro Jahr für jede Website • Ca. 1500 Websites mit mehreren Zeitschnitten • Manuelle (und semi-automatisierte) Qualitätskontrolle • Zugriff: BSB-Katalog und Gateways der FIDs • Viewer: OpenWayback 2 Präsentation in BSB-OPAC Übersicht in OpenWayback Erste historische Dokumente… Collection Focus • Official Websites of the Bavarian Ministries and Authorities • Websites of our Virtual Subject Libraries: • Music (www.vifamusik.de) • Eastern Europe (www.vifaost.de) • Histohttp://ww5.fdp-fraktion-bayern.de/ry (www.propylaeum.de, www.historicum.net) • Library and information management (www.b2i.de) • Romanic culture area (www.vifarom.de) • Bavarica (www.bayerische-landesbibliothek-online.de) -> focus mainly on scientific users to ensure sustainability of scientific information and discourse published in the web Technik: Das Web Curator Tool Ziele des laufenden DFG-Projekts • Entwicklung eines kooperativen Servicemodells (mit SUB Hamburg) • Collection Policy (Inhaltliche und technische Kriterien) • Analyse der Machbarkeit der retrospektiven Archivierung von bereits in Academic Linkshare erschlossenen Ressourcen • Verbesserung von Harvesting und Qualitätskontrolle • Dauerhafter Erhalt von Zugänglichkeit und Nutzbarkeit von archivierten Websites (Preservation Planning) • Ausweitung der nationalen Aktivitäten in der Webarchivierung 8 Lektion 1: Erschließung ≠ Archivierung • Feingranulare Erschließung vs. umfassende Genehmigungseinholung • Feingranulare Erschließung vs. Informationserhaltung im Gesamtkontext • Metadatensätze brauchen Pflege • Technische Machbarkeit bei der Auswahl berücksichtigen • Konsequenz: Entwicklung einer Collection Policy 9 Lektion 2: Im Archiv ist der Content König • Flüchtigkeit begegnen, Zitierbarkeit ermöglichen • Dynamischen Charakter von Websites im Archiv dokumentieren • Ownership statt Access • Services (z.B. Text Mininig) brauchen Content als Grundlage • Künftiges Vorgehen der BSB: Erst Archivierung, dann Erschließung • Neudefintion des Vollständigkeitsbegriffs notwendig -> repräsentative Vollständigkeit? • Auch Archivlinks sind nicht zwangsläufig stabil -> Vergabe eines URNs pro Zeitschnitt sinnvoll -> Entwicklung eines Zitierhinweises als Pop-Up 10 Lektion 3: Qualität(skontrolle) zählt • Selektiver Ansatz ermöglicht hohes Maß an Qualität • Qualität • • • • Vollständigkeit/Konsistenz Vorhandensein der intellektuellen Inhalte Erhalt der Funktionalität Erhalt des Look and Feel • Überwiegend intellektueller und ressourcenintensiver Prozess • Know-How, Erfahrung und Zentralisierung sind wichtige Faktoren • Festlegung von Preservation Level macht Abstufungen in der Qualitätskontrolle möglich 12 Abgestufte Qualitätssicherung (exemplarisch) Prozessschritt QS PL 1 (hoch) PL 2 (mittel) PL 3 niedrig Frequenz der Zeitschnitte halbjährlich halbjährlich halbjährlich Frequenz der Kontrolle der Zeitschnitte Alle Alle Alle Gewichtung der Qualitätsmerkmale Größtmögliche Qualität für alle vier Merkmale anzustreben Größtmögliche Qualität für Vollständigkeit und Vorhandensein der intellektuellen Inhalte anzustreben, Funktionalität und Look and Feel mit geringerer Priorität Vollständigkeit und Vorhandensein der intellektuellen Inhalte wichtig, Erhalt von Funktionalität und Look and Feel vernachlässigbar Verzicht auf visuelle Kontrolle Nein Nein Ja Verzicht auf Vergleich mit der LiveWebsite Nein Ja Ja Beschränkung auf Teilbereiche einer Website Nein Nein Nein Festlegung eines Zeitlimits für die Qualitätskontrolle 30 Minuten 15 Minuten 8 Minuten Wiederholungen des Crawles limitieren Max. 3 Wiederholungen Max. 1 Wiederholung Keine Wiederholung Lektion 4 : Webarchivierung benötigt Ressourcen Prozesschritt Dauer (minimal) Dauer (maximal) Allg. Zeitrahmen Archivierungsanfrage verschicken 2 Min 4 Min 2 -4 Min Ergebnis Archivierungsanfrage bearbeiten 1 Min 3 Min 1-3 Min Erstellung Target 2 Min 5 Min 2 – 5 Min 42 Min 10-20 Min 15 Min 3 – 10 Min (B3kat, 7 Min 8 Min 7 – 8 Min 1 Min 1 Min 1 Min Erste QK Crawl / Wiederholung 2 Min ((Fortlaufende QK)) ((Katalogisierung WCT, ALS)) Archivierung 3 Min + Fortlaufende Erwerbung neuer Zeitschnitte + Technische Weiterentwicklungen der Infrastrukturen notwendig 14 Lektion 5: Emulation für Webarchive geht • Emulation als praxistaugliche Emulationsstrategie • oldweb.today greift auf Zeitschnitte unterschiedlicher Webarchive zu -> 15 Lektion 6: Zusammenarbeit funktioniert • Anforderungsanalyse mit SUB Hamburg • Test- und Produktivbetrieb mit eigenem Servicesystem • Betriebsmodell im Sinne von Software as a Service => keine technische Infrastruktur des Kooperationspartners nötig • Leistungen der BSB • • • • Betrieb und Wartung der Hardware (mit LRZ) Datenhaltung und –präsentation Betrieb und Wartung Software (WCT, OpenWayback, Anpassungen) Support für Crawl-Engineering und Qualitätskontrolle • Verfahren zur Kostenumlage abhängig von steuerrechtlicher Prüfung 16 Lektion 7: Servicemodell funktioniert nicht (vorerst) • Neuregelung der Umsatzbesteuerung der öffentlichen Hand in §2b UStG zum 01.01.2016 • Zentrale Administration prüft welche Gestaltungsmöglichkeiten sich für die öffentliche Verwaltung im Hinblick auf Kooperationsmodelle ergeben • Umsetzung eines Servicemodells wird weiter angestrebt 17 Lektion 8: Herausforderungen bestehen weiter • Technische Limits: Flash, JavaScript, Video streaming, Datenbanken, dynamischer Content • Wachsende Komplexität und Vernküpfung der Daten und Einbettung in geschlossene Systeme • Copyright, Copyright, Copyright • Mehr Automatisierung möglich • Koordination der Veranwortlichkeiten auf einem nationalen Level 18 Weitere Entwicklungsperspektiven • Verbesserung der Nutzungsmöglichkeiten von Webarchiven • Verbesserter Access über thematische Kollektionen • Volltext-Indexierung • Datenanalysen -> Nutzung von Webarchiven als Forschungsdaten • Integration der Inhalte in das Live-Web • Memento • oldweb.today 19 Nutzung von Webarchiven heute Artofdreaming_via flickr_CC BY-NC-ND 2.0 Nutzung morgen? Kelly Kline_via_Flickr_CC BY-NC-ND 2.0 Vielen Dank für Ihr Interesse. Fragen? http://creativecommons.org/license s/bysa/4.0/http://creativecommons.org/l icenses/by-sa/4.0/ [email protected] Mit Ausnahme aller gekennzeichneten Fotos und Grafiken sind diese Folien lizenziert unter einer Creative Commons Namensnennung -Weitergabe unter gleichen Bedingungen 4.0 International Lizenz.
© Copyright 2025 ExpyDoc