Stand der DOI-Registrierung an der Humboldt - Hu

HU/CMS/UB
Stand: März 2016
Stand der DOI-Registrierung an der
Humboldt-Universitat zu Berlin
Dennis Zielke
Humboldt-Universität zu Berlin
Koordination DOI-Registrierung
Computer und Medienservice
Kerstin Helbig
Humboldt-Universität zu Berlin
Koordination Forschungsdatenmanagement
Computer und Medienservice
Inhalt
Vorbemerkung..................................................................................................................................... 2
Ausgangssituation ........................................................................................................................... 2
Voraussetzungen an Datenzentren seitens DataCite ...................................................................... 2
Veröffentlichung.................................................................................................................................. 3
Landingpage .................................................................................................................................... 3
Verwendung von Sonderzeichen..................................................................................................... 4
Restriktiver Zugriff ........................................................................................................................... 4
Löschen von DOIs ............................................................................................................................ 4
Einbindung externer Metadatenschemata ..................................................................................... 4
Anwendungsfall: TOPOI-Exzellenzcluster / Edition-TOPOI / BSDP-Repositorium............................... 5
Unterstützung bei der Nachregistrierung ....................................................................................... 6
Anwendungsfall: NOMAD-Repositorium ............................................................................................. 7
Anwendungsfall: Hoffman Collection .................................................................................................. 8
Seite 1 von 9
HU/CMS/UB
Stand: März 2016
Vorbemerkung
Die Humboldt-Universität zu Berlin (HU) hat im Frühjahr 2013 untersucht, welche Persistent
Identifier-Systeme für eine dauerhafte Adressierung und Erreichbarkeit digitaler Objekte
institutionell eingesetzt werden können. Aufgrund ihres Bekanntheits- und Verbreitungsgrades
wurden Digital Object Identifier (DOI), Handle System (handle), Uniform Resource Name (URN),
Archival Resource Key (ARK), persistent URL (PURL) sowie der Link-Resolver OpenURL betrachtet und
unter den Gesichtspunkten Kosten, Aufwand, Qualitätssicherung, Verbreitung und Mehrwerte
untersucht. Als Ergebnis der Evaluation wurde die Nutzung von DOI oder handle unter
Berücksichtigung unterschiedlicher Anwendungsszenarien empfohlen.
Ausgangssituation
Persistente Identifikatoren sind an der HU bereits im Einsatz: (Text-)Publikationen auf dem
Publikationsserver (edoc-Server1) werden beispielsweise mit einer URN registriert, während
historische Textkorpora im LAUDATIO-Repository2 mit einem handle versehen werden. Weltweit
setzt sich allerdings das DOI3-System immer mehr durch, nicht zuletzt dank der Bemühungen des
DataCite-Vereins, über dessen Infrastruktur bis dato über 7 Mio. DOIs für verschiedene Typen von
Forschungsdaten registriert wurden.4 Als besonderes Leistungsmerkmal gilt dabei das einheitliche
Metadatenschema, das als Mindestanforderung von allen Datenzentren eingehalten werden muss.
Dies ermöglicht u. a. weitere Services wie z. B. eine Suche in den Metadaten von allen bei DataCite
registrierten Datensätzen oder eine automatische Zitierungsformatierung in mehr als 500 Formaten
und 45 Sprachen.5 Als Basis für das DataCite Metadatenschema diente das Dublin Core Schema6.
Voraussetzungen an Datenzentren seitens DataCite
Um Digital Object Identifier an der HU bereitzustellen, wurde mit Wirkung vom 1.1.2014 ein Vertrag
zwischen einem in Deutschland zuständigen Mitglied von DataCite, der Technischen
Informationsbibliothek (TIB) Hannover, und der HU als sogenanntes Datenzentrum (DZ) formal
geschlossen. Der Gegenstand des Vertrages regelt die Bedingungen der Bereitstellungen von DOIs für
wissenschaftliche Inhalte durch die TIB und das DZ.
Rechte und Pflichten
der Registrierungsagentur TIB:
Die TIB ist Mitglied von DataCite e. V. Sie gewährleistet die Bereitstellung und Registrierung
von DOI-Namen zur fortlaufenden Kennzeichnung für Inhalte des DZ. Des Weiteren stellen
Sie einen Metadaten-Verwaltungsdienst (DataCite Metadata Store), der es dem DZ
ermöglicht die Metadaten in Form einer XML-Datei an DataCite zu übermitteln und mit
einem DOI-Namen zu verknüpfen, bereit. Die Metadaten werden dabei abgespeichert und
über ein Online-Portal zugänglich gemacht.
1
http://edoc.hu-berlin.de/
http://www.laudatio-repository.org
3
Ist ein dauerhafter und eineindeutiger digitaler Identifikator für Objekte, der einen nachhaltigen Zugriff auf
wissenschaftliche Objekte gewährleistet. Seit Mai 2012 ist er nach dem ISO-Standard 26324 standardisiert.
4
Laut DataCite Statistics (http://stats.datacite.org/) waren am 10.02.2016 bereits 7.083.236 DOIs registriert.
5
Vgl. DataCite Services: https://www.datacite.org/services
6
Seit 2009 ist das Dublin Core Schema ISO Standard 15836-2009.
2
Seite 2 von 9
HU/CMS/UB
Stand: März 2016
des Datenzentrums HU:
Für jeden von der TIB mit einem DOI-Namen zu registrierenden wissenschaftlichen Inhalt
werden Metadaten nach den Vorgaben der jeweils aktuellsten Version des DataCite
Metadatenschemas bereitgestellt. Alle Versionen des Metadatenschemas sind unter:
http://schema.datacite.org/ abrufbar. Unmittelbar nach Lieferung der Metadaten durch das
DZ erfolgt die Registrierung von DOI-Namen durch die TIB.
Jeder mit einem DOI-Namen registrierte wissenschaftliche Inhalt muss über eine URL
öffentlich zugänglich sein. Dabei empfiehlt DataCite, dass die URL auf eine HTML-Seite
verweist, die Informationen über die Inhalte enthält und zum Zugang zu den Inhalten führt
(siehe Abschnitt: „Landingpage“), z. B. auf Grund einer erforderlichen Registrierung durch
den Nutzer.7
Das DZ gibt Änderungen der URLs für seine Inhalte möglichst zeitnah im DataCite Metadata
Store ein, um die Auflösung des DOI-Namens sicherzustellen. Nachdem ein Inhalt registriert
ist, kann er nicht mehr geändert werden. Wenn ein Inhalt geändert wird, muss er mit einem
neuen DOI-Namen registriert werden. Dabei dürfen die Metadaten nur entsprechend der
Vorgaben des Metadatenschemas geändert werden. Wenn ein Inhalt nicht mehr verfügbar
ist, muss auf der Landingpage ein entsprechender Hinweis angezeigt werden.
In Bezug auf die Persistenz hat das DZ im Rahmen seiner Möglichkeiten sicherzustellen, dass
registrierte Inhalte über die gesamte Laufzeit dieses Vertrages zur Verfügung stehen.
Außerdem prüft das DZ, dass die Inhalte gemäß seinen eigenen Standards und gemäß den
allgemeinen Regeln guter wissenschaftlicher Praxis in dem betreffenden Forschungsgebiet
gültig sind.
Veröffentlichung
Für die Registrierung eines Digital Object Identifier (DOI) ist die Beschreibung des Datensatzes nach
dem DataCite Metadatenschema (aktuelle Version 3.18) notwendig. Es müssen mindestens die
Pflichtelemente Creator, Title, Publisher und PublicationYear zusammen mit dem DOI als Identifier
angegeben werden.
ID
1
2
3
4
5
Property
Identifier (with type sub-property)
Creator (with name identifier sub-properties)
Title (with optional type sub-properties)
Publisher
PublicationYear
Obligation
M (mandatory)
M
M
M
M
Tabelle 1: Pflichtfelder nach DataCite-Metadatenschema (Version 3.1)
Landingpage
Unter einer Landingpage wird eine verlinkte Webseite mit Metadateninformationen verstanden, die
z. B. über ein Browsing nach Kategorien aufgerufen werden kann. Die Landingpage wird beim
Auflösen eines DOI-Namens und der ihm aktuell zugewiesenen URL aufgerufen. Sie soll dem Nutzer
Zusatzinformationen über den jeweiligen Datensatz und die Zugangsmöglichkeiten bieten. Das
primäre Ziel einer Landingpage ist, dass der Leser erfährt, was in dem Datensatz zu finden ist und wie
7
8
Vgl. DataCite: What do we do? https://www.datacite.org/about-datacite/what-do-we-do
https://doi.org/10.5438/0011
Seite 3 von 9
HU/CMS/UB
Stand: März 2016
man auf den Datensatz zugreift. Sie stellt keine Verpflichtung dar, sondern ist eine Empfehlung von
DataCite. Dabei gibt es keine speziell auf DataCite zugeschnittenen Landingpages.
Beispiele für Landingpages
Beispiel mit Checksumme von der Physikalisch-Technischen Bundesanstalt (PTB):
https://doi.org/10.7795/110.20121022aa
Beispiel eines vollständigen Berichtes aus 16 Einzelbeiträgen mit Verlinkung (PTB):
https://doi.org/10.7795/210.20130206a
Beispiel eines Zeitschriftenheftes mit kumuliert zugänglichen Einzelbeiträgen und Inhaltsangaben
(PTB): https://doi.org/10.7795/310.20090299
Beispiel einer automatisch erzeugten und etwas unstrukturierten Landingpage:
https://doi.org/10.1002/phbl.19990551204
Beispiel mit restriktivem Zugriff (Datenanfrage per Antrag notwendig):
http://doi.org/10.5159/IQB_PISA_2012_v1
Verwendung von Sonderzeichen
Da viele Sonderzeichen in URLs spezifische Bedeutungen haben und dies zu fehlerhafter Auflösung
des DOIs führen kann, wird die Verwendung folgender Zeichen für den DOI empfohlen:


A-Z, a-z, 0-9,
: (Doppelpunkt), . (Punkt), - (Bindestrich), _ (Unterstrich), / (Schrägstrich)
Das einzige Zeichen, von dem sicher bekannt ist, dass es bei der Auflösung des DOIs ignoriert wird
bzw. an die URL übergeben wird, ist #. So lassen sich beispielsweise einzelne Videosegmente zitieren,
z. B.: https://doi.org/10.5446/406#t=01:38,01:53.
Restriktiver Zugriff
Die DOIs können auf nicht frei zugängliche Datensätze verweisen, wenn die dazugehörigen
Metadaten und die Landingpage frei zugänglich sind. Auf der Landingpage sollte dann auch
angegeben sein, wie man die Forschungsdaten einsehen kann (z. B. über persönlichen Kontakt).
Wenn die Daten per se keinen Zugriff erlauben oder nur für die ursprüngliche Forschungsgruppe
einsehbar und zugänglich sind, ist die Vergabe eines DOIs nicht sinnvoll. Dadurch können die
Forschungsdaten weder zitiert noch nachgenutzt werden.
Löschen von DOIs
Es ist weder im Produktiv- noch im Test-System vorgesehen, dass DOIs gelöscht werden. Eine
Löschung kann ggf. über die Registrierungsagentur (TIB) veranlasst werden. Ein Verweis auf der
Landingpage ist dem vorzuziehen.
Einbindung externer Metadatenschemata
Externe disziplin- oder projektspezifische Metadatenschemata können über das Element
„relatedIdentifier“ in Verbindung mit „HasMetadata“ sowie einem persistenten Identifikator verlinkt
werden. Dabei werden die Metadaten nicht von DataCite aufgenommen und angezeigt, sondern sie
sind maschinenlesbar über das genannte Element verlinkt.
Seite 4 von 9
HU/CMS/UB
Stand: März 2016
Anwendungsfall: TOPOI-Exzellenzcluster / Edition-TOPOI / BSDP-Repositorium9
Einleitung: Das Exzellenzcluster Topoi der Humboldt-Universität zu Berlin mit seiner gleichnamigen
Edition ist eine Open-Access-Publikations- und Forschungsplattform, die als Repositorium für im
Cluster erarbeitete Publikationen und Forschungsergebnisse dient. Die daraus entstehenden und
entstandenen Forschungsdaten wie 3D-Modelle, hochauflösende Lichtbilder, Darstellungen
wissenschaftlicher oder technischer Art werden zitierfähig publiziert und langfristig archiviert. Ihre
Inhalte werden einer Qualitätsprüfung (Peer-Review) unterzogen und im Open Access zusammen mit
ihren Metadaten unter der Creative Commons Lizenz CC-BY-NC in der aktuellsten Version (derzeit
4.010) veröffentlicht.
Die publizierten Forschungsinhalte und ihre technischen und inhaltlich relevanten Metadaten
werden sCitable genannt und können mit anderen Publikationen oder Daten offen zugänglich
miteinander verknüpft werden.
Abbildung 1: Beispiel-Metadatensatz aus dem TOPOI BSDP-Repositorium mit den 5 Pflicht- und zusätzlich mit empfohlenen
Metadatenfeldern von DataCite
9
http://repository.topoi.org/BSDP
https://creativecommons.org/licenses/by-nc/4.0/legalcode
10
Seite 5 von 9
HU/CMS/UB
Stand: März 2016
Projektpartner: Humboldt-Universität zu Berlin, Universität Cambridge, Exzellencluster TOPOI EXC
264, Einstein Foundation Berlin
Disziplin(en): Archäologie, zukünftig auch Wissenschaftsgeschichte, Kulturwissenschaften,
Geschichte
Datentypen: Digitale Ressourcen von alten Sonnenuhren, 3D-Objekte
Erlaubte Namensräume (Domains): topoi.org, edition-topoi.org
Beispieldatensatz mit DOI-Registrierung:
Beispiel einer DOI für ein Objekt: https://doi.org/10.17171/1-1-1 (Verweis auf:
http://repository.edition-topoi.org/BSDP/object/1). Jede erzeugte DOI verweist auf eine
Landingpage, die einen Abstract, Referenzen und verschiedene Einzelansichten des 3D-Models
http://repository.editionbeinhaltet.
Für
jede
Einzelansicht
z.
B.
topoi.org/collection/BSDP/single/0514/4 wurde ebenfalls ein DOI – in diesem Beispiel 10.17171/1-16 – vergeben. Zu jedem Objekt wird ein einheitlicher Zitationsstil mithilfe des DOI Citation
Formatter11 verwendet. Dieser Dienst wurde von DataCite in Zusammenarbeit mit CrossRef12 erstellt,
um den Nutzern ein Zitierformat anzubieten, welches das richtige Format für Ihren Bereich darstellt.
Stand der Entwicklung:
Im BSDP-Repositorium befinden sich derzeit knapp über 620 Objekte (Stand: 11.02.2016) – darunter
vor allem Bilder13, 3D-Modelle14, Analysen15 und dazugehörige Berichte. Diese Daten verfügen über
beschreibende Metadaten, die in verschiedenen bibliographischen Austauschformaten (BibTex und
JSON) und interne Identifikatoren ausgegeben werden können.
Unterstützung bei der Nachregistrierung
Es sollen mehrere hundert Objekte mit jeweils einer DOI registriert werden. Der Support der
Arbeitsgruppe elektronisches Publizieren (AGEP) besteht bislang darin, testweise mehrere Objekte
mit jeweils einem DOI über einen Bulk-Import mithilfe eines grafischen Clients gebündelt nach zu
registrieren. Derzeit wird für das Repositorium eine API-Anbindung, die auch eine Nachregistrierung
ermöglichen soll, implementiert.
Die AGEP unterstützt Institute/Projekte der HU bei der Nachregistrierung von Datensätzen. Hierfür
müssen die Namen der DOIs und der Objekte und die URLs bekannt sein wie folgendes Beispiel eines
Datensatzes aus dem BSDP-Repositorium zeigt:
DOI-Name: 10.17171/1-1-1 (Zugriff mit: https://doi.org/10.17171/1-1-1)
Name des Objekts/Datensatzes: ObjID17-1.jpg.xml
URL-Name: repository.edition-topoi.org/scitable.php?project=BSDP&design=design1&objid=17
11
http://crosscite.org/citeproc/
http://www.crossref.org/
13
http://repository.edition-topoi.org/collection/BSDP/repository/images
14
http://repository.edition-topoi.org/collection/BSDP/repository/3ddata/models
15
http://repository.edition-topoi.org/collection/BSDP/repository/analysis
12
Seite 6 von 9
HU/CMS/UB
Stand: März 2016
Mithilfe eines grafischen Clients wird pro Zeile jeweils ein DOI/URL Paar getrennt durch ein
Leerzeichen in das DataCite-Produktivsystem hochgeladen.
Abbildung 2: grafischer Client zur Unterstützung bei der Nachregistrierung
Über den Client ist es außerdem möglich, vorab zu prüfen, ob alle angegebenen Metadaten innerhalb
des Datensatzes gegen das DataCite-Metadatenschema validieren. Zusätzlich muss jeder Datensatz
die fünf oben genannten Metadatenpflichtfelder beinhalten, um gegen das DataCiteMetadatenschema validiert werden zu können, wie das nachfolgende Beispiel zeigt.
Anwendungsfall: NOMAD16-Repositorium17
Einleitung: Das NOMAD-Repositorium ist eine Open-Access Datenbank, die es ermöglicht
Materialdaten aus der Physik und Chemie zu hosten, zu verwalten und zu teilen. Sie basiert auf den
Regeln der guten wissenschaftlichen Praxis und ermöglicht die kostenfreie Archivierung der Daten für
mindestens 10 Jahre. Ihre Inhalte werden unter der Creative Commons Lizenz CC-BY-NC in der
Version 3.0 lizensiert und veröffentlicht. Um Datensätze importieren und eine DOI vergeben zu
können muss man sich für das Repositorium registrieren. Für die DOI-Vergabe, die nur für frei
zugängliche Datensätze erlaubt ist, müssen die Metadatenpflichtelemente (siehe Abschnitt
Veröffentlichung) mit angegeben werden. Innerhalb des Repositoriums gibt es ein klar definiertes
Versionierungskonzept, welches besagt das die importierten Datensätze in ihrem ursprünglichen
Ausgangsformat (RAW-Format) in einer permanenten und unveränderlichen Version gespeichert und
somit nicht gelöscht werden können.
Abbildung 3: : Beispiel-Metadatensatz aus dem NOMAD-Repositorium mit den 5 vorgegebenen Metadatenpflichtfeldern
von DataCite
16
17
Novel Materials Discovery
http://nomad-repository.eu/cms/
Seite 7 von 9
HU/CMS/UB
Stand: März 2016
Projektpartner: Fritz-Haber-Institut und Institut für Physik (HU Berlin)
Disziplin: Physik (Festkörper), Chemie und angrenzende Fächer
Datentyp: Materialdaten der Physik, Chemie und angrenzender Fächer
Erlaubte Namensräume (Domains): hu-berlin.de
Beispieldatensatz mit DOI-Registrierung:
Beispiel einer DOI: https://doi.org/10.17172/NOMAD/20150312111758
(Verweis auf:
http://nomadrepository.eu/gui/#2IBARLHRQQB3C71I6DPYIXMHB5ZF637B0A875XZZ7BQX8MS).
Stand der Entwicklung:
Beim NOMAD-Repositorium handelt es sich um eine eigenentwickelte Open-Access Datenbank zur
freien Nachnutzung für Wissenschaft und Industrie. Es wurde ein eigener API-Client mithilfe der
DataCite-API18 für die Erstellung von DOIs implementiert.
Nachregistrierung von Objekten/Datensätzen:
Derzeit wird ein API-Client für den Bulk-Upload von mehreren Objekten implementiert. Es fand eine
entsprechende Beratung durch die AGEP statt.
Anwendungsfall: Hoffman Collection
Einleitung: Die Hoffman Collection of Cultural Knowledge (HC-CK) war ein von der Deutschen
Forschungsgemeinschaft, dem Bundesministerium für Bildung und Forschung und sowie dem
Auswärtigen Amt gefördertes Projekt des Instituts Afrika- und Asienwissenschaften. Die im Projekt
entstandenen Forschungsdaten (Audiodateien, Videos, Bilder) wurden Open Access auf dem MedienRepositorium unter der Creative Commons Lizenz CC-BY 4.0 lizensiert und veröffentlicht. Eine DOIVergabe war ebenfalls erwünscht, um die genutzten Forschungsdaten entsprechend zitieren zu
können.
Projektpartner: Medien-Repositorium der Humboldt-Universität zu Berlin
Disziplin: Afrikawissenschaften und andere Disziplinen mit Mediendaten
Datentyp: Mediendaten (Audiodateien, Videos, Bilder, ergänzende Textdateien)
Erlaubte Namensräume (Domains): https://rs.cms.hu-berlin.de/
Beispieldatensatz mit DOI-Registrierung:
Beispiel einer DOI: https://doi.org/10.17172/MR/22
(Verweis auf: https://rs.cms.hu-berlin.de/hoffmanncollection/pages/home.php)
Stand der Entwicklung: Das Medien-Repositorium basiert auf der Open Source Software
ResourceSpace19, die für die Betreibung von Repositorien entwickelt wurde. Die Vergabe von DOIs
oder anderen persistenten Identifikatoren ist darin nicht vorgesehen. Es musste daher eine semiautomatisierte DOI-Vergabe entwickelt werden. Es wurde ein eigener API-Client mithilfe der
18
19
https://mds.datacite.org/static/apidoc
http://www.resourcespace.org/
Seite 8 von 9
HU/CMS/UB
Stand: März 2016
DataCite-API20 für die Erstellung von DOIs implementiert. Der Client ist derzeit in der finalen
Testphase und wird dokumentiert.
Nachregistrierung von Objekten/Datensätzen: Die Nachregistrierung der bereits vorhandenen
Objekte der Hoffmann Collection soll über die API erfolgen. Es fand eine entsprechende Beratung
durch die AGEP statt.
20
https://mds.datacite.org/static/apidoc
Seite 9 von 9