Lizenzierungsservice vergriffene Werke (VW

Deutsche Nationalbibliothek
Adickesallee 1
60322 Frankfurt am Main
Lizenzierungsservice vergriffene Werke (VW-LiS):
Feststellung des Lieferbarkeitsstatus und damit
der Beantragbarkeit von Titeln
Die Feststellung des Lieferbarkeitsstatus und damit der Beantragbarkeit von Werken basiert auf
Verfahren des automatisierten Datenabgleichs. Grundlage für den Lizenzierungsservice ist der
Bestand der Deutschen Nationalbibliothek (DNB), deren gesetzlicher Auftrag es ist, alle deutschen
und deutschsprachigen Publikationen ab 1913 zu sammeln und bibliografisch zu verzeichnen.
Selektion
Zunächst wurden von der DNB die Titel ihres Bestandes identifiziert, die unter § 13d UrhWahrnG
fallen: Werke erschienen
a. in Druckwerken
b. bis zum 31.12.1965
c. in den Grenzen des heutigen Deutschlands
Da die Verzeichnungssituation durch die Veränderungen von Erfassungsregeln stark variiert,
wurden mehrere bibliografische Auswahlkriterien getestet und für die Selektion herangezogen.
a. Materialart: monografische Publikationen; mehrbändige Werke mussten aufgrund der
Komplexität für eine spätere Erweiterung des Lizenzierungsservices zurückgestellt
werden.
b. Erscheinungsjahr: kleiner oder gleich 1965
c. Erscheinungsland: Da für in Deutschland erschienene Werke nicht durchgehend ein
Ländercode vergeben wurde und ehemals deutsche Erscheinungsorte (Bsp. Breslau)
ausgeschlossen werden sollten, wurden zusätzlich die Geografika (Ansetzungs- und
Verweisungsformen) der Gemeinsamen Normdatei (GND) inklusive deren Ländercodes
genutzt und für den Abgleich gegen die im Datensatz erfassten Verlagsorte
herangezogen.
Mit diesen Auswahlkriterien konnte ein zum größten Teil verlässlicher Datenpool derjenigen Titel
aus dem Bestand der DNB generiert werden, die den gesetzlichen Bestimmungen entsprechen.
Durch die Notwendigkeit, die Selektion zu automatisieren, ergeben sich jedoch einige Grauzonen:
a. Materialart: Auch Nicht-Druckwerke wurden in der historischen Erfassungspraxis unter
derselben Materialart wie gedruckte Werke erfasst (z. B. Sprechplatten). Diese
Unschärfen wurden, soweit es möglich war, durch ergänzende Ausschlusskriterien
bereinigt.
b. Erscheinungsjahr: Wenn die bibliografischen Daten kein Erscheinungsjahr enthielten,
wurde das zugehörige Werk nicht berücksichtigt. Wurde ein geschätztes
c.
Erscheinungsjahr erfasst, wurde dieses beim Abgleich als bekanntes Erscheinungsjahr
behandelt.
Erscheinungsland: Enthielt ein Datensatz keinen Ländercode, erfolgte die Selektion
über den Abgleich des Verlagsorts gegen die Geografika der GND und die dort
vorhandenen Ländercodes. Dabei wurden neben der Ansetzungsform auch alle
Verweisungsformen berücksichtigt. Um die Lücken möglichst gering zu halten, wurden
zusätzlich Ersetzungslisten erstellt, die verschiedene Namensvarianten zuordnen und
auflösen, die nicht als Verweisungsformen in der GND vorhanden sind (z. B.
Charlottenburg = Berlin-Charlottenburg).
Wurde für ein Werk ausschließlich ein ausländischer Ländercode vergeben, wurde
dieses nicht selektiert, auch wenn als Verlagsort neben dem ausländischen auch ein
deutscher Ort angegeben war.
Eine Grauzone besteht für Werke, die keinen Ländercode aufweisen und für die ein
Verlagsort erfasst ist, dessen Name auch im deutschsprachigen Ausland als Ort
vorkommt (z. B. Neumarkt). Werke mit solchen Verlagsorten sind in der Selektion
enthalten.
Durch die Selektion wurde ein Datenpool generiert, der ca. 1,6 Mio. monografische Werke enthält,
die vor 1966 und aller Wahrscheinlichkeit nach in Deutschland erschienen sind.
Künftig wird der DNB-Bestand quartalsweise auf neu hinzugekommene Titel überprüft, die in den
Datenpool aufgenommen werden können.
Weitere Informationen zum Datenpool sind auch den FAQ zu entnehmen (Bestand vor 1913 etc.):
www.dnb.de/vwlisfaq
Abgleich gegen Lieferbarkeitsverzeichnisse der MVB
Um zu ermitteln, welche der ca. 1,6 Mio. Werke vergriffen - also ohne aktuelles verlegerisches
Angebot - sind, findet ein automatisierter Abgleich gegen die Lieferbarkeitsverzeichnisse der MVB
statt.
Der Abgleich basiert auf
a. Werktitel
b. Urheber
Erscheinungsjahr und Verlag, die für die Eintragung ins Register vergriffener Werke des Deutschen
Patent- und Markenamtes vorgeschrieben sind, werden bewusst nicht für diesen Abgleich
herangezogen. Grund hierfür ist, dass ein Werk auch bei einem Verlag mit abweichendem Namen
und unter einem neueren Erscheinungsjahr lieferbar sein kann und das Werk dann nicht als
vergriffen gilt.
Der Abgleich gegen die Lieferbarkeitsverzeichnisse der MVB folgt durch in Tests definierten
Kriterien.
a. Zum Vergleich herangezogen werden jeweils Titeldatensätze, die für bestimmte definierte
Indzies gleiche Einträge generieren. Diese Indizes bestehen aus Schlüssel- und
Phrasenindizies; wortweise Indizes können nicht genutzt werden, da dadurch die Menge
der zu vergleichenden Titel zu hoch wird und kein performanter Vergleich mehr möglich ist.
b. Für die durch a. ermittelten Titel wird als erstes ein integrierter Matchkey aus Titel und der
erstgenannten Person gebildet. Für den Abgleich werden die Elemente einer ausführlichen
Normalisierung unterzogen, um unterschiedliche (bspw. altertümliche) Schreibweisen,
Tippfehler und Abkürzungen abfangen zu können. Ist dieser Matchkey in einem
Vergleichspaar aus dem Datenpool und den Lieferbarkeitsverzeichnissen der MVB
VW-LiS: Feststellung der Lieferbarkeit und damit der Beantragbarkeit von Titeln
2|5
vollständig identisch, wird davon ausgegangen, dass es sich um einen Match handelt und
der Titel damit lieferbar ist. Erreicht kein Paar die vollständige Übereinstimmung des
Matchkeys, werden zusätzlich einzelne Vergleichselemente gebildet:
c. Titel: Die Generierung des Vergleichselements “Titel“ erfolgt auf Basis des Hauptsachtitels,
sofern dieser eine ausreichende Länge hat (> 25 Zeichen) und eine Person zum weiteren
Abgleich mit herangezogen werden kann. Ist dies nicht der Fall werden auch ggf.
vorliegende Parallelsachtitel sowie die Verfasserangabe zum Abgleich des Titels mit
herangezogen. Für den Abgleich werden die Elemente einer ausführlichen Normalisierung
unterzogen, um unterschiedliche (bspw. altertümliche) Schreibweisen, Tippfehler und
Abkürzungen abfangen zu können.
d. Urheber: Der Abgleich des oder der Urheber erfolgt auf der Basis des Nachnamens und des
ersten Buchstabens des Vornamens. Hierbei werden auch die in der Gemeinsamen
Normdatei hinterlegten Namensvarianten genutzt. Ist kein persönlicher Urheber
vorhanden, wird der Abgleich auf körperschaftliche Urheber erweitert. Auch dieses
Vergleichselement wird einer ausführlichen Normalisierung unterzogen.
|
Ist automatisiert weder ein persönlicher noch ein körperschaftlicher Urheber aus
den Metadaten ermittelbar, verbleibt das zugehörige Werk zwar im Datenpool,
kann aber erst nach einer manuellen Ergänzung der fehlenden Merkmale gesichert
abgeglichen werden.
e. Der Vergleich der beiden Elemente Titel und Urheber ergibt jeweils einen Matchwert
zwischen 0.00 und 1.00. Es wird dabei ein Durchschnitt der Matchwerte der beiden
Elemente gebildet; erreicht dieser Durchschnitt für ein Vergleichspaar einen festgelegten
Wert, gilt das Paar als Match und damit als lieferbar.
f. Ergänzend wird geprüft, ob für die selektierten Druckwerke im DNB-Bestand eine als
kommerzielle Netzpublikation abgelieferte digitale Ausgabe vorhanden ist, sofern diese
Zuordnung über ein automatisiertes Abgleichsverfahren möglich ist. Diese Prüfung wird nur
durchgeführt, wenn über den Abgleich von Titel und Autor nicht bereits eine lieferbare
Ausgabe in den Lieferbarkeitsverzeichnissen der MVB ermittelt werden konnte.
Updates der Lieferbarkeitsverzeichnisse der MVB werden täglich eingespielt und mit dem Datenpool
abgeglichen.
Mit diesen Abgleichskriterien kann für den größten Teil der selektierten Werke eine verlässliche
Aussage über die Lieferbarkeit getroffen werden. Durch die Notwendigkeit eines automatisierten
Abgleichs ergeben sich jedoch einige Grauzonen.
Treffer in den Lieferbarkeitsverzeichnissen: Im Idealfall gibt es ein perfektes Match
zwischen einem Titel des Datenpools und einem Werk in den Lieferbarkeitsverzeichnissen
der MVB, d. h. der Titel ist lieferbar, oder es gibt keinerlei Übereinstimmung, d. h. der Titel
aus dem Datenpool ist vergriffen. Aufgrund der Komplexität bibliografischer Daten ergibt
jedoch nicht jeder Abgleich eine eindeutige Aussage von 1 (=genauer Treffer) oder 0
(=kein Treffer). Viele Abgleiche von Titeln des Datenpools ergeben keine genau identischen
Treffer in den Lieferbarkeitsverzeichnissen, sondern vielmehr Treffer, die „ähnlich“ sind. Ab
einem gewissen Punkt ist diese Ähnlichkeit auch mit differenzierten Algorithmen nicht mehr
feststellbar, sondern kann nur intellektuell festgestellt werden. Da der Abgleich der Werke
im Datenpool gegen die Lieferbarkeitsverzeichnisse der MVB automatisiert abläuft, können
nur solche Werke als gleich oder ähnlich – und damit als lieferbar – identifiziert werden, für
die dieser Status maschinell erkennbar ist.
|
Für alle anderen Werke wird der Status vergriffen angenommen.
Abkürzungen: Gerade in den älteren Titelaufnahmen in Bibliotheken wurden
Standardbegriffe oft abgekürzt, um Speicherplatz zu sparen. In den
Lieferbarkeitsverzeichnissen der MVB gibt es diese Abkürzungen nicht. Beim Vergleich
wurde daher umfangreiche Ersetzungslisten für Abkürzungen mit eingelesen, aber es ist
nicht auszuschließen, dass dennoch einige Titel aus diesem Grund nicht miteinander
matchen.
VW-LiS: Feststellung der Lieferbarkeit und damit der Beantragbarkeit von Titeln
3|5
-
-
-
-
-
Unterschiedliche Erfassungspraxis: Die Erfassung von bibliografischen Daten in Bibliotheken
und den Lieferbarkeitsverzeichnissen der MVB weicht oft stark voneinander ab. Oft werden
in letzteren Elemente mit zum Titel hinzugezogen, die in der DNB an anderer Stelle stehen.
Bsp.: " Raumschiff Titan funkt SOS : Science-Fiction-Roman " vs. " Perry Rhodan 42:
Raumschiff TITAN funkt SOS (Heftroman) : Perry Rhodan-Zyklus ‚Die Dritte Macht‘ "
Kurztitel: Werktitel, die kaum individualisierende Merkmale aufweisen, werden nur ungenau
gematcht, sofern keine eindeutige Zuordnung über den Verfasser möglich ist (Bsp.: Titel
„Schulatlas“ ohne Verfasserangabe).
Neuauflagen mit verändertem Titel: Werden Werke unter verändertem Titel wieder
lieferbar, können diese nicht verlässlich erkannt werden, wenn Original- und veränderter
Titel zu unähnlich sind. Dies kann vor allem bei relativ kurzen Titeln der Fall sein. Bsp.:
„Die Geächteten : Roman“ vs. „Freikorps Die Geächteten“
Lücken in den Lieferbarkeitsverzeichnissen der MVB: Nicht alle Verleger melden ihre Druckund E-Book-Titel an die Lieferbarkeitsverzeichnisse. Perspektivisch ist daher die
Hinzunahme einer weiteren Buchhandelsplattform angestrebt. Eine vollständige Abdeckung
wird aufgrund der heterogenen Situation allerdings nicht möglich sein, was dazu führen
kann, dass Publikationen des Datenpools, deren Lieferbarkeit außerhalb der
Standardverzeichnisse nachgewiesen ist (Verlegerwebsites etc.) fälschlicherweise als
„vergriffen“ bezeichnet werden könnten.
Heft, Buch oder Zeitschrift: In alten bibliografischen Daten ist mitunter als monografischer
Titel verzeichnet, was heute als Zeitschrift gewertet wird. Werden Werke, die aufgrund
ihrer Verzeichnung als Monografie in den Datenpool aufgenommen wurden, von Verlagen z.
B. als Beitrag in einem retrodigitalisierten E-Journal angeboten, sind diese Angebote nicht
automatisiert identifizierbar.
Upload von Titeln und Suche im Datenpool
Um zu ermitteln, ob die Werke, die lizenziert werden sollen, vergriffen und damit lizenzierbar sind,
findet ein automatisierter Abgleich einer in MARC21xml hochgeladenen Liste der betreffenden
Werke gegen den Datenpool statt.
Der Abgleich basiert auf
a. IDN der Deutschen Nationalbibliothek
b. Werktitel
c. Urheber
d. Erscheinungsjahr (+/- 1)
Der Abgleich gegen den Datenpool folgt durch in Tests definierten Kriterien.
a. IDN: Enthalten die hochgeladenen Titeldaten eine IDN der Deutschen Nationalbibliothek,
wird das Werk direkt mit einem Pendant gematcht, falls dieses im Datenpool vorhanden ist
b. Titel: Für den Vergleich des Titels werden mehrere Vergleichselemente generiert: Nur der
Hauptsachtitel, falls er länger ist als 90 Zeichen; Hauptsachtitel plus Zusatz und etwaige
Parallelsachtitel, falls er kürzer ist; Hauptsachtitel plus Zusatz und etwaige Parallelsachtitel
sowie Verfasserangabe und Erscheinungsjahr, wenn er aus nur einem Wort besteht. Für
den Abgleich werden die Elemente einer ausführlichen Normalisierung unterzogen, um
unterschiedliche (bspw. altertümliche) Schreibweisen, Tippfehler und Abkürzungen
abfangen zu können.
c. Urheber: Der Match erfolgt über den Nachnamen der Person, um durch abweichende
Schreibungen, Abkürzungen des Vornamens etc. nicht zu große Abweichungen zu erhalten.
Ist kein persönlicher Urheber vorhanden, wird der Abgleich auf körperschaftliche Urheber
erweitert. Sofern eine GND-IDN mitgeliefert wird, erfolgt der Match der Person bzw. der
Körperschaft direkt über diese.
VW-LiS: Feststellung der Lieferbarkeit und damit der Beantragbarkeit von Titeln
4|5
d. Erscheinungsjahr: Das Erscheinungsjahr muss übereinstimmen, ansonsten wird ein
Vergleichspaar nicht als Match gewertet.
Mit diesen Abgleichskriterien kann für den größten Teil der hochgeladenen Werke eine verlässliche
Aussage darüber getroffen werden, ob (1) sie Teil des Datenpools sind und (2) sie vergriffen,
lieferbar sind. Durch die Notwendigkeit eines automatisierten Abgleichs bei größeren Titelmengen
ergeben sich jedoch einige Grauzonen.
Auflagen: Bezeichnungen einzelner Auflagen können aufgrund der uneinheitlichen
Verzeichnungssituation nicht in den automatisierten Abgleich einbezogen werden.
Existieren mehrere Auflagen desselben Werkes mit dem gleichen Erscheinungsjahr bzw.
Erscheinungsjahr +/-1, wird als Treffer der Titeldatensatz mit dem besten Matchwert
angezeigt. Handelt es sich dabei nicht um die Auflage, die die beantragende Institution in
ihrem Bestand hat, ist es nötig, die korrekte Ausgabe über eine Einzeltitelsuche im DNBPortalkatalog zu ermitteln.
Weitere Informationen zur Beschaffenheit des Datenpools sind auch den FAQ zu
entnehmen (Bestand vor 1913 etc.): www.dnb.de/vwlisfaq
Stand: Juli 2015
Ansprechpartnerin:
Dr. Katharina Schöneborn
Deutsche Nationalbibliothek
Digitale Dienste
Adickesallee 1
D-60322 Frankfurt
Telefon: +49-69-1525-1077
mailto:[email protected]
http://www.dnb.de
VW-LiS: Feststellung der Lieferbarkeit und damit der Beantragbarkeit von Titeln
5|5