Werking van het algoritme en toekenningsproces

Werking van het algoritme
en toekenningsproces
NSTC
Informatie over o.a.
Definitie ‘werk’
Algoritme
Handmatige controle
1. NSTC
Het NSTC zorgt ervoor dat alle verschijningsvormen van een ‘werk’ onder één noemer bij elkaar worden
gebracht. Het NSTC wordt bepaald door een algoritme en toekenningsproces wat is ontwikkeld in een
gezamenlijk project van CB en Me ta4Books. Dit document probeert in zicht te geven in welke titels van een
NSTC voorzien worden, de toekenningsregels van het algoritme en de processen en protocollen rondom
titels waarbij het algoritme geen eenduidige toekenning kon vinden. Uiteraard kunnen we hierin niet
compleet zijn. Voor al uw vragen kunt u terecht bij [email protected].
1.1. Doel
Het doel is om alle verschijningsvormen bij elkaar te brengen die in de beleving van de consument
‘hetzelfde verhaal beschrijven’. Dit is een vrij ruime definitie, waarin verkorte audioboeken, luxe edities in
doos, dyslexie-edities, e-books, grootletteruitgaven, enz. allemaal bij elkaar gebracht worden indien het
verhaal in deze verschijningsvormen in de beleving van de consument identiek is.
Belangrijkste doelgroep
De groepering gaat ook over uitgevers heen. Dit betekent dan ook dat de belangrijkste doelgroep van het
NSTC de boekverkoper en daarachter de consument is. Uiteraard kunnen uitgevers het NSTC ook
gebruiken om te zien wat de totaalomzet van een werk is, maar zij moeten er dan wel alert op zijn dat het
NSTC ISBN’s kan bevatten van andere uitgevers. Ook is het NSTC niet één op één te gebruiken voor
royaltyverwerking, omdat er per onderliggend ISBN andere betrokkenen kunnen zijn (denk aan een
voorlezer). Het NSTC heeft voor de uitgever zeker waarde, maar de primaire belanghebbende waarop het
NSTC gericht is, is de consument en daarmee de boekverkoper.
Definitie werk
Zoals gezegd groeperen we ISBN’s waarvan ‘het verhaal in de beleving van de consument vergelijkbaar
is’. De groepering heeft dus niks te maken met de vorm van het boek (papier/digitaal,
hardcover/paperback), maar alles met de inhoud van het boek. In een aantal gevallen wijken twee
verhalen van elkaar af terwijl we toch deze ISBN’s onder hetzelfde werk willen scharen:
Een audioboek is vaak een verkorte versie van het oorspronkelijke verha al
Een filmeditie geeft een weergave die kan afwijken van het oorspronkelijke verhaal
Een dyslexie editie kan op punten afwijken van de oorspronkelijke versie
Een nieuwe druk met een extra voorwoord wordt onderdeel van hetzelfde werk
2 / NSTC: Werking van het algoritme en toekenningsproces
1.2. Toekenningsproces
Het proces wat moet leiden tot een toekenning van een NSTC verloopt in 3 stappen:
1.
2.
3.
Selectie van ISBN’s die in aanmerking komen
Aanbieden van ISBN aan matchingsalgoritme
Verwerken uitval algoritme via handmatige procedures
In onderstaand plaatje wordt het proces geschetst. De uitleg van de diverse stappen volgt na het diagram.
1. Selectie van ISBN’s
ISBN’s die voldoen aan de volgende voorwaarden worden opgenomen in het algoritme:
De ISBN is onderdeel van het commerciële assortiment van CB of Boekenbank
De ISBN betreft een A- of O-boek
ISBN’s worden aangeboden aan het toekenningsproces zodra de redactionele controle door Bureau ISBN
is uitgevoerd. De reden hiervoor is dat we in het algoritme gebruik maken van titel - en auteurgegevens en
vaak tijdens de redactionele controle foutieve situaties corrigeren. De redactionele controle gebeurt zodra
CB het fysieke of digitale boek binnenkrijgt en kent in de regel een doorlooptijd van 2 werkdagen. Indien
om welke reden dan ook de titel al 10 dagen verschenen is zon der redactioneel gecontroleerd te zijn,
wordt de titel alsnog aangeboden aan het algoritme.
3 / NSTC: Werking van het algoritme en toekenningsproces
2. Aanbieden van ISBN aan matchingsalgoritme
Indien de ISBN aan de voorwaarden uit stap 1 voldoet, wordt het ISBN aangeboden aan het
matchingsalgoritme. Dit algoritme maakt gebruik van de titel- en auteursvelden om potentieel vergelijkbare
ISBN’s in kaart te brengen. Omdat het een te zware operatie is om tienduizenden boeken te matchen met
tienduizenden boeken, maken we voor elk ISBN waarbij we een werk willen creë ren een short list van
titels die redelijkerwijs een grote kans hebben om tot hetzelfde werk te behoren. Dit doen we door een
selectie te maken van alle ISBN’s met dezelfde achternaam van de eerste contributor. Deze contributor zal
in veel gevallen de auteur zijn, maar dit kan ook de illustrator, redacteur, enz. zijn.
Vervolgens wordt voor alle boeken op de short list de matchingsscore berekend met de oorspronkelijke
ISBN. Dit wordt gedaan door te bepalen in hoeverre de hoofdtitel en naam van de eerste con tributor
overeenkomt via de zogeheten Levenshtein afstand. Op dit moment kunnen er zich een aantal scenario’s
voordoen:
Indien de score 100% is worden de ISBN’s beschouwd als onderdeel van hetzelfde werk.
Indien de score onder een bepaalde ondergrens valt wordt de potentiële groepering verworpen.
Indien de score tussen de ondergrens en de 100% zit wordt de match handmatig beoordeeld.
3. Verwerken uitval algoritme
Er zijn twee zogenaamde parkeerlijsten waar potentiële groeperingen op geplaatst worden waar bij niet
met 100% zekerheid een match te realiseren valt:
Alle matchingsscores tussen de ondergrens van 80% en 99%. In dit geval kunnen we de
groepering niet automatisch toekennen noch verwerpen en zal de match handmatig beoordeeld
moeten worden.
Alle ISBN’s zonder contributor. In dit geval kunnen we geen ISBN’s selecteren met dezelfde
contributor en kiezen we ervoor om te kijken of ISBN’s waarvan de eerste karakters van de titel
overeenkomen tot hetzelfde werk behoren. Dit is niet altijd via een algori tme betrouwbaar te
bepalen en daarom kiezen we er voor deze ISBN’s ook handmatig te beoordelen.
Aangezien NSTC een gezamenlijk project is van CB en Meta4Books, wordt het werk ook verdeeld.
Bovenstaande parkeerlijsten kennen dan ook een Nederlandse en een Vlaamse versie, waarbij het land
van origine van de prefixhouder van de ISBN bepaalt op wiens parkeerlijst de ISBN komt.
Momenteel komt ca. 40% van de matches op één van de parkeerlijsten terecht. Dit percentage is bewust
hoog gehouden, omdat we in deze fase liever extra controleren op kwaliteit dan dat we blind moeten
vertrouwen op de correcte werking van het algoritme. In de toekomst zullen we het matchingsalgoritme
dusdanig verfijnen dan er minder matches op de parkeerlijst terecht komen.
1.3. Diverse gemaakte keuzes
In het testproces wat CB en Meta4Books hebben doorlopen hebben we de keus gemaakt niks te doen met
andere metadata die wellicht een hint zouden kunnen geven of twee ISBN’s hetzelfde werk betreffen.
Denk hierbij aan de NUR, de uitgever, andere contributors dan de eerste, de ondertitel, enz. De reden
hiervoor is dat we door het opnemen van deze elementen in het algoritme meer ruis en false negatives
verkregen dan dat het ons aan een betere matching opleverde.
1.4. Bezwaarprocedure
De verantwoordelijk voor de NSTC toekenning ligt bij CB (uitvoering door Bureau ISBN) en Meta4Books.
In geval een uitgever of boekverkoper het niet eens is met een toekenning kan men contact zoeken met
[email protected] of met Meta4Books . Wij zullen zoveel mogelijk naar uw argumenten luisteren,
waarbij de uiteindelijke keuze bij CB en Meta4Books blijft liggen.
4 / NSTC: Werking van het algoritme en toekenningsproces
Nederland
Erasmusweg 10
4104 AK Culemborg
+31 (0)345 47 59 11
[email protected]
cb-logistics.nl
België
Baaikensstraat 2-D
9240 Zele België
Uitbreidingsstraat 84
2600 Berchem België
+32 (0)524 569 40
[email protected]
cb-logistics.be