Vragen en antwoorden over CLARIAH

Common Lab Research Infrastructure for the Arts and Humanities
Vragen en antwoorden over CLARIAH
Vragen en antwoorden t.b.v. collega-onderzoekers en pers
1. Wat is CLARIAH?
CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities) is een
Nederlands project dat bouwt aan het Nederlandse deel van de Europese CLARIN en DARIAH
digitale infrastructuren voor het ontsluiten en bewerken van grote data bestanden van
tekst, beeld en geluid en gestructureerde gegevens op het gebied van cultuur. Met een
subsidie van NWO (de Nationale Roadmap voor Grootschalige Onderzoeksfaciliteiten zal dit
project onderzoekers in staat stellen innovatief en data-intensief onderzoek te doen. Het
gaat hier niet om één apparaat of één instrument of zelfs één fysiek “laboratorium”, maar
om het Nederlandse deel van een internationale virtuele en gedistribueerde digitale
infrastructuur die onderzoekers uit verschillende geesteswetenschappelijke disciplines gaan
gebruiken bij grootschalig data-onderzoek.
2. Voor wie is CLARIAH bedoeld?
Wie gaat er wat aan hebben?
CLARIAH is bedoeld voor onderzoekers uit alle geesteswetenschappelijke disciplines die
werken met gedigitaliseerde data bestanden: tekst, afbeeldingen, audiovisueel materiaal en
gestructureerde dataverzamelingen. In eerste instantie worden vooral instrumenten
ontwikkeld in de disciplines van drie zgn voortrekkers-gebieden. Het is echter nadrukkelijk
de bedoeling dat de te ontwikkelen tools bruikbaar zijn voor wetenschappers in de hele
humaniora die met dit type data werken. We nodigen dan ook onderzoekers uit alle
disciplines uit bij te dragen aan de ontwikkeling van deze infrastructuur (Zie punt 6.)
3. Welke disciplines vervullen een voortrekkersrol en door wie
worden zij vertegenwoordigd in CLARIAH?
Drie deelgebieden vervullen een voortrekkersrol in CLARIAH: taalkunde, mediastudies en
sociaal-economische geschiedenis. Taalkundigen richten zich met name op het ontginnen
van digitale tekstbestanden; mediawetenschappers ontwikkelen tools voor het
interpreteren van audiovisuele bronnen (beeld en geluid); sociaal-economische historici
concentreren zich op gestructureerde databestanden uit archieven.
Hoofdaanvrager
Projectleider
prof. dr. Lex Heerma van Voss, directeur van het KNAWHuygens Instituut
prof. dr. Jan Odijk (UiL-OTS, Universiteit Utrecht).
De drie voortrekkers-disciplines worden vertegenwoordigd door
Taalkunde
prof. dr. Sjef Barbiers (Meertens Instituut, UU)
prof. dr. Hans Bennis (Meertens Instituut)
Mediastudies
prof. dr. José van Dijck (Mediastudies, UvA)
prof. dr. Julia Noordegraaf (Mediastudies, UvA).
Sociaal-economische
prof. dr. Jan Luiten van Zanden (UU)
geschiedenis
prof. dr. Henk Wals (directeur IISG).
1
Common Lab Research Infrastructure for the Arts and Humanities
4. Wat zijn voorbeelden van het type instrumenten die met behulp
van CLARIAH ontwikkeld zullen worden?
En welke onderzoeksvragen kunnen daarmee beantwoord
worden?
Voorbeelden Taalkunde
MIMORE werkt op drie databases met data van meer dan 600 hedendaagse dialecten van
het Nederlands. Met deze tool kunnen de drie databases tegelijk worden doorzocht op
syntactische, morfologische en fonologische variatie. Zoeken is mogelijk met tekststrings,
strings van woordsoorten en linguistische verschijnselen. De zoekresultaten kunnen worden
geanalyseerd met set-theoretische operaties en ze kunnen worden weergegeven op
geografische kaarten, waarmee ook correlaties tussen taalkundige eigenschappen
gevisualiseerd kunnen worden.
Voorbeelden Mediastudies
Trove is een multimediale zoekmachine die wetenschappers in staat stelt om de
verspreiding van informatie te analyseren in verschillende media, door de tijd heen.
Televisieprogramma’s kunnen worden vergeleken met tweets, online kranten en blogs,
waardoor de belangrijkste spelers in het gemediatiseerde publieke debat kunnen worden
geïdentificeerd en hun wederzijdse rollen in de verspreiding van informatie geduid. Trove is
telescoop en microscoop in één: een analyse van langere termijnontwikkelingen de
beeldvorming over bijvoorbeeld arbeidsmigranten kan worden gecombineerd met een
inhoudelijke analyse van individuele programma’s, artikelen of tweets. Daarmee biedt
TROVE onderzoekers een ongeëvenaard instrument om de invloed van de media op het
publieke debat te onderzoeken.
Voorbeelden sociaal-economische geschiedenis
 Clio Infra is een collaboratory [online samenwerkingsverband] gericht op het
standaardiseren en toegankelijk maken van grote databestanden die de evolutie van
ongelijkheid op wereldschaal in kaart brengen en helpen verklaren.
 HSN is een historische steekproef uit de Nederlandse bevolking van de 19de en 20ste
eeuw die een diepgravende analyse van demografische en sociaal-economische
veranderingen mogelijk maakt.
5. Met welke projecten gaat CLARIAH van start en
welke resultaten worden op langere termijn verwacht?




Ontwikkelen van de technische infrastructuur door de CLARIAH-centra, voortbouwend
op wat in CLARIN-NL gedaan is.
Testen van frameworks voor een uniforme manier om resources (data, tools) te
beschrijven (‘metadata’).
Aanpassing van bestaande data en tools aan CLARIAH-vereisten, en beschikbaarstelling
en duurzame opslag ervan in de infrastructuur via CLARIAH-centra. Dit omvat ook het
interoperabel maken van deze data en tools met andere data en tools. (‘data- en
toolcuratie’).
Ontwikkelen van geavanceerde instrumenten om te kunnen zoeken in metadata en
data, en de data te kunnen analyseren en visualiseren.
2
Common Lab Research Infrastructure for the Arts and Humanities
6. Kunnen onderzoekers uit de Geesteswetenschappen straks
aanvragen indienen bij het CLARIAH project?



Een onderzoeker moet eerst ervoor zorgen dat de instelling waar hij/zij werkt de
CLARIAH-consortiumovereenkomst getekend heeft (die zal in het najaar van 2014
beschikbaar komen ter ondertekening). Alleen onderzoekers van instellingen die deze
consortiumovereenkomst getekend hebben kunnen deelnemen in CLARIAH.
Onderzoekers zullen in de loop van 2015 voorstellen kunnen indienen voor het cureren
van data en tools. In alle gevallen is hierbij samenwerking met een CLARIAH-centrum
vereist, en vaak ook samenwerking met informatici.
In een latere fase zal het ook mogelijk worden voorstellen in te dienen voor zogenaamde
‘research pilots’, kleine onderzoeksprojectjes die als doel hebben de functionaliteit van
de infrastructuur uit te testen aan de hand concrete onderzoeksvragen.
7. Hoe wordt kennis over digitale data tools en ontsluiting straks
verspreid onder onderzoekers uit de Geesteswetenschappen?
We weten dat studenten en promovendi in de geesteswetenschappen zeer geïnteresseerd
zijn in digitale geesteswetenschappen. Gemiddeld denken de geesteswetenschappelijke
onderzoeksscholen dat zo’n 40% van hun promovendi gebruik zullen willen maken van de
faciliteiten van CLARIAH. Wat we zullen doen is via onze contacten op de universiteiten
onderwijs aanbieden in het reguliere curriculum en in de onderzoekersopleiding van de
onderzoeksscholen.
8. Welke partners en instellingen ondersteunen CLARIAH?
Het CLARIAH-consortium bestaat uit meer dan 40 partners: naast alle Nederlandse
geesteswetenschappelijke onderzoeksinstellingen zijn ook universiteitsbibliotheken,
erfgoedinstellingen, publieke organisaties en bedrijven aangesloten. Het meest actuele
overzicht van de verschillende partners staat op de CLARIAH-webiste:
http://www.clariah.nl/partners
9. Waarom vindt de overheid overheid/NWO het juist nu zo
belangrijk om in zo’n grote digitale infrastructuur te investeren?
De geesteswetenschappen ondergaan een digitale wending, die de komende jaren van
fundamentele betekenis zal zijn voor die wetenschappen. Dit is daarom het juiste moment
om te bevorderen dat dat gebeurt met een gemeenschappelijke infrastructuur, zodat de
investeringen in de digitale geesteswetenschappen niet één afzonderlijk onderzoek ten
goede komen, maar herhaald bruikbaar zijn voor steeds nieuw onderzoek. Dat is de missie
van CLARIAH.
10. Wat voor soort grote vragen kunnen er met behulp van de nieuwe
digitale infrastructuur aangepakt worden?
Een grote vraag als ‘’hoe kunnen we processen van migratie en de positie van migranten
beter begrijpen?’’ werd vroeger per wetenschappelijke discipline bestudeerd terwijl zo’n
vraag inzicht vereist in de samenhang tussen veranderingen in sociaal-economische positie,
taal en beeldvorming van specifieke groepen. Doormiddel van de te ontwikkelen digitale
infrastructuur kunnen we tot geheel nieuwe inzichten komen.
3