BiographyNet: an interdisciplinary project

BiographyNet
Linking the world of History
Huygens ING
25 September 2014
Presentatie Demonstrator/Tool
• I Kort overzicht van het project
• II De achterkant: wat gebeurt er met de data?
• III: De voorkant: visualisatie, browsing,
interface
Recap BiographyNet
Data:
Biografisch Portaal van Nederland: 125.000 biographies, 76.000
individuen
Hoofdthema van het project:
Welke historische vragen kunnen (deels) worden beantwoord aan de
hand van deze data met de hulp van computationele methoden?
Interdisciplinariteit:
Computer Science, Computationele Linguistiek, Geschiedenis
Use cases: voorbeelden
• Eenvoudig/Information retrieval:
• Groepsanalyse van de gouverneurs-generaal van NederlandsIndië
• Meer complex/kennis:
• Vanaf welk moment raakten Nl
elites ‘betrokken’ bij de ontdekking van de
‘Nieuwe Wereld?’
• Zeer complex/begrip:
• Wat kunnen we zeggen over het concept ‘nationalisme’ in
biografische woordenboeken van de negentiende tot de
twintigste eeuw?
Jaar 1
•
•
•
•
Elkaars academische taal leren
Eenvoudige en simpele use cases formuleren
De originele data omzetten naar linked data
Adresseren van methodologische kwesties:
provenance/herkomst; vertalen van
historische vragen naar door software te
interpreteren bouwstenen
Jaar 2
• Start met het bouwen van de NLP pipeline,
gepriotoriseerd door de uitkomsten van een
workshop voor historici in april 2014
• Start met het bouwen van de BiographyNet
interface, deels gebaseerd op interviews met
historici
• Voortdurend werken aan methodologische
issues: historische toolkritiek; documentatie;
wanneer moet welke computationele methode
worden toegepast en hoe
Jaar 3
• Testen en verbeteren van de BiographyNet
tool, zowel op visualisatie (de buitenkant,
Niels) als de valditeit van de uitkomsten (de
binnenkant, Antske)
• Documentatie van de pipeline
• Het schrijven van een uitgebreide handleiding
waarin technische, methodologische en
bronkritische issues geaddresseerd worden
II De achterkant
Wat gebeurt er met de data?
Analyse van Biografieën
Identificeren van Informatie
Tekstinterpretatie: stap 1
Tweetraps Interpretatie
1. Directly translate NLP output:
1. list all events, people, locations, time
expressions, word meanings
2. Link them to the original tokens in the text
(provenance)
2. Try to interpret the data:
1. Which mentions refer to the same entity?
2. What entity is that?
3. What is the exact geographical location?
Tekstinterpretatie: Stap 2
Methode en uitdagingen
• Domein adaptatie:
– Domeinspecifieke betekenis:
promoveren
Typisch biografische betekenis: `doctorsgraad
verwerven’
maar ook: `verbetering van een positie’, `rijzen van
deeg’
– HeidelTime: ontwikkeld voor het Biografisch
Woorenboek van Socialisme en de Arbeidersbeweging
(BWSA, ook deel van het Biografisch Portaal)
• BWSA (late 20th century): 90.4% recall, 98.1% precision
• BWG (late 20th century): 83% recall, 76,5% precision
• VDAA (late 19th century): 69.7% recall, 77.6% precision
Data interpretatie (voorbeeld)
• Use case: predikanten: 1) gemiddelde leeftijden 2) reizen
• Leeftijden:
– Bereken de verschillen in leeftijd bij eerste baan, laatstebaan,
geboorte en dood
– Controleer extremen (jongste priester was -160, de oudse had zijn
eerste baan op de leeftijd van 125)
• Locaties:
– Is er een duidelijke specificatie? (land, provincie, stad)
– What is een voor de hand liggende identificatie? (Van in Iran is
bijvoorbeeld over het algemeen niet een voor de hand liggende
kandidaat)
– Wat is het meest dichtbij?
– Controleer extremen
Data interpretation
• Domain specific filters:
– Nothing happens to people before they are born
– Default interpretations of specific cities
– Historic use of location names: Oost-Indië,
Nederlands-Indië, Batavia, Antwerpen (Brabant)
• Case specific filters:
– It is unlikely someone starts working as a minister
at age 12 (but possible for other professions)
Evaluatie van NLP
• Focus op de resultaten: hoe krijg je de beste
resultaten voor de historicus?
• We hebben evaluatiesets nodig, dmv crowd
sourcing, van de data die geïdentificeerd moet
worden (b.v. locaties, mensen,
tijdsuitdrukkingen, events, relaties tussen
verschillende entiteiten et etera)
III De voorkant
visualisatie, browsing, interface
Over de Data
RDF versie van de ‘Biografisch Portaal’ data
• Schema gebaseerd op de originele XML Files
– Noodzakelijk om data van verschillende biografieën te koppelen, met instandhouding
van de originele data
– Compatibel met gangbare schema’s
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Provenance in BiographyNet
Nodig om de geloofwaardigheid van de demonstrator te behouden
en de output te controleren
• Provenance op verschillende vlakken:
• Gebruikte informatie
 Gebruikte bronnen, maar ook andere input
• Processen
 Alle stappen in verrijking en aggregatie
• Personen
 Wie was verantwoordelijk voor de pipeline?
• Provenance op verschillende niveaus:
• Geaggregeerd
 Voor de historicus, per verrijking
• Gedetailleerd
 Voor de computer scientist en computationele linguïst:
inzicht in alle processen
plan
*Daniel Garijo, Yolanda Gil; http://www.opmw.org/model/p-
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
RDF Schema (simplified version)
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Interface Design(I)
● Target group: Historians
o
Participants included history students, scientific staff history dep. of
multiple universities, as well as members from institutes such as
Huygens ING
● Information Gathering and Requirement Engineering
o
o
Brainstorms
Interviews
o
o
Sketches
Feedback in interview sessions
o
HTML mockup demo
o
o
o
One-to-one meetings
Think Aloud protocol
System Usability Scale (SUS)
● Low fidelity prototypes
● High fidelity prototype
● Evaluation
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Interface Ontwerp
Resultaten van interviews met historici:
Initial Functionality Requirements
Low Fidelity Prototype Feedback
The sources of displayed information must be traceable
Availability of full source text
Suggestions about possible relations should be shown
Possibility to store visualization
Multiple types of visualization should be available
Show multiple source texts next to each other
Results must be able to be stored in text form
Show Title-Author-Year next to the relation-information
Statistical information should be available
Visualize uncertaincy of relations in the visualizations
There must be insight in how the algorithm operates
Do not give an opinion on what source tells the truth
Results should be reproducible
Add a ‘raw data’ tab containing the used data from the
semantic knowledge base in plain text
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Mockup Prototype (I)
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Mockup Prototype (II)
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014
Uitdagingen
● Specifieke vereisten
o
Meerdere timelines per ‘view’, meerdere multiple range items
(e.g. person) per time line, multiple events plotted on range
items, linking event across items
● Accuracy
o
o
All items must be plotted on an accurate scale
Markers and item placing must actually mean something
o
o
Potentially 1000s of persons for a given point in time
A Free scrollable and zoom-able time line with dynamic
asynchronous loading of content is needed
Using new HTML5 techniques such as Canvas for scalability
● Complexity
o
● Ordering and prioritization (algorithms)
o
o
Rate items bases on metrics determined by the search query,
e.g. Nr. Of relevant relations or events
Centralize best rated item and wrap related based on rating
BiographyNet: Linking the world of History
eScience internal review – Thursday, 18 September 2014