BiographyNet Linking the world of History Huygens ING 25 September 2014 Presentatie Demonstrator/Tool • I Kort overzicht van het project • II De achterkant: wat gebeurt er met de data? • III: De voorkant: visualisatie, browsing, interface Recap BiographyNet Data: Biografisch Portaal van Nederland: 125.000 biographies, 76.000 individuen Hoofdthema van het project: Welke historische vragen kunnen (deels) worden beantwoord aan de hand van deze data met de hulp van computationele methoden? Interdisciplinariteit: Computer Science, Computationele Linguistiek, Geschiedenis Use cases: voorbeelden • Eenvoudig/Information retrieval: • Groepsanalyse van de gouverneurs-generaal van NederlandsIndië • Meer complex/kennis: • Vanaf welk moment raakten Nl elites ‘betrokken’ bij de ontdekking van de ‘Nieuwe Wereld?’ • Zeer complex/begrip: • Wat kunnen we zeggen over het concept ‘nationalisme’ in biografische woordenboeken van de negentiende tot de twintigste eeuw? Jaar 1 • • • • Elkaars academische taal leren Eenvoudige en simpele use cases formuleren De originele data omzetten naar linked data Adresseren van methodologische kwesties: provenance/herkomst; vertalen van historische vragen naar door software te interpreteren bouwstenen Jaar 2 • Start met het bouwen van de NLP pipeline, gepriotoriseerd door de uitkomsten van een workshop voor historici in april 2014 • Start met het bouwen van de BiographyNet interface, deels gebaseerd op interviews met historici • Voortdurend werken aan methodologische issues: historische toolkritiek; documentatie; wanneer moet welke computationele methode worden toegepast en hoe Jaar 3 • Testen en verbeteren van de BiographyNet tool, zowel op visualisatie (de buitenkant, Niels) als de valditeit van de uitkomsten (de binnenkant, Antske) • Documentatie van de pipeline • Het schrijven van een uitgebreide handleiding waarin technische, methodologische en bronkritische issues geaddresseerd worden II De achterkant Wat gebeurt er met de data? Analyse van Biografieën Identificeren van Informatie Tekstinterpretatie: stap 1 Tweetraps Interpretatie 1. Directly translate NLP output: 1. list all events, people, locations, time expressions, word meanings 2. Link them to the original tokens in the text (provenance) 2. Try to interpret the data: 1. Which mentions refer to the same entity? 2. What entity is that? 3. What is the exact geographical location? Tekstinterpretatie: Stap 2 Methode en uitdagingen • Domein adaptatie: – Domeinspecifieke betekenis: promoveren Typisch biografische betekenis: `doctorsgraad verwerven’ maar ook: `verbetering van een positie’, `rijzen van deeg’ – HeidelTime: ontwikkeld voor het Biografisch Woorenboek van Socialisme en de Arbeidersbeweging (BWSA, ook deel van het Biografisch Portaal) • BWSA (late 20th century): 90.4% recall, 98.1% precision • BWG (late 20th century): 83% recall, 76,5% precision • VDAA (late 19th century): 69.7% recall, 77.6% precision Data interpretatie (voorbeeld) • Use case: predikanten: 1) gemiddelde leeftijden 2) reizen • Leeftijden: – Bereken de verschillen in leeftijd bij eerste baan, laatstebaan, geboorte en dood – Controleer extremen (jongste priester was -160, de oudse had zijn eerste baan op de leeftijd van 125) • Locaties: – Is er een duidelijke specificatie? (land, provincie, stad) – What is een voor de hand liggende identificatie? (Van in Iran is bijvoorbeeld over het algemeen niet een voor de hand liggende kandidaat) – Wat is het meest dichtbij? – Controleer extremen Data interpretation • Domain specific filters: – Nothing happens to people before they are born – Default interpretations of specific cities – Historic use of location names: Oost-Indië, Nederlands-Indië, Batavia, Antwerpen (Brabant) • Case specific filters: – It is unlikely someone starts working as a minister at age 12 (but possible for other professions) Evaluatie van NLP • Focus op de resultaten: hoe krijg je de beste resultaten voor de historicus? • We hebben evaluatiesets nodig, dmv crowd sourcing, van de data die geïdentificeerd moet worden (b.v. locaties, mensen, tijdsuitdrukkingen, events, relaties tussen verschillende entiteiten et etera) III De voorkant visualisatie, browsing, interface Over de Data RDF versie van de ‘Biografisch Portaal’ data • Schema gebaseerd op de originele XML Files – Noodzakelijk om data van verschillende biografieën te koppelen, met instandhouding van de originele data – Compatibel met gangbare schema’s BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Provenance in BiographyNet Nodig om de geloofwaardigheid van de demonstrator te behouden en de output te controleren • Provenance op verschillende vlakken: • Gebruikte informatie Gebruikte bronnen, maar ook andere input • Processen Alle stappen in verrijking en aggregatie • Personen Wie was verantwoordelijk voor de pipeline? • Provenance op verschillende niveaus: • Geaggregeerd Voor de historicus, per verrijking • Gedetailleerd Voor de computer scientist en computationele linguïst: inzicht in alle processen plan *Daniel Garijo, Yolanda Gil; http://www.opmw.org/model/p- BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 RDF Schema (simplified version) BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Interface Design(I) ● Target group: Historians o Participants included history students, scientific staff history dep. of multiple universities, as well as members from institutes such as Huygens ING ● Information Gathering and Requirement Engineering o o Brainstorms Interviews o o Sketches Feedback in interview sessions o HTML mockup demo o o o One-to-one meetings Think Aloud protocol System Usability Scale (SUS) ● Low fidelity prototypes ● High fidelity prototype ● Evaluation BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Interface Ontwerp Resultaten van interviews met historici: Initial Functionality Requirements Low Fidelity Prototype Feedback The sources of displayed information must be traceable Availability of full source text Suggestions about possible relations should be shown Possibility to store visualization Multiple types of visualization should be available Show multiple source texts next to each other Results must be able to be stored in text form Show Title-Author-Year next to the relation-information Statistical information should be available Visualize uncertaincy of relations in the visualizations There must be insight in how the algorithm operates Do not give an opinion on what source tells the truth Results should be reproducible Add a ‘raw data’ tab containing the used data from the semantic knowledge base in plain text BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Mockup Prototype (I) BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Mockup Prototype (II) BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014 Uitdagingen ● Specifieke vereisten o Meerdere timelines per ‘view’, meerdere multiple range items (e.g. person) per time line, multiple events plotted on range items, linking event across items ● Accuracy o o All items must be plotted on an accurate scale Markers and item placing must actually mean something o o Potentially 1000s of persons for a given point in time A Free scrollable and zoom-able time line with dynamic asynchronous loading of content is needed Using new HTML5 techniques such as Canvas for scalability ● Complexity o ● Ordering and prioritization (algorithms) o o Rate items bases on metrics determined by the search query, e.g. Nr. Of relevant relations or events Centralize best rated item and wrap related based on rating BiographyNet: Linking the world of History eScience internal review – Thursday, 18 September 2014
© Copyright 2024 ExpyDoc