Digitale Analyse von Figuren

Digitale Analyse von Figuren
Fotis Jannidis (Würzburg)
Stuttgart, 15.1.2016
Kontext
• Korpusbasierte Geschichte des deutschsprachigen Romans von 1500 bis 1945
• Kumulative Bibliographie der erschienenen Romane
• Romankorpus (rd. 1650 Titel)
• Entwicklung von Gattungen, Figurenkonstellationen, narrativen Techniken, Motiven
Kontext 2: Kallimachos
Fotis Jannidis
Isabella Reger
Lukas Weimer
Frank Puppe
Markus Krug
Ziele 1: Beliebte Figurenkonstellationen über Zeit
Ziele 2: Genreanalyse Ziele 3: Plotanalyse
Reverse Engineering
• Identifikation von Figurenreferenzen
• Koreferenzresolution
• Interaktionen
‐> Figurenkonstellationen
‐> Hauptfiguren
• Attribute
• Attributdifferenzen ‐> Plot
Figurenreferenzen und Named Entity Recognition
Identifikation aller Referenzen auf Figuren
"Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre
lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war." (Fontane: Effi Briest)
Stanford NER
Eduard – so nennen wir einen reichen Baron im besten Mannesalter – Eduard hatte
in seiner Baumschule die schönste Stunde eines Aprilnachmittags zugebracht, um
frisch erhaltene Pfropfreiser auf junge Stämme zu bringen. Sein Geschäft war eben
vollendet; er legte die Gerätschaften in das Futteral zusammen und betrachtete
seine Arbeit mit Vergnügen, als der Gärtner hinzutrat und sich an dem
teilnehmenden Fleiße des Herrn ergetzte.
»Hast du meine Frau nicht gesehen?« fragte Eduard, indem er sich weiterzugehen anschickte.
Goethe – Die Wahlverwandtschaften
Named Entities
“Unter der Named Entity Recognition (NER) versteht man die Aufgabe, Eigennamen (named entities) in Texten zu erkennen.” (Benikova / Biemann / Reznicek 2014)
• Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina usw.)
Erweiterte Definition von Named Entity
Eduard – so nennen wir einen reichen Baron im besten Mannesalter – Eduard hatte
in seiner Baumschule die schönste Stunde eines Aprilnachmittags zugebracht, um
frisch erhaltene Pfropfreiser auf junge Stämme zu bringen. Sein Geschäft war eben
vollendet; er legte die Gerätschaften in das Futteral zusammen und betrachtete
seine Arbeit mit Vergnügen, als der Gärtner hinzutrat und sich an dem
teilnehmenden Fleiße des Herrn ergetzte.
»Hast du meine Frau nicht gesehen?« fragte Eduard, indem er sich weiterzugehen anschickte.
Goethe – Die Wahlverwandtschaften
Erweiterte Definition von Named Entity
• Tatsächliche Namen
• weitere Figurenreferenzen: Appellativa
•
•
•
•
Berufsbezeichnungen
(Adels‐)Titel
Verwandtschaftsbezeichnungen
Äußerlichkeiten: „der Schwarzhaarige“
• StanfordNER: F1‐Score von nur 31%
Named Entities vs. Figurenreferenzen
Named Entities
• Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina)
Figurenreferenzen
• Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina )
Erstellung eines eigenen Trainingskorpus
•
•
•
•
Kooperation mit Informatikern
Je 130 zusammenhängende Sätze aus 85 Romanen
Manuelle Annotation
Unterstützung durch Annotationstool
•
•
•
•
Graphische Benutzeroberfläche
Regelbasierte Vorschläge
Beschleunigung des Annotationsvorgangs
Gleichzeitige Annotation von Entitäten und Koreferenzen möglich
Annotationstool
Resultate
Verfahren
Precision in %
Recall in %
F1‐Score in %
Unterschied zur Baseline (F1‐Score) in %
Baseline (Features 1‐ 6)
95.12
79.60
86.66
+0
Baseline + (7)
95.73
79.28
86.70
+0.04
Baseline +(8)
94.53
81.74
87.65
+0.99
Baseline + (9)
94.96
79.74
86.67
+0.01
Baseline + (10)
95.07
81.00
87.45
+0.79
Baseline + (11)
95.03
79.63
86.63
‐0.03
Baseline + (12)
96.47
77.83
86.13
‐0.53
Baseline + (13)
94.97
85.28
89.84
+3.18
Baseline +
(7),(8),(10),(13)
94.86
85.60
89.98
+3.32
Ergebnisse mit neuem NER‐Werkzeug
NER im Romankorpus
120
110
100
94,86
89,98
90
85,6
80
70
60
50
40
30
20
10
0
Precision
Recall
F1‐Score
Koreferenzresolution
Klassifiziere alle Referenzen, die auf die gleiche Figur verweisen
• "Effi1 trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie1 tat, paarte sich Übermut und Grazie, während ihre1 lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie1 die »Kleine«, was sie1 sich nur gefallen lassen mußte, weil die schöne, schlanke Mama2 noch um eine Handbreit höher war.„
Testkorpus
• 80 zufällig ausgewählte Textausschnitte aus unterschiedlichen Romanen bestehend aus 130 Sätzen
• Unser erstes Evaluationskorpus: 48 Romane (143.000 Tokens mit ca. 19.000 Referenzen) • Zweites Evaluationskorpus: 78 Romane (247.000 Tokens mit ca. 30.600 Referenzen)
Unterschiede zwischen Roman‐ und Zeitungssprache
Romane
Zeitungen
Satzlänge
24,2 Tokens
16,3 Tokens
Nennung einer Figur
10 mal
4 mal
Entscheidender Schritt im Preprocessing
• Segmentierung der Romantexte in Direkte Rede vs. Nicht‐Direkte Rede
• Identifizierung des Sprechers einer Direkten Rede, Verwendung folgender Regeln:
• Explizite Sprecherangabe
• Sprecherangabe wird in längeren Dialogen impizit weitergegeben
• Unterschiedliche Behandlung von Direkter und Nicht‐Direkter Rede. Ergänzende Regeln in Direkter Rede
Unterschiede zwischen Roman und Zeitung
Resultate
Interaktionen
Figurenkonstellation
Figurenkonstellation: „das soziale, psycholog., mentale, familiäre usw. Beziehungsgeflecht, in dem die Figuren eines ep. oder dramat. Werkes zueinander stehen“ (Wilpert 2001:269)
„Figurenkonstellation, das System der Figuren eines Textes und ihrer Beziehungen. Mindestens drei Ebenen sind zu unterscheiden: 1. handlungsfunktionale Verhältnisse der Figuren als Interaktionspartner […], Ähnlichkeiten und Kontraste […]; 3. Positionen innerhalb einer Aufmerksamkeitshierarchie […]“ (Eder: 2007:239)
=> Soziales Netzwerk, Figuren als Interaktionspartner
Modellierung von Interaktion
• Kommunikation
• Wer ‐> (Wörtliche Rede) ‐> mit Wem (Elson, Dames, McKeown 2010)
• Wer ‐> (Alle Formen der Rede) ‐> mit Wem
• Interaktion
• Wer ‐> (kommuniziert/interagiert) ‐> mit Wem
• Sehr einfacher Indikator
• Welche Figurenreferenzen kommen im [Textfenster, z.B. Absatz] vor
• Ungerichtet
Von Named Entities zum Figurennetzwerk
•
Interaktion als gemeinsames Vorkommen in einem Absatz + Zählen der Häufigkeit als Gewicht der Interaktion
Eduard, Ottilien
Charlotte, Eduard
Charlotte, Eduard
Ottilie, Eduard
Eduard, Charlotte
Ottilie, Charlotte
...
Charlotte, Ottilie, 102
Eduard, Ottilie, 96
Charlotte, Eduard, 77
Charlotte, Hauptmann, 50
...
Figurenkonstellation für ‚Effi Briest‘
(aufgrund von zwei schlichten Lösungen)
Figurennetzwerke
Goethe: Wahlverwandtschaften
Figurennetzwerke
Figurenkonstellation und Zentralitätsmaße
• Knoten repräsentieren Figuren, Kanten repräsentieren (schlicht!) Interaktion/ Kommunikation
• Degree centrality: Welche Figur interagiert am meisten mit den anderen
• Closeness centrality: Nähe einer Figur zu den anderen Figuren (und deren Interaktionen)
• Betweenness centrality: Welche Figur verbindet die meisten Interaktionsbereiche
Romangattungen und Figurenkonstellationen (Zentralitäts‐Maße)
Automatische Identifikation der Hauptfiguren
1.
2.
3.
4.
Häufigste Figuren
Häufigste Figuren (nur Sprecher gezählt)
Soziale Netzwerkanalyse: Erwähnung im gleichen Absatz
Soziale Netzwerkanalyse: Wer spricht (direkte Rede) mit wem?
Hauptfigur: Höchste Degree Centrality
Haupt‐ und Nebenfiguren in den Wahlverwandtschaften
Centrality Absatz
Centrality Dialog
Evaluation Goldstandard: Kindler Zusammenfassungen
DSN = Direct Speech Network. PN=Paragraph Network. DSC= Direct Speech Count. Count = Simple Frequency
Figurenattribute
Figureneigenschaften
temporär
implizit
explizit
konstant
Attributanalysen
• Manuelle Vorstudien:
• Alle Attribute zu zahlreich, da praktisch alle Sätze dann irgendeiner Figur zugeordnet werden
• Implizite Charakterisierung basiert auf komplexen Inferenzen
• (Vermutlich) keine hohe Interannotatoren‐Übereinstimmung
Figureneigenschaften
temporär
implizit
explizit
konstant
Attribute: Verwandtschaftsbeziehungen
Annotationstool
Weitere soziale Attribute
• Rangunterschiede (Soziale Beziehungen, Militär)
• Liebes‐ und Freundschaftsbeziehungen
Visualisierung: Verwandtschaft und soziale Beziehungen
Keller: Romeo und Julia auf dem Dorfe
Literatur
• Agarwal, A. et.al.: Social Network Analysis of Alice in Wonderland. In: Workshop on Computational Linguistics for Literature 8. Juni 2012, p.88‐96.
• Elson, D., Dames, N., McKeown, K.: Extracting Social Networks from Literary Fiction. In: • Fludernik, M.: Roman. In: D. Lamping: Handbuch der literarischen Gattungen. Stuttgart 2009, 627‐645.
• Hagberg, A., Schult, D. and Swart, P.: Exploring network structure, dynamics, and function using NetworkX. In: Gäel Varoquaux, Travis Vaught, and Jarrod Millman (eds): Proceedings of the 7th Python in Science Conference (SciPy2008). Pasadena 2008, 11–15.
• Jockers, M.: Macroanalysis. Urbana, Chicago and Springfield: 2013
• Moretti, F.: Network theory, Plot Analysis. Literary Lab Pamphlet 2, 1.5.2011 (online).
• Newman, M.: Networks. Oxford 2010.
• Trilcke, Peer: Ideen zu einer literaturwissenschaftlichen Netzwerkanalyse. Workshop: philtag n=“11“, Würzburg, 26.‐27. September 2013 (online). • Krug, M., Puppe, F., Jannidis, F., Reger, I., Weimer, L. ,Macharowsky, L. 2015. Rule‐based Coreference
Resolution in German Historic Novels In Fourth Workshop on Computational Linguistics for Literature (CLfL15), Denver, USA, 2015.
• Jannidis, F., Krug, M., Reger, I. Toepfer, M. Weimer, L, Puppe, F. 2015. Automatische Erkennung von Figuren in deutschsprachigen Romanen. Digital Humanities im deutschsprachigen Raum (Dhd 2015), Graz, Austria, Besten Dank
Das Korpus
• 451 Romane (Textgridrep.de)
• Metadaten: Autor, Titel, Erstdruck, teilweise Gattung
• Digitalisierungsqualität: gut bis sehr gut
• Vorlagen: Studienausgaben, oft modernisiert
• 37 Romane (DTA)
• Metadaten: Autor, Titel, Erstdruck
• Digitalisierungsqualität: sehr gut
• Vorlagen: Erstdruck
• 1200 Romane (Gutenberg)
• Autor, Titel
• Digitalisierungsqualität: mittel bis gut
• Vorlagen: divers
Word2Vec
• Ein Algorithmus für Maschinelles Lernen auf der Grundlage von Neuronalen Netzwerken
• Eingabe: ein sehr großes Textkorpus
• Ausgabe: Vektoren für jedes Wort
• Verfahren: • Erstellt Wortliste für das Trainingskorpus
• Lernt dann eine Vektorrepräsentation für jedes Wort
vector(”King”) ‐ vector(”Man”) + vector(”Woman”)
results in a vector that is closest to the vector representation of the word
Queen
Nearest words to "France"
Word
Cosine distance
------------------------------------------spain
0.678515
belgium
0.665923
netherlands
0.652428
italy
0.633130
switzerland
0.622323
luxembourg
0.610033
Verwendetes Feature: Word2Vec Cluster
• Ermittlung der Vektoren für jedes Wort aufgrund von Word2Vec
• Clustering der Wort‐Vektoren mittels k‐means
Clusteranzahl ab 250 (relativ konstant bis 1000)
Zweites Experiment: Größe des Trainingskorpus
• Domain ‐ Anpassung als Hauptproblem der textwissenschaftlichen Verwendung von NLP‐Werkzeugen
• Optimierung der Domain‐Anpassung zwischen F1‐Maximierung und pragmatischen Einschränkungen
Ø Satzlänge Romane: 24,2 Ø Satzlänge Zeitung: 16,3
Zusammenfassung
• Domain Adaption
• Figurenreferenzen ‐> Named Entities + Appelativa
• Erstellung eines eigenen Korpus ‐ Kann deutlich kleiner sein
• Algorithmus‐Verbesserung
• Verwendung von Word2Vec + Features des Stanford‐Parsers
1) Identifikation aller Referenzen auf Figuren
"Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre
lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war." (Fontane: Effi Briest)
Named Entity Recognition (Standardwerkzeug)
• "Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war."
Gefunden
‐
Nicht gefunden
Kallimachos 2014ff.: Jannidis, Krug, Puppe, Reger, Weimer
Standard‐NER u. Romankorpus
NER‐Romankorpus / NER‐Tool
• je 130 zusammenhängende Sätze • aus 48 Romanen • insgesamt ca. 140 000 Tokens
• Eigenes NER‐Werkzeug. Gleicher Algorithmus wie Stanford‐Parser (Conditional Random Fields), aber ergänzte Features (Word2Vec‐Cluster)