Digitale Analyse von Figuren Fotis Jannidis (Würzburg) Stuttgart, 15.1.2016 Kontext • Korpusbasierte Geschichte des deutschsprachigen Romans von 1500 bis 1945 • Kumulative Bibliographie der erschienenen Romane • Romankorpus (rd. 1650 Titel) • Entwicklung von Gattungen, Figurenkonstellationen, narrativen Techniken, Motiven Kontext 2: Kallimachos Fotis Jannidis Isabella Reger Lukas Weimer Frank Puppe Markus Krug Ziele 1: Beliebte Figurenkonstellationen über Zeit Ziele 2: Genreanalyse Ziele 3: Plotanalyse Reverse Engineering • Identifikation von Figurenreferenzen • Koreferenzresolution • Interaktionen ‐> Figurenkonstellationen ‐> Hauptfiguren • Attribute • Attributdifferenzen ‐> Plot Figurenreferenzen und Named Entity Recognition Identifikation aller Referenzen auf Figuren "Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war." (Fontane: Effi Briest) Stanford NER Eduard – so nennen wir einen reichen Baron im besten Mannesalter – Eduard hatte in seiner Baumschule die schönste Stunde eines Aprilnachmittags zugebracht, um frisch erhaltene Pfropfreiser auf junge Stämme zu bringen. Sein Geschäft war eben vollendet; er legte die Gerätschaften in das Futteral zusammen und betrachtete seine Arbeit mit Vergnügen, als der Gärtner hinzutrat und sich an dem teilnehmenden Fleiße des Herrn ergetzte. »Hast du meine Frau nicht gesehen?« fragte Eduard, indem er sich weiterzugehen anschickte. Goethe – Die Wahlverwandtschaften Named Entities “Unter der Named Entity Recognition (NER) versteht man die Aufgabe, Eigennamen (named entities) in Texten zu erkennen.” (Benikova / Biemann / Reznicek 2014) • Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina usw.) Erweiterte Definition von Named Entity Eduard – so nennen wir einen reichen Baron im besten Mannesalter – Eduard hatte in seiner Baumschule die schönste Stunde eines Aprilnachmittags zugebracht, um frisch erhaltene Pfropfreiser auf junge Stämme zu bringen. Sein Geschäft war eben vollendet; er legte die Gerätschaften in das Futteral zusammen und betrachtete seine Arbeit mit Vergnügen, als der Gärtner hinzutrat und sich an dem teilnehmenden Fleiße des Herrn ergetzte. »Hast du meine Frau nicht gesehen?« fragte Eduard, indem er sich weiterzugehen anschickte. Goethe – Die Wahlverwandtschaften Erweiterte Definition von Named Entity • Tatsächliche Namen • weitere Figurenreferenzen: Appellativa • • • • Berufsbezeichnungen (Adels‐)Titel Verwandtschaftsbezeichnungen Äußerlichkeiten: „der Schwarzhaarige“ • StanfordNER: F1‐Score von nur 31% Named Entities vs. Figurenreferenzen Named Entities • Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina) Figurenreferenzen • Entities in der Textwelt (Figuren, Orte, Firmen usw.) • Referenzen im Text (Namen, ‚proper nouns‘, Pronomina ) Erstellung eines eigenen Trainingskorpus • • • • Kooperation mit Informatikern Je 130 zusammenhängende Sätze aus 85 Romanen Manuelle Annotation Unterstützung durch Annotationstool • • • • Graphische Benutzeroberfläche Regelbasierte Vorschläge Beschleunigung des Annotationsvorgangs Gleichzeitige Annotation von Entitäten und Koreferenzen möglich Annotationstool Resultate Verfahren Precision in % Recall in % F1‐Score in % Unterschied zur Baseline (F1‐Score) in % Baseline (Features 1‐ 6) 95.12 79.60 86.66 +0 Baseline + (7) 95.73 79.28 86.70 +0.04 Baseline +(8) 94.53 81.74 87.65 +0.99 Baseline + (9) 94.96 79.74 86.67 +0.01 Baseline + (10) 95.07 81.00 87.45 +0.79 Baseline + (11) 95.03 79.63 86.63 ‐0.03 Baseline + (12) 96.47 77.83 86.13 ‐0.53 Baseline + (13) 94.97 85.28 89.84 +3.18 Baseline + (7),(8),(10),(13) 94.86 85.60 89.98 +3.32 Ergebnisse mit neuem NER‐Werkzeug NER im Romankorpus 120 110 100 94,86 89,98 90 85,6 80 70 60 50 40 30 20 10 0 Precision Recall F1‐Score Koreferenzresolution Klassifiziere alle Referenzen, die auf die gleiche Figur verweisen • "Effi1 trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie1 tat, paarte sich Übermut und Grazie, während ihre1 lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie1 die »Kleine«, was sie1 sich nur gefallen lassen mußte, weil die schöne, schlanke Mama2 noch um eine Handbreit höher war.„ Testkorpus • 80 zufällig ausgewählte Textausschnitte aus unterschiedlichen Romanen bestehend aus 130 Sätzen • Unser erstes Evaluationskorpus: 48 Romane (143.000 Tokens mit ca. 19.000 Referenzen) • Zweites Evaluationskorpus: 78 Romane (247.000 Tokens mit ca. 30.600 Referenzen) Unterschiede zwischen Roman‐ und Zeitungssprache Romane Zeitungen Satzlänge 24,2 Tokens 16,3 Tokens Nennung einer Figur 10 mal 4 mal Entscheidender Schritt im Preprocessing • Segmentierung der Romantexte in Direkte Rede vs. Nicht‐Direkte Rede • Identifizierung des Sprechers einer Direkten Rede, Verwendung folgender Regeln: • Explizite Sprecherangabe • Sprecherangabe wird in längeren Dialogen impizit weitergegeben • Unterschiedliche Behandlung von Direkter und Nicht‐Direkter Rede. Ergänzende Regeln in Direkter Rede Unterschiede zwischen Roman und Zeitung Resultate Interaktionen Figurenkonstellation Figurenkonstellation: „das soziale, psycholog., mentale, familiäre usw. Beziehungsgeflecht, in dem die Figuren eines ep. oder dramat. Werkes zueinander stehen“ (Wilpert 2001:269) „Figurenkonstellation, das System der Figuren eines Textes und ihrer Beziehungen. Mindestens drei Ebenen sind zu unterscheiden: 1. handlungsfunktionale Verhältnisse der Figuren als Interaktionspartner […], Ähnlichkeiten und Kontraste […]; 3. Positionen innerhalb einer Aufmerksamkeitshierarchie […]“ (Eder: 2007:239) => Soziales Netzwerk, Figuren als Interaktionspartner Modellierung von Interaktion • Kommunikation • Wer ‐> (Wörtliche Rede) ‐> mit Wem (Elson, Dames, McKeown 2010) • Wer ‐> (Alle Formen der Rede) ‐> mit Wem • Interaktion • Wer ‐> (kommuniziert/interagiert) ‐> mit Wem • Sehr einfacher Indikator • Welche Figurenreferenzen kommen im [Textfenster, z.B. Absatz] vor • Ungerichtet Von Named Entities zum Figurennetzwerk • Interaktion als gemeinsames Vorkommen in einem Absatz + Zählen der Häufigkeit als Gewicht der Interaktion Eduard, Ottilien Charlotte, Eduard Charlotte, Eduard Ottilie, Eduard Eduard, Charlotte Ottilie, Charlotte ... Charlotte, Ottilie, 102 Eduard, Ottilie, 96 Charlotte, Eduard, 77 Charlotte, Hauptmann, 50 ... Figurenkonstellation für ‚Effi Briest‘ (aufgrund von zwei schlichten Lösungen) Figurennetzwerke Goethe: Wahlverwandtschaften Figurennetzwerke Figurenkonstellation und Zentralitätsmaße • Knoten repräsentieren Figuren, Kanten repräsentieren (schlicht!) Interaktion/ Kommunikation • Degree centrality: Welche Figur interagiert am meisten mit den anderen • Closeness centrality: Nähe einer Figur zu den anderen Figuren (und deren Interaktionen) • Betweenness centrality: Welche Figur verbindet die meisten Interaktionsbereiche Romangattungen und Figurenkonstellationen (Zentralitäts‐Maße) Automatische Identifikation der Hauptfiguren 1. 2. 3. 4. Häufigste Figuren Häufigste Figuren (nur Sprecher gezählt) Soziale Netzwerkanalyse: Erwähnung im gleichen Absatz Soziale Netzwerkanalyse: Wer spricht (direkte Rede) mit wem? Hauptfigur: Höchste Degree Centrality Haupt‐ und Nebenfiguren in den Wahlverwandtschaften Centrality Absatz Centrality Dialog Evaluation Goldstandard: Kindler Zusammenfassungen DSN = Direct Speech Network. PN=Paragraph Network. DSC= Direct Speech Count. Count = Simple Frequency Figurenattribute Figureneigenschaften temporär implizit explizit konstant Attributanalysen • Manuelle Vorstudien: • Alle Attribute zu zahlreich, da praktisch alle Sätze dann irgendeiner Figur zugeordnet werden • Implizite Charakterisierung basiert auf komplexen Inferenzen • (Vermutlich) keine hohe Interannotatoren‐Übereinstimmung Figureneigenschaften temporär implizit explizit konstant Attribute: Verwandtschaftsbeziehungen Annotationstool Weitere soziale Attribute • Rangunterschiede (Soziale Beziehungen, Militär) • Liebes‐ und Freundschaftsbeziehungen Visualisierung: Verwandtschaft und soziale Beziehungen Keller: Romeo und Julia auf dem Dorfe Literatur • Agarwal, A. et.al.: Social Network Analysis of Alice in Wonderland. In: Workshop on Computational Linguistics for Literature 8. Juni 2012, p.88‐96. • Elson, D., Dames, N., McKeown, K.: Extracting Social Networks from Literary Fiction. In: • Fludernik, M.: Roman. In: D. Lamping: Handbuch der literarischen Gattungen. Stuttgart 2009, 627‐645. • Hagberg, A., Schult, D. and Swart, P.: Exploring network structure, dynamics, and function using NetworkX. In: Gäel Varoquaux, Travis Vaught, and Jarrod Millman (eds): Proceedings of the 7th Python in Science Conference (SciPy2008). Pasadena 2008, 11–15. • Jockers, M.: Macroanalysis. Urbana, Chicago and Springfield: 2013 • Moretti, F.: Network theory, Plot Analysis. Literary Lab Pamphlet 2, 1.5.2011 (online). • Newman, M.: Networks. Oxford 2010. • Trilcke, Peer: Ideen zu einer literaturwissenschaftlichen Netzwerkanalyse. Workshop: philtag n=“11“, Würzburg, 26.‐27. September 2013 (online). • Krug, M., Puppe, F., Jannidis, F., Reger, I., Weimer, L. ,Macharowsky, L. 2015. Rule‐based Coreference Resolution in German Historic Novels In Fourth Workshop on Computational Linguistics for Literature (CLfL15), Denver, USA, 2015. • Jannidis, F., Krug, M., Reger, I. Toepfer, M. Weimer, L, Puppe, F. 2015. Automatische Erkennung von Figuren in deutschsprachigen Romanen. Digital Humanities im deutschsprachigen Raum (Dhd 2015), Graz, Austria, Besten Dank Das Korpus • 451 Romane (Textgridrep.de) • Metadaten: Autor, Titel, Erstdruck, teilweise Gattung • Digitalisierungsqualität: gut bis sehr gut • Vorlagen: Studienausgaben, oft modernisiert • 37 Romane (DTA) • Metadaten: Autor, Titel, Erstdruck • Digitalisierungsqualität: sehr gut • Vorlagen: Erstdruck • 1200 Romane (Gutenberg) • Autor, Titel • Digitalisierungsqualität: mittel bis gut • Vorlagen: divers Word2Vec • Ein Algorithmus für Maschinelles Lernen auf der Grundlage von Neuronalen Netzwerken • Eingabe: ein sehr großes Textkorpus • Ausgabe: Vektoren für jedes Wort • Verfahren: • Erstellt Wortliste für das Trainingskorpus • Lernt dann eine Vektorrepräsentation für jedes Wort vector(”King”) ‐ vector(”Man”) + vector(”Woman”) results in a vector that is closest to the vector representation of the word Queen Nearest words to "France" Word Cosine distance ------------------------------------------spain 0.678515 belgium 0.665923 netherlands 0.652428 italy 0.633130 switzerland 0.622323 luxembourg 0.610033 Verwendetes Feature: Word2Vec Cluster • Ermittlung der Vektoren für jedes Wort aufgrund von Word2Vec • Clustering der Wort‐Vektoren mittels k‐means Clusteranzahl ab 250 (relativ konstant bis 1000) Zweites Experiment: Größe des Trainingskorpus • Domain ‐ Anpassung als Hauptproblem der textwissenschaftlichen Verwendung von NLP‐Werkzeugen • Optimierung der Domain‐Anpassung zwischen F1‐Maximierung und pragmatischen Einschränkungen Ø Satzlänge Romane: 24,2 Ø Satzlänge Zeitung: 16,3 Zusammenfassung • Domain Adaption • Figurenreferenzen ‐> Named Entities + Appelativa • Erstellung eines eigenen Korpus ‐ Kann deutlich kleiner sein • Algorithmus‐Verbesserung • Verwendung von Word2Vec + Features des Stanford‐Parsers 1) Identifikation aller Referenzen auf Figuren "Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war." (Fontane: Effi Briest) Named Entity Recognition (Standardwerkzeug) • "Effi trug ein blau und weiß gestreiftes, halb kittelartiges Leinwandkleid, dem erst ein fest zusammengezogener, bronzefarbener Ledergürtel die Taille gab; der Hals war frei, und über Schulter und Nacken fiel ein breiter Matrosenkragen. In allem, was sie tat, paarte sich Übermut und Grazie, während ihre lachenden braunen Augen eine große, natürliche Klugheit und viel Lebenslust und Herzensgüte verrieten. Man nannte sie die »Kleine«, was sie sich nur gefallen lassen mußte, weil die schöne, schlanke Mama noch um eine Handbreit höher war." Gefunden ‐ Nicht gefunden Kallimachos 2014ff.: Jannidis, Krug, Puppe, Reger, Weimer Standard‐NER u. Romankorpus NER‐Romankorpus / NER‐Tool • je 130 zusammenhängende Sätze • aus 48 Romanen • insgesamt ca. 140 000 Tokens • Eigenes NER‐Werkzeug. Gleicher Algorithmus wie Stanford‐Parser (Conditional Random Fields), aber ergänzte Features (Word2Vec‐Cluster)
© Copyright 2025 ExpyDoc