Tools für die quantitative Dramenanalyse

INTERAKTIVE ANALYSE UND
VISUALISIERUNG VON DRAMEN
Manuel Burghardt & Thomas Wilhelm
Lehrstuhl für Medieninformatik
Institut für Information und Medien, Sprache und Kultur
Universität Regensburg
VORTRAGSGLIEDERUNG
①  EINFÜHRUNG: Quantitative Dramenanalyse und
bestehende Tools / Ansätze
②  EIGENE ARBEITEN: Web-Tool zur interaktiven Analyse
und Visualisierung von Shakespeare-Dramen
(Datengrundlage: Folger Digital Texts)
③  WORK IN PROGRESS: Dynamisches Tool zur
quantitativen Analyse von beliebigen Dramentexten
(Datengrundlage: TextGrid Repository)
TEIL 1: EINFÜHRUNG
Quantitative Dramenanalyse und
bestehende Tools / Ansätze
QUANTITATIVE DRAMENANALYSE
MACROANALYSIS: Though not „everything“ has
been digitized, we have reached a tipping point ...
where enough text and literature have been coded
to both allow and, indeed, force us to ask an
entirely new set of questions about literature
(Jockers, 2013, S. 4)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
D
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
H
0
1
0
1
1
0
1
1
1
1
0
1
1
1
1
0
O
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
M
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
S
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
Y
0
0
0
0
0
0
0
0
0
1
1
1
0
1
0
0
L
0
0
0
0
0
0
1
0
0
0
0
0
0
0
1
0
„Man of the Mode“, George Etherege KONFIGURATIONSSTRUKTUR
•  ALTERNATIVE Figuren (Figuren haben in keiner Spalte eine gemeinsame 1)
•  DOMINANTE Figuren (Figur hat in vielen Spalten eine 1)
•  KONKOMITANTE Figuren (z.B. Rosencrantz + Guildenstern)
Pfister, M. (2001). Das
Drama. München: Fink
Verlag. („Konfiguration“
ab S. 235ff)
KONFIGURATIONSSTRUKTUR
KONFIGURATIONSDICHTE =
Verhältnis der mit „1“ besetzten
Matrixzellen zur Gesamtzahl aller
Zellen à Es ergibt sich ein Wert
zwischen 0-1
Pfister, M. (2001). Das Drama. München:
Fink Verlag. („Konfiguration“ ab S. 235ff)
1
2
3
4
5
6
7
8
9
10
DIRNE
1
0
0
0
0
0
0
0
0
1
SOLDAT
1
1
0
0
0
0
0
0
0
0
STUBENMÄDCHEN
0
1
1
0
0
0
0
0
0
0
JUNGER HERR
0
0
1
1
0
0
0
0
0
0
JUNGE FRAU
0
0
0
1
1
0
0
0
0
0
EHEMANN
0
0
0
0
1
1
0
0
0
0
SÜSSES MÄDEL
0
0
0
0
0
1
1
0
0
0
I
II
DICHTER
0
0
0
0
0
0
1
1
0
0
WINNI
1
1
SCHAUSPIELER
0
0
0
0
0
0
0
1
1
0
WILLIE
1
1
GRAF
0
0
0
0
0
0
0
0
1
1
„Happy Days“, Samuel Beckett
4/4=1
„Der Reigen“, Arthur Schnitzler
20 / 100 = 0.2
http://dramenanalyse.de/da/jsp/compare.jsp
IDAP-Shakespeare-Analyse
RELATED WORK, DHD 2015
Börner & Hechtl (2015)
Trilcke et al. (2015)
TEIL 2: EIGENE VORARBEITEN
Web-Tool zur interaktiven Analyse und
Visualisierung von Shakespeare-Dramen
FOLGER DIGITAL TEXTS
Im Dezember 2012 veröffentlichte das Folger Digital Texts-Archiv
12 (jetzt 14) Shakespeare Dramen mit umfangreichem TEI-Markup
•  Strukturinformation: Wörter, Zeilen, Repliken, Szenen, Akte
•  Figureninformation: Name, Rolle, Geschlecht, Tod einer Figur
•  Bühnenanweisungen
Comedy of Errors*
Hamlet
Julius Caesar
King Lear
Macbeth
Merchant of Venice
Midsummernight's Dream
Much Ado about Nothing
Othello
Romeo and Juliet
Taming of the Shrew
The Tempest
Twelfth Night
A Winter's Tale*
www.folgerdigitaltexts.org/
WORKFLOW
JavaScript (interac<on) Primary data (TEI/XML) E.g. hamlet.xml Transforma/on (Saxon/XSLT) One set of transforma<on rules is used for each play Output (sta<c HTML) CSS (posi<oning, styling) Interac<ve visualiza<on XML BY FOLGER
XML BY FOLGER
OUR XSLT
STYLESHEET
XML
XML BY
by FOLGER
Folger OUR XSLT
STYLESHEET
THE RAW HTML FILE
An XSLT engine transforms the XML file using the XSLT
stylesheet into a HTML document
XML
XML BY
by FOLGER
Folger OUR XSLT
STYLESHEET
THE RAW HTML FILE
THE INTERACTIVE TOOL WITH
JAVASCRIPT AND CSS
An XSLT engine transforms the XML file using the XSLT
stylesheet into a HTML document
Add specific JavaScript and CSS to make it
interactive and usable
SHAKESPEARE-TOOL
Shakespeare-Tool online verfügbar unter:
http://www.thomaswilhelm.eu/shakespeare/
Mehr Informationen zum Projekt:
Wilhelm, T., Burghardt, M. & Wolff, C. (2013). "To See or Not to See" - An Interactive
Tool for the Visualization and Analysis of Shakespeare Plays. In Franken-Wendelstorf,
R., Lindinger, E. & Sieck J. (eds): Kultur und Informatik - Visual Worlds & Interactive
Spaces, Berlin (pp. 175-185). Glückstadt: Verlag Werner Hülsbusch.
KONFIGURATIONSSTRUKTUR
KONFIGURATIONSSTRUKTUR
KONFIGURATIONSSTRUKTUR
KONFIGURATIONSSTRUKTUR
TEIL 3: WORK IN PROGRESS
Dynamisches Tool zur quantitativen
Analyse von beliebigen Dramentexten
TEXTGRID-DRAMEN
• 
• 
• 
Das TextGrid-Korpus enthält fast 700, meist
deutschsprachige Dramentexte (inklusive
Opern)
Texte auf der Basis von Studienausgaben
Konzentration auf 190 Dramen von
1650-1815,
für diesen Zeitraum entspricht die Auswahl
dem Kanon sehr gut
FRAGESTELLUNGEN ZUR
KONFIGURATIONSDICHTE
Zusammenhänge von Konfigurationsdichte
•  und Gattung (Trauerspiel/Komödie, aber auch Subgattungen
wie sächsische Typenkomödie oder bürgerliches Trauerspiel)
•  und Epoche (höhere Konfigurationsdichte in der
aufklärerischen Dramatik, als in der des Sturm und Drang)
FRAGESTELLUNGEN ZUR
REPLIKENLÄNGE
Zusammenhänge von Replikenlänge
•  und Gattung
•  und Epoche
•  und medialen Bedingungen (ausschließliche,
vorbereitende, begleitende Lektüre)
FRAGESTELLUNGEN ZUR
REPLIKENANZAHL
Zusammenhänge von Replikenanzahl
•  und einzelnen Figuren in Dramen (z.B. Zähmug Katharinas
als Verstummen in „The Taming of the Shrew“)
•  und Figurengruppen (kontinuierliche Erhöhung der
Replikenanzahl und Replikenlänge von bestimmten
komischen Figuren wie z.B. Dienern?)
VORGEHEN
SCHRITT 1 | PARSING: Erstellen eines Parsers, der anhand der
vorhandener Struktur- und Figureninformationen quantitative Daten
extrahiert (Testkorpus ca. 100 Dramen) und in einer Datenbank
speichert
SCHRITT 2 | VISUALISIERUNG: Erstellung eines Web-Tools zur
interaktiven Visualisierung der quantitativen Daten (analog zum
Shakespeare-Tool) und zur Suche nach Dramen anhand bestimmter
Parameter
PARSING
DATENGRUNDLAGE: TEXTGRID
Kennzeichnung „Akt“
Kennzeichnung „Szene“
Kennzeichnung „Figur“
PARSING-ERGEBNISSE
Metadaten
Dramatis
personae
Aktuell werden die Ergebnisse des
Parsers als JSON zwischengespeichert
Quantitative
Auswertungen für
ganzes Drama
Quantitative
Auswertungen für
einzelne Figuren
Figurenrelationen
PARSING-ERGEBNISSE
Aktuell werden die Konfigurationsmatrizen als CSV gespeichert
HERAUSFORDERUNGEN
•  Allgemein: Annotationsfehler bzw. -ungenauigkeiten
•  Struktur: „Akte und Szenen“ nicht immer ausreichend,
um alle auftretenden Dramenformen abzubilden
–  Sonderfälle: Repliken außerhalb der ansonsten konsistenten
Struktur (Bsp. „Vorspiel“, „An statt des Vorredners“, ...)
•  Figuren: Teilweise mehrere Schreibvarianten, teilweise
leere <speaker>-Tags
VISUALISIERUNG
SUCHMASKE
AUTHOR
Lessing
TYPE
Comedy
TIME FRAME
No specific time
CONFIGURATION DENSITY
No specific density
SPEECH LENGTH
No specific length
Not before 1720
Min. density 0.4
Min. length
Not after 1790
Max. density 0.7
Max. length
SEARCH
ERGEBNISLISTE
There are 4 results for your search.
TITLE
AUTHOR
TYPE
TIME
CONFIG.
DENSITY
NUM. OF
SPEECHES
MIN. LENGTH
SPEECH
MAX. LENGTH
SPEECH
AVG. LENGTH
SPEECH
Die alte Jungfer
Lessing
Comedy
1748
0.4
470
1
117
19.3
MORE ... Der Misogyn
Lessing
Comedy
1748
0.55
477
1
241
15
MORE ... ...
MORE ... DETAILANSICHT: KONFIGURATIONEN
ACT 1
1
2
3
4
ACT2
5
6
7
1
2
3
4
ACT 3
5
6
7
1
2
3
4
5
6
WUMSHÄTER
LISETTE
VALER
LELIO
LAURA
SOLBIST
LEANDER
Configuration matrix: Der Misogyn (Lessing, 1748)
7
8
9
BASIC STATS
Conf. density: 0.4
Total characters: 7
Total speeches: 470
Min. speech: 1
Max. speech: 117
Avg. Speech: 19.3
ERSTER PROTOTYP
... Herausforderung:
Passende Darstellung
der Figurenbeziehungen
FIGUREN-BEZIEHUNGEN ...
Alternative Figuren, d.h. diese Figuren sind nie gemeinsam auf der Bühne (Pfister, 1988, S. 237).
FIGUREN-BEZIEHUNGEN ...
Dominante Figuren, d.h. diese Figur tritt immer dann auf wenn auch eine zweite
auftritt, aber tritt darüber hinaus auch alleine auf (Pfister, 1988, S. 237)
FIGUREN-BEZIEHUNGEN ...
DER PRINZ
CONCOMITANT: –
ALTERNATIVE: Claudia, Pirro, Angelo, Appiani
DOMINANT: Der Kammerdiener, Conti, Camillo Rota
DOMINATED BY: –
INDEPENDENT: Marinelli, Odoaro, Emilia, Battista, Orsina
FIGUREN-BEZIEHUNGEN ...
ALTERNATIVE
DOMINANT
INDEOENDENT
CLAUDIA
EMILIA
DER PRINZ
ODOARO
PIRRO
ANGELO
ORSINA
MARINELLI
APPIANI
CONTI
DER
KAMMERDIENER
CAMILLLO
ROTA
RELATED WORK
•  Ilsemann, H. (1995). Computerized Drama Analysis. Literary and Linguistic Computing,
10(1), 11-21.
•  Ilsemann, H. (2005). Some statistical observations on speech lengths in Shakespeare’s
plays. Shakespeare Jahrbuch, 141, 158-168.
•  Ilsemann, H. (2006). Internet Drama Analysis Programm: Handbuch. Retrieved from
http://www.shak-stat.engsem.uni-hannover.de/p.pdf
•  Ilsemann, H. (2008). More statistical observations on speech lengths in Shakespeare’s
plays. Literary and Linguistic Computing, 23(4), 397-407.
•  Jockers, M. (2013). Macroanalysis: Digital Methods and Literary History. University of Illinois
Press.
•  Marcus, S. (1971). Ein mathematisch-linguistisches Dramenmodell. Zeitschrift für
Literaturwissenschaft und Linguistik, 1(1), 139-152.
•  Marcus, S. (1973). Mathematische Poetik. Frankfurt: Athenäum.