Automatisches Textverstehen - Institut für Computerlinguistik

Automatisches Textverstehen
Michael Strube
michael.strube ät
February 1, 2016
Ein Text ist mehr als eine Aneinanderreihung von Sätzen. Möchte man einen Text verstehen, dann muß man erkennen, wie Sätze miteinander verkettet sind und weshalb sie
in einer bestimmten Ordnung vorkommen. In der Computerlinguistik wurden zahlreiche Methoden entwickelt, die den speziellen Charakter von Texten erfassen: Modelle
der lokalen und globalen Kohärenz, Anaphernresolutionsalgorithmen, Theorien, die
die rhetorische, temporale, kausale und argumentative Stuktur von Texten erfassen. Im
Seminar werden diese Modelle zunächst anhand von klassischen Arbeiten eingeführt.
Ihr Nutzen kann aber nur sinnvoll bewertet werden, wenn sie in sprachverstehende Systeme eingebunden werden. Deshalb liegt ein zweiter Schwerpunkt des Seminars auf
der Evaluierung von Methoden des Diskursverstehens im Rahmen von Systemen zur
Informationsextraktion und zur Beantwortung von Fragen, im Rahmen von automatischen Zusammenfassungssystemen, Systemen zur Bewertung der Lesefähigkeit, der
Qualität von Texten und anderen.
• Stede, Manfred (2012). Discourse Processing, Morgan & Claypool Publishers.
selected chapters from:
• Jurafsky, Daniel & James H. Martin (2008). Speech and Language Processing,
2nd ed. Upper Saddle River, N.J.: Prentice Hall.
• Bird, Steven, Ewan Klein & Edward Loper (2009). Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit. O’Reilly.
• Webber, Bonnie, Markus Egg & Valia Kordoni (2012). Discourse structure and
language technology. In Natural Language Engineering, 18(4), pp.437-490.
• Kehler, Andrew, Laura Kertz, Hannah Rohde, & Jeffrey Elman (2008). Coherence and coreference revisited. Journal of Semantics, 25:1, pp. 1-44, 2008.
Termine, Themenvorschläge
Einführung, Terminologie, . . .
(Stede, 2012; Webber et al., 2012; Webber & Joshi, 2012)
(Grosz & Sidner, 1986; Morris & Hirst, 1991; Passonneau & Litman, 1997)
zur Vorbereitung: (Webber & Joshi, 2012)
Einführung in die Analyse lokaler Kohärenz: Informationsstatus, Koreferenz
(Hobbs, 1978; Prince, 1981; 1992; Lappin & Leass, 1994; Kennedy & Boguraev, 1996)
Einführung in Centering
(Brennan et al., 1987; Grosz et al., 1995; Poesio et al., 2004)
zur Vorbereitung: (Tetreault, 2001)
Dokumentstruktur in verschiedenen Genres
(Teufel & Moens, 2002; Power et al., 2003; Sporleder & Lapata, 2004; Graham et al.,
2005; Filippova & Strube, 2006; Chung, 2009; Teufel et al., 2009; Liakata et al., 2010;
Dokumentstruktur: Automatische Zusammenfassung
(Liakata et al., 2012; Contractor et al., 2012; Liakata et al., 2013)
zur Vorbereitung: (Teufel & Moens, 2002, pp.409-424) oder (Teufel et al., 2009)
Referat: Sabrina Mänz – Topic-Segmentierung: Lexikalische Ketten – (Morris &
Hirst, 1991; Medelyan, 2007)
optional: (Barzilay & Elhadad, 1997; Hirst & St-Onge, 1998; Barzilay & Elhadad,
1999; Silber & McCoy, 2002; Galley et al., 2003; Stokes et al., 2004; Ye & Chua, 2006;
Ye et al., 2007)
Topic-Segmentierung: Distributionelle Ansätze
(Hearst, 1997; Beeferman et al., 1999; Reynar, 1999; Choi, 2000; Pevzner & Hearst,
Probabilistische Modelle für Topic-Segmentierung
(Utiyama & Isahara, 2001; Eisenstein & Barzilay, 2008; Shafiei & Milios, 2008; Chen
et al., 2009; Purver, 2011; Du et al., 2013; Simon et al., 2013)
zur Vorbereitung: (Galley et al., 2003) oder (Choi, 2000) oder (Utiyama & Isahara,
fällt aus: HITS SAB-Meeting
Referat: Julia Suter – Modellierung lokaler Kohärenz: Entity Grid mit Anwendungen (Informationsordnung, Evaluierung der Qualität von Zusammenfassungen) – (Barzilay & Lapata, 2008)
Michael Strube – Modellierung lokaler Kohärenz: Entity Graph mit Anwendungen (Informationsordnung, Evaluierung der Qualität von Zusammenfassungen)
– (Guinaudeau & Strube, 2013; Petersen et al., 2015)
optional – Modellierung lokaler Kohärenz: Centering, Entity Grid und Entity Graph
mit Anwendungen (Informationsordnung, Evaluierung der Qualität von Zusammenfassungen)
(Karamanis et al., 2004; Barzilay & Lapata, 2005; Karamanis, 2007; Elsner et al., 2007;
Filippova & Strube, 2007; Karamanis et al., 2009; Pitler et al., 2010; Elsner & Charniak, 2011; Lin et al., 2012; Li & Hovy, 2014)
Anwendungen von lokaler Kohärenzmodellierung: Information Retrieval
(Petersen et al., 2015)
zur Vorbereitung: (Petersen et al., 2015)
verschoben auf den 17.12.2015 – Referat: Daniel Pinzon – Anwendungen lokaler
Kohärenzmodellierung: Lesbarkeit – (Higgins et al., 2004)
stattdessen: Michael Strube: Kohärenzmodellierung: Lesbarkeit – (Mesgar & Strube,
Referat: Isabell Wolter – Anwendungen lokaler Kohärenzmodellierung: Essay
Scoring – (Beigman Klebanov & Flor, 2013)
optional: (Miltsakaki & Kukich, 2004; Burstein et al., 2010; Beigman Klebanov et al.,
2014; Somasundaran et al., 2014)
Survey zu Essay Scoring: (Dikli, 2006)
zur Vorbereitung: (Pitler & Nenkova, 2008)
Referat: Daniel Pinzon – Anwendungen lokaler Kohärenzmodellierung: Lesbarkeit – (Higgins et al., 2004)
optional: (Miltsakaki & Kukich, 2000; Miltsakaki & Troutt, 2008; Feng et al., 2009;
Wang et al., 2013; Mesgar & Strube, 2015)
Lesbarkeit ohne Kohärenz als Kontrast: (Schwarm & Ostendorf, 2005; Heilman et al.,
2007; Kate et al., 2010; Tanaka-Ishii et al., 2010; De Clercq et al., 2014)
verschoben auf den 17.12.2015 – Referat: Christina Veltan – Globale Kohärenz:
Rhetorical Structure Theory (RST)
(Marcu & Echihabi, 2002Carlson et al., 2003Soricut & Marcu, 2003)
(Subba & Di Eugenio, 2009Hernault et al., 2012Feng & Hirst, 2012Ji & Eisenstein, 2014)
Globale Kohärenz: Penn Discourse Treebank
(Prasad et al., 2008; Pitler & Nenkova, 2009a; 2009b; Lin et al., 2009; 2010; 2011;
Ghosh et al., 2012; Lin et al., 2014; Prasad et al., 2014; Ji et al., 2015)
Globale Kohärenz: Argumentationsstruktur
(Reed & Long, 1998; Katzav & Reed, 2008; Stab & Gurevych, 2014; Peldszus & Stede,
2015a; 2015b)
Globale Kohärenz: Anwendungen (automatische Zusammenfassung, Sentiment
(Marcu, 1997; Maslennikov & Chua, 2007; Clarke & Lapata, 2010; Zirn et al., 2011;
Bhatia et al., 2015)
zur Vorbereitung: RST-Parsing (duVerle & Prendinger, 2009)
Referat: Christina Veltan Globale Kohärenz: Rhetorical Structure Theory (RST)
(Marcu & Echihabi, 2002; Carlson et al., 2003; Soricut & Marcu, 2003; Subba &
Di Eugenio, 2009; Hernault et al., 2012; Feng & Hirst, 2012; Ji & Eisenstein, 2014)
Lokale Kohärenz: Maschinelles Lernen für Koreferenzresolution
(Soon et al., 2001; Ng & Cardie, 2002; Luo et al., 2004; Nicolae & Nicolae, 2006;
Denis & Baldridge, 2007; Klenner, 2007; Yang et al., 2008a; 2008b; Ng, 2008; Finkel
& Manning, 2008; Poon & Domingos, 2008; Denis & Baldridge, 2009; Ng, 2010)
Lokale Kohärenz: Informationsstatus
(Nissim et al., 2004; Nissim, 2006; Cahill & Riester, 2009; Riester et al., 2010; Riester
& Baumann, 2011; Rahman & Ng, 2011a; Cahill & Riester, 2012; Markert et al., 2012;
Eckart et al., 2012; Baumann & Riester, 2013)
zur Vorbereitung: (Ng, 2010)
Referat: Nafise Moosavi – Lokale Kohärenz: Koreferenzevaluierung
(Vilain et al., 1995; Bagga & Baldwin, 1998; Popescu-Belis, 2003; Luo & Zitouni,
2005; Recasens & Hovy, 2011; Pradhan et al., 2014; Tuggener, 2014)
Referat: Yulia Pilkevich – Lokale Kohärenz: Fehleranalyse für Koreferenzresolution – (Kummerfeld & Klein, 2013)
optional: (Uryupina, 2008; Martschat & Strube, 2014)
zur Vorbereitung: (Vilain et al., 1995) oder (Kummerfeld & Klein, 2013)
Referat: Catarina Cramer – Lokale Kohärenz: Koreferenzresolution in anderen
Sprachen, multilinguale Koreferenzresolution – (Kong & Ng, 2013)
optional: (Luo & Zitouni, 2005; Recasens & Martı́, 2009; Chen & Ng, 2013; Kong &
Ng, 2013; Martins, 2015)
Lokale Kohärenz: Aktuelle Arbeiten im Bereich Koreferenzresolution
(Raghunathan et al., 2010; Sapena et al., 2010; Cai & Strube, 2010; Lee et al., 2011;
Rahman & Ng, 2011b; Fernandes et al., 2012; Lee et al., 2013; Fernandes et al., 2014;
Durrett & Klein, 2013; 2014; Björkelund & Kuhn, 2014; Martschat & Strube, 2015;
Wiseman et al., 2015; Clark & Manning, 2015)
zur Vorbereitung: (Lee et al., 2011) oder (Fernandes et al., 2012)
Referat: Julius Steen – Anwendungen lokaler Kohärenz: Koreferenz und Zusammenfassung, Frage-Antwort-Systeme
(Steinberger et al., 2005)
optional: (Azzam et al., 1999; Boguraev & Kennedy, 1999; Morton, 2000; Stuckhardt,
2003; Watson et al., 2003; Vicedo & Ferrández, 2006; Steinberger et al., 2007)
Referat: Leo Born – Anwendungen lokaler Kohärenz: Koreferenz für automatische Übersetzung
(Hardmeier et al., 2015)
optional: (Hardmeier et al., 2013)
zur Vorbereitung: (Morton, 2000) oder (Hardmeier et al., 2013)
Diskussion, Zusammenfassung
zur Vorbereitung: Fragen allgemein zum Thema Diskurs – bitte überlegen Sie
sich, welche Themen wir noch nicht angesprochen haben, welche Themen Sie über
das bisher Besprochene noch interessieren, über welche Anwendungen wir noch
nicht gesprochen haben, . . .
Hierarchische Topic-Segmentierung
(Grosz & Sidner, 1986; Hsueh et al., 2006; Eisenstein, 2009; Carroll, 2010)
Anwendungen von Topic-Segmentierung: Automatische Zusammenfassung
(Goldstein et al., 2000; Teufel & Moens, 2002; Narayanan & Harabagiu, 2004; Stokes
et al., 2004)
Globale Kohärenz: Temporale Struktur
(Lapata & Lascarides, 2004; 2006; Ng et al., 2013)
Lokale Kohärenz: Bridging
(Clark, 1975; Hahn et al., 1996; Poesio et al., 1997; Vieira & Teufel, 1997; Vieira &
Poesio, 2000; Bunescu, 2003; Fan et al., 2005; Lassalle & Denis, 2011; Hou et al.,
2013b; 2013a; Rösiger & Teufel, 2014; Hou et al., 2014)
Lokale Kohärenz: Event Coreference Resolution
(Bejan & Harabagiu, 2010; Chen & Ji, 2009; Chen et al., 2010b; 2010a; Goyal et al.,
Einführung in die Analyse globaler Kohärenz
(Hobbs, 1979; 1985; Mann & Thompson, 1988; Knott & Dale, 1994; Webber & Joshi,
1998; Kehler et al., 2008; Webber et al., 2012)
Leistungsnachweise: Lektüre und aktive Teilnahme (1/3), Referat (1/3), Hausarbeit
(1/3). Hausarbeit: 8-10 Seiten (Proseminar), 12-15 Seiten (Hauptseminar) inkl. Bibliographie. Die Hausarbeit kann auch per Email an mich geschickt werden, aber nicht
als Word-Datei sondern nur als PDF-Datei. – Ich empfehle, wissenschaftliche Texte
mit Latex und Bibtex zu verfassen.
Regelmäßige Teilnahme (d.i. nicht mehr als einmal unentschuldigtes Fehlen) ist Voraussetzung für den Scheinerwerb. Zu jeder Sitzung müssen jeweils zwei Fragen (!) zu
einem Papier abgegeben werden, das in der aktuellen Sitzung vorgestellt wird. Abgabe
entweder per Email bis spätestens 13 Uhr am Tag der Sitzung oder schriftlich direkt
vor der Sitzung. Dies geht in die Bewertung für aktive Teilnahme am Seminar ein.
Literatur: Viele Papiere können direkt aus der ACL Anthology kopiert werden (http:
//, insbesondere alle Papiere der (E/NA)ACL-, Coling- und
EMNLP-Konferenzen, alle Workshops, die im Rahmen dieser Konferenzen veranstaltet wurden und die Zeitschrift Computational Linguistics. Papiere, die von der AAAI
publiziert wurden (AAAI-Konferenz, AAAI-Workshops, AAAI-Symposia, etc.) sind
in der AAAI Digital Library verfügbar ( –
Die meisten weiteren Zeitschriften sind elektronisch verfügbar über die UB (http:// – oder
stehen dort im Regal.
Sprechstunde: Auf Vereinbarung (Email, Telefon) bei mir im Büro, ggf. auch im
Anschluß an das Seminar.
Maximal 8-10 Seiten (Proseminar), 12-15 Seiten (Hauptseminar) inkl. Abbildungen,
inkl. Literaturverzeichnis.
Inhalt: Fokus auf das vorgestellte Papier; NICHT Related Work-Kapitel referieren,
wenn die entsprechenden Papiere nicht gelesen wurden; Evaluierung berichten; WICHTIG:
mit eigener Meinung oder Bewertung abschließen.
Stil: Wissenschaftlichkeit drückt sich nicht durch lange, komplizierte Sätze und exzessiven Gebrauch von Fremdwörtern aus – deshalb bitte kurze Sätze, einfache Sprache;
Hausarbeiten vor der Abgabe Korrektur lesen oder Korrektur lesen lassen (s. auch Dos
and donts: Hinweise zur Abfassung wissenschaftlicher Arbeiten von Prof. Frank –˜frank/materials/dos_and_donts.
pdf). Ich schätze Wikipedia als Gegenstand meiner Forschung sehr, nicht aber als
Quelle für wissenschaftliche Arbeiten. Hausarbeiten, die Wikipedia (oder auch andere
allgemeine Enzyklopädien) als Beleg zitieren, werde ich zurückweisen. Bitte lesen und
zitieren Sie Fachliteratur!
Seminararbeit (d.i. eine praktische Arbeit) ist auch möglich. Sollte durch 5-6 Seiten
Bericht begleitet werden.
Abgabetermin: bis spätestens 14. März 2016; per Email als PDF-Datei (kein Mircosoft Word!) oder ausgedruckt per Post – Matrikelnummer und Studiengang nicht
