und Webkorpora: DeReKo und DECOW

Mittwoch, 9. März 2016, 14.00 Uhr (Methodenmesse)
Induktive Topikmodellierung und
Webkorpora: DeReKo und DECOW
extrinsische
Topikdomänen
in
Referenz-
und
Felix Bildhauer (IDS) / Roland Schäfer (Berlin)
Es ist weitgehend unstrittig, dass die Klassenzugehörigkeit eines Texts ein wichtiger Faktor bei
der Untersuchung sprachlicher Variation ist. Neben z. B. medial, funktional und interaktional
definierten Klassen (sowie dem Catch-all-Terminus Genre) bietet die inhaltsbezogene, thematische
Klassifikation einen weiteren wichtigen Zugang zu Texten. Eine konsistente thematische
Auszeichnung ist deshalb ein Desideratum für die korpusbasierte, variationslinguistische
Forschung. Innerhalb der letzten 15 Jahre haben sich im Information Retrieval und in den
Digitalen Geisteswissenschaften verstärkt datengetriebene induktive Verfahren zur Modellierung
inhaltlicher Domänen durchgesetzt. Der prominenteste Vertreter solcher Verfahren ist Latent
Dirichlet Allocation (LDA; Blei et al. 2003, Blei 2012). Dabei wird anhand von Inhaltswörtern eine
festgelegte Anzahl von Themen (Topiks) innerhalb einer Textsammlung induziert, und einzelne
Dokumente werden einem oder mehreren dieser Topiks zugeordnet.
In unserem Beitrag untersuchen wir, inwieweit sich das Verfahren für eine automatische
inhaltliche Auszeichnung von Korpora unterschiedlicher Art eignet. Auf der einen Seite stehen
Texte aus dem Deutschen Referenzkorpus (DeReKo, Institut für Deutsche Sprache, 2015), auf der
anderen Seite Texte aus einem großen Webkorpus (DECOW14A; Schäfer 2015, Schäfer und
Bildhauer in Vorb.). Im Vordergrund steht dabei die Abbildbarkeit der induzierten Topiks auf eine
relativ kleine Zahl vorgegebener Inhaltsdomänen, die für linguistische Fragestellungen
zielführend ist. Zu diesem Zweck wird zunächst jeweils eine mehrere hundert Dokumente
umfassende Stichprobe aus jedem der beiden Korpora manuell ausgezeichnet (Goldstandard). Die
automatisch ermittelten Topiks werden anschließend den vorgegebenen Inhaltsdomänen
zugeordnet, und im letzten Schritt werden die daraus hervorgehenden Klassenzugehörigkeiten der
einzelnen Dokumente mit dem Goldstandard abgeglichen.
Das Ergebnis gibt Aufschluss darüber, ob ein gemeinsames LDA-Topikmodell für beide Arten von
Korpora ohne Verluste an Genauigkeit verwendet werden kann. Im nächsten Schritt wird
untersucht, ob auf der Grundlage so induzierter Topiks akkurate Klassifizierer für ungesehene,
aber ähnliche Texte trainiert werden können, auch um die Effizienz auf sehr großen Datensätzen
(bis 100 Mrd. Textwörter) gegenüber LDA zu steigern.
Literatur
Blei, David M. (2012): Probabilistic Topic Models. Communications of the ACM 55(4), S. 77–84.
Blei, David M./Ng, Andrew Y./Jordan, Michael I. (2003): Latent Dirichlet Allocation. Journal of
Machine Learning Research 3, S. 993–1022.
Institut für Deutsche Sprache (2015): Korpora geschriebener Gegenwartssprache 2015-II
(Release vom 28.09.2015). Mannheim: Institut für Deutsche Sprache.
Schäfer, Roland (2015): Processing and querying large web corpora with the COW14 architecture.
Proceedings of Challenges in the Management of Large Corpora (CMLC-3), S. 28–34.
http://rolandschaefer.net/?p=749
Schäfer, Roland/Bildhauer, Felix (in Vorb.): COW14 and COCO15: A family of latest generation,
giga-token web corpora.