Mittwoch, 9. März 2016, 14.00 Uhr (Methodenmesse) Induktive Topikmodellierung und Webkorpora: DeReKo und DECOW extrinsische Topikdomänen in Referenz- und Felix Bildhauer (IDS) / Roland Schäfer (Berlin) Es ist weitgehend unstrittig, dass die Klassenzugehörigkeit eines Texts ein wichtiger Faktor bei der Untersuchung sprachlicher Variation ist. Neben z. B. medial, funktional und interaktional definierten Klassen (sowie dem Catch-all-Terminus Genre) bietet die inhaltsbezogene, thematische Klassifikation einen weiteren wichtigen Zugang zu Texten. Eine konsistente thematische Auszeichnung ist deshalb ein Desideratum für die korpusbasierte, variationslinguistische Forschung. Innerhalb der letzten 15 Jahre haben sich im Information Retrieval und in den Digitalen Geisteswissenschaften verstärkt datengetriebene induktive Verfahren zur Modellierung inhaltlicher Domänen durchgesetzt. Der prominenteste Vertreter solcher Verfahren ist Latent Dirichlet Allocation (LDA; Blei et al. 2003, Blei 2012). Dabei wird anhand von Inhaltswörtern eine festgelegte Anzahl von Themen (Topiks) innerhalb einer Textsammlung induziert, und einzelne Dokumente werden einem oder mehreren dieser Topiks zugeordnet. In unserem Beitrag untersuchen wir, inwieweit sich das Verfahren für eine automatische inhaltliche Auszeichnung von Korpora unterschiedlicher Art eignet. Auf der einen Seite stehen Texte aus dem Deutschen Referenzkorpus (DeReKo, Institut für Deutsche Sprache, 2015), auf der anderen Seite Texte aus einem großen Webkorpus (DECOW14A; Schäfer 2015, Schäfer und Bildhauer in Vorb.). Im Vordergrund steht dabei die Abbildbarkeit der induzierten Topiks auf eine relativ kleine Zahl vorgegebener Inhaltsdomänen, die für linguistische Fragestellungen zielführend ist. Zu diesem Zweck wird zunächst jeweils eine mehrere hundert Dokumente umfassende Stichprobe aus jedem der beiden Korpora manuell ausgezeichnet (Goldstandard). Die automatisch ermittelten Topiks werden anschließend den vorgegebenen Inhaltsdomänen zugeordnet, und im letzten Schritt werden die daraus hervorgehenden Klassenzugehörigkeiten der einzelnen Dokumente mit dem Goldstandard abgeglichen. Das Ergebnis gibt Aufschluss darüber, ob ein gemeinsames LDA-Topikmodell für beide Arten von Korpora ohne Verluste an Genauigkeit verwendet werden kann. Im nächsten Schritt wird untersucht, ob auf der Grundlage so induzierter Topiks akkurate Klassifizierer für ungesehene, aber ähnliche Texte trainiert werden können, auch um die Effizienz auf sehr großen Datensätzen (bis 100 Mrd. Textwörter) gegenüber LDA zu steigern. Literatur Blei, David M. (2012): Probabilistic Topic Models. Communications of the ACM 55(4), S. 77–84. Blei, David M./Ng, Andrew Y./Jordan, Michael I. (2003): Latent Dirichlet Allocation. Journal of Machine Learning Research 3, S. 993–1022. Institut für Deutsche Sprache (2015): Korpora geschriebener Gegenwartssprache 2015-II (Release vom 28.09.2015). Mannheim: Institut für Deutsche Sprache. Schäfer, Roland (2015): Processing and querying large web corpora with the COW14 architecture. Proceedings of Challenges in the Management of Large Corpora (CMLC-3), S. 28–34. http://rolandschaefer.net/?p=749 Schäfer, Roland/Bildhauer, Felix (in Vorb.): COW14 and COCO15: A family of latest generation, giga-token web corpora.
© Copyright 2025 ExpyDoc