Plenardeba en als öffentliche Sprachressource der

 Das Kura.onsprojekt in Kürze P r o f . D r . A n d r e a s B l ä U e ( U n i v e r s i t ä t D u i s b u r g -­‐ E s s e n ) | P r o f . D r . G a r y S c h a a l ( H e l m u t -­‐ S c h m i d t -­‐ U n i v e r s i t ä t ) PlenardebaCen als öffentliche Sprachressource der Demokra.e Kura4onsprojekt F-­‐AG 8 (Inhaltsanaly4sche Methoden in den Sozialwissenscha`en)
Warum ein Plenarprotokollkorpus? Ressource
•  Plenarprotokolle repräsen4eren die volle Bandbreite des poli4schen Geschehens •  Sie werden von Parlamenten kon4nuierlich produziert -­‐ über die Parlamentsarchive sind sie für größere Zeitspannen verfügbar •  Lizenzrechtlich sind Plenarprotokolle gemeinfrei, der Nachnutzung eines Plenarprotokollkorpus stehen keine rechtlichen Hürden entgegen Bereitstellung
Klassifikation
Kura.onsprojekt: Arbeitspakete •  Annota4on von Tagesordnungspunkten in XML-­‐Plenarprotokollen •  Bes4mmung eines Klassifika4onsschemas •  Defini4on von Codierregeln und Coder-­‐
Schulung •  Erstellung von Trainingsdaten (manuelle Codierung von PlenardebaUen) •  Klassifika4on des vollständigen Datensatzes auf Basis der Trainingsdaten •  Bereitstellung der aufgewerteten Ressource (s.u.) Nutzungsmöglichkeiten •  Bereitstellung der Ressource über Server des IMS (Universität StuUgart) •  Möglichkeit des Datenzugriffs über CQPweb •  Nutzung des PolMine-­‐Toolkit (über Installa4on RStudio Server) •  Einbindung von Nutzern in Qualitätssicherung der Ressource •  Ziel: Kon4nuierliche Verbesserung der Datenqualität Stand der Ressource: Annota.on Datenbestand: Überblick Die Plenarprotokolle des Bundestags wurden im PolMine-­‐Projekt in einem automa4sierten Verfahren „XMLifiziert“. Das Plenarprotokollkorpus-­‐XML enthält als Metainforma4onen bzw. Annota4onen: •  Zeitstempel / Datum einer DebaUe •  Annota4on von Rednern •  Partei-­‐ bzw. Frak4onszugehörigkeit von Rednern •  Annota4on von Zwischenrufen Das Korpus ermöglicht so die Bildung von Teilkorpora nach variablen Kriterien. Annota.on von Tagesordnungspunkten Im PolMine-­‐Plenarprotokollkorpus sind Tagesordnungspunkte bislang nicht anno4ert. Die Annota4on erfolgt im ersten Arbeitspaket. WP Bestand Zeitraum #Protokolle #Token 13 ab 86. Sitzung 08.02.1996-­‐16.10.1998 163 11.484.628 14 vollständig 26.10.1998-­‐13.09.2002 253 18.955.237 15 vollständig 17.20.2002-­‐28.09.2005 187 12.797.634 16 vollständig 18.10.2005-­‐08.09.2009 233 17.623.703 17 vollständig 27.10.2009-­‐03.09.2013 251 22.544.458 08.02.1996-­‐03.09.2013 1087 83.405.660 Um die Möglichkeiten der Annota4onsstruktur des Plenarprotokollkorpus voll nutzen zu können, wurde mit dem PolMine-­‐Toolkit eine spezielle Verbindung von Corpus Workbench (CWB) und R geschaffen. Das polmineR-­‐Paket ist das Kernstück der entsprechenden Schichtenarchitektur. Datenbestand (nach Parteien) Klassifika.onsschema Ausgangspunkt für das Projekt ist das Schema des Compara4ve Agendas Project (CAP) als gut etablierte poli4kwissenscha`liche Differenzierung von Poli4kbereichen. #no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 PolMine-­‐Toolkit •  Bestehende Ressoure: PolMine-­‐Plenarprotokollkorpus (1996 – 2013, vgl. www.polmine.de) •  Im Kura4onsprojekt: Annota4on und Klassifika4on von PlenardebaUen •  Durch Möglichkeit der Bildung themenspezifischer Subkorpora Erweiterung der Einsatzmöglichkeiten des Korpus •  Gewährleistung des Datenzugangs durch entsprechende Infrastruktur / Hos4ng-­‐Lösung Beschreibung (englisch) Domes4c Macroeconomic Issues Civil Rights, Minority Issues, and Civil Liber4es Health Agriculture Labor and Employment Educa4on Environment Energy Immigra4on and Refugee Issues Transporta4on Law, Crime, and Family Issues Social Welfare Community Development and Housing Issues Banking, Finance, and Domes4c Commerce Defense Space, Science, Technology, and Communica4ons Foreign Trade Interna4onal Affairs and Foreign Aid Government Opera4ons Public Lands, Water Management, and Territorial Issues Cultural Policy Issues CWB und R Die CWB gewährleistet Performanz und bietet mit der CQP-­‐Syntax flexible Recherchemöglichkeiten. Das R-­‐Paket polmineR ermöglicht die flexible Defini4on von Subkorpora und dient als SchniUstelle zu sta4s4schen Auswertungsmöglichkeiten. Funk4onalität von polmineR (Auswahl): -  KWIC / Konkordanz-­‐Analyse -  Kolloka4onsanalysen -  Termextrak4on / Schlagwortberechnung -  ExporZunk4onen (html / xlsx / Email) siehe: www.github.com/PolMine/polmineR Erweiterte Auswertungsmöglichkeiten Das um die Klassifika4on erweiterte Korpus ermöglicht eine Reihe themenspezifischer Auswertungsmöglichkeiten zu den klassifizierten Poli4kbereichen, etwa zu: -  Wandel poli4scher Sprache -  Themenkonjunkturen -  poli4scher WeUbewerb um Schlüsselbegriffe Das Korpus ist über die Poli4kwissenscha` hinaus relevant für jede Beschä`igung mit parlamentarischen Diskursen. Weitere Informa.onen Website des PolMine-­‐Projekts www.polmine.de PolMine auf GitHub www.github.com/PolMine Internetprojekt Parl-­‐O-­‐Mat www.parlomat.de Kontakt Prof. Dr. Andreas BläUe Professur für Public Policy und Landespoli4k www.andreas-­‐blaeUe.de andreas.blaeUe@uni-­‐due.de