Methodenkurs Text Mining 2: Pre-Processing Eva Enderichs SoSe2015 Eva EnderichsSoSe2015 2: Pre-Processing 1 Warum Pre-processing? Datenhygiene Verarbeitungsfehler verfälschte Resultate (nicht immer offensichtlich!) Zwischenresultate oft vielseitig wiederverwertbar ”Erforschung” des Korpus (know your data!) wirft u.U. neue Forschungsfragen auf bestätigt ggf. Eignung des Korpus für geplante Zwecke Merke: Nicht immer alles auf sinnvolle Weise anwendbar! Eva EnderichsSoSe2015 2: Pre-Processing 2 Normalisieren Wenn in verschiedenen Dateien: Generell: Samplegröße Outlier entfernen in Absätze aufbrechen Format Kodierung / Charset Sprache Eva EnderichsSoSe2015 2: Pre-Processing 3 Säuberung Rechtschreibung z.B. mit Jazzy API Fehler können wertvolle Informationen sein, sollten aber meist trotzdem zur Weiterverarbeitung korrigiert werden Stemming Rückführung von Worten auf ihre Grundform Sinn und Möglichkeit z.T. sprachabhängig Stop-Word Filter entfernt besonders hoch-frequente Worte Artikel, und, dass... Eva EnderichsSoSe2015 2: Pre-Processing 4 Stemming vs. Lemmatisierung Stemming Lemmatisierung entfernt Endungen substituiert die Grundform meist naive Heuristik gut für regelmäßige Verben und Pluralformen deutlich präziser relativ schnell mehr Aufwand Eva EnderichsSoSe2015 erfordert eine große Menge Wissen 2: Pre-Processing 5 Type vs. Token Types = distinktive Lexeme Tokens = alle vorhandenen Worte Types Tokens = lexikalische Diversität ”I won’t tell them how to make movies, if they don’t tell me how to solve the mysteries of the universe.” - Stephen Hawking, about ”The Theory of Everything”, via The Guardian Für einzelne Lexeme: Frequenzvarianz zum Durchschnitt Eva EnderichsSoSe2015 2: Pre-Processing Tokens: 21 Types: 17 6 Meta Part-of-Speech Tagging markiert Wortarten Regelbasiert oder Wissensbasis (z.B. WordNet) Parsen syntaktisch Chomsky-esque Binärbäume TAG (tree adjoining grammar) ... semantisch Frames (z.B. FrameNet Systematik) RRG ... Eva EnderichsSoSe2015 2: Pre-Processing 7 SEMAFOR Demo Eva EnderichsSoSe2015 2: Pre-Processing 8 N-Gramme Meistens: Tri-gramme, Bi-gramme Auf Wort-/Phrasenebene: Vorraussage grammatischer Muster (Labeling) auf annotierten Daten Beobachtung von Mustern Auf Zeichenebene: Spracherkennung Eva EnderichsSoSe2015 2: Pre-Processing 9
© Copyright 2025 ExpyDoc