Methodenkurs Text Mining 2: Pre

Methodenkurs Text Mining
2: Pre-Processing
Eva Enderichs
SoSe2015
Eva EnderichsSoSe2015
2: Pre-Processing
1
Warum Pre-processing?
Datenhygiene
Verarbeitungsfehler
verfälschte Resultate (nicht immer offensichtlich!)
Zwischenresultate oft vielseitig wiederverwertbar
”Erforschung” des Korpus (know your data!)
wirft u.U. neue Forschungsfragen auf
bestätigt ggf. Eignung des Korpus für geplante Zwecke
Merke: Nicht immer alles auf sinnvolle Weise anwendbar!
Eva EnderichsSoSe2015
2: Pre-Processing
2
Normalisieren
Wenn in verschiedenen
Dateien:
Generell:
Samplegröße
Outlier entfernen
in Absätze
aufbrechen
Format
Kodierung / Charset
Sprache
Eva EnderichsSoSe2015
2: Pre-Processing
3
Säuberung
Rechtschreibung
z.B. mit Jazzy API
Fehler können wertvolle Informationen sein, sollten aber meist
trotzdem zur Weiterverarbeitung korrigiert werden
Stemming
Rückführung von Worten auf ihre Grundform
Sinn und Möglichkeit z.T. sprachabhängig
Stop-Word Filter
entfernt besonders hoch-frequente Worte
Artikel, und, dass...
Eva EnderichsSoSe2015
2: Pre-Processing
4
Stemming vs. Lemmatisierung
Stemming
Lemmatisierung
entfernt Endungen
substituiert die
Grundform
meist naive Heuristik
gut für regelmäßige
Verben und
Pluralformen
deutlich präziser
relativ schnell
mehr Aufwand
Eva EnderichsSoSe2015
erfordert eine große
Menge Wissen
2: Pre-Processing
5
Type vs. Token
Types = distinktive Lexeme
Tokens = alle vorhandenen Worte
Types
Tokens
= lexikalische Diversität
”I won’t tell them how to
make movies, if they don’t
tell me how to solve the
mysteries of the universe.”
- Stephen Hawking, about ”The Theory of
Everything”, via The Guardian
Für einzelne Lexeme:
Frequenzvarianz zum Durchschnitt
Eva EnderichsSoSe2015
2: Pre-Processing
Tokens: 21
Types: 17
6
Meta
Part-of-Speech Tagging
markiert Wortarten
Regelbasiert oder Wissensbasis (z.B. WordNet)
Parsen
syntaktisch
Chomsky-esque Binärbäume
TAG (tree adjoining grammar)
...
semantisch
Frames (z.B. FrameNet Systematik)
RRG
...
Eva EnderichsSoSe2015
2: Pre-Processing
7
SEMAFOR Demo
Eva EnderichsSoSe2015
2: Pre-Processing
8
N-Gramme
Meistens: Tri-gramme, Bi-gramme
Auf Wort-/Phrasenebene:
Vorraussage grammatischer Muster (Labeling)
auf annotierten Daten Beobachtung von Mustern
Auf Zeichenebene:
Spracherkennung
Eva EnderichsSoSe2015
2: Pre-Processing
9