Methodenkurs Text Mining 2: Pre

Methodenkurs Text Mining
2: Pre-Processing
Eva Enderichs
SoSe2015
Eva EnderichsSoSe2015
2: Pre-Processing
1
Warum Pre-processing?
Datenhygiene
Verarbeitungsfehler
verfälschte Resultate (nicht immer offensichtlich!)
Zwischenresultate oft vielseitig wiederverwertbar
”Erforschung” des Korpus (know your data!)
wirft u.U. neue Forschungsfragen auf
bestätigt ggf. Eignung des Korpus für geplante Zwecke
Merke: Nicht immer alles auf sinnvolle Weise anwendbar!
Eva EnderichsSoSe2015
2: Pre-Processing
2
Normalisieren
Wenn in verschiedenen
Dateien:
Generell:
Samplegröße
Outlier entfernen
in Absätze
aufbrechen
Format
Kodierung / Charset
Sprache
Eva EnderichsSoSe2015
2: Pre-Processing
3
Säuberung
Rechtschreibung
z.B. mit Jazzy API
Fehler können wertvolle Informationen sein, sollten aber meist
trotzdem zur Weiterverarbeitung korrigiert werden
Stemming
Rückführung von Worten auf ihre Grundform
Sinn und Möglichkeit z.T. sprachabhängig
Stop-Word Filter
entfernt besonders hoch-frequente Worte
Artikel, und, dass...
Eva EnderichsSoSe2015
2: Pre-Processing
4
Stemming vs. Lemmatisierung
Stemming
Lemmatisierung
entfernt Endungen
substituiert die
Grundform
meist naive Heuristik
gut für regelmäßige
Verben und
Pluralformen
deutlich präziser
relativ schnell
mehr Aufwand
Eva EnderichsSoSe2015
erfordert eine große
Menge Wissen
2: Pre-Processing
5
Type vs. Token
Types = distinktive Lexeme
Tokens = alle vorhandenen Worte
Types
Tokens
= lexikalische Diversität
”I won’t tell them how to
make movies, if they don’t
tell me how to solve the
mysteries of the universe.”
- Stephen Hawking, about ”The Theory of
Everything”, via The Guardian
Für einzelne Lexeme:
Frequenzvarianz zum Durchschnitt
Eva EnderichsSoSe2015
2: Pre-Processing
Tokens: 21
Types: 17
6
Meta
Part-of-Speech Tagging
markiert Wortarten
Regelbasiert oder Wissensbasis (z.B. WordNet)
Parsen
syntaktisch
Chomsky-esque Binärbäume
TAG (tree adjoining grammar)
...
semantisch
Frames (z.B. FrameNet Systematik)
RRG
...
Eva EnderichsSoSe2015
2: Pre-Processing
7
SEMAFOR Demo
Eva EnderichsSoSe2015
2: Pre-Processing
8
N-Gramme
Meistens: Tri-gramme, Bi-gramme
Auf Wort-/Phrasenebene:
Vorraussage grammatischer Muster (Labeling)
auf annotierten Daten Beobachtung von Mustern
Auf Zeichenebene:
Spracherkennung
Eva EnderichsSoSe2015
2: Pre-Processing
9

Download Report