News Explorer

MULTILINGUAL
PERSON NAME
RECOGNITION AND
TRANSLITERATION
Bruno POULIQUEN , Ralf STEINBERGER , Camelia IGNAT
Irina TEMNIKOVA , Anna WIDIGER , Wajdi ZAGHOUANI,
Jan ŽižKA
Referenten: Inna Scherer, Alla Shashkina
Hauptseminar Transliteration der Eigennamen
SS2007 CIS LMU München
●
JRC (Jo
int Research Center)
(Joint
●
EMM (Europe
(Europe Media Monitor)
Tool für PersonennamenErkennung
●
●
●
●
Extraktion von Personennamen aus
multilingualen News-Artikelsammlungen
(cluster: >2 & <100 Artikel über das gleiche
Ereignis)
Ereignis) (auch aus verschiedenen
Schriftsystemen)
Erkennung von verschiedenen „Varianten“ der
Personennamen
Feststellung der Relationen zwischen den
Personen
Multilingual
Multilingual Named
Named Entity
Recognition (Background)
Methoden zur Personennamenserkennung:
●
durch Abgleich mit einer PN-Datenbank
●
durch Analyse des lokalen Kontextes
●
durch Erkennen eines Teils des Personennamens
●
durch Analyse der Wortfolge und Wortklassen
JRC Tool verwendet die Methoden 1-3
Transliteration
Herkunft des Namens
Transliteration <=> Transkription
Chirac (fr.
(fr.)) Ширак
JRC Tool verwendet Transkriptionsregel
Internal Standard Representation
Representation
Proper Name Recogniton
●
●
Lexikon für 220 000 Namen (aktueller Stand)
RegEx in Flex -> endlicher Automat
z.B. RegEx zum Erkennen von Namen Tony Blair und
Romano Prodi in slowenischen Texten:
Tony(a|o|u|om|em|m|ja|ju|jem)?s+
Blair(a|o|u|om|em|m|
(a|o|u|om|em|m|
Tony(a|o|u|om|em|m|ja|ju|jem)?s+Blair
ju|jem|ja)
Roman(a|o|u|om|em|m|ju|jem|ja)?s+Prodi(a|o|u|om|em|
m|ju|jem|ja)?
Trigger Words
Liste von lokalen Kontexten zum Erkennen von
neuen Personennamen(trigger
Personennamen(trigger words)
Für Englisch 1100 trigger words : Titel (Dr. , Mr.),
Nationalität (Estonian
), Beruf (actor
(Estonian),
(actor,, tennis player),
player),
spezifische Muster ([0-9]+ yearyear-old)
old) etc.
Automatisches Erkennen von
Namensvarianten
Beispiel für orthographische Namensvarianten:
Namensvarianten:
Rafik Hariri, Rafik al-Hariri, Rafiq Hariri , Rafiq al-Hariri
Wann sind zwei Namen die Varianten desselben
Namens:
●
●
Die Kandidaten wurden im gleichen News-Cluster
gefunden
Das Ähnlichkeitsmaß ist hoch (über 70%)
Normalisierung
Bevor das Ähnlichkeitsmaß ausgerechnet wird,
werden alle Namen mit Hilfe von etwa. 30
Substituierungsregel standardisiert (Internal
(Internal
Standard Representation)
Representation)
á => a
Liste von Ausnahmen:
pp => p
Джеймс => ‘James’
ou => u
wl => vl
ck => k
ph => f
ž => j
š => sh
Fuzzy matching
Fuzzy matching
Datenbank
Jeder gefundene Name wird automatisch in
Datenbank eingefügt, zusammen mit folgenden
Informationen:
●
●
●
●
Wann und wo wurde der Name gefunden
In welcher Sprache war der Text
Welche trigger words hat der Name
Welche Namensvarianten gibt es
und bekommt einen nummerischen Index.
Evaluation
(1) Evaluation von Personennamenserkennung
(2) Evaluation der Transliteration: -russisch,
-arabisch, -persisch
(3) Praktische Anwendung von dem Online-Tool:
Verhältnisgewicht zwischen 2 Entitäten,
Relation Map
(4) Fazit
(1) Evaluation der
Personennamenserkennung
Ziel: praktisch testen, ob die Namen in
verschieden Sprachen, aus verschiedenen
Schriftsystemen tatsächlich erkannt werden.
Prinzip: für jede Sprache ca. 100 Zeitungsartikel,
aus denen manuell von Experten alle
Personalnamen extrahiert wurden. Dann wurde
der Tool angewandt und beide Ergebnisse
verglichen (Recall-Precision). Auf Firmen- und
Ortsnamen wurde verzichtet.
Niedriger Recall im Englischen -> es wurde an zu komplexen
internationalen Artikeln trainiert (z.B. Phe Naimahawan, of Chiang
Mai's Mae Ai district, has been selected (...) to present Thailand in
a swimming event.)
Presicion im Deutschen -> jedes Nomen wird groß geschrieben.
Im Russischen -> nur 10 Namen in der Datenbank definiert: Das
System musste die Namen selbst erkennen.
(2) Evaluation der Transliteration
Allgemeinprinzip: Natürlich wurden keine Testsprachen
gewählt, deren Schriftsystem sich auf Lateinisch basieren
(denn die Datenbank erhält bereits solche). Man wählt eine
nicht lateinbasierte Sprache, lässt das System die Namen
erst transliterieren und dann in der Datenbank suchen
(Fuzzy-Matching).
➔
Russisch: R & P=94,3% (53 Namen -> 1 fehlte in Database
Robert Bradtke->Robert Bartko,
Bartko, 2 wurden falsch identifiziert
Jean-Claude Juncker->Carsten Jancker u. Heinz Fischer
->Joschka Fischer).
Fischer).
➔
Arabisch: P=89.3%, R=83.3% (30 Namen: 3 falsch
identifiziert, 2 nicht gefunden).
➔
➔
Persisch: 22 Namen (2 nicht gefunden).
(3) Praktische Anwendung des
Online-Tools
●
●
●
●
Die Tools zum Erkennen und Matchen der
Personennamen sind nur ein Teil des
Gesamtsystems
Visualisierung der Eigennamen auf der
geografischen Weltkarte
Name browser: relationenbasierte Datenbank –
für jeden Cluster in mind. 8 Sprachen
Relationen zwischen den Personen, Ländern –
Database up-to-date (?).
Identifizierung der Verknüpfung zwischen den
Personen
Identifikation der Verknüpfungen
zwischen den Personen
●
●
●
Gewicht der Kookurenz in
einem Text
Frequenz der Kookurenz
Verhältnisgewicht
zwischen 2 Entitäten
●
Allgemein gilt:
●
e1,e2: Entitäten
●
●
Ce1,e2: Zahl von Artikeln, wo
e1, e2 zusammen vorkommen
Ae1,e2: Wie oft kommen
die Entitäten zusammen?
Wozu diese Berechnung?
●
●
Laut Manual: um die Frequenzliste fair zu
machen, ausgleichen -> solche Namen wie
George W. Bush u.Ä. werden in meisten
Frequenzlisten an der ersten Stelle stehen und
andere Namen „herunter schieben“, die aber
tatsächlich wichtiger sind.
im Tool: Frequenzlisten -> related people u.
ranking Liste nach Gewicht -> associated
people.
people. Die letzte wird eben nach der oben
erwähnten Formel berechnet.
Relation Map
●
●
●
Zeigt den nächst nahe liegenden Knoten mit
Hilfe von 2-D Grafen.
geordnet laut dem Wert, der nach der Formel
des Verhältnisgewichts berechnet ist.
(4) Fazit
●
●
●
●
Verbesserung der Namenserkennung,
-extraktors -> Personalnamen werden mitsamt
Firmen- u. Ortsnamen erkannt
Erweiterung der Datenbank (inklusive Sprachen
aus nicht lateinischen Schriftsystemen)
rechtzeitige Aktualisierung der NewsDatenbank
Associated People-Rankinglist: die meist
auftrettenden Namen sind nicht dabei (Bush
kommt nie in so einer Rankingliste vor)
Literaturverzeichnis
✔
http://press.jrc.it/NewsExplorer/home/de/latest.html
✔
http://edel.univ-poitiers.fr/corela/document.php?id=490
http://www.citebase.org/fulltext?format=application%2Fpdf&i
dentifier=oai%3AarXiv.org%3Acs%2F0609051
✔