MULTILINGUAL PERSON NAME RECOGNITION AND TRANSLITERATION Bruno POULIQUEN , Ralf STEINBERGER , Camelia IGNAT Irina TEMNIKOVA , Anna WIDIGER , Wajdi ZAGHOUANI, Jan ŽižKA Referenten: Inna Scherer, Alla Shashkina Hauptseminar Transliteration der Eigennamen SS2007 CIS LMU München ● JRC (Jo int Research Center) (Joint ● EMM (Europe (Europe Media Monitor) Tool für PersonennamenErkennung ● ● ● ● Extraktion von Personennamen aus multilingualen News-Artikelsammlungen (cluster: >2 & <100 Artikel über das gleiche Ereignis) Ereignis) (auch aus verschiedenen Schriftsystemen) Erkennung von verschiedenen „Varianten“ der Personennamen Feststellung der Relationen zwischen den Personen Multilingual Multilingual Named Named Entity Recognition (Background) Methoden zur Personennamenserkennung: ● durch Abgleich mit einer PN-Datenbank ● durch Analyse des lokalen Kontextes ● durch Erkennen eines Teils des Personennamens ● durch Analyse der Wortfolge und Wortklassen JRC Tool verwendet die Methoden 1-3 Transliteration Herkunft des Namens Transliteration <=> Transkription Chirac (fr. (fr.)) Ширак JRC Tool verwendet Transkriptionsregel Internal Standard Representation Representation Proper Name Recogniton ● ● Lexikon für 220 000 Namen (aktueller Stand) RegEx in Flex -> endlicher Automat z.B. RegEx zum Erkennen von Namen Tony Blair und Romano Prodi in slowenischen Texten: Tony(a|o|u|om|em|m|ja|ju|jem)?s+ Blair(a|o|u|om|em|m| (a|o|u|om|em|m| Tony(a|o|u|om|em|m|ja|ju|jem)?s+Blair ju|jem|ja) Roman(a|o|u|om|em|m|ju|jem|ja)?s+Prodi(a|o|u|om|em| m|ju|jem|ja)? Trigger Words Liste von lokalen Kontexten zum Erkennen von neuen Personennamen(trigger Personennamen(trigger words) Für Englisch 1100 trigger words : Titel (Dr. , Mr.), Nationalität (Estonian ), Beruf (actor (Estonian), (actor,, tennis player), player), spezifische Muster ([0-9]+ yearyear-old) old) etc. Automatisches Erkennen von Namensvarianten Beispiel für orthographische Namensvarianten: Namensvarianten: Rafik Hariri, Rafik al-Hariri, Rafiq Hariri , Rafiq al-Hariri Wann sind zwei Namen die Varianten desselben Namens: ● ● Die Kandidaten wurden im gleichen News-Cluster gefunden Das Ähnlichkeitsmaß ist hoch (über 70%) Normalisierung Bevor das Ähnlichkeitsmaß ausgerechnet wird, werden alle Namen mit Hilfe von etwa. 30 Substituierungsregel standardisiert (Internal (Internal Standard Representation) Representation) á => a Liste von Ausnahmen: pp => p Джеймс => ‘James’ ou => u wl => vl ck => k ph => f ž => j š => sh Fuzzy matching Fuzzy matching Datenbank Jeder gefundene Name wird automatisch in Datenbank eingefügt, zusammen mit folgenden Informationen: ● ● ● ● Wann und wo wurde der Name gefunden In welcher Sprache war der Text Welche trigger words hat der Name Welche Namensvarianten gibt es und bekommt einen nummerischen Index. Evaluation (1) Evaluation von Personennamenserkennung (2) Evaluation der Transliteration: -russisch, -arabisch, -persisch (3) Praktische Anwendung von dem Online-Tool: Verhältnisgewicht zwischen 2 Entitäten, Relation Map (4) Fazit (1) Evaluation der Personennamenserkennung Ziel: praktisch testen, ob die Namen in verschieden Sprachen, aus verschiedenen Schriftsystemen tatsächlich erkannt werden. Prinzip: für jede Sprache ca. 100 Zeitungsartikel, aus denen manuell von Experten alle Personalnamen extrahiert wurden. Dann wurde der Tool angewandt und beide Ergebnisse verglichen (Recall-Precision). Auf Firmen- und Ortsnamen wurde verzichtet. Niedriger Recall im Englischen -> es wurde an zu komplexen internationalen Artikeln trainiert (z.B. Phe Naimahawan, of Chiang Mai's Mae Ai district, has been selected (...) to present Thailand in a swimming event.) Presicion im Deutschen -> jedes Nomen wird groß geschrieben. Im Russischen -> nur 10 Namen in der Datenbank definiert: Das System musste die Namen selbst erkennen. (2) Evaluation der Transliteration Allgemeinprinzip: Natürlich wurden keine Testsprachen gewählt, deren Schriftsystem sich auf Lateinisch basieren (denn die Datenbank erhält bereits solche). Man wählt eine nicht lateinbasierte Sprache, lässt das System die Namen erst transliterieren und dann in der Datenbank suchen (Fuzzy-Matching). ➔ Russisch: R & P=94,3% (53 Namen -> 1 fehlte in Database Robert Bradtke->Robert Bartko, Bartko, 2 wurden falsch identifiziert Jean-Claude Juncker->Carsten Jancker u. Heinz Fischer ->Joschka Fischer). Fischer). ➔ Arabisch: P=89.3%, R=83.3% (30 Namen: 3 falsch identifiziert, 2 nicht gefunden). ➔ ➔ Persisch: 22 Namen (2 nicht gefunden). (3) Praktische Anwendung des Online-Tools ● ● ● ● Die Tools zum Erkennen und Matchen der Personennamen sind nur ein Teil des Gesamtsystems Visualisierung der Eigennamen auf der geografischen Weltkarte Name browser: relationenbasierte Datenbank – für jeden Cluster in mind. 8 Sprachen Relationen zwischen den Personen, Ländern – Database up-to-date (?). Identifizierung der Verknüpfung zwischen den Personen Identifikation der Verknüpfungen zwischen den Personen ● ● ● Gewicht der Kookurenz in einem Text Frequenz der Kookurenz Verhältnisgewicht zwischen 2 Entitäten ● Allgemein gilt: ● e1,e2: Entitäten ● ● Ce1,e2: Zahl von Artikeln, wo e1, e2 zusammen vorkommen Ae1,e2: Wie oft kommen die Entitäten zusammen? Wozu diese Berechnung? ● ● Laut Manual: um die Frequenzliste fair zu machen, ausgleichen -> solche Namen wie George W. Bush u.Ä. werden in meisten Frequenzlisten an der ersten Stelle stehen und andere Namen „herunter schieben“, die aber tatsächlich wichtiger sind. im Tool: Frequenzlisten -> related people u. ranking Liste nach Gewicht -> associated people. people. Die letzte wird eben nach der oben erwähnten Formel berechnet. Relation Map ● ● ● Zeigt den nächst nahe liegenden Knoten mit Hilfe von 2-D Grafen. geordnet laut dem Wert, der nach der Formel des Verhältnisgewichts berechnet ist. (4) Fazit ● ● ● ● Verbesserung der Namenserkennung, -extraktors -> Personalnamen werden mitsamt Firmen- u. Ortsnamen erkannt Erweiterung der Datenbank (inklusive Sprachen aus nicht lateinischen Schriftsystemen) rechtzeitige Aktualisierung der NewsDatenbank Associated People-Rankinglist: die meist auftrettenden Namen sind nicht dabei (Bush kommt nie in so einer Rankingliste vor) Literaturverzeichnis ✔ http://press.jrc.it/NewsExplorer/home/de/latest.html ✔ http://edel.univ-poitiers.fr/corela/document.php?id=490 http://www.citebase.org/fulltext?format=application%2Fpdf&i dentifier=oai%3AarXiv.org%3Acs%2F0609051 ✔
© Copyright 2025 ExpyDoc