Introduction Phon´ etique Morphologie Traitement automatique des langues Master Informatique BioMedicale – Universit´ es Paris 5 et Paris 13 http://perso.limsi.fr/hamon/P5/M2IBM-TAL-20142015/ Thierry Hamon1 et Natalia Grabar2 (1) LIMSI-CNRS & Institut Galil´ ee - Universit´ e Paris 13 [email protected] (2) UMR CNRS 8163 STL, Universit´ e Lille3 [email protected] 9 octobre 2014 Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Planning Cours en concertation avec les cours de Terminologies et de Indexation Automatique Planning du cours de TAL : Jeudi 9 octobre, toute la journ´ee Lundi 13 octobre, toute la journ´ee Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Les grands d´ebuts Les ann´ees 1950 (guerre froide) Traduction automatique: automatisation de la traduction d’une langue vers une autre Environ $20 millions investis en 10 ans Test: The spirit is willing, but the flesh is weak ⇒ Russe ⇒ Anglais The whisky is strong, but the meat is rotten Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Dessous linguistiques Dictionnaire ´electronique Substitution de mots ´equivalents dans la langue cible transfert lexical Ordre syntaxique des mots Probl´ematiques: Ambigu¨ıt´es, polys´emies, ... Structures syntaxiques complexes Relations s´emantiques Anaphores, ... Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie The ”ALPAC report” En 1966, par the US National Academy of the Sciences Y. Bar-Hillel La bonne qualit´e ou l’automatisation compl`ete ne peuvent pas ˆetre atteintes L’automatisation compl`ete n’est pas souhaitable coˆ uts ´eventuellement plus ´elev´es qu’avec les traducteurs humains Recommandation: mettre plus d’effort dans la recherche en linguistique qu’elle contribue ou non ` a la traduction automatique directement =⇒ D´ebut des travaux en TAL Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Contributions Un domaine interdisciplinaire: math´ematiques: logique th´eorie des langages probabilit´es informatique algorithmique g´enie logiciel linguistique param`etres phonologiques grammaire g´en´erative syntaxe structurale philosophie du langage Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie R´epartitions R´eparti dans les deux disciplines : 1960 Linguistique informatique Focalis´ee sur les th´eories math´ematiques, linguistiques 1965 Traitement automatique des langues Focalis´ee sur les outils 1970 Natural Language Understanding (AI) approches cognitives T. Winograd, M. Minski, J. Allen, ... Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie 50 ans plus tard Phon´etique, phonologie, prosodie Morphologie Syntaxe S´emantique Pragmatique Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Morphologie Syntaxe Sémantique Ressources prononciation syllabation prosodie flexion dérivation composition lexiques syntaxiques réseaux sémantiques lexiques sémantiques terminologies lexique.org, ... MorTAL, Celex, ... LTAG, FTAG, LFG, ... WordNet, DEC, ... Tâches 50 ans plus tard Reconnaissance vocale Génération vocale (text speech) Phonétique Etiquetage morpho−syntaxique Analyse syntaxique Chunking Applications Segmentation morphologique Analyse morphologique Reconnaissance de la parole Dialogue homme−machine Correction orthographique Génération automatique bulletins meteo, comptes−rendus, ... Stylistique Pragmatique règles désambiguisation Extraction des unités de sens simples, complexes Détection de relations Décomposition en primitives Recherche de définitions Structure de textes Anaphore Communication Constitution de ressources Linguistique des corpus Terminologies Ontologies Analyse statistique de données textuelles Résumé automatique TA (Traduction automatique) TAO Génération sens−texte Génération automatique de textes EI (Extraction d’information) QR (Question/Réponses) RI (Recherche d’information) Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie France ATALA: Association pour le traitement automatique des langues TAL: revue TALN, RECITAL, TALS, TALC, JEP, ...: conf´erences Site Web : http://www.atala.org Liste de diffusion : ln Fili`eres de formations Nombreux laboratoires Besoins en entreprise Enjeux toujours r´eels Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie International ACL: Association for computational linguistics ACL, JNLE, ...: revues ACL, COLING, EACL, NAACL, LREC, ...: conf´erences Site web : http://www.aclweb.org Liste de diffusion : LinguistList De tr`es nombreuses universit´es Besoins en entreprise Enjeux toujours r´eels Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Interop´erabilit´e s´emantique Capacit´e des syst`emes informatiques `a: ´echanger des informations assurer que l’information communiqu´ee par un syst`eme soit correctement interpr´et´ee et utilis´ee par le syst`eme receveur Coˆ ut industriel tr`es ´elev´e montant net de 77.8 billion $ par ann´ee (sant´e) (Walker, 2005) 1 billion $ / ann´ee / constructeur (construction auto) (Brunnermeier, 1999) ⇒ Utilisation de terminologies et de lexiques Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Quelques exemples an´evrisme – An´evrisme an´evrisme – anevrisme an´evrisme – an´evrysme an´evrisme – an`evrisme an´evrisme – an´evrise Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Quelques exemples st´enose de l’aorte – aorte st´enotique ligne directrice – recommandations oculiste – ophtalmologue maladie de Weber-Christian – maladie de Pfeifer-Weber-Christian airbag – coussin de s´ecurit´e – coussin gonflable infarctus du myocarde – crise cardiaque rhagade – crevasse acetone anabolism – acetone biosynthesis renal failure – kidney failure pulmonary fibrosis – lung cancer Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Quelques exemples Aspect de leuc´emie aigu¨e de type LAM2 Elle met en ´evidence une double st´enose serr´ee de l’interventriculaire ant´erieure distale mod´er´ement calcifi´ee interaction entre m´edicaments et alimentation st´enose carotidienne gauche kyste du rein st´enose valve aorte Il s’agit d’un patient dyslipid´emique qui pr´esente une h´er´edit´e coronaire et qui est un ancien tabagique Traitement automatique des langues 2904HM : LAM0, LAM1, LAM2 (leuc´emie aigu¨e my´eloblastique) St´enose de l’art`ere interventriculaire ant´erieure INTERACTION MEDICAMENT ALIMENT- 4331CC : St´enose, obstruction, ath´erome ou embolie de l’art`ere carotide, sans infarctus c´er´ebral REIN KYSTIQUE STENOSE AORTIQUE VALVULAIRE Facteur de risque cardiovasculaire T Hamon Introduction Phon´ etique Morphologie Plusieurs niveaux d’analyse des textes Phon´etique Morphologie (niveau morpho-syntaxique) Syntaxe S´emantique Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Phon´etique et Phonologie ´ Phon´etique: Etude des sons de la parole appel´es phones ´ Phonologie: Etude des sons `a valeur linguistique, phon`emes en relation avec un signifi´e Les traits phoniques sont appr´ehend´es par rapport `a leur valeur distinctive Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie API: Alphabet Phon´etique International Alphabet utilis´e pour la transcription phon´etique des sons du langage parl´e L’API est pr´evu pour couvrir l’ensemble des langues du monde D´evelopp´e par des phon´eticiens britanniques et fran¸cais Publi´e en 1888 Derni`ere r´evision: 2005 Un jeu de caract`eres Unicode permet d’´ecrire l’ensemble de l’API Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie D´emonstrateurs 1 www.research.att.com/~ttsweb/tts/demo.php 2 cepstral.com/demos 3 www.oddcast.com/home/demos/tts/tts_example.php? sitepal 4 festvox.org/voicedemos.html 5 www.hon.ch/HONcode/Conduct.html Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Recherche phon´etique 1 TLFi 2 Tr´esor de la Langue Fran¸caise informatis´e 3 http://atilf.atilf.fr/tlf.htm Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Morphologie Formation et variation des lex`emes 1 Types d’op´erations morphologiques 2 Traitement automatique de formations morphologiques 3 Ressources morphologiques disponibles 4 Acquisition de ressources morphologiques 5 Analyse morphologique Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Types d’op´erations morphologiques Flexion Affixation Conversion Composition Suppl´etion Composition cach´ee Mots valises Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Flexion Variation des lex`emes D´esinences, flexions Lors de l’insertion dans les phrases Nombre : {st´enose, st´enoses} Genre : {muqueux, muqueuse} Personne, temps, mode, etc. : verbes {lemme, forme fl´echie} Lemme : forme canonique forme citationnelle (dictionnaires) Information de base pour l’annotation syntaxique des textes Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Affixation ou d´erivation Formation de lex`emes Base morphologique Affixes : pr´efixes, suffixes Souvent : changement de la cat´egorie syntaxique Suffixation: {cellule/Nom, cellulaire/Adj} {bronche/Nom, bronchique/Adj} Pr´efixation: {grippe/Nom, antigrippe/Adj} {coudre/Ver, d´ecoudre/Ver} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Affixation ou d´erivation {cellule/Nom, cellulaire/Adj} -aire: adjectivation d´enominale base: nom suffixes: -aire, -ique, -al, -el, -eux, -ien glose: Relatif `a N cellulaire: Relatif `a la cellule {penser/Ver, pensable/Adj} -able: adjectivation d´everbale base: verbe suffixe: -able glose: qu’il est possible de V pensable: qu’il est possible de penser + contrainte phonologique – {cellule/Nom, cellulal/Adj} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Conversion Formation de lex`emes Non affixal Changement de la cat´egorie syntaxique Adj → Nom: {muqueuse/Adj, muqueuse/Nom} {alcoolique/Adj, alcoolique/Nom} Adj → Ver: {blanc, blanch(ir)} Nom → Ver: {l´ezard/Nom, l´ezard(er)/Ver} {serpent/Nom, serpent(er)/Ver} Ver → Nom: {vol(er), vol} Besoin de l’´etiquetage syntaxique Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Composition Formation de lex`emes Combinaison de composants (racines) Composition populaire : m´edecin-g´en´eraliste, hˆ opital-ville Composition savante : leuc´emie, an´evrismorraphie, gastroent´erite Proc´ed´e productif dans le domaine m´edical Formations souvent opaques Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Suppl´etion Formation de lex`emes Utilisation d’unit´es d’origine ´etrang`ere grec, latin Substitution aux unit´es d’origine fran¸caise {foie/Nom, h´epatique/Adj} {estomac/Nom, gastrique/Adj} {queue/Nom, caudal/Adj} Formations opaques Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Composition cach´ee Formation de lex`emes Un lex`eme est tronqu´ee Un autre lex`eme est tronqu´e ou non Les deux gardent leur contenu s´emantique Formations sur handicap: handi-contact, handiplace, handivie, handimag, handitel, handiscol Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Mots valises Formation de lex`emes Patrons bas´es sur des segments phonologiques identiques ou similaires Σ AΣ ΣB ⇒ AΣB AΣ BΣ ⇒ ABΣ AΣ BΣB 0 ⇒ AΣB 0 Traitement automatique des langues m´etropole politique ⇒ m´etropolitique potiron marron ⇒ potimarron hippie ´epid´emie ⇒ hippid´emie. T Hamon Introduction Phon´ etique Morphologie Allomorphie Variations phonologiques et formelles d´eclench´ees par des contextes morphologiques Partiellement pr´edictible par les r`egles de formation Les allormorphies s’appliquent aux morph`emes Les allormorphies sont d´eclench´ees par des morph`emes post´eriorisations phoniques d´eclench´ees par certains suffixes: {abdomen/Nom, abdominal/Adj} {aborig`ene, aboriginal/Adj} {mer/Nom, marin/Adj} {heure/Nom, horaire/Adj} transformation de /ai/ en /a/ d´eclench´e par -ien: {ovaire/Nom, ovarien/Adj} {coronaire/Nom, coronarien/Adj} {urticaire/Nom, urticarien/Adj} {roche/Nom, rupestre/Adj} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Traiter ces formations D´esuffixation (d´esuffixeurs, stemmers) Lemmatisation Ressources morphologiques motiv´ees linguistiquement Exceptions Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Objectifs Besoin de d´etecter les contenus similaires ou identiques mˆeme si les formes sont diff´erentes Contextes: Recherche d’information Extraction d’information Matching de terminologies ... Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie D´esuffixation/Stemming Les outils de suppression de suffixes : suffixe le plus long, avec reconstitution de la finale (Lovins, 1968) magnesia =(ia/)⇒ magnes =(s/s)⇒ magnes magnesite =(ite/)⇒ magnes =(s/s)⇒ magnes magnetize =(ize/)⇒ magnet =(t/t)⇒ magnet magnetometry =(y/)⇒ magnetometr =(tr/ter)⇒ magnetometer suppressions it´eratives et contextuelles de suffixes (Porter, 1980) feudalism =(alism/al)⇒ feudal =(al/)⇒ feud general, generous, generation, generic ⇒ gener ⇒ Adapter les r`egles au domaine de sp´ecialit´e Affixation, conversion, suppl´etion, composition Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie D´esuffixation Mise au singulier Suppression de s finaux + {suffixes, suffixe}, {r`egles, r`egle}, {tables, table}, ... - {analysis, analysi}, {was, wa}, {generous, generou}, ... ? {g´en´eraux, g´en´eraux}, {finaux, finaux}, {finals, final}, {bordeaux, bordeaux} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie D´esuffixation Snowball stemmers (Porter) snowball.tartarus.org Langues romanes: fran¸cais, espagnol, portugais, italien, roumain Langues germaniques: allemand (une variate), n´eerlandais Langues scandinaves: su´edois, norv´egien, danois Autres: russe, finnois, hongrois, turque Java, C, Python Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Lemmatisation montre racine + d´esinence → lemme , cat, montre montre N fs montr- e montrer montrer montrer montrer montrer V V V V V Ind P 1s Ind P 3s Sub P 1s Sub P 3s Imp P 2s traits Connaissances : racine → classe de flexion Classe de flexion : ensemble des d´esinences utiles pour une famille de racines Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Lemmatisation INTEX/Unitex : DELAF vs DELAS Lexique de formes fl´echies DELAF cˆalin,cˆalin.A:ms cˆaline,cˆalin.A:fs cˆalins,cˆalin.A:mp cˆalines,cˆalin.A:fp Lexique de formes canoniques DELAS Traitement automatique des langues cˆalin,A32 T Hamon Introduction Phon´ etique Morphologie Lemmatisation INTEX/Unitex: Classes de flexion Algorithme de g´en´eration des entr´ees fl´echies cˆalin + <E> ms e fs s mp es fp Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Lemmatisation Classes de flexion : autre exemple Exemple : beau belle beaux belles DELAS : beau,A72 + au ms LL lle fs aux mp lles fp beau,beau.A:ms belle,beau.A:fs beaux,beau.A:mp /silberz/Textes/Habilitation/beau belles,beau.A:fp Mon Sep 23 15:53:20 1996 Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Analyse morphologique D´etection de fronti`eres de constituants dans un lex`eme Segmentation en constituants ´ Etablissement de d´ependances entre les constituants =⇒ Processus de construction d’un lex`eme =⇒ Construction du sens du lex`eme Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Analyse morphologique Danielle Corbin, Morphologie d´erivationnelle et structuration du lexique, Presse universitaire de Lille, 1987, 2 v. Franlex perso.limsi.fr/jacquemi/FRANLEX/ Derif www.univ-nancy2.fr/pers/namer/ Fiammetta Namer, Acquisition automatique de sens `a partir d’op´erations morphologiques en fran¸cais : ´etude de cas. In Proc Traitement Automatique de la Langue Naturelle (TALN), 2002, p. 235-244. Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Analyse morphologique XN ique : Relatif `a X aortique, gastrique, ent´erique XV able : Qui peut ˆetre X conservable, buvable, discible XV eur : Agent qui X op´erateur, solidifieur, fondateur (((solideA )ifierV )eurN ) Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques ⇒ Trouver les r`egles morphologiques ⇒ Trouver les ressources disponibles Souvent en forme de couples {lemme, forme fl´echie} {base, affixation} etc. Si elles n’existent pas : constituer Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques motiv´ees linguistiquement Flexion Affixationg Affixationm Suppl´etion Conversion Compositionm {an´evrisme, an´evrismes} {feuille, feuillu} {an´evrisme, an´evrismal} {estomac, gastrique} {muqueuse/Adj, muqueuse/Nom} {an´evrisme, an´evrismorraphie} En. ++ ++ ++ ++ ? – De. ++ ++ ∼ ∼ ? – Fr. ++ ∼ ∼ ∼ ∼ ∼ ⇒ Constituer des ressources morphologiques Affixation, conversion, suppl´etion, composition Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles Liste de mots de l’ABU : abu.cnam.fr/DICO/ Liste de mots du corpus Frantext : www.lexique.org Dictionnaires du LADL : www-igm.univ-mlv.fr/~unitex/linguistic_data.html ... Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles ABU Mots communs (+300000 mots) abdomen abdomen Nom:Mas+SG abdomens abdomen Nom:Mas+PL abdominal abdominal Adj:Mas+SG abdominale abdominal Adj:Fem+SG abdominales abdominal Adj:Fem+PL abdominaux abdominal Adj:Mas+PL abdominaux abdominaux Nom:Mas+PL Pr´enoms (12437 pr´enoms) Nom de cit´es fran¸caises (39076 noms) Nom de pays (170 pays) Difficult´es de la langue Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles Lexique.org (www.lexique.org) Lexique des mots du fran¸cais Description phonologique et linguistique 7 bases de donn´ees interrogeables simultan´ement: Base de pr´enoms avec leur sexe, langage d’utilisation et frequence Anagrammes de tous les mots de Lexique Voisins orthographiques et leur fr´equence Mots et non-mots (incluant les noms propres, les onomatop´ees, etc.) de Frantext et leurs fr´equences Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles Lexique.org (www.lexique.org) Outils: Moteur de recherche en ligne permettant d’interroger Lexique Environnement hors-ligne d’interrogation de Lexique Environnement unix simplifi´e pour Windows (9X, 2000, XP) et le traitement de bases de donn´ees Awk, Perl, Bash, Textutils, Sed, Wget, etc Exemples de scripts perl et awk pour r´ealiser des tˆaches courantes en psycholinguistique/linguistique Documentation sur comment utiliser les outils GNU en psycholinguistique/linguistique Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles Lexique.org (www.lexique.org) 135 000 mots 55 000 lemmes fr´equences dans Frantext genre, nombre, cat´egorie grammaticale repr´esentation phonologique nombre de phon`emes, de lettres point d’unicit´e structure orthographique ou phonologique abstraite forme syllab´ee nombre de voisins orthographiques et phonologiques famille flexionnelle des lemmes fr´equence cumul´ee des lemmes distribu´ee sous licence GNU-like fr´equences des lettres, phon`emes, bigrammes, trigrammes, syllabes Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Ressources morphologiques disponibles Lexique.org (www.lexique.org) accessoires akseswaR accessoire NOM m p VCCVCCVVCVC VCCVCYVC ak-se-swaR 3 VC-CV-CYVC seriossecca Rawseska ac-ces-soi-res Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie UMLS/UMLF UMLS (Unified medical language system) Metathesaurus R´eseau s´emantique Ressources lexicales Outils (norm, lvg, MetaMap) UMLF (Unified medical language for French) Ressources lexicales Partenaires fran¸cais et suisses Inclus dans l’UMLS (au niveau des termes) Disponibles publiquement (recherche) Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Acquisition de ressources morphologiques `a partir de dictionnaires (Krovetz, 1993 ; Hathout, 2001) `a partir de corpus (Xu & Croft, 1998 ; Zweigenbaum et al., 2003) `a partir de thesaurus et corpus (Jacquemin, 1997) `a partir de couples de suffixes et leurs fr´equences (Gaussier, 1999) approches distributionnelles (D´ejean, 1998 ; Schone et al., 2001) algorithmes d’apprentissage (van den Bosch et al,. 1996 ; Pirrelli & Yvon, 1999 ; Theron & Cloete, 1997) `a partir des r`egles de formation des lex`emes (Dal et al., 1999 ; Berche et al., 1997 ; Viegas et al., 1996) `a partir des s´eries de termes reli´es s´emantiquement d’un thesaurus (Grabar & Zweigenbaum, 1999) Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Acquisition `a partir de dictionnaires Exploitation du contenu des entr´ees dictionnairiques entr´ee informations grammaticales, etc. d´efinition(s) CARTOGRAPHIE, subst. f´em.: Th´eorie et technique de l’´etablissement des cartes g´eographiques; r´ealisation des cartes ⇒ {cartographie, cartes} DIPLOMATIQUE, adj.: ´ Relatif `a la diplomatie, aux relations politiques entre Etats ⇒ {diplomatique, diplomatie} SCOLAIRE, adj.: Relatif aux ´ecoles, `a l’enseignement qu’on y dispense, aux personnes qui les fr´equentent ⇒ {scolaire, ???} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Acquisition `a partir de corpus Hypoth`ese psycholinguistique Exploitation des co-occurrences des mots contexte s´emantique fort Mesure statistique d’attirance (facteur de vraisemblance) Chaˆıne de caract`eres minimale commune {handicap, handimag}, {st´enoses, st´enose}, {chapeau, chapelle}, {chrome, chronique} Validation n´ecessaire Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Approche distributionnelle Aux fronti`eres des morph`emes on trouve une plus grande variabilit´e de caract`eres Analyse de mots commen¸cant par direcdirec- peut ˆetre suivi uniquement de t ⇒ pas de fronti`ere morphologique direct- peut ˆetre suivi de i, l, o et e (comme dans direction, directly, director ou directed) ⇒ il y a une fronti`ere morphologique Enrichir la liste d’affixes Alternance d’affixes light: lighted, lightly Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie ` partir des r`egles, analogie A Exploitation de l’analogie dans la langue Dans un 4-tuple de type eat:eater = cheat:X Calcul de la forme manquante X eat:eater ⇒ {, er} =⇒ cheat:cheater Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie ` partir des s´eries de termes reli´es s´emantiquement A Deux mots sont reli´es morphologiquement s’ils partagent un ´el´ement morphologique commun. Heuristiques : Deux mots sont reli´es morphologiquement si : ils partagent une chaˆıne de caract`eres initiale commune, et ils apparaissent dans un contexte s´emantiquement contraint ⇒ Alignement de mots dans des s´eries de termes reli´es par des relations de synonymie, d’hyperonymie ou transversales Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Relations s´emantiques Relations synonymiques synonyme synonyme synonyme D2-50140 : pneumonie ; pneumopathie inflammatoire → {pneumonie, pneumopathie} T-59200 : appendice vermiculaire ; appendico → {appendice, appendico} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Relations s´emantiques Relations hi´erarchiques Relations transversales D2-53000 pneumoconiose > D2-53400 pneumopathie li´ ee ` a l’inhalation de poussi` ere → {pneumoconiose, pneumopathie} D5-46000 maladie de l’appendice > D5-46100 appendicite → {appendice, appendicite} D2-50140 pneumopathie inflamma T-28000 pneumo → {pneumopathie, pneumo} P1-57450 appendicectomie 7→ T-59200 appendice vermiculaire → {appendicectomie, appendice} ⇒ Les s´eries de termes reli´es s´emantiquement comportent des mots et des ´elements reli´es morphologiquement Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Mat´eriel S´erie de termes reli´es s´emantiquement : Fran¸cais : SNOMED, CIM-10 Anglais : SNOMED, ICD-9-CM, ICD-10 Russe : SNOMED as obtained from 1999 UMLS Metathesaurus (strings (SUI) with source vocabulary (SAB) SNMI98, ICD99 and ICD10) Liste de r´ef´erence de formes de mots : Fran¸cais : mots de la SNOMED et de la CIM-10 Anglais : mots de la SNOMED et de la ICD-9-CM Russe : mots de la SNOMED ´ Evaluation : lvg d’UMLS comme r´ef´erence : 1 2 lvg -m -fi : g´en´eration des flexions lvg -m -fRf : g´en´eration des affixations Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie M´ethode en deux ´etapes 1 Amor¸cage : alignement de mots reli´es morphologiquement dans les termes reli´es s´emantiquement 2 G´en´eralisation : induction de r`egles et application `a des donn´ees plus larges s´eries de synonymes s´eries de synonymes ´etiquet´ees et lemmatis´ees autres relations s´emantiques Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie M´ethode : 1.1 Alignement des termes S D2-50140 : pneumonie ; pneumopathie inflammatoire T-59200 : appendice vermiculaire ; appendico H D2-53000 pneumoconiose > D2-53400 pneumopathie li´ ee `a l’inhalation de poussi`ere D5-46000 maladie de l’appendice > D5-46100 appendicite T D2-50140 pneumopathie inflammatoire 7→ T-28000 pneumo P1-57450 appendicectomie 7→ T-59200 appendice vermiculaire Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie M´ethode : 1.2 Alignement des formes Code D2-50140 T-59200 D2-53000 D5-46000 D2-50140 P1-57450 Traitement automatique des langues Forme pneumonie appendice pneumoconiose appendice pneumopathie appendicectomie Code D2-50140 T-59200 D2-53400 D5-46100 T-28000 T-59200 Forme pneumopathie appendico pneumopathie appendicite pneumo appendice T Hamon Introduction Phon´ etique Morphologie M´ethode : 1.3 Segmentation des formes Code D2-50140 T-59200 D2-53000 D5-46000 D2-50140 P1-57450 Forme pneumonie appendice pneumoconiose appendice pneumopathie appendicectomie Traitement automatique des langues Code D2-50140 T-59200 D2-53400 D5-46100 T-28000 T-59200 Forme pneumopathie appendico pneumopathie appendicite pneumo appendice T Hamon Introduction Phon´ etique Morphologie M´ethode : 2.1 Induction des r`egles {pneumonie, pneumopathie} {appendice, appendico} {pneumoconiose, pneumopathie} {appendice, appendicite} {pneumopathie, pneumo} {appendicectomie, appendice} Traitement automatique des langues ⇒ ⇒ ⇒ ⇒ ⇒ ⇒ nie/pathie e/o coniose/pathie e/ite pathie/ ectomie/e T Hamon Introduction Phon´ etique Morphologie M´ethode : 2.2 Induction de nouvelles paires de formes e/ite (← {appendice, appendicite}) =⇒ {cellule, cellulite}, {enc´ephale, enc´ephalite}, {myose, myosite}, {parodonte, parodontite} e/ectomie (← {appendice, appendicectomie}) =⇒ {masto¨ıde, masto¨ıdectomie} Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie M´ethode : 2.3 Cr´eation de familles morphologiques Regroupement sur : la chaˆıne de caract`eres initiale commune un mot commun appendic=⇒ appendice, appendico, appendicite, appendiculaire, appendicectomie Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Gain des donn´ees `a la g´en´eralisation Augmentation des paires de mots et des familles Jusqu’`a 644 % de donn´ees en plus [HIE] Donn´ees [STD] sont les plus volumineuses Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Pr´ecision des connaissances morphologiques induites ´ Evaluation manuelle, ´echantillonage en anglais Toujours sup´erieure `a 90 % Moins ´elev´ee lors de la g´en´eralisation, sauf avec [HIE] Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Rappel des paires de mots induites (anglais) ´ ements de connaissances El´ Paires de mots Flexion Affixation Flexion Affixation M´ethode 25 740 2 697 2 973 lvg Rappel 85,3 % 75,8 % 2 697 2 973 91,2 % 79,2 % Comparaison avec les donn´ees g´en´er´ees par lvg d’UMLS avec transitivit´e dans une famille morphologique, chaˆıne initiale commune >= 4 caract`eres, Rappel pour les flexions : 91,2 % Rappel pour les affixations : 79,2 % Compositions non trait´ees dans lvg Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Bilan G´en´eralisation de r`egles → Augmentation du rappel R´etroacquisition → Haute pr´ecision des couples de mots Relations synonymiques, hi´erarchiques et transversales Noyau commun : affixation et flexion Diff´erence : composition Appliqu´e au fran¸cais, `a l’anglais et au russe Appliqu´e aux donn´ees brutes, ´etiquet´ees et lemmatis´ees → S´eparation en flexion, affixation, conversion et composition Ajustement des segments de mots Application `a un autre domaine : agriculture Paires de mots, familles, “ pr´efixes ”, “ suffixes ”, “ r`egles ” Traitement automatique des langues T Hamon Introduction Phon´ etique Morphologie Discussion Silences : Bases allomorphes et suppl´etives : estomac, stomacal foie, h´epatique Faible couverture le nombre de termes dans une terminologie est limit´e Longueur de la chaˆıne initiale commune la base est parfois plus courte Bruit : Ambigu¨ıt´e des caract`eres initiaux article, articulaire; postmature, postprandial Traitement automatique des langues T Hamon
© Copyright 2024 ExpyDoc