Traitement automatique des langues [.5ex] subtitle

Introduction
Phon´
etique
Morphologie
Traitement automatique des langues
Master Informatique BioMedicale – Universit´
es Paris 5 et Paris 13
http://perso.limsi.fr/hamon/P5/M2IBM-TAL-20142015/
Thierry Hamon1 et Natalia Grabar2
(1) LIMSI-CNRS &
Institut Galil´
ee - Universit´
e Paris 13
[email protected]
(2) UMR CNRS 8163 STL, Universit´
e Lille3
[email protected]
9 octobre 2014
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Planning
Cours en concertation avec les cours de Terminologies et de
Indexation Automatique
Planning du cours de TAL :
Jeudi 9 octobre, toute la journ´ee
Lundi 13 octobre, toute la journ´ee
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Les grands d´ebuts
Les ann´ees 1950 (guerre froide)
Traduction automatique: automatisation de la traduction
d’une langue vers une autre
Environ $20 millions investis en 10 ans
Test:
The spirit is willing, but the flesh is weak
⇒ Russe ⇒ Anglais
The whisky is strong, but the meat is rotten
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Dessous linguistiques
Dictionnaire ´electronique
Substitution de mots ´equivalents dans la langue cible
transfert lexical
Ordre syntaxique des mots
Probl´ematiques:
Ambigu¨ıt´es, polys´emies, ...
Structures syntaxiques complexes
Relations s´emantiques
Anaphores, ...
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
The ”ALPAC report”
En 1966, par the US National Academy of the Sciences
Y. Bar-Hillel
La bonne qualit´e ou l’automatisation compl`ete ne peuvent pas
ˆetre atteintes
L’automatisation compl`ete n’est pas souhaitable
coˆ
uts ´eventuellement plus ´elev´es qu’avec les traducteurs
humains
Recommandation:
mettre plus d’effort dans la recherche en linguistique
qu’elle contribue ou non `
a la traduction automatique
directement
=⇒ D´ebut des travaux en TAL
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Contributions
Un domaine interdisciplinaire:
math´ematiques:
logique
th´eorie des langages
probabilit´es
informatique
algorithmique
g´enie logiciel
linguistique
param`etres phonologiques
grammaire g´en´erative
syntaxe structurale
philosophie du langage
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
R´epartitions
R´eparti dans les deux disciplines :
1960 Linguistique informatique
Focalis´ee sur les th´eories math´ematiques, linguistiques
1965 Traitement automatique des langues
Focalis´ee sur les outils
1970 Natural Language Understanding (AI)
approches cognitives
T. Winograd, M. Minski, J. Allen, ...
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
50 ans plus tard
Phon´etique, phonologie, prosodie
Morphologie
Syntaxe
S´emantique
Pragmatique
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Morphologie
Syntaxe
Sémantique
Ressources
prononciation
syllabation
prosodie
flexion
dérivation
composition
lexiques
syntaxiques
réseaux sémantiques
lexiques sémantiques
terminologies
lexique.org, ...
MorTAL, Celex, ...
LTAG, FTAG, LFG, ...
WordNet, DEC, ...
Tâches
50 ans plus tard
Reconnaissance vocale
Génération vocale
(text speech)
Phonétique
Etiquetage morpho−syntaxique
Analyse syntaxique
Chunking
Applications
Segmentation morphologique
Analyse morphologique
Reconnaissance de la parole
Dialogue homme−machine
Correction orthographique
Génération automatique
bulletins meteo, comptes−rendus, ...
Stylistique
Pragmatique
règles désambiguisation
Extraction des unités de sens
simples, complexes
Détection de relations
Décomposition en primitives
Recherche de définitions
Structure de textes
Anaphore
Communication
Constitution de ressources
Linguistique des corpus
Terminologies
Ontologies
Analyse statistique de données textuelles
Résumé automatique
TA (Traduction automatique)
TAO
Génération sens−texte
Génération automatique de textes
EI (Extraction d’information)
QR (Question/Réponses)
RI (Recherche d’information)
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
France
ATALA: Association pour le traitement automatique des
langues
TAL: revue
TALN, RECITAL, TALS, TALC, JEP, ...: conf´erences
Site Web : http://www.atala.org
Liste de diffusion : ln
Fili`eres de formations
Nombreux laboratoires
Besoins en entreprise
Enjeux toujours r´eels
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
International
ACL: Association for computational linguistics
ACL, JNLE, ...: revues
ACL, COLING, EACL, NAACL, LREC, ...: conf´erences
Site web : http://www.aclweb.org
Liste de diffusion : LinguistList
De tr`es nombreuses universit´es
Besoins en entreprise
Enjeux toujours r´eels
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Interop´erabilit´e s´emantique
Capacit´e des syst`emes informatiques `a:
´echanger des informations
assurer que l’information communiqu´ee par un syst`eme
soit correctement interpr´et´ee
et utilis´ee par le syst`eme receveur
Coˆ
ut industriel tr`es ´elev´e
montant net de 77.8 billion $ par ann´ee (sant´e)
(Walker, 2005)
1 billion $ / ann´ee / constructeur (construction auto)
(Brunnermeier, 1999)
⇒ Utilisation de terminologies et de lexiques
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Quelques exemples
an´evrisme – An´evrisme
an´evrisme – anevrisme
an´evrisme – an´evrysme
an´evrisme – an`evrisme
an´evrisme – an´evrise
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Quelques exemples
st´enose de l’aorte – aorte st´enotique
ligne directrice – recommandations
oculiste – ophtalmologue
maladie de Weber-Christian – maladie de
Pfeifer-Weber-Christian
airbag – coussin de s´ecurit´e – coussin gonflable
infarctus du myocarde – crise cardiaque
rhagade – crevasse
acetone anabolism – acetone biosynthesis
renal failure – kidney failure
pulmonary fibrosis – lung cancer
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Quelques exemples
Aspect de leuc´emie aigu¨e de
type LAM2
Elle met en ´evidence une
double st´enose serr´ee de
l’interventriculaire ant´erieure
distale mod´er´ement calcifi´ee
interaction
entre
m´edicaments et alimentation
st´enose carotidienne gauche
kyste du rein
st´enose valve aorte
Il s’agit d’un patient dyslipid´emique qui pr´esente une
h´er´edit´e coronaire et qui est
un ancien tabagique
Traitement automatique des langues
2904HM : LAM0, LAM1, LAM2
(leuc´emie aigu¨e my´eloblastique)
St´enose de l’art`ere interventriculaire
ant´erieure
INTERACTION
MEDICAMENT
ALIMENT-
4331CC : St´enose, obstruction, ath´erome
ou embolie de l’art`ere carotide, sans infarctus c´er´ebral
REIN KYSTIQUE
STENOSE AORTIQUE VALVULAIRE
Facteur de risque cardiovasculaire
T Hamon
Introduction
Phon´
etique
Morphologie
Plusieurs niveaux d’analyse des textes
Phon´etique
Morphologie
(niveau morpho-syntaxique)
Syntaxe
S´emantique
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Phon´etique et Phonologie
´
Phon´etique: Etude
des sons de la parole appel´es phones
´
Phonologie: Etude des sons `a valeur linguistique, phon`emes
en relation avec un signifi´e
Les traits phoniques sont appr´ehend´es par rapport `a leur
valeur distinctive
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
API: Alphabet Phon´etique International
Alphabet utilis´e pour la transcription phon´etique des sons du
langage parl´e
L’API est pr´evu pour couvrir l’ensemble des langues du monde
D´evelopp´e par des phon´eticiens britanniques et fran¸cais
Publi´e en 1888
Derni`ere r´evision: 2005
Un jeu de caract`eres Unicode permet d’´ecrire l’ensemble de
l’API
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
D´emonstrateurs
1
www.research.att.com/~ttsweb/tts/demo.php
2
cepstral.com/demos
3
www.oddcast.com/home/demos/tts/tts_example.php?
sitepal
4
festvox.org/voicedemos.html
5
www.hon.ch/HONcode/Conduct.html
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Recherche phon´etique
1
TLFi
2
Tr´esor de la Langue Fran¸caise informatis´e
3
http://atilf.atilf.fr/tlf.htm
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Morphologie
Formation et variation des lex`emes
1
Types d’op´erations morphologiques
2
Traitement automatique de formations morphologiques
3
Ressources morphologiques disponibles
4
Acquisition de ressources morphologiques
5
Analyse morphologique
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Types d’op´erations morphologiques
Flexion
Affixation
Conversion
Composition
Suppl´etion
Composition cach´ee
Mots valises
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Flexion
Variation des lex`emes
D´esinences, flexions
Lors de l’insertion dans les phrases
Nombre : {st´enose, st´enoses}
Genre : {muqueux, muqueuse}
Personne, temps, mode, etc. : verbes
{lemme, forme fl´echie}
Lemme : forme canonique
forme citationnelle (dictionnaires)
Information de base pour l’annotation syntaxique des textes
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Affixation ou d´erivation
Formation de lex`emes
Base morphologique
Affixes : pr´efixes, suffixes
Souvent : changement de la cat´egorie syntaxique
Suffixation:
{cellule/Nom, cellulaire/Adj}
{bronche/Nom, bronchique/Adj}
Pr´efixation:
{grippe/Nom, antigrippe/Adj}
{coudre/Ver, d´ecoudre/Ver}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Affixation ou d´erivation
{cellule/Nom, cellulaire/Adj}
-aire: adjectivation d´enominale
base: nom
suffixes: -aire, -ique, -al, -el, -eux, -ien
glose: Relatif `a N
cellulaire: Relatif `a la cellule
{penser/Ver, pensable/Adj}
-able: adjectivation d´everbale
base: verbe
suffixe: -able
glose: qu’il est possible de V
pensable: qu’il est possible de penser
+ contrainte phonologique
– {cellule/Nom, cellulal/Adj}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Conversion
Formation de lex`emes
Non affixal
Changement de la cat´egorie syntaxique
Adj → Nom:
{muqueuse/Adj, muqueuse/Nom}
{alcoolique/Adj, alcoolique/Nom}
Adj → Ver:
{blanc, blanch(ir)}
Nom → Ver:
{l´ezard/Nom, l´ezard(er)/Ver}
{serpent/Nom, serpent(er)/Ver}
Ver → Nom:
{vol(er), vol}
Besoin de l’´etiquetage syntaxique
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Composition
Formation de lex`emes
Combinaison de composants (racines)
Composition populaire :
m´edecin-g´en´eraliste, hˆ
opital-ville
Composition savante :
leuc´emie, an´evrismorraphie, gastroent´erite
Proc´ed´e productif dans le domaine m´edical
Formations souvent opaques
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Suppl´etion
Formation de lex`emes
Utilisation d’unit´es d’origine ´etrang`ere
grec, latin
Substitution aux unit´es d’origine fran¸caise
{foie/Nom, h´epatique/Adj}
{estomac/Nom, gastrique/Adj}
{queue/Nom, caudal/Adj}
Formations opaques
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Composition cach´ee
Formation de lex`emes
Un lex`eme est tronqu´ee
Un autre lex`eme est tronqu´e ou non
Les deux gardent leur contenu s´emantique
Formations sur handicap:
handi-contact, handiplace, handivie, handimag, handitel,
handiscol
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Mots valises
Formation de lex`emes
Patrons bas´es sur des segments phonologiques
identiques ou similaires Σ
AΣ ΣB ⇒ AΣB
AΣ BΣ ⇒ ABΣ
AΣ BΣB 0 ⇒ AΣB 0
Traitement automatique des langues
m´etropole politique ⇒ m´etropolitique
potiron marron ⇒ potimarron
hippie ´epid´emie ⇒ hippid´emie.
T Hamon
Introduction
Phon´
etique
Morphologie
Allomorphie
Variations phonologiques et formelles
d´eclench´ees par des contextes morphologiques
Partiellement pr´edictible par les r`egles de formation
Les allormorphies s’appliquent aux morph`emes
Les allormorphies sont d´eclench´ees par des morph`emes
post´eriorisations phoniques d´eclench´ees par certains suffixes:
{abdomen/Nom, abdominal/Adj}
{aborig`ene, aboriginal/Adj}
{mer/Nom, marin/Adj}
{heure/Nom, horaire/Adj}
transformation de /ai/ en /a/ d´eclench´e par -ien:
{ovaire/Nom, ovarien/Adj}
{coronaire/Nom, coronarien/Adj}
{urticaire/Nom, urticarien/Adj}
{roche/Nom, rupestre/Adj}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Traiter ces formations
D´esuffixation (d´esuffixeurs, stemmers)
Lemmatisation
Ressources morphologiques motiv´ees linguistiquement
Exceptions
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Objectifs
Besoin de d´etecter les contenus similaires ou identiques
mˆeme si les formes sont diff´erentes
Contextes:
Recherche d’information
Extraction d’information
Matching de terminologies
...
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
D´esuffixation/Stemming
Les outils de suppression de suffixes :
suffixe le plus long, avec reconstitution de la finale (Lovins,
1968)
magnesia =(ia/)⇒ magnes =(s/s)⇒ magnes
magnesite =(ite/)⇒ magnes =(s/s)⇒ magnes
magnetize =(ize/)⇒ magnet =(t/t)⇒ magnet
magnetometry =(y/)⇒ magnetometr =(tr/ter)⇒
magnetometer
suppressions it´eratives et contextuelles de suffixes (Porter,
1980)
feudalism =(alism/al)⇒ feudal =(al/)⇒ feud
general, generous, generation, generic ⇒ gener
⇒ Adapter les r`egles au domaine de sp´ecialit´e
Affixation, conversion, suppl´etion, composition
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
D´esuffixation
Mise au singulier
Suppression de s finaux
+ {suffixes, suffixe}, {r`egles, r`egle}, {tables, table}, ...
- {analysis, analysi}, {was, wa}, {generous, generou}, ...
? {g´en´eraux, g´en´eraux}, {finaux, finaux}, {finals, final},
{bordeaux, bordeaux}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
D´esuffixation
Snowball stemmers (Porter)
snowball.tartarus.org
Langues romanes:
fran¸cais, espagnol, portugais, italien, roumain
Langues germaniques:
allemand (une variate), n´eerlandais
Langues scandinaves:
su´edois, norv´egien, danois
Autres:
russe, finnois, hongrois, turque
Java, C, Python
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Lemmatisation
montre
racine + d´esinence → lemme ,
cat,
montre
montre
N
fs
montr-
e
montrer
montrer
montrer
montrer
montrer
V
V
V
V
V
Ind P 1s
Ind P 3s
Sub P 1s
Sub P 3s
Imp P 2s
traits
Connaissances : racine → classe de flexion
Classe de flexion : ensemble des d´esinences utiles pour une famille
de racines
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Lemmatisation
INTEX/Unitex : DELAF vs DELAS
Lexique de formes fl´echies
DELAF
cˆalin,cˆalin.A:ms
cˆaline,cˆalin.A:fs
cˆalins,cˆalin.A:mp
cˆalines,cˆalin.A:fp
Lexique de formes canoniques
DELAS
Traitement automatique des langues
cˆalin,A32
T Hamon
Introduction
Phon´
etique
Morphologie
Lemmatisation
INTEX/Unitex: Classes de flexion
Algorithme de g´en´eration des entr´ees fl´echies
cˆalin +
<E>
ms
e
fs
s
mp
es
fp
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Lemmatisation
Classes de flexion : autre exemple
Exemple : beau belle beaux belles
DELAS : beau,A72 +
au
ms
LL
lle
fs
aux
mp
lles
fp
beau,beau.A:ms
belle,beau.A:fs
beaux,beau.A:mp
/silberz/Textes/Habilitation/beau
belles,beau.A:fp
Mon Sep 23 15:53:20 1996
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Analyse morphologique
D´etection de fronti`eres de constituants dans un lex`eme
Segmentation en constituants
´
Etablissement
de d´ependances entre les constituants
=⇒ Processus de construction d’un lex`eme
=⇒ Construction du sens du lex`eme
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Analyse morphologique
Danielle Corbin, Morphologie d´erivationnelle et structuration du
lexique, Presse universitaire de Lille, 1987, 2 v.
Franlex
perso.limsi.fr/jacquemi/FRANLEX/
Derif
www.univ-nancy2.fr/pers/namer/
Fiammetta Namer, Acquisition automatique de sens `a partir
d’op´erations morphologiques en fran¸cais : ´etude de cas. In
Proc Traitement Automatique de la Langue Naturelle
(TALN), 2002, p. 235-244.
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Analyse morphologique
XN ique : Relatif `a X
aortique, gastrique, ent´erique
XV able : Qui peut ˆetre X
conservable, buvable, discible
XV eur : Agent qui X
op´erateur, solidifieur, fondateur
(((solideA )ifierV )eurN )
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques
⇒ Trouver les r`egles morphologiques
⇒ Trouver les ressources disponibles
Souvent en forme de couples
{lemme, forme fl´echie}
{base, affixation}
etc.
Si elles n’existent pas : constituer
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques motiv´ees linguistiquement
Flexion
Affixationg
Affixationm
Suppl´etion
Conversion
Compositionm
{an´evrisme, an´evrismes}
{feuille, feuillu}
{an´evrisme, an´evrismal}
{estomac, gastrique}
{muqueuse/Adj, muqueuse/Nom}
{an´evrisme, an´evrismorraphie}
En.
++
++
++
++
?
–
De.
++
++
∼
∼
?
–
Fr.
++
∼
∼
∼
∼
∼
⇒ Constituer des ressources morphologiques
Affixation, conversion, suppl´etion, composition
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
Liste de mots de l’ABU :
abu.cnam.fr/DICO/
Liste de mots du corpus Frantext :
www.lexique.org
Dictionnaires du LADL :
www-igm.univ-mlv.fr/~unitex/linguistic_data.html
...
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
ABU
Mots communs (+300000 mots)
abdomen
abdomen
Nom:Mas+SG
abdomens
abdomen
Nom:Mas+PL
abdominal
abdominal
Adj:Mas+SG
abdominale abdominal
Adj:Fem+SG
abdominales abdominal
Adj:Fem+PL
abdominaux abdominal
Adj:Mas+PL
abdominaux abdominaux Nom:Mas+PL
Pr´enoms (12437 pr´enoms)
Nom de cit´es fran¸caises (39076 noms)
Nom de pays (170 pays)
Difficult´es de la langue
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
Lexique.org (www.lexique.org)
Lexique des mots du fran¸cais
Description phonologique et linguistique
7 bases de donn´ees interrogeables simultan´ement:
Base de pr´enoms avec leur sexe, langage d’utilisation et
frequence
Anagrammes de tous les mots de Lexique
Voisins orthographiques et leur fr´equence
Mots et non-mots (incluant les noms propres, les
onomatop´ees, etc.) de Frantext et leurs fr´equences
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
Lexique.org (www.lexique.org)
Outils:
Moteur de recherche en ligne permettant d’interroger Lexique
Environnement hors-ligne d’interrogation de Lexique
Environnement unix simplifi´e pour Windows (9X, 2000, XP) et
le traitement de bases de donn´ees
Awk, Perl, Bash, Textutils, Sed, Wget, etc
Exemples de scripts perl et awk pour r´ealiser des tˆaches
courantes en psycholinguistique/linguistique
Documentation sur comment utiliser les outils GNU en
psycholinguistique/linguistique
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
Lexique.org (www.lexique.org)
135 000 mots
55 000 lemmes
fr´equences dans Frantext
genre, nombre, cat´egorie grammaticale
repr´esentation phonologique
nombre de phon`emes, de lettres
point d’unicit´e
structure orthographique ou phonologique abstraite
forme syllab´ee
nombre de voisins orthographiques et phonologiques
famille flexionnelle des lemmes
fr´equence cumul´ee des lemmes
distribu´ee sous licence GNU-like
fr´equences des lettres, phon`emes, bigrammes, trigrammes,
syllabes
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Ressources morphologiques disponibles
Lexique.org (www.lexique.org)
accessoires
akseswaR
accessoire
NOM
m
p
VCCVCCVVCVC
VCCVCYVC
ak-se-swaR
3
VC-CV-CYVC
seriossecca
Rawseska
ac-ces-soi-res
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
UMLS/UMLF
UMLS (Unified medical language system)
Metathesaurus
R´eseau s´emantique
Ressources lexicales
Outils (norm, lvg, MetaMap)
UMLF (Unified medical language for French)
Ressources lexicales
Partenaires fran¸cais et suisses
Inclus dans l’UMLS (au niveau des termes)
Disponibles publiquement (recherche)
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Acquisition de ressources morphologiques
`a partir de dictionnaires (Krovetz, 1993 ; Hathout, 2001)
`a partir de corpus (Xu & Croft, 1998 ; Zweigenbaum et al.,
2003)
`a partir de thesaurus et corpus (Jacquemin, 1997)
`a partir de couples de suffixes et leurs fr´equences (Gaussier,
1999)
approches distributionnelles (D´ejean, 1998 ; Schone et al.,
2001)
algorithmes d’apprentissage (van den Bosch et al,. 1996 ;
Pirrelli & Yvon, 1999 ; Theron & Cloete, 1997)
`a partir des r`egles de formation des lex`emes (Dal et al., 1999 ;
Berche et al., 1997 ; Viegas et al., 1996)
`a partir des s´eries de termes reli´es s´emantiquement d’un
thesaurus (Grabar & Zweigenbaum, 1999)
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Acquisition `a partir de dictionnaires
Exploitation du contenu des entr´ees dictionnairiques
entr´ee
informations grammaticales, etc.
d´efinition(s)
CARTOGRAPHIE, subst. f´em.:
Th´eorie et technique de l’´etablissement des cartes
g´eographiques; r´ealisation des cartes
⇒ {cartographie, cartes}
DIPLOMATIQUE, adj.:
´
Relatif `a la diplomatie, aux relations politiques entre Etats
⇒ {diplomatique, diplomatie}
SCOLAIRE, adj.:
Relatif aux ´ecoles, `a l’enseignement qu’on y dispense, aux
personnes qui les fr´equentent
⇒ {scolaire, ???}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Acquisition `a partir de corpus
Hypoth`ese psycholinguistique
Exploitation des co-occurrences des mots
contexte s´emantique fort
Mesure statistique d’attirance (facteur de vraisemblance)
Chaˆıne de caract`eres minimale commune
{handicap, handimag}, {st´enoses, st´enose},
{chapeau, chapelle}, {chrome, chronique}
Validation n´ecessaire
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Approche distributionnelle
Aux fronti`eres des morph`emes
on trouve une plus grande variabilit´e de caract`eres
Analyse de mots commen¸cant par direcdirec- peut ˆetre suivi uniquement de t
⇒ pas de fronti`ere morphologique
direct- peut ˆetre suivi de i, l, o et e
(comme dans direction, directly, director ou directed)
⇒ il y a une fronti`ere morphologique
Enrichir la liste d’affixes
Alternance d’affixes
light:
lighted, lightly
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
` partir des r`egles, analogie
A
Exploitation de l’analogie dans la langue
Dans un 4-tuple de type eat:eater = cheat:X
Calcul de la forme manquante X
eat:eater
⇒ {, er}
=⇒ cheat:cheater
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
` partir des s´eries de termes reli´es s´emantiquement
A
Deux mots sont reli´es morphologiquement s’ils partagent
un ´el´ement morphologique commun.
Heuristiques :
Deux mots sont reli´es morphologiquement si :
ils partagent une chaˆıne de caract`eres initiale
commune, et
ils apparaissent dans un contexte
s´emantiquement contraint
⇒ Alignement de mots dans des s´eries de termes reli´es par des
relations de synonymie, d’hyperonymie ou transversales
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Relations s´emantiques
Relations synonymiques
synonyme
synonyme
synonyme
D2-50140 : pneumonie ; pneumopathie inflammatoire
→ {pneumonie, pneumopathie}
T-59200 : appendice vermiculaire ; appendico
→ {appendice, appendico}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Relations s´emantiques
Relations hi´erarchiques
Relations transversales
D2-53000 pneumoconiose >
D2-53400 pneumopathie li´
ee `
a l’inhalation de poussi`
ere
→ {pneumoconiose, pneumopathie}
D5-46000 maladie de l’appendice >
D5-46100 appendicite
→ {appendice, appendicite}
D2-50140 pneumopathie inflamma
T-28000 pneumo
→ {pneumopathie, pneumo}
P1-57450 appendicectomie 7→
T-59200 appendice vermiculaire
→ {appendicectomie, appendice}
⇒ Les s´eries de termes reli´es s´emantiquement comportent
des mots et des ´elements reli´es morphologiquement
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Mat´eriel
S´erie de termes reli´es s´emantiquement :
Fran¸cais : SNOMED, CIM-10
Anglais : SNOMED, ICD-9-CM, ICD-10
Russe : SNOMED as obtained from 1999 UMLS
Metathesaurus (strings (SUI) with source vocabulary (SAB)
SNMI98, ICD99 and ICD10)
Liste de r´ef´erence de formes de mots :
Fran¸cais : mots de la SNOMED et de la CIM-10
Anglais : mots de la SNOMED et de la ICD-9-CM
Russe : mots de la SNOMED
´
Evaluation
: lvg d’UMLS comme r´ef´erence :
1
2
lvg -m -fi : g´en´eration des flexions
lvg -m -fRf : g´en´eration des affixations
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode en deux ´etapes
1
Amor¸cage :
alignement de mots reli´es morphologiquement dans les termes
reli´es s´emantiquement
2
G´en´eralisation :
induction de r`egles et application `a des donn´ees plus larges
s´eries de synonymes
s´eries de synonymes ´etiquet´ees et lemmatis´ees
autres relations s´emantiques
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 1.1 Alignement des termes
S D2-50140 : pneumonie ; pneumopathie inflammatoire
T-59200 : appendice vermiculaire ; appendico
H D2-53000 pneumoconiose >
D2-53400 pneumopathie li´
ee `a l’inhalation de poussi`ere
D5-46000 maladie de l’appendice >
D5-46100 appendicite
T D2-50140 pneumopathie inflammatoire 7→
T-28000 pneumo
P1-57450 appendicectomie 7→
T-59200 appendice vermiculaire
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 1.2 Alignement des formes
Code
D2-50140
T-59200
D2-53000
D5-46000
D2-50140
P1-57450
Traitement automatique des langues
Forme
pneumonie
appendice
pneumoconiose
appendice
pneumopathie
appendicectomie
Code
D2-50140
T-59200
D2-53400
D5-46100
T-28000
T-59200
Forme
pneumopathie
appendico
pneumopathie
appendicite
pneumo
appendice
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 1.3 Segmentation des formes
Code
D2-50140
T-59200
D2-53000
D5-46000
D2-50140
P1-57450
Forme
pneumonie
appendice
pneumoconiose
appendice
pneumopathie
appendicectomie
Traitement automatique des langues
Code
D2-50140
T-59200
D2-53400
D5-46100
T-28000
T-59200
Forme
pneumopathie
appendico
pneumopathie
appendicite
pneumo
appendice
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 2.1 Induction des r`egles
{pneumonie, pneumopathie}
{appendice, appendico}
{pneumoconiose, pneumopathie}
{appendice, appendicite}
{pneumopathie, pneumo}
{appendicectomie, appendice}
Traitement automatique des langues
⇒
⇒
⇒
⇒
⇒
⇒
nie/pathie
e/o
coniose/pathie
e/ite
pathie/
ectomie/e
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 2.2 Induction de nouvelles paires de formes
e/ite (← {appendice, appendicite})
=⇒ {cellule, cellulite}, {enc´ephale, enc´ephalite}, {myose,
myosite}, {parodonte, parodontite}
e/ectomie (← {appendice, appendicectomie})
=⇒ {masto¨ıde, masto¨ıdectomie}
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
M´ethode : 2.3 Cr´eation de familles morphologiques
Regroupement sur :
la chaˆıne de caract`eres initiale commune
un mot commun
appendic=⇒ appendice, appendico, appendicite, appendiculaire,
appendicectomie
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Gain des donn´ees `a la g´en´eralisation
Augmentation des paires de mots et des familles
Jusqu’`a 644 % de donn´ees en plus [HIE]
Donn´ees [STD] sont les plus volumineuses
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Pr´ecision des connaissances morphologiques induites
´
Evaluation
manuelle, ´echantillonage en anglais
Toujours sup´erieure `a 90 %
Moins ´elev´ee lors de la g´en´eralisation, sauf avec [HIE]
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Rappel des paires de mots induites (anglais)
´ ements de connaissances
El´
Paires de mots
Flexion
Affixation
Flexion
Affixation
M´ethode
25 740
2 697
2 973
lvg
Rappel
85,3 %
75,8 %
2 697
2 973
91,2 %
79,2 %
Comparaison avec les donn´ees g´en´er´ees par lvg d’UMLS
avec transitivit´e dans une famille morphologique,
chaˆıne initiale commune >= 4 caract`eres,
Rappel pour les flexions : 91,2 %
Rappel pour les affixations : 79,2 %
Compositions non trait´ees dans lvg
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Bilan
G´en´eralisation de r`egles → Augmentation du rappel
R´etroacquisition → Haute pr´ecision des couples de mots
Relations synonymiques, hi´erarchiques et transversales
Noyau commun : affixation et flexion
Diff´erence : composition
Appliqu´e au fran¸cais, `a l’anglais et au russe
Appliqu´e aux donn´ees brutes, ´etiquet´ees et lemmatis´ees
→ S´eparation en flexion, affixation, conversion et composition
Ajustement des segments de mots
Application `a un autre domaine : agriculture
Paires de mots, familles, “ pr´efixes ”, “ suffixes ”, “ r`egles ”
Traitement automatique des langues
T Hamon
Introduction
Phon´
etique
Morphologie
Discussion
Silences :
Bases allomorphes et suppl´etives :
estomac, stomacal
foie, h´epatique
Faible couverture
le nombre de termes dans une terminologie est limit´e
Longueur de la chaˆıne initiale commune
la base est parfois plus courte
Bruit :
Ambigu¨ıt´e des caract`eres initiaux
article, articulaire; postmature, postprandial
Traitement automatique des langues
T Hamon