Conception et Réalisation d’un lemmatiseur hybride de texte arabe CHERAGUI Mohamed Amine CHOUGUEUR Djilali Département des Mathématiques et Informatique Université Ahmed Draya Adrar, Algérie [email protected] Département des Mathématiques et Informatique Université Ahmed Draya Adrar, Algérie [email protected] Résumé— Le traitement automatique de la langue arabe (TALA) a connu ces dernières décennies une véritable ascension, laissant naître une panoplie de produits spécialisés comme: la traduction automatique, les correcteurs orthographiques d'erreurs, les générateurs de mots, les résumeurs automatiques, …etc. Cependant le développement de tels outils passe par la mise en place d'un certain nombre de modules d'une importance capitale tel que la lemmatisation automatique, qui consiste à convertir chaque unité (mot) à sa forme canonique1. Le but de cet article est de présenter notre système STAR, qui est un lemmatiseur automatique de texte arabe, où l'originalité de ce travail réside dont le fait de cohabiter trois (03) approches (par dictionnaire, suppression des affixes et analyse morphologique). Mots clés : lemmatisation; segmentation; langues arabe ; lemme ; Racine ; approches de lemmatisation. I. savoir la lemmatisation, en se focalisant sur les points suivants: le principe de la lemmatisation, caractéristiques de la langue arabe, les démarches de lemmatisation et présentation de l'architecture du système STAR où l’originalité de notre travail réside dont la création d’une approche hybride combinat 3 techniques différentes (Dictionnaire, élimination d’affixes et analyse morphologique) et enfin présentation des résultats obtenus. II. La lemmatisation est une opération qui consiste à transformé un mot éventuellement agglutiné2 ou possédant des marqueurs de dérivation à sa forme canonique (lemme ou racine) [1], [2]. INTRODUCTION Le traitement automatiques des langues naturelle est un domaine de recherche qui se positionne à l'intersection de plusieurs disciplines : Intelligence artificielle, Informatique théorique, calcul statistique, linguistique, …etc. Dont le principal objectif est la conception et le développement de programmes capables de traiter de manière automatique des données linguistiques c'est-à-dire des données exprimées dans une langue dite naturelle. Ces dernières décennies le traitement automatique des langues a connu une véritable ascension que ce soit sur le plan scientifique mais aussi socio-économique est-celà par l'émergence de plusieurs firmes et de produits spécialisés, on parle aujourd’hui : de Traduction automatique, de correction automatique d'orthographe, de résumé automatique, d'interrogation de base de données en langues naturelle, ….etc. [1], [2]. La réalisation de n'importe quelles applications parmi celles citées précédemment passe principalement par différent niveaux (lexicale, morphologique, syntaxique, sémantique et pragmatique) mais aussi par le développement de plusieurs modules important, où la réussite de l'application dépend pleinement de la performance de ces modules LEMMATISATION: PRINCIPES ET DÉFINTIONS Lemme : est un mot graphique dont les affixes (préfixes, infixe et suffixes) ont étés supprimés. Exemple : soit le mot (""العلم, La science), ce dernier est décomposé en préfixe " "الـest lemme ""علم. Racine : le plus souvent trilitère (dans le cas de l'arabe), est une suite de consonnes forment le radical du mot. Exemple : soit le mot (""المدرسة, Ecole) dont la racine est (""درس, D+R+S). III. LA LANGUE ARABE: ENTRE RICHESSE ET COMPLIXITE L'arabe est une langue qui a été particulièrement marquée par l'histoire depuis son apparition au deuxième siècle, elle fait partie de la famille des langues sémitiques. Avec plus de 300 million de locuteurs, l'arabe se positionne à la quatrième place mondiale des langues les plus parlées. Dotée d'une richesse morphologique dû principalement à ses propriétés de dérivation et de flexion forte, tel que à partir d'une racine trilitère (majoritairement) ou quadrilitère on peut créer un nombre important de mot au moyennant des schèmes, comme c’est le cas de la racine "(K+T+B) "كتبà partir de laquelle on peut générer 16 mots représentant 9 catégories grammaticales déférentes [3]. Le but de cet article est de mettre la lumière sur l'un des modules pertinents dans la réalisation de n'importe quelle application en Traitement automatique de la langue arabe à 1 Fome canonique: Lemme ou bien Racine. rs) 2 Processus d’ajout de prefixes et suffixes. rs) Mot Transcription Sens ""كاتب [Kātib] écrivant "" ُكـتب [Kutub] livres ""مكتوب [Maktūb] écrit "" َمـكتب [Maktab ] bureau TABLEAU 1 : Exemple Mots dérivés de la racine ""كتب. (K+T+B). Si cette richesse morphologique est perçue par les linguistes comme un point fort, cette vision n'est pas partagée par les chercheurs qui travaillent sur l'automatisation de la langue arabe elle est même vue comme le point névralgique de plusieurs problèmes comme l'ambiguïté (que se soient morphologique, syntaxique et même sémantique). Ce qui rend le processus de lemmatisation d'une importance primordiale dans la phase d'analyse (reconnaissance de l'appartenance du mot à la langue). IV. TECHNIQUES DE LEMMATISATION Chaque langue naturelle a ses propres caractéristiques et dispositifs. Ainsi, il semble difficile de suivre la même configuration de lemmatisation et d'appliquer les mêmes techniques pour toutes les langues. Une technique de lemmatisation pourrait être pertinente à une langue, alors qu’elle ne peut effectivement l’être pour d’autres langues, et par conséquent elle ne peut être appliquée. Il existe plusieurs techniques utilisées pour la lemmatisation des mots. Parmi ces techniques, on a : à base de dictionnaires, par analyse morphologique, par suppression des affixes, statistiques et par traduction [3], [4]. A. Approche à base dictionnaire Adopter une approche à base de dictionnaire cela consiste à mettre en œuvre une structure de données (Dictionnaire) d'un volume important, dû au fait qu’elle contient en plus des unités reconnues (mots), les parties morphologique qui vont avec (Exemple : racines et affectations). De tel dictionnaire sont développés généralement d'une manière manuelle et pour des langues pauvre morphologiquement [5], [6]. B. Approche par élimination d’affixe La lemmatisation par élimination d'affixes appelée aussi lemmatisation légère (light stemming), consiste principalement à supprimer (tronquer) d'un mot les préfixes et suffixes sans cherché à extraire le schème ou la racine. Dans la littérature dédiée à la lemmatisation par élimination d'affixe on trouve une panoplie d'algorithmes, comme [7] : Algorithme de Lovin, Algorithme de Porter et Algorithme Dawson. C. Approche par analyse morphologique Cette approche plus adaptée à la lemmatisation d'un mot arabe, dû principalement à la richesse morphologique de cette dernière. La technique de lemmatisation par analyse morphologique se base sur l'identification du schème d'un mot (généralement les verbes et Noms dérivables) une fois le schème identifier l'extraction de la racine est réalisée par concaténation des lettres qui correspondent aux positions des lettre radicales dans le schème [8], [4]. D. Approche Statistisque La plupart des lemmatiseurs existant qui se soit à base de dictionnaire, élimination des affixes et par analyse morphologique son généralement spécifique à une langue particulière. L'objective de l'approche statistique est de palier à cette spécialisation en adoptant des techniques qui s'inspirent des calculs stochastiques (Probabilité et Statistique), parmi ces techniques on peut citer [11], [12]: N-gramme et les Chaines Cachées de Markov (HMM). E. Approche par traduction L'idée est d'exploiter les algorithmes développés pour les langues latines et en particulier l'anglais vu que la plupart des algorithmes développé pour cette langue en donnés des résultats convaincants. Le principe de cette approche est de traduire un mot d'une langue source caractérisée par une richesse morphologique (comme l'arabe) vers une langue cible, une fois le processus de lemmatisation accompli, l'opération inverse est effectuée. L'atout majeur de cette approche est de réduire l'inflexion élevée qui existe dans certaines langues [13]. V. CONCEPTION ET ARCHITECTURE DU SYSTEME « STAR3 » Nous présentons dans cette section, la démarche employée pour réaliser notre lemmatiseur automatique de texte Arabe, que nous avons baptisé STAR, toute en spécifiant les différentes phases de traitements. Nous précisons que notre lemmatiseur est conçu sur la base d'une architecture hybride combinant trois (03) approches, qui sont: l'approche par dictionnaire, l'approche par élimination d'affixe et l'approche par analyse morphologique. Figure 1. Architecture générale du lemmatiseur STAR Nous avons envisagé de décomposer la réalisation de notre lemmatiseur LTA en deux (02) modules complémentaires, qui sont : le module de segmentation et le module de reconnaissance et de lemmatisation. A. Le module de segementation La segmentation est la première étape dans le processus d'analyse d'un texte. Elle consiste à identifier les unités 3 STAR: Stemmer for Arabic Texte. rs) constituant le texte, de ce fait le module de segmentation permet de fractionner le texte arabe en trois (03) niveaux, qui sont: 1) La segementation au nivau du texte : Le but de cette étape, c'est de décomposer le texte (ou le paragraphe) en phrases par rapport aux signes de ponctuations. Cependant dans le texte arabe la détection des frontières des phrases est une tâche difficile, car la ponctuation n'est pas systématique et parfois les particules délimitent les phrases. Pour cela, il existe deux (02) approches pour segmenter un texte arabe: Une segmentation basée sur la reconnaissance des marqueurs morphosyntaxiques ou des mots fonctionnels, comme: ""أ, ""و," "حتىet ""لـكن. Une segmentation basée sur les signes de ponctuation majeur, tel que: ".", "?", "!", …etc. Un programme de lemmatisation : capable en premier de faire le lien entre l'unité lexicale et la base de données et ensuite faire le processus de lemmatisation. 1) Le dictionnaire lexical et grammatical : Notre base de données comporte plusieurs unités morpho lexicales, comme: les racines, les schèmes, les mots outils, les mots spéciaux, les préfixes et les suffixes. Figure 4. Représentation du lexique arabe adopté par notre lemmatiseur. 2) La segementation au niveau de la phrase : La segmentation au niveau de la phrase peut être vue comme l'opération la plus simple dans le processus de segmentation globale, elle consiste à décomposer la phrase en segments en éliminant les blancs et les virgules. Exemple: .اصبر على مرارة العمل والكفاح تذق حالوة التوفيق والنجاح Le dictionnaire des racines: Il faut souligner l’existence de plusieurs méthodes de reproduction automatique de lexèmes adaptés à la langue arabe, parmi celles-ci nous proposons une technique propre aux racines trilitères : « le contenu du dictionnaire est obtenu à l’aide d’une procédure de génération automatique tel que ses formes de base qui sont construites par un sous ensemble parmi tous les combinaisons possibles basées sur trois lettres, sachant que l’alphabet arabe comprend vingt-huit lettres (28), nous aurons ( 28*28*28 = 21952 ) éléments ; parmi ces éléments il ne sera utilisé que l’un quart ( ¼ ) environ ( 5600 ) matières, le reste est inutilisable mais en cas de besoin l’ordinateur peut l’exploiter et le traiter ». Le dictionnaire des Schèmes: Le dictionnaire des schèmes représente une importance majeure pour la bonne détermination de la racine à partir de la base obtenue après élimination des affixes. Notre dictionnaire des schèmes comprend plusieurs types selon qu’ils soient de formes nominales ou verbales. Figure 2. Résultat de la segmentation de la phrase. 3) La segmentation au niveau du mot (élimination des affixes) : En arabe un mot peut signifier toute une phrase grâce à sa structure composée, qu’est une combinaison d'éléments de la grammaire (clitique, affixes, racine et schème). La segmentation au sein du mot est l'opération la plus délicate en terme de découpage, parce qu'elle consiste à enlever d'un mot toutes les composantes lexicales et grammaticales. Schème Description Exemple ـفـــعــَـلــَة ْ َمـ Nom de lieu « » اســم المـكان مدرسة ٌفــَـاعــِــل Nom d’agent « » اسم الفاعل كاتب TABLEAU 2. Exemples de schèmes nominaux. Schème ــل َ َ فــَــعــ Figure 3. Résultat de la segmentation au sein du mot. يــَـفــْــعــَــل B. Le module de reconnaissance et de lemmatisation Notre module de reconnaissance et de lemmatisation s’appuie sur : Un dictionnaire lexical et grammatical : cela se traduit par une base de données contenant les unités lexicales et grammaticales de la langue arabe. Description Verbe à l’accompli « » فــعــل مـاضـي مـجـرد Verbe à l’inaccompli « » فــعــل مــضــارع مـجـرد Exemple قرأ يعمل TABLEAU 3. Exemples de schèmes verbaux. Le dictionnaire des mots outils: Les mots outils forment un ensemble de mots qui restent invariable quel que soit le contexte dans lesquels ils sont utilisés. Celui-ci est composé généralement par les noms indéclinables (les pronoms personnels, les démonstratifs, les conjoints, les interrogatifs, les noms de nombres, …etc.) et les particules (affirmatifs, de négations, ….etc.). Le dictionnaire des mots spéciaux: Nous appelons mot spécial un nom qui n’a pas une racine dans la langue arabe. Il est généralement formé par les noms défectifs, c'est-à-dire les noms propres « » اســم عــلــم, (nom de pays « » اســم بــلــد, de continent « » اســم قــارة, de personne « » اســم شــخــصet nom commun « اســم )» جــنــس. En tenant compte des caractéristiques d'agglutination de la langue arabe, le programme de lemmatisation effectue le processus selon deux (02) configurations générant deux (02) algorithmes, qui sont : a) Algorithme de lemmatisation de nom et verbe dérivé : Techniques: Approche par analyse morphologique et approche par élimination d'affixe. Le dictionnaire des préfixes: Les éléments de ce dictionnaire se sont des morphèmes qui rentrent dans la formation des unités en s’ajoutant aux noms et aux verbes et se placent devant la base. Temps Préfixes Accompli أ Inaccompli أ َأفـ َفـ َفـسـ Impératif َأو َلـ َفـلـ َو َولـ َأفـ َفـلـ َألـ َ فـــ َسـ َأو َو TABLEAU 4. Exemples de Préfixes verbaux. Longueur Préfixes أ 1 بــ َفــ َو لــ 3 أبــ َولـل ْـ َلــَكـ فــَلـَلـ ألـ َوالــ 4 َوبـالـ فــَبـالـ َوكــَالـ 2 أفــَـ فــَـالـ أبــالـ أ َوبــالـ 5 Exemple: La figure ci-dessous décrit le processus de lemmatisation du verbe "M" par le système STAR. ك َ فــَـبــ كــَالـ Principe: Soit un mot "M", nous procédons d'abord à une opération de décomposition afin d'extraire la base4, cette dernière sera prise en charge par le programme de lemmatisation qui va essayer de trouver le schème (ou les schèmes) ayant la même longueur que celle-ci, une fois trouver, l'analyseur va ôter du schème la position des trois lettre radicales à savoir: ""ف, " "عet ""ل, suivant la position de ces trois (03) lettres radicales, le programme de lemmatisation va faire une deuxième extirpation qui va permettre d'extraire les lettres radicales composant cette base, puis il va les concaténées. A ce stade du traitement le lemmatiseur va prendre le mot généré par les lettres radicales et il va essayer de les trouver dans le dictionnaire des racines. أ َو أفــَـلـ أكـَـالـ أفَــَبـالـ أفـَـلــلـ TABLEAU 5. Exemples de Préfixes nominaux. Le dictionnaire des suffixes : Les éléments de ce dictionnaire se sont des morphèmes qui rentrent dans la formation des mots, tel qu’ils s’ajoutent aux noms et aux verbes et se placent après la base. Le rôle des suffixes de la langue arabe consiste à terminer le verbe conjugué, accomplir la fonction du complément du verbe ou du nom, former la désinence en reflétant un genre ou un nombre ou les deux à la fois. Longueur 1 2 3 Suffixes ك نـــي كــمــا ــه نــا كــم هــمــا TABLEAU 6. Exemples de Suffixes. 2) Programme de lemmatisation : Le programme de lemmatisation consiste à vérifier l'appartenance d'un mot à la langue puis extraire la racine. Quand l'entité recherchée n'est pas reconnue, il identifie l'erreur est fourni un message négatif ; pour accomplir cette tâche le programme de lemmatisation procède en premier lieu à une segmentation (au sein de l'unité) préalable qui permet le dégagement les composants primaires (Préfixe + Base + Suffixe) constituant cette unité. Figure 5. Exemple de lemmatisation du mot « » استفتح. b) Algorithme d'un mot non dérivé (Mots outils et Mots spéciaux) : Techniques: Approche par dictionnaire et approche par élimination d'affixe. Principe: Un mot non dérivé représente toutes les formes qui ne peuvent pas être générées à partir d'un schème nominal ou verbal. Dans cet ensemble on va regrouper les particules, les mots spéciaux tels que les noms propres et les mots emprunter. Le processus de lemmatisation des mots outils et mots spéciaux se déroule en deux étapes. Etape 1: La première étape est effectuée pour retrouver d'éventuels préfixes et suffixes; Etape 2: Plus allégée parce que le lemmatiseur n'a pas besoin d'extraction de racine mais il fait appel aux tables des mots spéciaux et des 4 Base = Racine + Schème. rs) mots outils pour une simple vérification d'existence (par projection sur la base). VI. RESULTATS ET EXPERIMENTATION Notre système de lemmatisation STAR est développé en Python, le lexique adopté par notre lemmatiseur est répartie en six (06) tables, comme suite: Catégorie du Mot Partie 3 Verbe et Nom 80.56 Mot Spécial 82.62 82.87 Mot outil 85.45 Verbe et Nom 19.35 Mot Spécial 17.38 14.69 Mot outil 14.55 TABLEAU 10. Résultat d’expérimentation « 3ième partie du Corpus ». Lemmatisation Correct (%) Lemmatisation Incorrecte (%) Lemmatisation Correct (%) Lemmatisation Incorrecte (%) Catégorie du Mot Verbe et Nom Mot Spécial Mot outil Verbe et Nom Mot Spécial Mot outil Partie 4 82.08 85.46 84.79 86.84 17.92 14.54 15.21 13.16 TABLEAU 11. Résultat d’expérimentation « 4ième partie du Corpus ». Certaines erreurs ont été générées lors de la phase d’expérimentation due principalement aux points suivants : Ambiguïté segmentale : une mauvaise segmentation conduit souvent à des erreurs lors du processus de lemmatisation. La langue arabe est semi cursive, dans certain cas on peut avoir le vide (espace) dans le mot. Par exemple, le caractère " "وdans le mot (" )"وصلest un caractère original alors que dans le mot (")"وفتح, il s'agit d'une particule de raccordement (""فتح+")"و. Ambiguïté lexicales : c'est le résultat direct de la présence de plusieurs racines ou lemmes pour la même unité. Dans notre cas le système prend la première racine trouvée, ce qui n'est pas une bonne résolution dont certains cas. Pour résoudre ce problème on peut adopter une approche de désambiguïsation statistique pour lever cette confusion. Par Exemple, le mot ()أمسك, on peut avoir plusieurs racines générées à ce mot, comme " "مسكet ""أمس. La lemmatisation erronée de quelques mots empruntés (non arabiques). Par Exemple le mot (فيروس, Virus) projetésur le schème ""فعيول, va générer la racine incorrecte ""فرس. la lemmatisation des verbes faibles (que se soient : l’assimilé, Concave, Défectueux, Lafif) pose énormément de problème dû au fait de l’absence des règles bien établis pour accomplir le procéder de lemmatisation à bien, ainsi il n’existe aucun ouvrage de référence absolu, pour pouvoir adopté des critères qui vont permettre de générer le lemme ou la racine correctement. Par Exemple le verbe Concave (يبيعون,) projeter sur leschèmecorrecte""يفعلون, on va obtenir la racine incorrect ""بيعau lieu de""باع. Figure 6. Interface graphique du Système « STAR ». Lexique Unités Schème Verbal et Nominal 914 Racine 2253 Préfixe 49 Suffixe 24 Mots outils 133 Mots spéciaux 200 TABLEAU 7. Représentation des Statistiques du lexique adopté par le système « STAR ». «« Pour voir l’efficacité de notre approche hybride de lemmatisation, nous avons testé notre système sur plusieurs corpus issus des livres scolaires algérien. Ces corpus contiennent que de mots composés (agglutinés), les résultats obtenu sont représentés dans le tableau ci-dessous, elle concerne essentiellement les mots complexes: Lemmatisation Correct (%) Lemmatisation Incorrecte (%) Catégorie du Mot Verbe et Nom Mot Spécial Mot outil Verbe et Nom Mot Spécial Mot outil Partie 1 79.23 82.98 82.52 85.36 20.77 17.02 17.48 16.64 TABLEAU 8. Résultat d’expérimentation « 1ière partie du Corpus ». Lemmatisation Correct (%) Lemmatisation Incorrecte (%) Catégorie du Mot Verbe et Nom Mot Spécial Mot outil Verbe et Nom Mot Spécial Mot outil Partie 2 75.62 83.14 81.66 86.23 24.38 16.86 14.69 13.77 TABLEAU 9. Résultat d’expérimentation « 2ième partie du Corpus ». La troncature : la suppression des affixes (Exemple le suffixe: ")"ـاتne donne pas toujours le bon lemme.Par exemple, le mot " "السماواتson lemme est " "سماءest non pas ""سماو. VII. CONCLUSION Aujourd'hui la lemmatisation est considérée comme un point de passage obligatoire dans le processus de développement d'une application TALN et son importance devient capitale pour les langues dotées d'une richesse morphologique (dû principalement au processus de dérivation et de flexion), comme c’est le cas pour l'arabe. Le but de cet article été de presenter notre système STAR qui est un lemmatiseur automatique de texte arabe. L'originalité de notre travail réside dans le fait de faire cohabité trois (03) techniques de lemmatisations dans un seul système, dont l'optique d'augmenter la fiabilité de notre système. Malgré le fait qui nous sommes toujours en phase d'expérimentation, les résultats préliminaires obtenus prouvent que l'hybridation est bénéfique (avec une moyenne de 82.96%), tous de même certaines améliorations peuvent être apporté concernant la performance du module de segmentation est le traitement de certains cas particuliers, afin de diminuer le taux d'erreur. REFERENCES [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] M. A. Chéragui, Y. Hoceini et M. Abbas, “A Morphological Analysis of Arabic Language based on Multicriteria Decision Making: TAGHIT System”, IEEE, International Conference On Machine and Web Intelligence, (2010). M. A. Chéragui, Y. Hoceini et M. Abbas, “Une Approche Multicritères pour lever l'ambiguïté Morphologique dans le Texte Arabe » COSI : Colloque d’optiomisation des Systèmes d’Informations, (2010). Chen, A., and Gey, F. Building an Arabic stemmer for information retrieval. In TREC 2002. Gaithersburg: NIST, pp 631-639,( 2002). Hull, D. Stemming Algorithms - A Case Study for Detailed Evaluation. JASIS, 47(1):70-84, (1996). Khoja, S., and Garside, R. “Stemming Arabic Text”, Computer Science Department, Lancaster University. UK, http://www.comp.lancs. ac.uk/computing/users/khoja/ stemmer.ps, (1999). Tuerlinckx, L. “La lemmatisation de l’arabe non classique”, Proceedinges des 7ièmejournées internationales d'analyse des données textuelles, (2004). Wightwick, J. and Gaafar, M., “Arabic verbs and essentials of grammar”. Chicago: Passport Books, (1998). Al Sughaiyer, I. and Al Kharashi, I., “Arabic Morphological Analysis Techniques: A comprehensive survey”. Journal of American Society for Information Science and Technology. Vol 55. Issue3. (2004). Al-Kharashi, I. and Evens, M. W., “Comparing words, stems, and roots as index terms in an Arabic information retrieval system”. JASIS, 45 (8), pp. 548-560, (1994). I. Smirnov. “Overview of stemming algorithms”, Mechanical Translation, (2008). Mayfield J. and McNammee P., “Single N-gram stemming”. Proceedings of th 26th annual international ACM SIGIR conference on Research and development in information retrieval (2003). Melucci M. and Orio N. “A novel method for stemmer generation based on HMM”, Proceedings of twelfth international conference in Information and knowledge management, (2003). Chen, A., and Gey, F., “Building an Arabic stemmer for information retrieval”, In TREC Gaithersburg: NIST, pp 631-639, (2002). El-Dahdah, A., “A Dictionary of Arabic Grammar in Charts and Tables”, Lebanon Library Publishers, (1994) .
© Copyright 2025 ExpyDoc