Paper Title (use style: paper title)

Conception et Réalisation d’un lemmatiseur hybride
de texte arabe
CHERAGUI Mohamed Amine
CHOUGUEUR Djilali
Département des Mathématiques et Informatique
Université Ahmed Draya
Adrar, Algérie
[email protected]
Département des Mathématiques et Informatique
Université Ahmed Draya
Adrar, Algérie
[email protected]
Résumé— Le traitement automatique de la langue arabe (TALA)
a connu ces dernières décennies une véritable ascension, laissant
naître une panoplie de produits spécialisés comme: la traduction
automatique, les correcteurs orthographiques d'erreurs, les
générateurs de mots, les résumeurs automatiques, …etc.
Cependant le développement de tels outils passe par la mise en
place d'un certain nombre de modules d'une importance capitale
tel que la lemmatisation automatique, qui consiste à convertir
chaque unité (mot) à sa forme canonique1. Le but de cet article
est de présenter notre système STAR, qui est un lemmatiseur
automatique de texte arabe, où l'originalité de ce travail réside
dont le fait de cohabiter trois (03) approches (par dictionnaire,
suppression des affixes et analyse morphologique).
Mots clés : lemmatisation; segmentation; langues arabe ;
lemme ; Racine ; approches de lemmatisation.
I.
savoir la lemmatisation, en se focalisant sur les points suivants:
le principe de la lemmatisation, caractéristiques de la langue
arabe, les démarches de lemmatisation et présentation de
l'architecture du système STAR où l’originalité de notre travail
réside dont la création d’une approche hybride combinat 3
techniques différentes (Dictionnaire, élimination d’affixes et
analyse morphologique) et enfin présentation des résultats
obtenus.
II.
La lemmatisation est une opération qui consiste à
transformé un mot éventuellement agglutiné2 ou possédant des
marqueurs de dérivation à sa forme canonique (lemme ou
racine) [1], [2].

INTRODUCTION
Le traitement automatiques des langues naturelle est un
domaine de recherche qui se positionne à l'intersection de
plusieurs disciplines : Intelligence artificielle, Informatique
théorique, calcul statistique, linguistique, …etc. Dont le
principal objectif est la conception et le développement de
programmes capables de traiter de manière automatique des
données linguistiques c'est-à-dire des données exprimées dans
une langue dite naturelle.
Ces dernières décennies le traitement automatique des
langues a connu une véritable ascension que ce soit sur le plan
scientifique mais aussi socio-économique est-celà par
l'émergence de plusieurs firmes et de produits spécialisés, on
parle aujourd’hui : de Traduction automatique, de correction
automatique d'orthographe, de résumé automatique,
d'interrogation de base de données en langues naturelle, ….etc.
[1], [2].
La réalisation de n'importe quelles applications parmi celles
citées précédemment passe principalement par différent
niveaux (lexicale, morphologique, syntaxique, sémantique et
pragmatique) mais aussi par le développement de plusieurs
modules important, où la réussite de l'application dépend
pleinement de la performance de ces modules
LEMMATISATION: PRINCIPES ET DÉFINTIONS
Lemme : est un mot graphique dont les affixes
(préfixes, infixe et suffixes) ont étés supprimés.
Exemple : soit le mot ("‫"العلم‬, La science), ce dernier est
décomposé en préfixe "‫ "الـ‬est lemme "‫"علم‬.

Racine : le plus souvent trilitère (dans le cas de
l'arabe), est une suite de consonnes forment le radical
du mot.
Exemple : soit le mot ("‫"المدرسة‬, Ecole) dont la racine
est ("‫"درس‬, D+R+S).
III.
LA LANGUE ARABE: ENTRE RICHESSE ET COMPLIXITE
L'arabe est une langue qui a été particulièrement marquée
par l'histoire depuis son apparition au deuxième siècle, elle fait
partie de la famille des langues sémitiques. Avec plus de 300
million de locuteurs, l'arabe se positionne à la quatrième place
mondiale des langues les plus parlées.
Dotée d'une richesse morphologique dû principalement à
ses propriétés de dérivation et de flexion forte, tel que à partir
d'une racine trilitère (majoritairement) ou quadrilitère on peut
créer un nombre important de mot au moyennant des schèmes,
comme c’est le cas de la racine "(K+T+B) ‫"كتب‬à partir de
laquelle on peut générer 16 mots représentant 9 catégories
grammaticales déférentes [3].
Le but de cet article est de mettre la lumière sur l'un des
modules pertinents dans la réalisation de n'importe quelle
application en Traitement automatique de la langue arabe à
1 Fome canonique: Lemme ou bien Racine.
rs)
2 Processus d’ajout de prefixes et suffixes.
rs)
Mot
Transcription
Sens
"‫"كاتب‬
[Kātib]
écrivant
"‫" ُكـتب‬
[Kutub]
livres
"‫"مكتوب‬
[Maktūb]
écrit
"‫" َمـكتب‬
[Maktab ]
bureau
TABLEAU 1 : Exemple Mots dérivés de la racine "‫"كتب‬. (K+T+B).
Si cette richesse morphologique est perçue par les linguistes
comme un point fort, cette vision n'est pas partagée par les
chercheurs qui travaillent sur l'automatisation de la langue
arabe elle est même vue comme le point névralgique de
plusieurs problèmes comme l'ambiguïté (que se soient
morphologique, syntaxique et même sémantique). Ce qui rend
le processus de lemmatisation d'une importance primordiale
dans la phase d'analyse (reconnaissance de l'appartenance du
mot à la langue).
IV.
TECHNIQUES DE LEMMATISATION
Chaque langue naturelle a ses propres caractéristiques et
dispositifs. Ainsi, il semble difficile de suivre la même
configuration de lemmatisation et d'appliquer les mêmes
techniques pour toutes les langues. Une technique de
lemmatisation pourrait être pertinente à une langue, alors
qu’elle ne peut effectivement l’être pour d’autres langues, et
par conséquent elle ne peut être appliquée. Il existe plusieurs
techniques utilisées pour la lemmatisation des mots. Parmi ces
techniques, on a : à base de dictionnaires, par analyse
morphologique, par suppression des affixes, statistiques et par
traduction [3], [4].
A. Approche à base dictionnaire
Adopter une approche à base de dictionnaire cela consiste à
mettre en œuvre une structure de données (Dictionnaire) d'un
volume important, dû au fait qu’elle contient en plus des unités
reconnues (mots), les parties morphologique qui vont avec
(Exemple : racines et affectations). De tel dictionnaire sont
développés généralement d'une manière manuelle et pour des
langues pauvre morphologiquement [5], [6].
B. Approche par élimination d’affixe
La lemmatisation par élimination d'affixes appelée aussi
lemmatisation légère (light stemming), consiste principalement
à supprimer (tronquer) d'un mot les préfixes et suffixes sans
cherché à extraire le schème ou la racine. Dans la littérature
dédiée à la lemmatisation par élimination d'affixe on trouve
une panoplie d'algorithmes, comme [7] : Algorithme de Lovin,
Algorithme de Porter et Algorithme Dawson.
C. Approche par analyse morphologique
Cette approche plus adaptée à la lemmatisation d'un mot
arabe, dû principalement à la richesse morphologique de cette
dernière. La technique de lemmatisation par analyse
morphologique se base sur l'identification du schème d'un mot
(généralement les verbes et Noms dérivables) une fois le
schème identifier l'extraction de la racine est réalisée par
concaténation des lettres qui correspondent aux positions des
lettre radicales dans le schème [8], [4].
D. Approche Statistisque
La plupart des lemmatiseurs existant qui se soit à base de
dictionnaire, élimination des affixes et par analyse
morphologique son généralement spécifique à une langue
particulière. L'objective de l'approche statistique est de palier à
cette spécialisation en adoptant des techniques qui s'inspirent
des calculs stochastiques (Probabilité et Statistique), parmi ces
techniques on peut citer [11], [12]: N-gramme et les Chaines
Cachées de Markov (HMM).
E. Approche par traduction
L'idée est d'exploiter les algorithmes développés pour les
langues latines et en particulier l'anglais vu que la plupart des
algorithmes développé pour cette langue en donnés des
résultats convaincants. Le principe de cette approche est de
traduire un mot d'une langue source caractérisée par une
richesse morphologique (comme l'arabe) vers une langue
cible, une fois le processus de lemmatisation accompli,
l'opération inverse est effectuée. L'atout majeur de cette
approche est de réduire l'inflexion élevée qui existe dans
certaines langues [13].
V.
CONCEPTION ET ARCHITECTURE DU SYSTEME
« STAR3 »
Nous présentons dans cette section, la démarche employée
pour réaliser notre lemmatiseur automatique de texte Arabe,
que nous avons baptisé STAR, toute en spécifiant les
différentes phases de traitements. Nous précisons que notre
lemmatiseur est conçu sur la base d'une architecture hybride
combinant trois (03) approches, qui sont: l'approche par
dictionnaire, l'approche par élimination d'affixe et l'approche
par analyse morphologique.
Figure 1. Architecture générale du lemmatiseur STAR
Nous avons envisagé de décomposer la réalisation de notre
lemmatiseur LTA en deux (02) modules complémentaires, qui
sont : le module de segmentation et le module de
reconnaissance et de lemmatisation.
A. Le module de segementation
La segmentation est la première étape dans le processus
d'analyse d'un texte. Elle consiste à identifier les unités
3 STAR: Stemmer for Arabic Texte.
rs)
constituant le texte, de ce fait le module de segmentation
permet de fractionner le texte arabe en trois (03) niveaux, qui
sont:
1) La segementation au nivau du texte : Le but de cette
étape, c'est de décomposer le texte (ou le paragraphe) en
phrases par rapport aux signes de ponctuations. Cependant
dans le texte arabe la détection des frontières des phrases est
une tâche difficile, car la ponctuation n'est pas systématique et
parfois les particules délimitent les phrases. Pour cela, il existe
deux (02) approches pour segmenter un texte arabe:

Une segmentation basée sur la reconnaissance des
marqueurs morphosyntaxiques ou des mots
fonctionnels, comme: "‫"أ‬, "‫"و‬,"‫ "حتى‬et "‫"لـكن‬.

Une segmentation basée sur les signes de ponctuation
majeur, tel que: ".", "?", "!", …etc.

Un programme de lemmatisation : capable en premier
de faire le lien entre l'unité lexicale et la base de
données et ensuite faire le processus de lemmatisation.
1) Le dictionnaire lexical et grammatical : Notre base de
données comporte plusieurs unités morpho lexicales, comme:
les racines, les schèmes, les mots outils, les mots spéciaux, les
préfixes et les suffixes.
Figure 4. Représentation du lexique arabe adopté par notre lemmatiseur.
2) La segementation au niveau de la phrase : La
segmentation au niveau de la phrase peut être vue comme
l'opération la plus simple dans le processus de segmentation
globale, elle consiste à décomposer la phrase en segments en
éliminant les blancs et les virgules.
Exemple: .‫اصبر على مرارة العمل والكفاح تذق حالوة التوفيق والنجاح‬

Le dictionnaire des racines: Il faut souligner l’existence
de plusieurs méthodes de reproduction automatique de
lexèmes adaptés à la langue arabe, parmi celles-ci nous
proposons une technique propre aux racines trilitères :
« le contenu du dictionnaire est obtenu à l’aide d’une
procédure de génération automatique tel que ses
formes de base qui sont construites par un sous
ensemble parmi tous les combinaisons possibles basées
sur trois lettres, sachant que l’alphabet arabe comprend
vingt-huit lettres (28), nous aurons ( 28*28*28 =
21952 ) éléments ; parmi ces éléments il ne sera utilisé
que l’un quart ( ¼ ) environ ( 5600 ) matières, le reste
est inutilisable mais en cas de besoin l’ordinateur peut
l’exploiter et le traiter ».

Le dictionnaire des Schèmes: Le dictionnaire des
schèmes représente une importance majeure pour la
bonne détermination de la racine à partir de la base
obtenue après élimination des affixes. Notre
dictionnaire des schèmes comprend plusieurs types
selon qu’ils soient de formes nominales ou verbales.
Figure 2. Résultat de la segmentation de la phrase.
3) La segmentation au niveau du mot (élimination des
affixes) : En arabe un mot peut signifier toute une phrase
grâce à sa structure composée, qu’est une combinaison
d'éléments de la grammaire (clitique, affixes, racine et
schème). La segmentation au sein du mot est l'opération la
plus délicate en terme de découpage, parce qu'elle consiste à
enlever d'un mot toutes les composantes lexicales et
grammaticales.
Schème
Description
Exemple
‫ـفـــعــَـلــَة‬
ْ َ‫مـ‬
Nom de lieu « ‫» اســم المـكان‬
‫مدرسة‬
ٌ‫فــَـاعــِــل‬
Nom d’agent « ‫» اسم الفاعل‬
‫كاتب‬
TABLEAU 2. Exemples de schèmes nominaux.
Schème
‫ــل‬
َ َ ‫فــَــعــ‬
Figure 3. Résultat de la segmentation au sein du mot.
‫يــَـفــْــعــَــل‬
B. Le module de reconnaissance et de lemmatisation
Notre module de reconnaissance et de lemmatisation
s’appuie sur :

Un dictionnaire lexical et grammatical : cela se traduit
par une base de données contenant les unités lexicales
et grammaticales de la langue arabe.
Description
Verbe à l’accompli
« ‫» فــعــل مـاضـي مـجـرد‬
Verbe à l’inaccompli
« ‫» فــعــل مــضــارع مـجـرد‬
Exemple
‫قرأ‬
‫يعمل‬
TABLEAU 3. Exemples de schèmes verbaux.

Le dictionnaire des mots outils: Les mots outils
forment un ensemble de mots qui restent invariable
quel que soit le contexte dans lesquels ils sont utilisés.
Celui-ci est composé généralement par les noms
indéclinables
(les
pronoms
personnels,
les
démonstratifs, les conjoints, les interrogatifs, les noms
de nombres, …etc.) et les particules (affirmatifs, de
négations, ….etc.).


Le dictionnaire des mots spéciaux: Nous appelons mot
spécial un nom qui n’a pas une racine dans la langue
arabe. Il est généralement formé par les noms défectifs,
c'est-à-dire les noms propres « ‫» اســم عــلــم‬, (nom de
pays « ‫» اســم بــلــد‬, de continent « ‫» اســم قــارة‬, de
personne « ‫ » اســم شــخــص‬et nom commun « ‫اســم‬
‫)» جــنــس‬.
En tenant compte des caractéristiques d'agglutination de la
langue arabe, le programme de lemmatisation effectue le
processus selon deux (02) configurations générant deux (02)
algorithmes, qui sont :
a) Algorithme de lemmatisation de nom et verbe dérivé :
 Techniques: Approche par analyse morphologique et
approche par élimination d'affixe.

Le dictionnaire des préfixes: Les éléments de ce
dictionnaire se sont des morphèmes qui rentrent dans la
formation des unités en s’ajoutant aux noms et aux
verbes et se placent devant la base.
Temps
Préfixes
Accompli
‫أ‬
Inaccompli
‫أ‬
َ‫أفـ‬
َ‫فـ‬
َ‫فـسـ‬
Impératif
َ‫أو‬
َ‫لـ‬
َ‫فـلـ‬
َ‫و‬
َ‫ولـ‬
َ‫أفـ‬
َ‫فـلـ‬
َ‫ألـ‬
َ
‫فـــ‬
َ‫سـ‬
َ‫أو‬
َ‫و‬
TABLEAU 4. Exemples de Préfixes verbaux.
Longueur
Préfixes
‫أ‬
1
‫بــ‬
َ‫فــ‬
‫َو‬
‫لــ‬
3
‫أبــ‬
‫َولـل ْـ‬
َ‫لــَكـ‬
‫فــَلـَلـ‬
‫ألـ‬
‫َوالــ‬
4
‫َوبـالـ‬
‫فــَبـالـ‬
‫َوكــَالـ‬
2
‫أفــَـ‬
‫فــَـالـ‬
‫أبــالـ‬
‫أ َوبــالـ‬
5
Exemple: La figure ci-dessous décrit le processus de
lemmatisation du verbe "M" par le système STAR.
‫ك‬
َ
‫فــَـبــ‬
‫كــَالـ‬
Principe: Soit un mot "M", nous procédons d'abord à
une opération de décomposition afin d'extraire la base4,
cette dernière sera prise en charge par le programme de
lemmatisation qui va essayer de trouver le schème (ou
les schèmes) ayant la même longueur que celle-ci, une
fois trouver, l'analyseur va ôter du schème la position
des trois lettre radicales à savoir: "‫"ف‬, "‫ "ع‬et "‫"ل‬,
suivant la position de ces trois (03) lettres radicales, le
programme de lemmatisation va faire une deuxième
extirpation qui va permettre d'extraire les lettres
radicales composant cette base, puis il va les
concaténées. A ce stade du traitement le lemmatiseur
va prendre le mot généré par les lettres radicales et il
va essayer de les trouver dans le dictionnaire des
racines.
‫أ َو‬
‫أفــَـلـ‬
‫أكـَـالـ‬
‫أفَــَبـالـ‬
‫أفـَـلــلـ‬
TABLEAU 5. Exemples de Préfixes nominaux.

Le dictionnaire des suffixes : Les éléments de ce
dictionnaire se sont des morphèmes qui rentrent dans la
formation des mots, tel qu’ils s’ajoutent aux noms et
aux verbes et se placent après la base. Le rôle des
suffixes de la langue arabe consiste à terminer le verbe
conjugué, accomplir la fonction du complément du
verbe ou du nom, former la désinence en reflétant un
genre ou un nombre ou les deux à la fois.
Longueur
1
2
3
Suffixes
‫ك‬
‫نـــي‬
‫كــمــا‬
‫ــه‬
‫نــا‬
‫كــم‬
‫هــمــا‬
TABLEAU 6. Exemples de Suffixes.
2) Programme de lemmatisation : Le programme de
lemmatisation consiste à vérifier l'appartenance d'un mot à la
langue puis extraire la racine. Quand l'entité recherchée n'est
pas reconnue, il identifie l'erreur est fourni un message
négatif ; pour accomplir cette tâche le programme de
lemmatisation procède en premier lieu à une segmentation (au
sein de l'unité) préalable qui permet le dégagement les
composants primaires (Préfixe + Base + Suffixe) constituant
cette unité.
Figure 5. Exemple de lemmatisation du mot « ‫» استفتح‬.
b) Algorithme d'un mot non dérivé (Mots outils et Mots
spéciaux) :
 Techniques: Approche par dictionnaire et approche par
élimination d'affixe.

Principe: Un mot non dérivé représente toutes les
formes qui ne peuvent pas être générées à partir d'un
schème nominal ou verbal. Dans cet ensemble on va
regrouper les particules, les mots spéciaux tels que les
noms propres et les mots emprunter. Le processus de
lemmatisation des mots outils et mots spéciaux se
déroule en deux étapes.

Etape 1: La première étape est effectuée pour
retrouver d'éventuels préfixes et suffixes;
 Etape 2: Plus allégée parce que le lemmatiseur
n'a pas besoin d'extraction de racine mais il
fait appel aux tables des mots spéciaux et des
4 Base = Racine + Schème.
rs)
mots outils pour une simple vérification
d'existence (par projection sur la base).
VI.
RESULTATS ET EXPERIMENTATION
Notre système de lemmatisation STAR est développé en
Python, le lexique adopté par notre lemmatiseur est répartie en
six (06) tables, comme suite:
Catégorie du Mot
Partie 3
Verbe et Nom
80.56
Mot Spécial
82.62
82.87
Mot outil
85.45
Verbe et Nom
19.35
Mot Spécial
17.38
14.69
Mot outil
14.55
TABLEAU 10. Résultat d’expérimentation « 3ième partie du Corpus ».
Lemmatisation
Correct
(%)
Lemmatisation
Incorrecte
(%)
Lemmatisation
Correct
(%)
Lemmatisation
Incorrecte
(%)
Catégorie du Mot
Verbe et Nom
Mot Spécial
Mot outil
Verbe et Nom
Mot Spécial
Mot outil
Partie 4
82.08
85.46
84.79
86.84
17.92
14.54
15.21
13.16
TABLEAU 11. Résultat d’expérimentation « 4ième partie du Corpus ».
Certaines erreurs ont été générées lors de la phase
d’expérimentation due principalement aux points suivants :

Ambiguïté segmentale : une mauvaise segmentation
conduit souvent à des erreurs lors du processus de
lemmatisation. La langue arabe est semi cursive, dans
certain cas on peut avoir le vide (espace) dans le mot.
Par exemple, le caractère "‫ "و‬dans le mot ("‫ )"وصل‬est
un caractère original alors que dans le mot ("‫)"وفتح‬, il
s'agit d'une particule de raccordement ("‫"فتح‬+"‫)"و‬.

Ambiguïté lexicales : c'est le résultat direct de la
présence de plusieurs racines ou lemmes pour la même
unité. Dans notre cas le système prend la première
racine trouvée, ce qui n'est pas une bonne résolution
dont certains cas. Pour résoudre ce problème on peut
adopter une approche de désambiguïsation statistique
pour lever cette confusion. Par Exemple, le mot (‫)أمسك‬,
on peut avoir plusieurs racines générées à ce mot,
comme "‫ "مسك‬et "‫"أمس‬.

La lemmatisation erronée de quelques mots empruntés
(non arabiques). Par Exemple le mot (‫فيروس‬, Virus)
projetésur le schème "‫"فعيول‬, va générer la racine
incorrecte "‫"فرس‬.

la lemmatisation des verbes faibles (que se soient :
l’assimilé, Concave, Défectueux, Lafif) pose
énormément de problème dû au fait de l’absence des
règles bien établis pour accomplir le procéder de
lemmatisation à bien, ainsi il n’existe aucun ouvrage
de référence absolu, pour pouvoir adopté des critères
qui vont permettre de générer le lemme ou la racine
correctement. Par Exemple le verbe Concave (‫يبيعون‬,)
projeter sur leschèmecorrecte"‫"يفعلون‬, on va obtenir la
racine incorrect "‫"بيع‬au lieu de"‫"باع‬.
Figure 6. Interface graphique du Système « STAR ».
Lexique
Unités
Schème Verbal et Nominal
914
Racine
2253
Préfixe
49
Suffixe
24
Mots outils
133
Mots spéciaux
200
TABLEAU 7. Représentation des Statistiques du lexique adopté par le
système « STAR ».
««
Pour voir l’efficacité de notre approche hybride de
lemmatisation, nous avons testé notre système sur plusieurs
corpus issus des livres scolaires algérien.
Ces corpus
contiennent que de mots composés (agglutinés), les résultats
obtenu sont représentés dans le tableau ci-dessous, elle
concerne essentiellement les mots complexes:
Lemmatisation
Correct
(%)
Lemmatisation
Incorrecte
(%)
Catégorie du Mot
Verbe et Nom
Mot Spécial
Mot outil
Verbe et Nom
Mot Spécial
Mot outil
Partie 1
79.23
82.98
82.52
85.36
20.77
17.02
17.48
16.64
TABLEAU 8. Résultat d’expérimentation « 1ière partie du Corpus ».
Lemmatisation
Correct
(%)
Lemmatisation
Incorrecte
(%)
Catégorie du Mot
Verbe et Nom
Mot Spécial
Mot outil
Verbe et Nom
Mot Spécial
Mot outil
Partie 2
75.62
83.14
81.66
86.23
24.38
16.86
14.69
13.77
TABLEAU 9. Résultat d’expérimentation « 2ième partie du Corpus ».
La troncature : la suppression des affixes (Exemple le
suffixe: "‫)"ـات‬ne donne pas toujours le bon lemme.Par
exemple, le mot "‫ "السماوات‬son lemme est "‫ "سماء‬est non
pas "‫"سماو‬.
VII. CONCLUSION
Aujourd'hui la lemmatisation est considérée comme un
point de passage obligatoire dans le processus de
développement d'une application TALN et son importance
devient capitale pour les langues dotées d'une richesse
morphologique (dû principalement au processus de dérivation
et de flexion), comme c’est le cas pour l'arabe.
Le but de cet article été de presenter notre système STAR
qui est un lemmatiseur automatique de texte arabe. L'originalité
de notre travail réside dans le fait de faire cohabité trois (03)
techniques de lemmatisations dans un seul système, dont
l'optique d'augmenter la fiabilité de notre système.
Malgré le fait qui nous sommes toujours en phase
d'expérimentation, les résultats préliminaires obtenus prouvent
que l'hybridation est bénéfique (avec une moyenne de
82.96%), tous de même certaines améliorations peuvent être
apporté concernant la performance du module de segmentation
est le traitement de certains cas particuliers, afin de diminuer le
taux d'erreur.
REFERENCES
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
M. A. Chéragui, Y. Hoceini et M. Abbas, “A Morphological Analysis of
Arabic Language based on Multicriteria Decision Making: TAGHIT
System”, IEEE, International Conference On Machine and Web
Intelligence, (2010).
M. A. Chéragui, Y. Hoceini et M. Abbas, “Une Approche Multicritères
pour lever l'ambiguïté Morphologique dans le Texte Arabe » COSI :
Colloque d’optiomisation des Systèmes d’Informations, (2010).
Chen, A., and Gey, F. Building an Arabic stemmer for information
retrieval. In TREC 2002. Gaithersburg: NIST, pp 631-639,( 2002).
Hull, D. Stemming Algorithms - A Case Study for Detailed Evaluation.
JASIS, 47(1):70-84, (1996).
Khoja, S., and Garside, R. “Stemming Arabic Text”, Computer Science
Department, Lancaster
University. UK, http://www.comp.lancs.
ac.uk/computing/users/khoja/ stemmer.ps, (1999).
Tuerlinckx, L. “La lemmatisation de l’arabe non classique”,
Proceedinges des 7ièmejournées internationales d'analyse des
données textuelles, (2004).
Wightwick, J. and Gaafar, M., “Arabic verbs and essentials of
grammar”. Chicago: Passport Books, (1998).
Al Sughaiyer, I. and Al Kharashi, I., “Arabic Morphological Analysis
Techniques: A comprehensive survey”. Journal of American Society for
Information Science and Technology. Vol 55. Issue3. (2004).
Al-Kharashi, I. and Evens, M. W., “Comparing words, stems, and roots
as index terms in an Arabic information retrieval system”. JASIS, 45 (8),
pp. 548-560, (1994).
I. Smirnov. “Overview of stemming algorithms”, Mechanical
Translation, (2008).
Mayfield J. and McNammee P., “Single N-gram stemming”.
Proceedings of th 26th annual international ACM SIGIR conference on
Research and development in information retrieval (2003).
Melucci M. and Orio N. “A novel method for stemmer generation based
on HMM”, Proceedings of twelfth international conference in
Information and knowledge management, (2003).
Chen, A., and Gey, F., “Building an Arabic stemmer for information
retrieval”, In TREC Gaithersburg: NIST, pp 631-639, (2002).
El-Dahdah, A., “A Dictionary of Arabic Grammar in Charts and
Tables”, Lebanon Library Publishers, (1994) .