Université de Batna Faculté des sciences Département d’informatique Durée : 1h30 Module : Recherche d’Information Textuelle 2013/2014 Le 16/01/2014 Contrôle final Master II II - SRI Questions de cours (5 pts) 1. 2. 3. 4. 5. Quel est l’inconvénient des approches de la RI basées sur l’indexation ? Quelle définition a proposé Tefko Saracevic ? La loi de Zipf traite un certain phénomène. Lequel ? Que mesure les deux facteurs tf et idf ? Comment est caractérisé un modèle de recherche d’information formellement ? Exercice (7 pts) Soit un serveur s dans un système distribué, et soit une requête utilisateur q = t1 t2 t3. Les matrices F et W sont semi-remplies comme suit : F …. s …. t1 t2 t3 1 8 11 W …. s …. t1 t2 t3 0.35 0.25 0.95 On utilisant la méthode vGlOSS et on se basant sur le scénario avec grandecorrélation, calculer l’estimation de similarité entre la question q et le serveur s en utilisant le seuil = 0.2. Note : L’estimation se calcule comme suit : , , = − × × Expliquer comment on décide si le serveur s est pertinent par rapport à q ou pas ? -1/5- Problème (8 pts) Soit un système de recherche d’information basé sur les réseaux de neurones. Et soit le corpus d’apprentissage suivant : D1 = {t1 : 2, t2 : 1, t3 : 1} D2 = {t1 : 2, t2 : 3, t3 : 4} D3 = {t1 : 10, t2 : 9, t3 : 1} Ce système de recherche d’information comporte deux phases : Apprentissage et recherche. La phase d’apprentissage permet de classifier les documents du corpus en classes. L’algorithme d’apprentissage utilisé est le suivant : Soit E la base de documents d'apprentissage; Soit K l'ensemble des neurones souhaités dans sortie; Pour tout e ∈ E { FAIRE { ∙ ! = ∑ ∗ ! } Pour tout c ∈ K { = //Recherche du neurone gagnant Trouver k tel que spk est maximal Calculer ′ = ! − + &. ; = ′ ; // Mettre à jour par ′ } la couche de } TANT QUE ( | − | ! ≥ ε ) Nous fixant le nombre de neurones de la couche de sortie à 2, et le système initialise les vecteurs des coefficients des neurones de la couches de sortie d’une manière aléatoire comme suit : W1 = [0.1, 0.2, 0.3] W2 = [0.2, 0.1, 0.6] Sachant que ε=0.04 et σ=0.9 1. Trouvez où le système va placer le document D1 dans la couche de sortie ? 2. A la fin de l’exécution de l’algorithme d’apprentissage, nous trouvons : W1 = [0.1, 0.2, 0.3] W2 = [9.992, 8.994, 1.003] Dans la phase de recherche, une question se présente à la couche d’entrée : Q = {t1 : 5, t2 : 2, t3 : 3} Quel est le neurone gagnant pour cette question ? Bonne chance… NB: Le corrigé type vous le trouverez sur le site : http://fac-sciences.univ-batna.dz/cs/enseignants/guezouli_larbi_site/ -2/5- Correction du contrôle final Master II - SRI Questions de cours (5 pts) 1. Quel est l’inconvénient des approches de la RI basées sur l’indexation ? La structure d'index exige un espace de stockage important (de 40% à 200% de la taille de collection de documents) selon la complexité de l'indexation 2. Quelle définition a proposé Tefko Saracevic ? Tefko Saracevic propose la définition de la pertinence : « La pertinence est la A d'un B existant entre un C et un D jugé par un E » 3. La loi de Zipf traite un certain phénomène. Lequel ? Les mots les plus fréquents et les mots es moins fréquents ne sont pas des représentants (pas importants). 4. Que mesure les deux facteurs tf et idf ? tf : mesure l'importance d'un terme pour un document (pondération locale) idf : mesure la discrimination d'un terme dans le corpus (pondération globale). 5. Comment est caractérisé un modèle de recherche d’information formellement ? Un modèle de recherche d'information est vu comme un quadruplet [D, Q, F, R(qi,dj)] D : Corpus ; Q : Ensemble des requêtes ; F : Framework ; R : Fonction de classement. Exercice (7 pts) Soit un serveur s dans un système distribué, et soit une requête utilisateur q = t1 t2 t3. Les matrices F et W sont semi-remplies comme suit : F …. s …. t1 t2 t3 1 8 11 W …. s …. t1 t2 t3 0.35 0.25 0.95 On utilisant la méthode vGlOSS et on se basant sur le scénario avec grandecorrélation, calculer l’estimation de similarité entre la question q et le serveur s en utilisant le seuil = 0.2. Note : L’estimation se calcule comme suit : , , = − × × Expliquer comment on décide si le serveur s est pertinent par rapport à q ou pas ? Réponse : -3/5- , , = ) − × × *..- *..+ Calcul du p : simp > l et simp+1 ≤ l (les fij doivent être triés fi0<fi1<…) (1 pt) - = × > 0.2-2 = × ≤ 0.2 *-..+ , *-2..+ sim1 = 0.35/1 + 0.25/8 + 0.95/11 = 0.47 (1 pt) sim2 = 0.25/8 + 0.95/11 = 0.12 (1 pt) donc p = 1 (1 pt) 0.2, , = ) − × × *.. 0.2, , = 1 × 51 × *..+ , 0.35 0.25 0.95 +1× +1× : = 0.47 1 8 11 (2 pts) fi1 : fréquence du terme t1 dans le serveur i qui est s = 1. fi(1-1)=fi0 : fréquence du terme t0 dans le serveur est s. Comme le terme t0 n’existe pas, sa fréquence = 0. Pour décider si un serveur s est pertinent à q ou pas il faut fixer un seuil d’estimation. (2 pts) Problème (8 pts) Soit un système de recherche d’information basé sur les réseaux de neurones. Et soit le corpus d’apprentissage suivant : D1 = {t1 : 2, t2 : 1, t3 : 1} D2 = {t1 : 2, t2 : 3, t3 : 4} D3 = {t1 : 10, t2 : 9, t3 : 1} Ce système de recherche d’information comporte deux phases : Apprentissage et recherche. La phase d’apprentissage permet de classifier les documents du corpus en classes. L’algorithme d’apprentissage utilisé est le suivant : Soit E la base de documents d'apprentissage; Soit K l'ensemble des neurones souhaités dans sortie; Pour tout e ∈ E { FAIRE { Pour tout c ∈ K { = ∙ ! = ∑ ∗ ! } //Recherche du neurone gagnant Trouver k tel que spk est maximal ! − Calculer ′ = + &. ; = ′ ; // Mettre à jour par ′ } la couche de } TANT QUE ( | − | ! ≥ ε ) Nous fixant le nombre de neurones de la couche de sortie à 2, et le système initialise les vecteurs des coefficients des neurones de la couches de sortie d’une manière aléatoire comme suit : -4/5- W1 = [0.1, 0.2, 0.3] W2 = [0.2, 0.1, 0.6] Sachant que ε=0.04 et σ=0.9 1. Trouvez où le système va placer le document D1 dans la couche de sortie ? 2. A la fin de l’exécution de l’algorithme d’apprentissage, nous trouvons : W1 = [0.1, 0.2, 0.3] W2 = [9.992, 8.994, 1.003] Dans la phase de recherche, une question se présente à la couche d’entrée : Q = {t1 : 5, t2 : 2, t3 : 3} Quel est le neurone gagnant pour cette question ? Réponse : 1. D1 se présente à la couche d’entrée en tant que ! ; = ∑ ∗ = = 0.7 (0.5 pt) = ∙ = = ∑> ∗ = = 1.1 (maximal) (0.5 pt) > = > ∙ = − ′> = > + &. = > = ?1.82, 0.91,0.96A (1 pt) > = ?1.82, 0.91,0.96A Affectation > = ′ | Est-ce que | − ! ≤B ? > > > La norme du vecteur : | − ! | − ! = C − = + > − => + D − =D | | − ! = 0.205 > B (1 pt) = 0.7 = ∑> ∗ = = 5.51 (maximal) (0.5 pt) > = > ∙ = − ′> = > + &. = > = ?1.982, 0.991,0.996A (1 pt) > = ?1.982, 0.991,0.996A Affectation > = ′ Est-ce que | | − ! ≤B ? > > > : | La norme du vecteur − ! | − ! = C − = + > − => + D − =D | | − ! = 0.0205 < B (1 pt) En boucle : On sort de la boucle « Tant que » et on place D1 dans le neurone numéro 2 de la couche de sortie. (0.5 pt) = ∑ ∗ F = 1.8 (0.5 pt) = ∙ F = ∑> ∗ F = 70.96 (maximal) (0.5 pt) > = > ∙ F 2. Q = {t1 : 5, t2 : 2, t3 : 3} se présente la couche d’entrée. Donc, le neurone gagnant pour la question Q est le neurone numéro 2. (0.5 pt) -5/5-
© Copyright 2024 ExpyDoc