Corrigé du contrôle final

Université de Batna
Faculté des sciences
Département d’informatique
Durée : 1h30
Module : Recherche d’Information Textuelle
2013/2014
Le 16/01/2014
Contrôle final
Master II
II - SRI
Questions de cours (5 pts)
1.
2.
3.
4.
5.
Quel est l’inconvénient des approches de la RI basées sur l’indexation ?
Quelle définition a proposé Tefko Saracevic ?
La loi de Zipf traite un certain phénomène. Lequel ?
Que mesure les deux facteurs tf et idf ?
Comment est caractérisé un modèle de recherche d’information
formellement ?
Exercice (7 pts)
Soit un serveur s dans un système distribué, et soit une requête utilisateur
q = t1 t2 t3.
Les matrices F et W sont semi-remplies comme suit :
F
….
s
….
t1
t2
t3
1
8
11
W
….
s
….
t1
t2
t3
0.35 0.25 0.95
On utilisant la méthode vGlOSS et on se basant sur le scénario avec grandecorrélation, calculer l’estimation de similarité entre la question q et le serveur s en
utilisant le seuil = 0.2.
Note : L’estimation se calcule comme suit :
, , = − × ×
Expliquer comment on décide si le serveur s est pertinent par rapport à q ou pas ?
-1/5-
Problème (8 pts)
Soit un système de recherche d’information basé sur les réseaux de neurones.
Et soit le corpus d’apprentissage suivant :
D1 = {t1 : 2, t2 : 1, t3 : 1}
D2 = {t1 : 2, t2 : 3, t3 : 4}
D3 = {t1 : 10, t2 : 9, t3 : 1}
Ce système de recherche d’information comporte deux phases : Apprentissage
et recherche.
La phase d’apprentissage permet de classifier les documents du corpus en
classes. L’algorithme d’apprentissage utilisé est le suivant :
Soit E la base de documents d'apprentissage;
Soit K l'ensemble des neurones souhaités dans
sortie;
Pour tout e ∈ E {
FAIRE {
∙ ! = ∑ ∗ ! }
Pour tout c ∈ K { = //Recherche du neurone gagnant
Trouver k tel que spk est maximal
Calculer ′ = ! − + &. ;
= ′ ; // Mettre à jour par ′
}
la
couche
de
} TANT QUE ( |
− |
! ≥ ε )
Nous fixant le nombre de neurones de la couche de sortie à 2, et le système
initialise les vecteurs des coefficients des neurones de la couches de sortie d’une
manière aléatoire comme suit :
W1 = [0.1, 0.2, 0.3]
W2 = [0.2, 0.1, 0.6]
Sachant que ε=0.04 et σ=0.9
1. Trouvez où le système va placer le document D1 dans la couche de sortie ?
2. A la fin de l’exécution de l’algorithme d’apprentissage, nous trouvons :
W1 = [0.1, 0.2, 0.3]
W2 = [9.992, 8.994, 1.003]
Dans la phase de recherche, une question se présente à la couche d’entrée :
Q = {t1 : 5, t2 : 2, t3 : 3}
Quel est le neurone gagnant pour cette question ?
Bonne chance…
NB: Le corrigé type vous le trouverez sur le site :
http://fac-sciences.univ-batna.dz/cs/enseignants/guezouli_larbi_site/
-2/5-
Correction du contrôle final
Master II - SRI
Questions de cours (5 pts)
1. Quel est l’inconvénient des approches de la RI basées sur l’indexation ?
La structure d'index exige un espace de stockage important (de 40% à
200% de la taille de collection de documents) selon la complexité de
l'indexation
2. Quelle définition a proposé Tefko Saracevic ?
Tefko Saracevic propose la définition de la pertinence : « La pertinence
est la A d'un B existant entre un C et un D jugé par un E »
3. La loi de Zipf traite un certain phénomène. Lequel ?
Les mots les plus fréquents et les mots es moins fréquents ne sont pas
des représentants (pas importants).
4. Que mesure les deux facteurs tf et idf ?
tf : mesure l'importance d'un terme pour un document (pondération
locale)
idf : mesure la discrimination d'un terme dans le corpus (pondération
globale).
5. Comment est caractérisé un modèle de recherche d’information
formellement ?
Un modèle de recherche d'information est vu comme un quadruplet [D,
Q, F, R(qi,dj)]
D : Corpus ; Q : Ensemble des requêtes ; F : Framework ; R : Fonction de
classement.
Exercice (7 pts)
Soit un serveur s dans un système distribué, et soit une requête utilisateur
q = t1 t2 t3.
Les matrices F et W sont semi-remplies comme suit :
F
….
s
….
t1
t2
t3
1
8
11
W
….
s
….
t1
t2
t3
0.35 0.25 0.95
On utilisant la méthode vGlOSS et on se basant sur le scénario avec grandecorrélation, calculer l’estimation de similarité entre la question q et le serveur s en
utilisant le seuil = 0.2.
Note : L’estimation se calcule comme suit :
, , = − × ×
Expliquer comment on décide si le serveur s est pertinent par rapport à q ou pas ?
Réponse :
-3/5-
, , = ) − × ×
*..-
*..+
Calcul du p :
simp > l et simp+1 ≤ l (les fij doivent être triés fi0<fi1<…) (1 pt)
- = ×
> 0.2-2 = ×
≤ 0.2
*-..+
,
*-2..+
sim1 = 0.35/1 + 0.25/8 + 0.95/11 = 0.47 (1 pt)
sim2 = 0.25/8 + 0.95/11 = 0.12 (1 pt)
donc p = 1 (1 pt)
0.2, , = ) − × ×
*..
0.2, , = 1 × 51 ×
*..+
,
0.35
0.25
0.95
+1×
+1×
: = 0.47
1
8
11
(2 pts)
fi1 : fréquence du terme t1 dans le serveur i qui est s = 1.
fi(1-1)=fi0 : fréquence du terme t0 dans le serveur est s. Comme le terme t0
n’existe pas, sa fréquence = 0.
Pour décider si un serveur s est pertinent à q ou pas il faut fixer un seuil
d’estimation. (2 pts)
Problème (8 pts)
Soit un système de recherche d’information basé sur les réseaux de neurones.
Et soit le corpus d’apprentissage suivant :
D1 = {t1 : 2, t2 : 1, t3 : 1}
D2 = {t1 : 2, t2 : 3, t3 : 4}
D3 = {t1 : 10, t2 : 9, t3 : 1}
Ce système de recherche d’information comporte deux phases : Apprentissage
et recherche.
La phase d’apprentissage permet de classifier les documents du corpus en
classes. L’algorithme d’apprentissage utilisé est le suivant :
Soit E la base de documents d'apprentissage;
Soit K l'ensemble des neurones souhaités dans
sortie;
Pour tout e ∈ E {
FAIRE {
Pour tout c ∈ K { = ∙ ! = ∑ ∗ ! }
//Recherche du neurone gagnant
Trouver k tel que spk est maximal
! − Calculer ′ = + &. ;
= ′ ; // Mettre à jour par ′
}
la
couche
de
} TANT QUE ( |
− |
! ≥ ε )
Nous fixant le nombre de neurones de la couche de sortie à 2, et le système
initialise les vecteurs des coefficients des neurones de la couches de sortie d’une
manière aléatoire comme suit :
-4/5-
W1 = [0.1, 0.2, 0.3]
W2 = [0.2, 0.1, 0.6]
Sachant que ε=0.04 et σ=0.9
1. Trouvez où le système va placer le document D1 dans la couche de sortie ?
2. A la fin de l’exécution de l’algorithme d’apprentissage, nous trouvons :
W1 = [0.1, 0.2, 0.3]
W2 = [9.992, 8.994, 1.003]
Dans la phase de recherche, une question se présente à la couche d’entrée :
Q = {t1 : 5, t2 : 2, t3 : 3}
Quel est le neurone gagnant pour cette question ?
Réponse :
1. D1 se présente à la couche d’entrée en tant que ! ;
= ∑ ∗ = = 0.7 (0.5 pt)
= ∙ =
= ∑> ∗ = = 1.1 (maximal) (0.5 pt)
> = > ∙ =
− ′> = > + &. =
> = ?1.82, 0.91,0.96A (1 pt)
> = ?1.82, 0.91,0.96A
Affectation > = ′
|
Est-ce que |
−
! ≤B ?
>
>
>
La norme du vecteur :
|
−
! |
−
! = C − = + > − => + D − =D |
|
−
! = 0.205 > B (1 pt)
= 0.7
= ∑> ∗ = = 5.51 (maximal) (0.5 pt)
> = > ∙ =
− ′> = > + &. =
> = ?1.982, 0.991,0.996A (1 pt)
> = ?1.982, 0.991,0.996A
Affectation > = ′
Est-ce que |
|
−
! ≤B ?
>
>
>
:
|
La norme du vecteur −
! |
−
! = C − = + > − => + D − =D |
|
−
! = 0.0205 < B (1 pt)
En boucle :
On sort de la boucle « Tant que » et on place D1 dans le neurone numéro 2 de la
couche de sortie. (0.5 pt)
= ∑ ∗ F = 1.8 (0.5 pt)
= ∙ F
= ∑> ∗ F = 70.96 (maximal) (0.5 pt)
> = > ∙ F
2. Q = {t1 : 5, t2 : 2, t3 : 3} se présente la couche d’entrée.
Donc, le neurone gagnant pour la question Q est le neurone numéro 2. (0.5 pt)
-5/5-