Intervalles de confiance

Intervalles de confiance
Tristan Mary-Huard, Colette Vuillet
En guise d’introduction...
Les exercices 2 et 3 du TD pr´esentent la construction d’intervalles de confiance pour des
param`etres de lois discr`etes. Lorsque les donn´ees suivent une loi discr`ete, la statistique pivotale
a elle aussi une distribution discr`ete, dont les fractiles sont difficiles `a calculer. C’est pourquoi
le statisticien pr´ef`ere travailler avec la loi asymptotique de la statistique pivotale, plus facile
`a manipuler.
1
Exercice 2
On s’int´eresse `a la proportion d’albinos dans une population d’animaux. On dispose d’un
´echantillon de n animaux dont certains sont albinos. On commence par proposer un mod`ele
pour ces donn´ees.
– Xi est une variable al´eatoire qui vaut 1 si le i`eme animal est albinos, 0 sinon.
– On suppose Xi ,→ B(p), loi de Bernoulli, et on suppose que l’´echantillon est i.i.d.
Il faut tout d’abord trouver la statistique pivotale. Pour cela, on part de l’estimateur du
maximum de vraisemblance du param`etre p. La vraisemblance des donn´ees s’´ecrit :
V (x1 , ..., xn , p) = P (X1 = x1 , ..., Xn = xn )
n
Y
=
P (Xi = xi ) (Ind´ependance)
=
i=1
n
Y
pxi (1 − p)1−xi (Def. de la Bernoulli)
i=1
P
P
= p xi (1 − p)n− xi
X
X
⇒ log(V (x1 , ..., xn , p)) =
xi log(p) + (n −
xi ) log(1 − p)
Il faut maintenant annuler la d´eriv´ee de la log-vraisemblance pour trouver l’EMV. La d´eriv´ee
de la log-vraisemblance par rapport `a p est :
P
P
xi n − xi
0
log(V (x1 , ..., xn , p)) =
−
p
1−p
En annulant cette d´eriv´ee (et en v´erifiant que l’on trouve bien un maximum en montrant par
exemple que la d´eriv´ee seconde est nulle) on trouve :
P
xi
pˆM V =
n
1
Puisque les Xi suivent des lois de Bernoulli i.i.d., leur somme suit une loi binomiale.
L’estimateur pˆM V suit donc `a un coefficient 1/n pr`es une loi binomiale. D´eduire de ce r´esultat
une statistique pivotale pour p n’est pas ´evident, car les lois discr`etes ne se manipulent pas
aussi facilement que les lois normales (il ne suffit pas ici de ”centrer et r´eduire” pour faire
apparaˆıtre une statistique pivotale). Il faut donc passer par la loi asymptotique de pˆM V .
Plusieurs possibilit´es peuvent ˆetre envisag´ees : on peut utiliser le r´esultat du th´eor`eme central
limite (TCL, p.145-146), en remarquant que les Xi v´erifient les hypoth`eses de ce th´eor`eme.
Les Xi suivent des lois de Bernoulli de moyenne p et de variance p(1 − p) et sont i.i.d.. Ainsi,
lorsque n tend vers l’infini :
√
¯ −p
√
pˆM V − p
X
np
= np
,→ N (0, 1)
p(1 − p)
p(1 − p)
La statistique obtenue ainsi est bien pivotale : elle d´epend des donn´ees, de p, et sa loi est connue
et simple. Toutefois, on peut remarquer que le raisonnement pr´ec´edent ne marche que lorsque
¯ car sinon le TCL ne s’applique pas. Nous proposons donc une solution alternative,
pˆM V = X,
bas´ee sur les propri´et´es asymptotiques de l’estimateur de maximum de vraisemblance.
Dans le cas g´en´eral o`
u θ est le param`etre inconnu d’une loi donn´ee, on sait (v. ”Propri´et´es
du max. de vrais.”, p.48) que l’EMV est asymptotiquement gaussien. On a :
√
n(θˆM V − θ) ,→ N (0, I −1 (θ))
o`
u I −1 (θ) est l’information de Fisher pour une observation. Ainsi, il suffit que I −1 (θ) ne
d´epende que de θ pour que
√ θˆM V − θ
,→ N (0, 1)
np
I −1 (θ)
(1)
soit une statistique pivotale pour le param`etre θ.
Pour appliquer ce r´esultat, il suffit de calculer l’information de Fisher pour une loi binomiale :
2
X ∂
I(p) =
ln(Pp (Xi = xi )) Pp (Xi = xi )
∂p
2
X ∂
ln(pxi (1 − p)1−xi ) Pp (Xi = xi )
=
∂p
2
X ∂
=
xi ln p + (1 − xi ) ln(1 − p) Pp (Xi = xi )
∂p
X xi 1 − xi 2
=
−
Pp (Xi = xi )
p
1−p
X xi − p 2
=
Pp (Xi = xi )
p(1 − p)
X
1
=
(xi − p)2 Pp (Xi = xi )
p2 (1 − p)2
1
=
(
p 1 − p)
2
car par d´efinition la somme qui apparaˆıt dans la derni`ere ´egalit´e est la variance de la loi B(p),
c’est-`a-dire p(1 − p). Ainsi, en appliquant le r´esultat 1, on obtient la statistique pivotale
√
pˆM V − p
np
,→ N (0, 1).
p(1 − p)
On retrouve ainsi avec la m´ethode g´en´erale le r´esultat que l’on avait obtenue en passant par
le TCL.
On peut maintenant proposer un encadrement de la statistique pivotale par les fractiles
de la loi normale centr´ee r´eduite :
!
√ pˆM V − p
P uα/2 ≤ n p
≤ u1−α/2 = 1 − α
p(1 − p)
Il ne reste plus qu’`a isoler le param`etre p. On commence par remplacer uα/2 par −u1−α/2 , en
arguant de la sym´etrie de la loi normale centr´ee r´eduite. La probabilit´e pr´ec´edente peut se
r´e´ecrire :
(ˆ
pM V − p)2
≤ u21−α/2 = 1 − α
P n
p(1 − p)
⇒ P n(ˆ
pM V − p)2 − u21−α/2 p(1 − p) ≤ 0 = 1 − α
⇒ P (n + u21−α/2 )p2 − (2nˆ
pM V + u21−α/2 )p + nˆ
p2M V ≤ 0 = 1 − α
Il faut donc ´etudier le signe d’un polynˆome d’ordre 2. Lorsque p → ±∞, ce polynˆome tend
vers +∞ car le coefficient du terme d’ordre 2 est positif. Pour que l’in´egalit´e soit v´erifi´ee,
il faut donc se placer entre les racines du polynˆome. On trouve ces derni`eres en r´esolvant
l’´egalit´e :
(n + u21−α/2 )p2 − (2nˆ
pM V + u21−α/2 )p + nˆ
p2M V = 0
Le calcul donne comme r´esultat les racines :
p1 =
p2 =
pˆM V +
u21−α/2
2n
−
u1−α/2
√
n
1+
pˆM V +
u21−α/2
2n
+
u1−α/2
√
n
1+
q
u21−α/2
4n
2
u1−α/2
+ pˆM V (1 − pˆM V )
q
u21−α/2
4n
2
u1−α/2
+ pˆM V (1 − pˆM V )
o`
u p1 et p2 sont aussi les bornes (respectivement inf´erieure et sup´erieure) de l’intervalle de
confiance 1 − α de p. On retrouve ainsi la formule propos´ee dans le livre p.55.
Les applications num´eriques sont aussi dans le livre, p.60-61.
3