Qui - Dipartimento di Matematica

Universit`
a di Roma Tor Vergata
Facolt`
a di Scienze Matematiche Fisiche e Naturali
Dipartimento di Matematica
Appunti di
Inferenza Statistica
(3 crediti)
per la Laurea Magistrale in Informatica
Claudio Macci1
Anno Accademico 2013-2014
1
Contatti e informazioni alla pagina web http://www.mat.uniroma2.it/∼macci
Premessa
Questo materiale rappresenta ci`
o che ho preparato per tenere le lezioni dei primi tre crediti di
Inferenza Statistica e Teoria dell’Informazione, insegnamento per la Laurea Magistrale in Informatica, per l’a.a. 2013-2014. Le variazioni rispetto alla versione per l’a.a. 2012-2013 riguardano
una correzione di un segno nell’Esempio 1.2.10, un commento subito dopo la condizione (F), e la
dimostrazione del Teorema 2.3.1. Il materiale `e abbondante e, in base a quanto verr`a spiegato in
aula di anno in anno, alcune parti di questo materiale non saranno nel programma d’esame.
Nella scelta degli argomenti ho tenuto conto di quanto abitualmente insegno nelle lezioni di Calcolo
delle Probabilit`
a e Statistica (per la Laurea Triennale in Informatica) e delle esigenze segnalate da
altri docenti che tengono altri insegnamenti del Corso di Laurea Magistrale in Informatica.
Nei Capitoli 2 e 3 di questi appunti ho tratto spunto da quanto imparato da studente dell’esame di
Statistica Matematica tenuto dal Prof. Fabio Spizzichino (Laurea in Matematica presso l’Universit`a di Roma La Sapienza, Anno Accademico 1991-1992) e dal materiale preparato per le lezioni
che ho tenuto in anni passati per i seguenti insegnamenti: Statistica II (Laurea in Matematica
presso l’Universit`
a di Torino, Anni Accademici 2001-2002, 2002-2003 e 2003-2004); esercitazioni
di Statistica (Laurea in Matematica presso l’Universit`a di Roma Tor Vergata, Anni Accademici
2005-2006, 2006-2007 e 2007-2008).
Mi scuso fin da ora per gli errori e refusi di varia natura che troverete (ad esempio non mi sono
preoccupato di controllare se le parole sono correttamente divise in sillabe quando si va a capo ...).
Ovviamente qualsiasi segnalazione in proposito `e benvenuta e ringrazio fin da ora chi provveder`
a
(e chi ha provveduto) in tal senso.
Roma, Aprile 2014
Claudio Macci
Indice
1 Risultati di Calcolo delle Probabilit`
a
1.1 Variabili aleatorie reali discrete e continue . . . . . . . . . . . . . . . . . . . .
1.1.1 Variabili aleatorie reali discrete: definizioni ed esempi . . . . . . . . .
1.1.2 Variabili aleatorie reali continue: definizioni ed esempi . . . . . . . . .
1.2 Variabili aleatorie n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Variabili aleatorie n-dimensionali discrete . . . . . . . . . . . . . . . .
1.2.2 Variabili aleatorie n-dimensionali continue . . . . . . . . . . . . . . . .
1.2.3 Casi con densit`
a congiunta mista . . . . . . . . . . . . . . . . . . . . .
1.2.4 Il teorema del cambio di variabile per densit`a congiunte continue . . .
1.2.5 Variabili aleatorie n-dimensionali non continue, con marginali continue
1.2.6 Distribuzione Normale n-dimensionale . . . . . . . . . . . . . . . . . .
2 Statistica Classica e Statistica Bayesiana
2.1 Introduzione . . . . . . . . . . . . . . . . .
2.2 Statistica Classica . . . . . . . . . . . . .
2.2.1 Sufficienza . . . . . . . . . . . . . .
2.2.2 Stimatori . . . . . . . . . . . . . .
2.3 Statistica Bayesiana . . . . . . . . . . . .
2.3.1 Sufficienza . . . . . . . . . . . . . .
2.3.2 Stimatori . . . . . . . . . . . . . .
2.3.3 Predizione . . . . . . . . . . . . . .
2.4 Una propriet`
a delle statistiche sufficienti .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Modelli statistici di uso comune
3.1 Osservazioni Bernoulliane . . . . . . . . . . . . . . . .
3.2 Osservazioni a valori in un insieme finito . . . . . . . .
3.3 Osservazioni Poissoniane . . . . . . . . . . . . . . . . .
3.4 Osservazioni Esponenziali . . . . . . . . . . . . . . . .
3.5 Osservazioni Normali (con sola media incognita) . . .
3.6 Osservazioni Normali (con sola varianza incognita) . .
3.7 Osservazioni Normali (con media e varianza incognite)
3.8 Osservazioni Uniformi . . . . . . . . . . . . . . . . . .
Bibliografia
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
3
5
5
7
8
11
14
16
.
.
.
.
.
.
.
.
.
21
21
22
22
23
24
25
27
28
28
.
.
.
.
.
.
.
.
30
30
32
34
35
36
38
39
43
46
1
Capitolo 1
Risultati di Calcolo delle Probabilit`
a
1.1
Variabili aleatorie reali discrete e continue
Una variabile aleatoria reale X assume valori in R. La sua funzione di distribuzione FX `e definita
come segue:
FX (x) = P (X ≤ x), per ogni x ∈ R.
1.1.1
Variabili aleatorie reali discrete: definizioni ed esempi
Una variabile aleatoria reale X `e discreta, con densit`a discreta fX , se
P (X ∈ A) =
X
fX (x) per ogni A ⊂ R.
x∈A
La densit`a discreta fX `e definita come segue:
fX (x) = P (X = x), per ogni x ∈ R.
P
Inoltre si dice che X ha speranza matematica finita se
x∈X |x|fX (x) < ∞ e, in tal caso, la
P
2
speranza matematica `e E[X] = x∈X xfX (x). Infine, se X ha speranza matematica finita, allora
X ha speranza matematica finita e si definisce varianza la seguente quantit`a (finita): Var[X] =
E[(X − E[X])2 ]. In particolare si verifica che Var[X] = E[X 2 ] − E2 [X]. Concludiamo con un elenco
di distribuzioni di variabili aleatorie discrete reali.
Distribuzioni Bernoulliana. Una variabile aleatoria X ha distribuzione Bernoulliana di parametro p ∈ [0, 1] (in simboli X ∼ B(p)) se si ha fX (1) = p e fX (0) = 1 − p; quindi fX (k) =
pk (1 − p)1−k per k ∈ {0, 1}. In corrispondenza si ha E[X] = p e Var[X] = p(1 − p).
Distribuzioni Binomiale. Una variabile aleatoria X ha distribuzione Binomiale di parametri n
e p (in simboli X ∼ Bin(n, p)) se si ha Y = X1 + · · · + Xn , dove {X1 , . . . , Xn } sono indipendenti e
con distribuzione B(p); quindi fX (k) = (nk )pk (1 − p)n−k per k ∈ {0, 1, . . . , n} perch´e ognuna delle
(nk ) sequenze ordinate di n elementi in {0, 1} con esattamente k volte 1 ha probabilit`a pk (1 − p)1−k .
In particolare si ha Bin(1, p) = B(p). In corrispondenza si ha E[X] = np e Var[X] = np(1 − p). La
variabile aleatoria X viene introdotta per contare il numero di successi su n prove indipendenti e
tutte con probabilit`
a di successo p.
2
Distribuzione di Poisson. Una variabile aleatoria X ha distribuzione di Poisson di parametro
k
λ > 0 (in simboli X ∼ P oisson(λ)) se si ha fX (k) = λk! e−λ per ogni k ≥ 0 intero. In corrispondenza
si verifica che E[X] = λ e Var[X] = λ.
Distribuzione Geometrica. Una variabile aleatoria X ha distribuzione Geometrica di parametro p ∈ (0, 1) (in simboli X ∼ Geo(p)) se si ha fX (k) = (1 − p)k−1 p per ogni k ≥ 1 intero. In
corrispondenza si verifica che E[X] = p1 e Var[X] = 1−p
. La variabile aleatoria X viene introdotta
p2
per contare il numero di prove necessarie per avere il primo successo nel caso in cui si abbiano prove
indipendenti e tutte con probabilit`
a di successo p.
1.1.2
Variabili aleatorie reali continue: definizioni ed esempi
Una variabile aleatoria reale X `e continua, con densit`a continua fX , se
Z
fX (x)dx per ogni A ∈ BR ,
P (X ∈ A) =
A
dove BR `e la pi`
u piccola σ-algebra su R contenente gli insiemi aperti di R.
A differenza della densit`
a discreta, esistono diverse versioni della densit`a continua fX ;
ad esempio la definizione della densit`a continua `e arbitraria su insiemi finiti o numerabili
di punti. Tutte le funzioni che coincidono con FX0 nei punti dove FX `e derivabile
forniscono versioni della densit`
a continua.
R∞
Inoltre si dice che X ha speranza matematica finita se −∞ |x|fX (x)dx < ∞ e, in tal caso, la
R∞
speranza matematica `e E[X] = −∞ xfX (x)dx. La definizione di varianza si ottiene adattando a
questo contesto la definizione vista per il caso discreto.
In quel che segue faremo riferimento alla seguente proposizione che fornisce la densit`a continua
di una variabile aleatoria X2 ottenuta come trasformazione affine non costante di una variabile
continua X1 .
Proposizione 1.1.1 (Trasformazione affine di una variabile aleatoria continua). Sia X1 una variabile aleatoria reale continua con densit`
a fX1 e sia X2 = aX1 + b per a, b ∈ R tali
che a 6= 0.
1
Allora la variabile aleatoria X2 `e continua con densit`
a fX2 , e si ha fX2 (x2 ) = |a| fX1 x2a−b .
Concludiamo con un elenco di distribuzioni di variabili aleatorie continue reali; in corrispondenza
richiamiamo anche alcuni risultati (Proposizioni 1.1.2 e 1.1.3). In vista di quel che segue, dato un
qualsiasi A ⊂ R, useremo la notazione 1A per la funzione 1A : R → {0, 1} definita come segue:
(
1 se x ∈ A
1A (x) =
0 se x ∈ Ac ,
dove Ac = R\A `e il complementare dell’insieme A. Inoltre faremo riferimento alla funzione Gamma
definita come segue:
Z
∞
Γ(α) =
xα−1 e−x dx per ogni α > 0.
0
Si osservi che si ha Γ(α + 1) = αΓ(α) per ogni α > 0; quindi, se α `e intero, si ha Γ(α) = (α − 1)!.
Distribuzione Esponenziale. Una variabile aleatoria X ha distribuzione Esponenziale di parametro λ > 0 (in simboli X ∼ Exp(λ)) se si ha fX (x) = λe−λx 1(0,∞) (x). In corrispondenza si ha
E[X] = λ1 e Var[X] = λ12 .
3
Distribuzione Gamma. Una variabile aleatoria X ha distribuzione Gamma di parametri α, β >
β α α−1 −βx
0 (in simboli X ∼ Gamma(α, β)) se si ha fX (x) = Γ(α)
x
e
1(0,∞) (x).
Una variabile aleatoria X ha distribuzione chi-quadro con n gradi di libert`a (in
simboli X ∼ χ2 (n)) se X ∼ Gamma( n2 , 12 ).
In particolare si ha Gamma(1, β) = Exp(β). In corrispondenza si ha E[X] =
Infine richiamiamo i seguenti risultati.
α
β
e Var[X] =
α
.
β2
Proposizione 1.1.2. (i) Se {X1 , . . . , Xn } sono indipendenti e, per ogni i ∈ {1, . . . , n}, Xi ∼
Gamma(αi , β), allora X1 + · · · + Xn ∼ Gamma(α1 + · · · + αn , β). (ii) Se X ∼ Gamma(α, β) e
c > 0, allora cX ∼ Gamma(α, βc ).
Distribuzione Uniforme. Una variabile aleatoria X ha distribuzione Uniforme su [a, b] (in
1
1[a,b] (x). In corrispondenza si ha E[X] = a+b
simboli X ∼ U [a, b]) se si ha fX (x) = b−a
2 (punto
medio dell’intervallo) e Var[X] =
(b−a)2
12 .
Distribuzione Beta. Una variabile aleatoria X ha distribuzione Beta di parametri α, β > 0 (in
Γ(α+β) α−1
x
(1 − x)β−1 1[0,1] (x). In particolare si ha
simboli X ∼ Beta(α, β)) se si ha fX (x) = Γ(α)Γ(β)
Beta(1, 1) = U [0, 1]. In corrispondenza si ha E[X] =
α
α+β
e Var[X] =
αβ
.
(α+β)2 (α+β+1)
Distribuzione di Pareto. Una variabile aleatoria X ha distribuzione di Pareto di parametri
α, β > 0 (in simboli X ∼ P areto(α, β)) se si ha fX (x) = αβ α x−(α+1) 1[β,∞) (x). Osserviamo che
Z ∞
Z ∞
k
α −(α+1)
k
αβ α x−(α−k+1) dx per ogni k ≥ 1
x αβ x
1[β,∞) (x)dx =
E[X ] =
β
0
e quindi E[X k ] < ∞ se e solo se α − k + 1 > 1, che equivale a dire k < α; inoltre, se k < α, si
2
αβ k
αβ
ha E[X k ] = α−k
. Quindi in corrispondenza si ha E[X] = α−1
se α > 1 e Var[X] = (α−1)αβ2 (α−2) se
α > 2.
Distribuzione Normale (o Gaussiana).
Una variabile aleatoria X ha distribuzione Normale
(x−µ)2
di parametri µ ∈ R e σ 2 > 0 (in simboli X ∼ N (µ, σ 2 )) se si ha fX (x) = √ 1 2 e− 2σ2 . In
2πσ
corrispondenza si ha E[X] = µ e Var[X] = σ 2 ; quindi talvolta si parla di distribuzione Normale di
` noto che, se X ∼ N (µ, σ 2 ), X−µ ∼ N (0, 1); la distribuzione N (0, 1) `e
media µ e varianza σ 2 . E
σ
detta distribuzione Normale standard.
In alcuni casi `e utile fare riferimento al reciproco della varianza σ 2 ; quindi si considera r = σ12 e tale
parametro r viene detto precisione; in corrispondenza la densit`a assume la seguente espressione:
fX (x) =
√
r(x−µ)2
√ r e−
2
.
2π
Spiegazione della terminologia. Si usa questo termine perch´e, quando si ha una piccola
varianza, i valori sono concentrati attorno alla media µ con alta probabilit`a e quindi `e
ragionevole pensare al fatto che si ha un’alta precisione. Lo stesso tipo di discorso si
pu`o fare nel caso di varianza grande a cui corrisponde una piccola precisione.
Talvolta (questo viene utile quando si fa riferimento alla estensione n-dimensionale) una variabile
aleatoria costante c (quindi discreta) viene considerata come una variabile aleatoria con distribuzione N (c, 0).
Concludiamo richiamando i seguenti risultati.
4
Proposizione 1.1.3. Se {X1 , . . . , Xn } sono indipendenti e, per ogni i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ),
2
P
i)
allora ni=1 (Xiσ−µ
∼ Gamma( n2 , 12 ) = χ2 (n).
2
i
P
Dimostrazione. Noi siamo interessati alla distribuzione di ni=1 Zi2 dove, per ogni i ∈ {1, . . . , n},
i
Zi = Xiσ−µ
. Le variabili aleatorie {Z1 , . . . , Zn } sono indipendenti e Normali standard. Le variai
bili aleatorie {Z12 , . . . , Zn2 } sono ovviamente indipendenti. Inoltre ciascuna delle variabili aleatorie
{Z12 , . . . , Zn2 } ha distribuzione Gamma( 21 , 12 ); infatti, per ogni i ∈ {1, . . . , n}, se usiamo il simbolo
Φ per la funzione di distribuzione delle variabili aleatorie con distribuzione Normale standard si ha

√
√
√
√

 P (− √t ≤ Zi ≤ t)√= Φ( t) −√Φ(− t)
P (Zi2 ≤ t) =
= Φ( t) − (1 − Φ( t)) = 2Φ( t) − 1
se t ≥ 0


0
se t < 0,
e la corrispondente densit`
a continua che si ottiene derivando `e
√ 2
t)
2
(
1
fZi (t) = 2 √ e−
2π
1
1
t− 2 − t
β α α−1 −βt
√ 1(0,∞) (t) = √ e 2 1(0,∞) (t) =
t
e 1(0,∞) (t)
,
Γ(α)
2 t
2π
α=β= 21
perch´e
Z ∞
Z ∞ 2 − 12
Z ∞√
1
x2
2 − x2
1
x
−
−1
−y
=
y 2 e dy =
e 2 xdx =
e 2 xdx
Γ
2
2
x
0
0
0
Z ∞
√ √
√ Z ∞ − x2
√ 1 √
x2
1
e 2 dx = 2 2π √
e− 2 dx = 2 π = π
= 2
2
2π 0
0
|
{z
}
=1−Φ(0)=1− 12 = 12
2
(si `e considerato il cambio di variabile y = x2 , da cui segue che dy = xdx e gli estremi di integrazione
P
non cambiano). In conclusione possiamo dire che ni=1 Zi2 ∼ Gamma( n2 , 12 ) come conseguenza della
Proposizione 1.1.2(i) con α1 = · · · = αn = β = 21 . 2
1.2
Variabili aleatorie n-dimensionali
Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) assume valori in Rn .
1.2.1
Variabili aleatorie n-dimensionali discrete
Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) `e discreta, con densit`a discreta fX n , se
P (X n ∈ A) =
X
fX n (xn ) per ogni A ⊂ Rn .
xn ∈A
La densit`a discreta fX n `e definita come segue:
fX n (xn ) = P (X n = xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn .
In corrispondenza possiamo considerare le densit`a marginali (discrete) per un sottoinsieme di variabili aleatorie. Ad esempio, per i ∈ {1, . . . , n} arbitrariamente fissato, la densit`a marginale discreta
fXi della variabile aleatoria reale Xi si ottiene come segue:
fXi (xi ) =
X
y n :yi =xi
5
fX n (y n ).
Si verifica che le componenti di X n = (X1 , . . . , Xn ) sono indipendenti, cio`e
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ) per ogni A1 . . . , An ⊂ R,
se e solo se
fX n (xn ) = fX1 (x1 ) · · · fXn (xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn .
Esempio 1.2.1 (Geometriche Indipendenti). Consideriamo (X1 , X2 ) dove X1 e X2 sono indipendenti e, per i ∈ {1, 2}, Xi ∼ Geo(pi ). Calcoliamo le seguenti probabilit`
a:
X
P (X1 = X2 ) =
fX1 ,X2 (x1 , x2 ) =
X
fX1 (x1 )fX2 (x1 )
x1 ≥1
x1 =x2 ≥1
=
X
(1 − p1 )x1 −1 p1 (1 − p2 )x1 −1 p2 = p1 p2
X
((1 − p1 )(1 − p2 ))x1 −1
x1 ≥1
x1 ≥1
p1 p2
p1 p2
=
;
=
1 − (1 − p1 )(1 − p2 )
p1 + p2 − p1 p2
P (X1 > X2 ) =
X
fX1 ,X2 (x1 , x2 ) =
=
(1 − p2 )x2 −1 p2
fX2 (x2 )
X
fX1 (x1 )
(1 − p1 )x1 −1 p1 = p1 p2
x1 >x2
x2 ≥1
X
x1 >x2
x2 ≥1
x1 >x2 ≥1
X
X
X
(1 − p2 )x2 −1
x2 ≥1
(1 − p1 )x2 +1−1
1 − (1 − p1 )
p2 X
(1 − p2 )(1 − p1 )
p2
=
((1 − p2 )(1 − p1 ))x2 =
1 − p2
1 − p2 1 − (1 − p2 )(1 − p1 )
x2 ≥1
p2 − p1 p2
p2 (1 − p1 )
=
=
p1 + p2 − p1 p2
p1 + p2 − p1 p2
1 −p1 p2
e P (X1 < X2 ) = p1p+p
(si calcola in maniera analoga a quanto fatto per P (X1 > X2 ); si
2 −p1 p2
ottiene lo stesso valore scambiando il ruolo di p1 e p2 ). Si osservi che la somma delle tre probabilit`
a
calcolate `e uguale a 1 come deve essere.
Densit`
a condizionate e speranze matematiche condizionate. Per fissare le idee consideriamo il caso n = 2 e il condizionamento di X1 rispetto a X2 = x2 .
Nel caso in cui fX2 (x2 ) > 0, possiamo considerare la densit`a di X1 condizionata a X2 = x2 , definita
come segue
fX1 ,X2 (x1 , x2 )
.
fX1 |X2 (x1 |x2 ) =
fX2 (x2 )
Si verifica facilmente che fX1 |X2 (·|x2 ) `e una densit`a di una variabile aleatoria reale discreta. In
riferimento a tale densit`
a si pu`
o fare riferimento al concetto di speranza matematica e di varianza
come visto in precedenza; in corrispondenza abbiamo la speranza matematica di X1 condizionata
a X2 = x2 che indicheremo con E[X1 |X2 = x2 ] e, analogamente, la varianza di X1 condizionata a
X2 = x2 che indicheremo con Var[X1 |X2 = x2 ].
Esempio 1.2.2 (Schema di Bernoulli: tempi di primo e secondo successo). Consideriamo (X1 , X2 )
con la seguente densit`
a congiunta:
(
(1 − p)x1 −1 p(1 − p)(x2 −x1 )−1 p = p2 (1 − p)x2 −2 se x2 > x1 ≥ 1, (x1 e x2 interi)
fX1 ,X2 (x1 , x2 ) =
0
altrimenti.
6
Allora si ha
fX2 (x2 ) =
X
fX1 ,X2 (x1 , x2 ) =
x1 ≥1
xX
2 −1
p2 (1 − p)x2 −2 = (x2 − 1)p2 (1 − p)x2 −2 per x2 ≥ 2 intero,
x1 =1
da cui segue
fX1 |X2 (x1 |x2 ) =
fX1 ,X2 (x1 , x2 )
p2 (1 − p)x2 −2
1
=
=
per x1 ∈ {1, . . . , x2 − 1}
fX2 (x2 )
(x2 − 1)p2 (1 − p)x2 −2
x2 − 1
(quindi X1 |X2 = x2 ha distribuzione Uniforme Discreta sull’insieme {1, . . . , x2 − 1}) e
E[X1 |X2 = x2 ] =
xX
2 −1
x1
x1 =1
1
(x2 − 1)x2 1
x2
=
=
.
x2 − 1
2
x2 − 1
2
Si osservi che le variabili aleatorie in questo esempio hanno la seguente interpretazione: Xk `e il
numero di prove necessarie per avere il k-simo successo in prove indipendenti con probabilit`
a di
successo p in ogni prova. In riferimento a tale interpretazione `e noto che, per ogni k ≥ 1 intero, la
densit`
a discreta di Xk `e
k −1
)pk (1 − p)xk −k per xk ≥ k intero,
fXk (xk ) = (xk−1
e in tal caso si dice che Xk ha distribuzione Binomiale Negativa di parametri k e p.
1.2.2
Variabili aleatorie n-dimensionali continue
Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) `e continua, con densit`a continua fX n ,
se
Z
fX n (xn )dx1 · · · dxn per ogni A ∈ BRn ,
P (X n ∈ A) =
A
dove BRn `e la pi`
u piccola σ-algebra su Rn contenente gli insiemi aperti di Rn . In corrispondenza
possiamo considerare le densit`
a marginali (continue) per un sottoinsieme di variabili aleatorie. Ad
esempio, per i ∈ {1, . . . , n} arbitrariamente fissato, la densit`a marginale discreta fXi della variabile
aleatoria reale Xi si ottiene come segue:
Z
fXi (xi ) =
fX n (y1 , . . . , yi−1 , xi , yi+1 , . . . , yn )dy1 · · · dyi−1 dyi+1 · · · dyn .
Rn−1
Si verifica che le componenti di X n = (X1 , . . . , Xn ) sono indipendenti, cio`e
P (a1 ≤ X1 ≤ b1 , . . . , an ≤ Xn ≤ bn )
=P (a1 ≤ X1 ≤ b1 ) · · · P (an ≤ Xn ≤ bn ) per ogni a1 , b1 . . . , an , bn ∈ R,
se e solo se
fX n (xn ) = fX1 (x1 ) · · · fXn (xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn .
Esempio 1.2.3 (Esponenziali Indipendenti). Consideriamo (X1 , X2 ) dove X1 e X2 sono indipendenti e, per i ∈ {1, 2}, la variabile aleatoria Xi ∼ Exp(λi ). Calcoliamo le seguenti probabilit`
a:
P (X1 = X2 ) = 0 perch´e l’evento fa riferimento ad un sottoinsieme del piano di area nulla;
Z
Z ∞
Z ∞
−λ2 x2
P (X1 > X2 ) =
fX1 ,X2 (x1 , x2 )1x1 >x2 dx1 dx2 =
dx2 λ2 e
dx1 λ1 e−λ1 x1
2
x2
ZR∞
Z0 ∞
=
dx2 λ2 e−λ2 x2 [−e−λ1 x1 ]xx11 =∞
dx2 λ2 e−λ2 x2 e−λ1 x2
=x2 =
0
0
Z ∞
λ2
λ2
λ2
−(λ1 +λ2 )x2
=
dx2 (λ1 + λ2 )e
=
·1=
λ1 + λ2 0
λ1 + λ2
λ1 + λ2
7
1
e P (X1 < X2 ) = λ1λ+λ
(si calcola in maniera analoga a quanto fatto per P (X1 > X2 ); si ottiene lo
2
stesso valore scambiando il ruolo di λ1 e λ2 ). Si osservi che la somma delle tre probabilit`
a calcolate
`e uguale a 1 come deve essere.
Densit`
a condizionate e speranze matematiche condizionate. Per fissare le idee consideriamo il caso n = 2 e il condizionamento di X1 rispetto a X2 = x2 .
Nel caso in cui fX2 (x2 ) > 0, possiamo considerare la densit`a di X1 condizionata a X2 = x2 , definita
come segue
fX1 ,X2 (x1 , x2 )
.
fX1 |X2 (x1 |x2 ) =
fX2 (x2 )
Si verifica facilmente che fX1 |X2 (·|x2 ) `e una densit`a di una variabile aleatoria reale continua. In
riferimento a tale densit`
a si pu`
o fare riferimento al concetto di speranza matematica e di varianza
come visto in precedenza nel caso discreto e in corrispondenza useremo le stesse notazioni.
Esempio 1.2.4 (Processo di Poisson: tempi del primo e secondo evento). Consideriamo (X1 , X2 )
con la seguente densit`
a congiunta:
(
λe−λx1 λe−λ(x2 −x1 ) = λ2 e−λx2 se x2 > x1 > 0
fX1 ,X2 (x1 , x2 ) =
0
altrimenti.
Allora si ha
Z
fX2 (x2 ) =
Z
x2
fX1 ,X2 (x1 , x2 )dx1 =
λ2 e−λx2 dx1 1(0,∞) (x2 ) = λ2 x2 e−λx2 1(0,∞) (x2 ),
0
R
da cui, per x2 > 0, segue
1
λ2 e−λx2
=
per x1 ∈ (0, x2 )
2
−λx
2
x2
λ x2 e
fX1 |X2 (x1 |x2 ) =
(quindi X1 |X2 = x2 ∼ U [0, x2 ]) e
x2
Z
E[X1 |X2 = x2 ] =
0
2 x1 =x2
1
x
1
x2
x1 dx1 = 1
=
.
x2
2 x1 =0 x2
2
Si osservi che E[X1 |X2 = x2 ] coincide con il punto medio dell’intervallo [0, x2 ] in accordo con
quanto avevamo detto sulla distribuzione Uniforme. Si osservi che le variabili aleatorie in questo
esempio hanno la seguente interpretazione: Xk `e l’istante del k-simo evento di un Processo di
Poisson di intensit`
a λ. In riferimento a tale interpretazione `e noto che, per ogni k ≥ 1 intero, la
densit`
a continua di Xk `e
λk k−1 −λxk
x e
fXk (xk ) =
1(0,∞) (xk ),
Γ(k) k
cio`e Xk ∼ Gamma(k, λ).
1.2.3
Casi con densit`
a congiunta mista
Esistono casi con densit`
a congiunta mista. Per fissare le idee consideriamo il caso n = 2; inoltre
supporremo che X1 sia una variabile aleatoria discreta e che X2 sia una variabile aleatoria continua.
La variabile aleatoria (X1 , X2 ) ha densit`a congiunta mista fX1 ,X2 , discreta su X1 e continua su X2 ,
se
X Z
P ((X1 , X2 ) ∈ A1 × A2 ) =
fX1 ,X2 (x1 , x2 )dx2 per ogni A1 ⊂ R e A2 ∈ BR .
x1 ∈A1
A2
8
In corrispondenza si le densit`
a marginali sono definite come segue: la densit`a discreta di X1 `e
Z
fX1 ,X2 (x1 , x2 )dx2 ;
fX1 (x1 ) =
R
la densit`a continua di X2 `e
X
fX2 (x2 ) =
fX1 ,X2 (x1 , x2 ).
x1 ∈R
Come negli altri casi visti in precedenza possiamo dire che le variabili aleatorie X1 e X2 sono
indipendenti, cio`e
P (X1 ∈ A, a ≤ X2 ≤ b) = P (X1 ∈ A)P (a ≤ X2 ≤ b) per ogni A ⊂ R e a, b ∈ R,
se e solo se
fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ), per ogni x2 = (x1 , x2 ) ∈ R2 .
Inoltre possiamo definire le densit`
a condizionate, le speranze matematiche condizionate e le varianze
a
condizionate. Ovviamente fX1 |X2 (·|x2 ) `e una densit`a discreta come fX1 e fX2 |X1 (·|x1 ) `e una densit`
continua come fX2 . Ora presentiamo due esempi.
Esempio 1.2.5 (Geometrica con parametro uniforme). Consideriamo la seguente densit`
a congiunta
mista (con n = 2, X1 discreta e X2 continua):
(
(1 − x2 )x1 −1 x2 se (x1 , x2 ) ∈ {1, 2, 3, . . .} × (0, 1)
fX1 ,X2 (x1 , x2 ) =
0
altrimenti.
Allora si ha
fX2 (x2 ) =
X
fX1 ,X2 (x1 , x2 ) =
x1 ≥1
X
(1 − x2 )x1 −1 x2 1(0,1) (x2 ) = 1(0,1) (x2 )
x1 ≥1
da cui, per x2 ∈ (0, 1), segue
(1 − x2 )x1 −1 x2
= (1 − x2 )x1 −1 x2 per x1 ≥ 1 intero
1
(quindi X1 |X2 = x2 ∼ Geo(x2 )) e
X
1
E[X1 |X2 = x2 ] =
x1 (1 − x2 )x1 −1 x2 =
x2
fX1 |X2 (x1 |x2 ) =
x1 ≥1
in accordo con quanto avevamo detto sulla distribuzione Geometrica.
Inoltre si ha
Z
Z 1
fX1 (x1 ) =
fX1 ,X2 (x1 , x2 )dx2 =
(1 − x2 )x1 −1 x2 dx2
R
0
Z 1
Γ(2)Γ(x1 )
x1 −1
per x1 ≥ 1 intero
=
x2−1
dx2 =
2 (1 − x2 )
Γ(2 + x1 )
0
(l’ultima uguaglianza tiene conto dell’espressione della densit`
a continua della distribuzione Beta(2, x1 ))
da cui segue
fX2 |X1 (x2 |x1 ) =
(1 − x2 )x1 −1 x2 1(0,1) (x2 )
Γ(2)Γ(x1 )
Γ(2+x1 )
=
Γ(2 + x1 ) 2−1
x (1 − x2 )x1 −1 1(0,1) (x2 )
Γ(2)Γ(x1 ) 2
(quindi X2 |X1 = x1 ∼ Beta(2, x1 )) e
Z 1
Γ(2 + x1 ) 2−1
2
E[X2 |X1 = x1 ] =
x2
x2 (1 − x2 )x1 −1 dx2 =
Γ(2)Γ(x
)
2
+
x1
1
0
in accordo con quanto avevamo detto sulla distribuzione Beta.
9
Esempio 1.2.6 (Dati censurati). Consideriamo una variabile aleatoria 2-dimensionale continua
(Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ Exp(λi ). In corrispondenza
consideriamo la variabile aleatoria (X1 , X2 ) = (1Y1 ≤Y2 , min{Y1 , Y2 }).
Le distribuzioni marginali della variabili aleatoria (X1 , X2 ) si deducono facilmente come segue.
1
• Si ha X1 ∼ B( λ1λ+λ
) per quanto visto nell’Esempio 1.2.3; quindi si ha la densit`
a discreta
x12 1−x1
1
1
fX1 (x1 ) = λ1λ+λ
1 − λ1λ+λ
per x1 ∈ {0, 1}; infatti
2
2
(
1
P (X1 = 1) = P (Y1 ≤ Y2 ) = P (Y1 < Y2 ) = λ1λ+λ
2
λ2
λ1
P (X1 = 0) = P (Y1 > Y2 ) = λ1 +λ2 = 1 − λ1 +λ2 .
• Si ha X2 ∼ Exp(λ1 + λ2 ) perch´e, per ogni t ≥ 0, {min{Y1 , Y2 } > t} = {Y1 > t} ∩ {Y2 > t} da
cui segue (per le ipotesi su Y1 e Y2 - indipendenza e distribuzione esponenziale per entrambe
le variabili aleatorie)
P (min{Y1 , Y2 } > t) = P (Y1 > t)P (Y2 > t) = e−λ1 t e−λ2 t = e−(λ1 +λ2 )t .
Ora studiamo la distribuzione congiunta di (X1 , X2 ). Per ogni t ≥ 0, si ha
P (X1 = 1, X2 > t) =P (Y1 ≤ Y2 , Y1 > t) = P (t < Y1 ≤ Y2 )
Z ∞
Z ∞
Z ∞
−λ1 y1
−λ2 y2
=
λ1 e
λ2 e
dy2 dy1 =
λ1 e−λ1 y1 e−λ2 y1 dy1
t
y1
t
Z ∞
λ1
=
(λ1 + λ2 )e−(λ1 +λ2 )y1 dy1 = P (X1 = 1)P (X2 > t)
λ1 + λ2 t
e
P (X1 = 0, X2 > t) =P (Y1 > Y2 , Y2 > t) = P (t < Y2 < Y1 )
Z ∞
Z ∞
Z ∞
−λ2 y2
−λ1 y1
=
λ2 e
λ1 e
dy1 dy2 =
λ2 e−λ2 y2 e−λ1 y2 dy2
t
y2
t
Z ∞
λ2
(λ1 + λ2 )e−(λ1 +λ2 )y2 dy2 = P (X1 = 0)P (X2 > t).
=
λ1 + λ2 t
Quindi le variabili aleatorie X1 e X2 sono indipendenti, e questo `e un caso particolare con densit`
a
congiunta mista.
In conclusione diamo una spiegazione della terminologia dati censurati usata nei casi in cui si hanno
tempi aleatori da studiare non completamente osservabili. Per fissare le idee supponiamo di avere
a che fare con un qualsiasi contesto in survival analysis e parleremo di tempo di funzionamento.
Ad esempio supponiamo di essere interessati ad un tempo di funzionamento Y1 e di avere un tempo
massimo di osservazione Y2 , il quale a sua volta potrebbe essere aleatorio (come accade sopra) o
meno e indipendente (come accade sopra) o meno da Y1 . Allora il tempo di funzionamento osservato
sar`
a X2 = min{Y1 , Y2 } e abbiamo due casi individuati dai valori della variabile aleatoria variabile
aleatoria X1 = 1Y1 ≤Y2 :
• se X1 = 1, siamo riusciti ad osservare tutto il tempo di funzionamento e l’interruzione del
funzionamento;
• se X1 = 0, siamo riusciti ad osservare una parte del tempo di funzionamento (in questo
senso si parla di tempo di funzionamento censurato), che coincide con il massimo tempo di
osservazione; quindi non osserveremo l’interruzione del funzionamento che accadr`
a dopo la
fine del tempo di osservazione.
10
1.2.4
Il teorema del cambio di variabile per densit`
a congiunte continue
Iniziamo con l’enunciato.
Teorema 1.2.7 (Teorema del cambio di variabile). Siano U e V aperti di Rn e sia ψ : U → V
una funzione biunivoca tale che ψ e ψ −1 hanno derivate parziali continue. Inoltre siano X n =
(X1 , . . . , Xn ) e Y n = (Y1 , . . . , Yn ) due variabili aleatorie n-dimensionali tali che P (Y n ∈ U ) = 1 e
a continua fY n , X n ha densit`
a continua
X n = ψ(Y n ). Allora, se Y n ha densit`
fX n (xn ) = fY n (ψ −1 (xn ))| det Jψ−1 (xn )|1V (xn ),
dove Jψ−1 (xn ) =
∂ψi−1
∂xj (xn ) i,j∈{1,...,n}
`e la matrice Jacobiana associata a ψ −1 .
Ora vediamo alcuni esempi con l’uso di questo risultato.
Esempio 1.2.8 (Esempio con Esponenziali). Consideriamo una variabile aleatoria 2-dimensionale
continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ Exp(λ) (`e la stessa
situazione dell’Esempio 1.2.6 con λ1 = λ2 = λ). In corrispondenza consideriamo la variabile
1
aleatoria (X1 , X2 ) = ( Y1Y+Y
, Y1 + Y2 ).
2
Le distribuzioni marginali della variabili aleatoria (X1 , X2 ) si deducono facilmente come segue.
• La variabile aleatoria X1 ha la seguente funzione di distribuzione


 0
Y1
≤ x1 =
FX1 (x1 ) = P (X1 ≤ x1 ) = P
(∗)

Y1 + Y2

1
se x1 ≤ 0
se x1 ∈ (0, 1)
se x1 ≥ 1,
dove
(∗) =P (Y1 ≤ x1 (Y1 + Y2 )) = P (x1 Y2 ≥ (1 − x1 )Y1 ) = P
!
Z
Z
Z
∞
=
λe−λy1
0
Z
=
∞
λe
∞
1−x1
y1
x1
1−x
−λ 1+ x 1 y1
1
λe−λy2 dy2
∞
dy1 =
λe−λy1 e
−λ
1−x1
y1
x1
dy1
0
Z
∞
dy1 =
λe
− xλ y1
1
Z
dy1 = x1
0
0
1 − x1
Y1
Y2 ≥
x1
0
∞
λ − xλ y1
e 1 dy1 = x1 ,
x1
e quindi X1 ha densit`
a continua fX1 (x1 ) = 1[0,1] (x1 ). In conclusione X1 ∼ U [0, 1].
• Si ha X2 ∼ Gamma(2, λ) per la Proposizione 1.1.2(i) con α1 = α2 = 1 e β = λ.
Ora studiamo la distribuzione congiunta di (X1 , X2 ). Si usa il teorema del cambio di variabile
(Teorema 1.2.7) con



 U = (0, ∞) ×
(0, ∞), V = (0, 1) × (0, ∞)
1
ψ(y1 , y2 ) = y1y+y
, y1 + y2
2


 f
−λy1 1
−λy2 1
Y1 ,Y2 (y1 , y2 ) = λe
(0,∞) (y1 )λe
(0,∞) (y2 ).
In corrispondenza si ha ψ −1 (x1 , x2 ) = (x1 x2 , x2 (1 − x1 )) perch´e
(
(
(
1
x1 = y1y+y
y1 = x1 x2
x
x
=
y
1
2
1
2
x2 = y1 + y2 ,
x2 = y1 + y2 ,
11
y2 = x2 − x1 x2 = x2 (1 − x1 );
inoltre si ha
| det Jψ−1 (x1 , x2 )| = det
x2
−x2
x1
1 − x1
!
= |x2 (1 − x1 ) + x1 x2 | = |x2 |
e si verifica che
1(0,∞) (y1 )1(0,∞) (y2 ) = 1(0,∞) (x1 x2 )1(0,∞) (x2 (1 − x1 )) = 1V (x1 , x2 ).
Quindi otteniamo la seguente densit`
a congiunta
fX1 ,X2 (x1 , x2 ) =λe−λx1 x2 λe−λx2 (1−x1 ) |x2 |1V (x1 , x2 )
= 1(0,1) (x1 ) λ2 x2 e−λx2 1(0,∞) (x2 ),
| {z } |
{z
}
=fX1 (x1 )
=fX2 (x2 )
dove l’ultima uguaglianza mette in evidenza il fatto che X1 e X2 sono indipendenti con le densit`
a
marginali che gi`
a calcolate (infatti 1(0,1) (x1 ) `e una diversa versione della densit`
a continua della
λ2 2−1 −λx2
2
−λx
2
1(0,∞) (x2 )).
distribuzione U [0, 1], e λ x2 e
1(0,∞) (x2 ) coincide con Γ(2) x2 e
Esempio 1.2.9 (Esempio con Normali). Consideriamo una variabile aleatoria 2-dimensionale continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ N (0, 1). In corrispondenza
consideriamo la variabile aleatoria (X1 , X2 ) costituita dalle coordinate polari associate al punto di
p
[ (Y ,Y ) ), dove A `e il punto del
coordinate cartesiane (Y1 , Y2 ), cio`e (X1 , X2 ) = ( Y12 + Y22 , AOA
1 2
piano con coordinate (1, 0), A(Y1 ,Y2 ) `e il punto del piano con coordinate (Y1 , Y2 ) e O = (0, 0) `e
l’origine.
Si usa il teorema del cambio di variabile (Teorema 1.2.7) con


U = R2 \ {(y1 , y2 ) : y1 ≤ 0, y2 = 0}, V = (0, ∞) × (−π, π)


p
[ (y ,y ) )
ψ(y1 , y2 ) = ( y12 + y22 , AOA
1 2
2
2
2 +y 2

y1
y2
y1

2
 f
−
−
1
1
(y , y ) = √ e 2 √ e 2 = 1 e− 2 .
Y1 ,Y2
1
2
2π
2π
2π
Vale la pena osservare che, per avere una funzione biunivoca tra insiemi aperti, per le coordinate
cartesiane consideriamo il piano privato del semiasse negativo, cio`e l’insieme U ; quindi (osservando
che per la densit`
a congiunta si pu`
o trascurare il semiasse negativo perch´e ha area nulla) si pensa
di avere
1 − y12 +y22
2
fY1 ,Y2 (y1 , y2 ) =
1U (y1 , y2 ).
e
2π
` noto che ψ −1 (x1 , x2 ) = (x1 cos x2 , x1 sin x2 ); inoltre si ha
E
!
cos x2 −x1 sin x2 | det Jψ−1 (x1 , x2 )| = det
= |x1 cos2 x2 + x1 sin2 x2 | = |x1 |
sin x2 x1 cos x2
e si verifica che
1U (y1 , y2 ) = 1U (x1 cos x2 , x1 sin x2 ) = 1V (x1 , x2 ).
Quindi otteniamo la seguente densit`
a congiunta
fX1 ,X2 (x1 , x2 ) =
x2
1 − x21
1
1
e 2 |x1 |1V (x1 , x2 ) = x1 e− 2 1(0,∞) (x1 ) 1(−π,π) (x2 ) .
2π
|
{z
} |2π {z
}
=fX1 (x1 )
=fX2 (x2 )
In corrispondenza possiamo dire che X1 e X2 sono indipendenti con le densit`
a marginali fX1 e fX2
indicate; in particolare X2 ∼ U [−π, π].
12
Esempio 1.2.10 (Proseguimento dell’Esempio 1.2.9). Consideriamo la stessa situazione dell’Esempio 1.2.9 e definiamo la variabile aleatoria W = YY12 . Allora per ogni t ∈ R si ha
FW (t) =P (W ≤ t) = P
Y2
≤t
Y1
=P
Y2
Y2
≤ t ∩ {Y1 ≥ 0} + P
≤ t ∩ {Y1 < 0}
Y1
Y1
=P ({Y2 ≤ tY1 } ∩ {Y1 > 0}) + P ({Y2 ≥ tY1 } ∩ {Y1 < 0})
Z ty1
Z ∞
Z ∞
Z 0
1 − y12
1 − y12
1 − y22
1 − y22
2
2
2
2
√ e
√ e
√ e
√ e
=
dy2 dy1 +
dy2 dy1 .
2π
2π
2π
2π
0
−∞
−∞
ty1
A questo punto possiamo ottenere la densit`
a continua di W derivando rispetto a t. Prima di tutto,
tenendo presente che si pu`
o derivare sotto il segno di integrale, si ha
Z ∞
Z 0
2
y1
(ty1 )2
1 − y12 1 − (ty1 )2
1
1
√ e 2 √ e 2 y1 dy1 −
√ e− 2 √ e− 2 y1 dy1
fW (t) =
2π
2π
2π
2π
0
−∞
Z ∞ (1+t2 )y2
Z 0
2 )y 2
(1+t
1
1
1
1
=
e− 2 y1 dy1 −
e− 2 y1 dy1 ;
2π 0
2π −∞
inoltre, poich´e il secondo integrale coincide con l’opposto del primo (basta considerare un semplice
cambio di variabile), otteniamo la seguente espressione:
Z ∞ (1+t2 )y2
Z ∞ (1+t2 )y2
2
1
1
1
−
2
fW (t) =
e
y1 dy1 =
e− 2 (1 + t2 )y1 dy1
2
2π 0
π(1 + t ) 0
2 )y 2 y1 =∞
(1+t
1
1
1
−e− 2
=
.
=
π(1 + t2 )
π(1
+ t2 )
y1 =0
Possiamo ottenere lo stesso risultato in un altro modo osservando che W = tan X2 , dove X2 `e
la variabile aleatoria nell’Esempio 1.2.9 e quindi X2 ∼ U [−π, π]. A tal proposito si ricorda che
x 7→ tan x `e invertibile con inversa y 7→ arctan y per x ∈ − π2 , π2 . Quindi si ha
(∗)
FW (t) = P (W ≤ t) = P (tan X2 ≤ t) = 2
Z
arctan t
− π2
1
1
π
dx2 =
arctan t +
2π
π
2
(∗)
(si osservi che l’uguaglianza = si motiva in maniera diversa distinguendo i casi t ≤ 0 e t > 0) da
1
cui, derivando rispetto a t, si ottiene ancora la densit`
a fW (t) = π(1+t
2 ) . In conclusione possiamo
dire che la variabile aleatoria W ha distribuzione di Cauchy, e tale distribuzione costituisce un
esempio di distribuzione continua per cui non si ha una speranza matematica finita.
Esempio 1.2.11 (Esempio con Uniformi). Consideriamo una variabile aleatoria 2-dimensionale
continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e ciascuna delle due ha distribuzione Uniforme
su [0, 1]. In corrispondenza consideriamo la variabile aleatoria (X1 , X2 ) = (Y1 + Y2 , Y1 − Y2 ).
Si usa il teorema del cambio di variabile (Teorema 1.2.7) con


 U = (0, 1) × (0, 1), V = {(x1 , x2 ) : 0 < x1 + x2 < 2, 0 < x1 − x2 < 2}
ψ(y1 , y2 ) = (y1 + y2 , y1 − y2 )


fY1 ,Y2 (y1 , y2 ) = 1(0,1) (y1 )1(0,1) (y2 )
(stiamo considerando le versioni 1(0,1) (y1 ) e 1(0,1) (y2 ) al posto di 1[0,1] (y1 ) e 1[0,1] (y2 ) rispettiva
2 x1 −x2
mente). In corrispondenza si ha ψ −1 (x1 , x2 ) = x1 +x
perch´e
2 ,
2
(
(
2
x1 = y1 + y2
y1 = x1 +x
2
2
x2 = y1 − y2 ,
y2 = x1 −x
2 ;
13
inoltre si ha
| det Jψ−1 (x1 , x2 )| = det
1
2
1
2
1
2
− 21
! 1 1 1
= − − =
4 4
2
e si verifica che
1(0,1) (y1 )1(0,1) (y2 ) = 1(0,1)
x1 + x2
2
1(0,1)
x1 − x2
2
= 1V (x1 , x2 ).
Quindi otteniamo la seguente densit`
a congiunta
1
fX1 ,X2 (x1 , x2 ) = 1V (x1 , x2 ).
2
In corrispondenza possiamo dire che (X1 , X2 ) ha distribuzione uniforme sull’insieme V (che `e il
quadrato di vertici (0, 0), (1, 1), (2, 0), (1, −1); l’area di tale quadrato `e uguale a 2 (e in effetti si
√
vede che il lato del quadrato ha lunghezza 2) e questo spiega perch`e appare il denominatore 2
nell’espressione della densit`
a. Osserviamo che X1 e X2 non sono indipendenti perch´e V non `e un
insieme esprimibile come prodotto cartesiano tra due insiemi.
1.2.5
Variabili aleatorie n-dimensionali non continue, con marginali continue
In generale, date n variabili aleatorie reali X1 , . . . , Xn definite su uno stesso spazio di probabilit`a, non `e possibile conoscere la distribuzione della variabile aleatoria n-dimensionale X n =
(X1 , . . . , Xn ). Per`
o la distribuzione della variabile aleatoria n-dimensionale `e nota se le componenti
sono indipendenti. In particolare abbiamo gi`a illustrato il caso di componenti indipendenti nel caso
di variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) discreta e continua (e anche il caso con
densit`a mista).
` opportuno osservare la seguente differenza tra variabili aleatorie n-dimensionali discrete e contiE
nue. In generale, date n variabili aleatorie reali discrete X1 , . . . , Xn definite su uno stesso spazio di
probabilit`a, `e sempre possibile pensarle come le componenti di una variabile aleatoria discreta ndimensionale X n = (X1 , . . . , Xn ). Al contrario, date n variabili aleatorie reali continue X1 , . . . , Xn
definite su uno stesso spazio di probabilit`a, non `e garantito che queste siano le componenti di una
variabile aleatoria continua n-dimensionale X n = (X1 , . . . , Xn ). In quel che segue costruiremo alcuni esempi e, per fare questo, `e opportuno fare riferimento a casi in cui si ha P (X n ∈ S) = 1, dove
S ⊂ Rn e il Rn -volume1 di S `e nullo. In quel che segue consideriamo alcuni esempi n-dimensionali
con n = 2 (per fissare le idee) in cui l’insieme S `e una retta, o l’unione di due semirette e un
segmento, o l’unione di due rette.
Esempio 1.2.12 (Trasformazione affine). Sia n = 2. Poniamo X2 = aX1 + b dove a, b ∈ R e a 6= 0
(si esclude a = 0 perch´e altrimenti si avrebbe X2 = b, e quindi si avrebbe un caso con X2 discreta).
Allora (X1 , X2 ) non pu`
o essere continua perch´e non `e possibile trovare una densit`
a continua fX1 ,X2 .
2
Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = ax1 + b}, si ha P ((X1 , X2 ) ∈ S) = 1
per costruzione e S ha area nulla nel piano (essendo una retta).
Per`
o possiamo avere le marginali continue. Infatti, se X1 `e una variabile aleatoria continua con
densit`
a fX1 , allora anche X2 `e continua con densit`
a fX2 data dalla Proposizione 1.1.1.
Si osservi che si ha
Z
P ((X1 , X2 ) ∈ A) =
fX1 (x1 )dx1 per ogni A ∈ BR2 .
{x1 ∈R:(x1 ,ax1 +b)∈A}
1
Ad esempio il R2 -volume di S ⊂ R2 `e l’area di S.
14
Tale formula mette in evidenza che, dato un qualsiasi insieme A ∈ BR2 , possiamo limitarci a
considerare la sua traccia dell’insieme A sulla retta S.
Esempio 1.2.13 (Esempio 1 con marginali simmetriche con la stessa distribuzione). Sia n = 2.
Poniamo X2 = g(X1 ), dove
(
x
se |x| ≤ 1
g(x) =
(1.1)
−x se |x| > 1.
Allora (X1 , X2 ) non pu`
o essere continua perch´e non `e possibile trovare una densit`
a continua fX1 ,X2 .
2
Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = g(x1 )}, si ha P ((X1 , X2 ) ∈ S) = 1 per
costruzione e S ha area nulla nel piano (essendo l’unione di un segmento e di due semirette).
Poi osserviamo che, se X1 `e simmetrica (cio`e X1 ha la stessa distribuzione di −X1 ), X1 e X2
hanno la stessa distribuzione. Questo si dimostra come segue. Per ogni t ∈ R si ha
P (X2 ≤ t) =P ({X2 ≤ t} ∩ {|X1 | ≤ 1}) + P ({X2 ≤ t} ∩ {|X1 | > 1})
=P ({X1 ≤ t} ∩ {|X1 | ≤ 1}) + P ({−X1 ≤ t} ∩ {|X1 | > 1})
e, poich´e per ipotesi di simmetria per la X1 si ha
P ({−X1 ≤ t} ∩ {|X1 | > 1}) = P ({X1 ≤ t} ∩ {| − X1 | > 1}) = P ({X1 ≤ t} ∩ {|X1 | > 1}),
otteniamo che
P (X2 ≤ t) = P ({X1 ≤ t} ∩ {|X1 | ≤ 1}) + P ({X1 ≤ t} ∩ {|X1 | > 1}) = P (X1 ≤ t).
In conclusione, se X1 `e continua (e per ipotesi di simmetria la sua densit`
a continua deve essere
una funzione simmetrica), allora X2 `e continua con la stessa densit`
a.
Esempio 1.2.14 (Esempio 2 con marginali simmetriche con la stessa distribuzione). Sia n = 2.
Poniamo X2 = ZX1 , dove Z `e una variabile aleatoria indipendente da X1 e tale che P (Z = 1) =
P (Z = −1) = 21 .
Allora (X1 , X2 ) non pu`
o essere continua perch´e non `e possibile trovare una densit`
a continua fX1 ,X2 .
2
Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = |x1 |}, si ha P ((X1 , X2 ) ∈ S) = 1 per
costruzione e S ha area nulla nel piano (essendo l’unione di due rette).
Poi osserviamo che, se X1 `e simmetrica (cio`e X1 ha la stessa distribuzione di −X1 ), X1 e X2
hanno la stessa distribuzione. Questo si dimostra come segue. Per ogni t ∈ R si ha
P (X2 ≤ t) =P (ZX1 ≤ t) = P ({ZX1 ≤ t} ∩ {Z = 1}) + P ({ZX1 ≤ t} ∩ {Z = −1})
=P ({X1 ≤ t} ∩ {Z = 1}) + P ({−X1 ≤ t} ∩ {Z = −1})
e, poich´e per le ipotesi si ha
(
P ({X1 ≤ t} ∩ {Z = 1}) = P (X1 ≤ t)P (Z = 1) = P (X21 ≤t)
P ({−X1 ≤ t} ∩ {Z = −1}) = P (−X1 ≤ t)P (Z = −1) = P (−X2 1 ≤t) =
otteniamo che
P (X1 ≤t)
,
2
P (X1 ≤ t) P (X1 ≤ t)
+
= P (X1 ≤ t).
2
2
Quindi possiamo concludere come nell’Esempio 1.2.13: se X1 `e continua (e per ipotesi di simmetria
la sua densit`
a continua deve essere una funzione simmetrica), allora anche X2 `e continua con la
stessa densit`
a.
P (X2 ≤ t) =
15
1.2.6
Distribuzione Normale n-dimensionale
In questo paragrafo viene utile considerare le variabili aleatorie n-dimensionali come particolari vettori colonna. A tal fine scriveremo X n = (X1 , . . . , Xn )0 dove il simbolo 0 viene usato per l’operazione
di trasposta per matrici in tutto il paragrafo.
In generale la distribuzione di una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn )0 (per
n ≥ 1; quindi possiamo anche considerare le variabili aleatorie reali) `e individuata dalla funzione
caratteristica ϕX n : Rn → C, la quale `e definita come segue:
ϕX n (tn ) = E[exp(it0n X n )],
P
dove i2 = −1 (unit`
a immaginaria complessa), tn = (t1 , . . . , tn )0 ∈ Rn e t0n X n = ni=1 ti Xi .
Nel caso n ≥ 2, la funzione caratteristica consente di fornire una condizione necessaria e sufficiente
per le variabili aleatorie X1 , . . . , Xn ; precisamente si ha indipendenza se e solo se
ϕX n (tn ) =
n
Y
ϕXi (ti ) per ogni tn = (t1 , . . . , tn )0 ∈ Rn .
i=1
La Definizione 1.2.15 riguarda l’estensione n-dimensionale del caso unidimensionale standardizzato
(dove standardizzato significa con media 0 e varianza 1), mentre la Definizione 1.2.16 riguarda
l’estensione n-dimensionale del caso generale.
Definizione 1.2.15. Si dice che X n = (X1 , . . . , Xn )0 ha distribuzione Normale Nn (0, In ) se
X1 , . . . , Xn sono variabili aleatorie reali indipendenti con distribuzione N (0, 1). In tal caso si ha
ktn k2
ϕX n (tn ) = e− 2 , dove ktn k2 = t21 + · · · + t2n ; inoltre possiamo dire che X n = (X1 , . . . , Xn )0 `e
continua con densit`
a
x2
x2
kx k2
1
1
1
n
1
− n2
fX n (xn ) = √ e− 2 · · · √ e− 2 =
,
e
n
2π
2π
(2π) 2
dove kxn k2 = x21 + · · · + x2n .
Definizione 1.2.16. Sia Σ2n = (σij )i,j∈{1,...,n} ∈ Rn×n una matrice con le seguenti propriet`
a:
• simmetrica (cio`e σij = σji per ogni i, j ∈ {1, . . . , n});
• semi-definita positiva (cio`e t0n Σ2n tn ≥ 0 per ogni tn = (t1 , . . . , tn )0 ∈ Rn , dove t0n Σ2n tn =
Pn
i,j=1 ti σij tj ).
In tal caso esiste una matrice Σn ∈ Rn×n simmetrica e semi-definita positiva per cui si ha Σ2n =
(Σn )2 . Allora, dato µn ∈ Rn , si dice che X n = (X1 , . . . , Xn )0 ha distribuzione Normale Nn (µn , Σ2n )
se ha la distribuzione di µn + Σn Z n dove Z n = (Z1 , . . . , Zn )0 ha distribuzione Normale Nn (0, In )
in accordo
con la Definizione
1.2.15. In corrispondenza la funzione caratteristica `e ϕX n (tn ) =
exp it0n µn −
t0n Σ2n tn
2
.
Spiegazione dell’esistenza della matrice Σn . Facendo riferimento al Teorema Spettrale
(si veda [5], Capitolo 11), per la simmetria di Σ2n esiste una base di autovettori ortogonali
di Σ2n ; in corrispondenza sia B la matrice ottenuta con gli autovettori (pensati come
vettori colonna) normalizzati. Allora si ha:
• B 0 B = In , che equivale a dire B 0 = B −1 ;
16
• B 0 Σ2n B = D dove D = diag(λ1 , . . . , λn ) `e la matrice diagonale costituita dagli
autovalori λ1 , . . . , λn di Σ2n , da cui segue Σ2n = BDB −1 = BDB 0 ;
• λ1 , . . . , λn ≥ 0 perch´e la matrice Σ2n `e semi-definita positiva e, se consideriamo la
√
√
1
1
matrice D 2 = diag( λ1 , . . . , λn ), la matrice richiesta `e Σn = BD 2 B 0 (infatti: Σn
1
1
`e simmetrica perch´e Σ0n = (BD 2 B 0 )0 = BD 2 B 0 = Σn ; Σn `e semi-definita positiva
1
perch´e, per ogni tn ∈ Rn , posto B 0 tn = (a1 , . . . , an )0 , si ha t0n Σn tn = t0n BD 2 B 0 tn =
P √
1
1
1
(Bt0n )0 D 2 B 0 tn = ni=1 λi a2i ≥ 0; si ha (Σn )2 = (BD 2 B 0 )(BD 2 B 0 ) = BDB 0 =
Σ2n ).
Interpretazione dei parametri. Osserviamo che, se X n = (X1 , . . . , Xn )0 ha distribuzione
Normale Nn (µn , Σ2n ), allora µn = (µ1 , . . . , µn )0 `e il vettore delle medie (cio`e µi = E[Xi ] per
i ∈ {1, . . . , n}) e Σ2n `e la matrice di covarianza (cio`e σij = Cov(Xi , Xj ) per i, j ∈ {1, . . . , n}). In
particolare osserviamo anche che la matrice di covarianza deve essere simmetrica (perch´e la covarianza tra due variabili aleatorie `e simmetrica) e semi-definita positiva (perch´e, per ogni tn =∈ Rn ,
si verifica che t0n Σ2n tn = Var[t0n X n ] ≥ 0).
(1)
(h)
Combinazioni lineari di variabili Normali indipendenti. Siano X n , . . . , X n variabili alea(j)
, Σ2n,(j) ). Si osservi che
torie n-dimensionali indipendenti e, per ogni j ∈ {1, . . . , h}, X n ∼ Nn (µ(j)
n
qualcuna tra queste potrebbe essere la costante µ(j)
e matrice di covarianza Σ2n,(j) nulla. Nei
n
calcoli con funzioni caratteristiche che presentiamo di seguito le uguaglianze indicate con (∗) seguono dall’ipotesi di indipendenza, mentre le uguaglianze indicate con (∗∗) seguono dall’ipotesi
(j)
, Σ2n,(j) ) per ogni j ∈ {1, . . . , h}.
X n ∼ Nn (µ(j)
n
Ph
P
P
(j)
• Siano a1 , . . . , ah ∈ R; allora
, hj=1 a2j Σ2n,(j) ). Questo si
∼ Nn ( hj=1 aj µ(j)
j=1 aj X n
n
dimostra calcolando la sua funzione caratteristica come segue:






h
h
X
X
 = E exp i

ϕPh a X (j) (tn ) = E exp it0n
aj X (j)
aj t0n X (j)
n
n
j=1
j
n
j=1

= E
h
Y
j=1

exp
iaj t0n X (j)
n
j=1
 (∗)
=
h
Y
i
h
E exp iaj t0n X (j)
n
j=1
h
Y
1 2 0 2
(∗∗)
0 (j)
=
exp iaj tn µn − aj tn Σn,(j) tn
2
j=1


h
h
X
X
1
= exp it0n
aj µ(j)
− t0n
a2j Σ2n,(j) tn  .
n
2
j=1
• Siano A1 , . . . , Ah ∈ Rm×n ; allora
j=1
(j)
j=1 Aj X n
Ph
17
P
P
∼ Nm ( hj=1 Aj µ(j)
, hj=1 Aj Σ2n,(j) A0j ). Quen
sto si dimostra calcolando la sua funzione caratteristica come segue:






h
h
X
X
 = E exp i

ϕPh A X (j) (tm ) = E exp it0m
Aj X (j)
t0m Aj X (j)
n
n
j=1
j
n
j=1

= E
h
Y
j=1


 = E
exp it0m Aj X (j)
n
j=1
(∗)
=
h
Y
h
Y


exp i(A0j tm )0 X (j)
n
j=1
i
h
E exp i(A0j tm )0 X (j)
n
j=1
(∗∗)
=
h
Y
j=1
1 0
0
0
0 (j)
0 2
exp i(Aj tm ) µn − (Aj tm ) Σn,(j) (Aj tm )
2
h
Y
1 0
0
0
(j)
2
=
exp itm Aj µn − tm Aj Σn,(j) Aj tm
2
j=1


h
h
X
X
1
= exp it0m
− t0m
Aj µ(j)
Aj Σ2n,(j) A0j tm  .
n
2
j=1
Classificazione.
[2].
j=1
Abbiamo due casi. Qui `e presentata una rielaborazione dell’Esercizio E0.4 in
1. Σ2n invertibile. In questo caso anche Σn `e invertibile. Allora, se consideriamo il teorema del
cambio di variabile (Teorema 1.2.7) con la funzione ψ : Rn → Rn definita dalla trasformazione
affine ψ(z n ) = µn + Σn z n , abbiamo una funzione invertibile con inversa ψ −1 (xn ) = Σ−1
n (xn −
−1
0
µn ) e Jψ−1 (xn ) = Σn . In conclusione X n = (X1 , . . . , Xn ) ha densit`a
fX n (xn ) =
−1 (x −µ )k2
n
n
2
kΣ
1
− n
n e
(2π) 2
| det(Σ−1
n )| =
1
n
−
1 e
(2π) 2 (det(Σ2n )) 2
−1 (x −µ )
(xn −µ )0 (Σ2
n
n)
n
n
2
.
2. Σ2n non invertibile. Abbiamo gi`a visto che t0n Σ2n tn = Var[t0n X n ] ≥ 0. Inoltre, se consideriamo l’insieme ker(Σ2n ) = {v n ∈ Rn : Σ2n v n = 0n } - dove 0n ∈ Rn `e il vettore nullo - detto
P
nucleo di Σ2n , per tn ∈ ker(Σ2n ) si ha che t0n X n = ni=1 ti Xi `e una variabile aleatoria costante;
P
quindi P ( ni=1 ti (Xi − µi ) = 0) = 1, cio`e
P (X n − µn ∈ (ker(Σ2n ))⊥ ) = 1,
dove l’insieme (ker(Σ2n ))⊥ = {wn ∈ Rn : w0n v n = 0 per ogni v n ∈ ker(Σ2n )} `e detto ortogonale
del nucleo di Σ2n . Infine possiamo dimostrare che
P (X n ∈ µn + Im(Σ2n )) = 1,
(1.2)
dove l’insieme Im(Σ2n ) = {Σ2n v n : v n ∈ Rn } `e detto immagine di Σ2n ; a tal proposito si dovr`
a
verificare che
Im(Σ2n ) = (ker(Σ2n ))⊥ .
(1.3)
Prima di tutto iniziamo osservando che vale l’inclusione Im(Σ2n ) ⊂ (ker(Σ2n ))⊥ perch´e, per
ogni v n ∈ Rn e wn ∈ ker(Σ2n ) si ha
w0n (Σ2n v n ) = (w0n Σ2n v n )0 = v 0n Σ2n wn = v 0n 0n = 0
18
(la prima uguaglianza segue dal fatto che la trasposta di un numero coincide con il numero
stesso); inoltre, poich´e abbiamo le due seguenti uguaglianze note in algebra lineare
(
n = dim ker(Σ2n ) + dim Im(Σ2n )
n = dim ker(Σ2n ) + dim(ker(Σ2n ))⊥ ,
si ha dim Im(Σ2n ) = dim(ker(Σ2n ))⊥ ; in conclusione Im(Σ2n ) `e un sottospazio vettoriale di
(ker(Σ2n ))⊥ con la stessa dimensione di (ker(Σ2n ))⊥ , e questo dimostra l’uguaglianza (1.3).
Rivisitazione degli Esempi 1.2.12, 1.2.13 e 1.2.14. Per gli Esempi 1.2.13 e 1.2.14 si veda
anche l’Esercizio E0.4 in [1] e l’Esercizio E0.15 in [2] (dove, per semplicit`a, in entrambi i casi si
assume σ12 = 1).
• Esempio 1.2.12. Consideriamo l’esempio in questione assumendo che la variabile aleatoria
` opportuno
X1 abbia distribuzione Normale 1-dimensionale di media µ1 e varianza σ12 . E
ricordare che le costanti sono particolari distribuzioni Normali con varianza nulla. Quindi `e
consentito considerare i seguenti casi: σ12 = 0 e quindi X1 = µ1 costante; a = 0 che porta ad
avere X2 = b costante. Questi casi verranno discussi alla fine di questo esempio rivisitato.
In generale `e noto che anche la variabile aleatoria X2 ha distribuzione Normale 1-dimensionale
di media µ2 = aµ1 +b e varianza σ22 = a2 σ12 . In questo caso (X1 , X2 )0 ha distribuzione Normale
2-dimensionale con vettore delle medie (µ1 , µ2 )0 = (µ1 , aµ1 + b)0 e matrice di covarianza
!
!
Var[X1 ]
Cov(X1 , X2 )
σ12 aσ12
2
Σ2 =
=
;
Cov(X2 , X1 ) Var[X2 ]
aσ12 a2 σ12
gli elementi extra-diagonali, coincidenti per simmetria della matrice di covarianza, si ottengono osservando che
Cov(X1 , X2 ) = Cov(X1 , aX1 + b) = aCov(X1 , X1 ) + Cov(X1 , b) = aVar[X1 ] + 0 = aσ12 .
Osserviamo che det Σ2n = a2 (σ12 )2 − a2 (σ12 )2 = 0 e quindi, in riferimento alla classificazione
presentata sopra, siamo nel secondo caso. A proposito della (1.2), e in particolare dell’insieme
µn + Im(Σ2n ) con n = 2, si ha
Im(Σ22 ) ={(σ12 x1 + aσ12 x2 , aσ12 x1 + a2 σ12 x2 )0 : x1 , x2 ∈ R}
={(σ12 (x1 + ax2 ), aσ12 (x1 + ax2 ))0 : x1 , x2 ∈ R} = {σ12 (y, ay)0 : y ∈ R};
quindi, se σ12 > 0, con probabilit`
a 1 la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme
costituito dalla retta generata dai multipli del vettore σ12 (1, a)0 e traslata con vettore delle
medie µ2 = (µ1 , aµ1 + b)0 . Si osservi che la matrice di covarianza che individua la direzione
della retta dipende da a e non dipende da b; del resto le costanti additive non hanno influenza
nel calcolo delle varianze e delle covarianze.
Ora concludiamo con i casi particolari. Se σ12 = 0, la retta traslata citata sopra si riduce al
singolo punto µ2 e quindi si ha la variabile aleatoria costante (X1 , X2 )0 = (µ1 , aµ1 + b)0 . Se
a = 0, la retta traslata citata sopra `e del tipo x2 = b in accordo con il fatto che si ha la
variabile aleatoria costante X2 = b.
19
• Esempi 1.2.13 e 1.2.14. Consideriamo gli esempi in questione assumendo che la variabile
aleatoria X1 abbia distribuzione Normale 1-dimensionale di media 0 (perch´e vogliamo che X1
sia simmetrica) e varianza σ12 > 0 (escludiamo il caso che σ12 = 0 perch´e si avrebbe la variabile
aleatoria costante X1 = 0, da cui segue X2 = 0; quindi si avrebbe una variabile aleatoria 2dimensionale con distribuzione Normale rappresentata dalla costante (X1 , X2 )0 = (0, 0)0 ).
Allora, per quanto abbiamo visto in ciascuno dei due esempi in questione, anche la variabile
aleatoria X2 ha distribuzione Normale di media 0 e varianza σ12 > 0. Per`o in entrambi i casi
la variabile aleatoria (X1 , X2 )0 non ha distribuzione Normale 2-dimensionale perch´e:
– Nell’Esempio 1.2.13, la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme S =
{(x1 , x2 ) ∈ R2 : x2 = g(x1 )} con probabilit`a 1;
– Nell’Esempio 1.2.14, la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme S =
{(x1 , x2 ) ∈ R2 : x2 = |x1 |} con probabilit`a 1 (pi`
u precisamente negli insiemi {(x1 , x2 ) ∈
2
2
R : x2 = x1 } e {(x1 , x2 ) ∈ R : x2 = −x1 } con probabilit`a 21 e 12 rispettivamente).
Tali situazioni sono ovviamente in disaccordo con la (1.2).
20
Capitolo 2
Statistica Classica e Statistica
Bayesiana
2.1
Introduzione
Un modello statistico `e una famiglia di distribuzioni {Pθ : θ ∈ Ω} dove Ω ⊂ Rd per qualche d; le
distribuzioni sono tutte dello stesso tipo, cio`e sono tutte discrete o continue e, in corrispondenza,
si fa riferimento ad una famiglia di densit`a (discrete o continue) {f (·|θ) : θ ∈ Ω}. In genere si ha
un insieme di riferimento X (detto spazio campionario) dove le densit`a sono positive almeno per
un valore di θ.
Penseremo sempre di avere una situazione di identificabilit`a, cio`e Pθ1 6= Pθ2 se θ1 6= θ2 . Si suppone
di avere delle variabili aleatorie osservabili (dette osservazioni ), la cui distribuzione `e una tra quelle
del modello statistico Pθ0 , dove θ0 rappresenta il vero valore del parametro che individua la vera
distribuzione delle osservazioni, e θ0 `e incognito. Il problema dell’Inferenza Statistica consiste nel
dedurre informazioni su θ0 a partire dai valori osservati.
Abbiamo due possibili approcci di cui diamo subito una breve descrizione: Statistica Classica e
Statistica Bayesiana. Le definizioni di stimatore e statistica sufficiente verranno presentati alla fine
di questa sezione.
Statistica Classica. Si suppone di avere variabili aleatorie X1 , . . . , Xn i.i.d. e con distribuzione
comune Pθ0 , dove θ0 `e un parametro incognito e deterministico. In tal caso si deve far riferimento
alla famiglia {fX n (·|θ) : θ ∈ Ω} delle possibili densit`a congiunte (discrete o continue) di X n =
(X1 , . . . , Xn ), cio`e
fX n (xn |θ) = f (x1 |θ) · · · f (xn |θ).
Talvolta, per xn ∈ X n fissato, questa espressione viene considerata come la seguente funzione
Ω 3 θ 7→ Lxn (θ) = f (x1 |θ) · · · f (xn |θ),
(2.1)
detta funzione di verosimiglianza.
Statistica Bayesiana. Si suppone di avere variabili aleatorie X1 , . . . , Xn i.i.d. condizionatamente a {Θ = θ0 }, dove Θ `e una variabile aleatoria a valori in Ω; dunque θ0 viene considerato un
parametro incognito e aleatorio. In tal caso si deve far riferimento alla densit`a congiunta (discreta,
21
continua o mista) di (X1 , . . . , Xn , Θ), che `e
fX n ,Θ (xn , θ) = f (x1 |θ) · · · f (xn |θ)h(θ),
dove h `e la densit`
a marginale (discreta o continua) di Θ.
In quel che segue, anche alla luce degli esempi che verranno trattati nel seguito, penseremo che h
R
sia una densit`
a continua. Quindi vedremo spesso integrali del tipo Ω dθ e non sommatorie del tipo
P
θ∈Ω .
Dunque gli stati di informazione su θ0 in questo caso vengono descritti da possibili densit`a su Ω
(discrete o continue) per la variabile aleatoria Θ. In particolare abbiamo lo stato di informazione
iniziale (prima delle osservazioni) e lo stato di informazione finale (dopo delle osservazioni); nel
primo caso si parla di densit`
a iniziale (o densit`
a a priori ) h che `e la densit`a marginale di Θ, nel
secondo caso si parla di densit`
a finale (o densit`
a a posteriori ) h(·|xn ) che `e la densit`a marginale di
Θ condizionata a X n = xn .
Statistiche: stimatori e statistiche sufficienti. Una qualsiasi funzione Sn : X n → Sn (per
un qualche insieme Sn ) viene detta statistica.
Una statistica che fornisce una stima di una certa funzione del parametro f (θ) (eventualmente il
parametro stesso se f `e la funzione identit`a) viene detta stimatore di f (θ).
Una statistica che contiene tutte le informazioni sul parametro date dalle osservazioni viene detta
statistica sufficiente. Come vedremo il concetto di statistica sufficiente in Statistica Classica e in
Statistica Bayesiana ha una diversa formulazione. Vedremo anche che i due concetti coincidono
perch´e si ha una stessa caratterizzazione nota come Criterio di Fattorizzazione delle densit`a per la
statistica Sn :
(F): Esistono due funzioni Hn e Kn tali che f (x1 |θ) · · · f (xn |θ) = Hn (xn )Kn (Sn (xn ), θ).
Vale la pena osservare che la scelta delle funzioni Hn e Kn che appaiono nella condizione (F) non
˜n e K
˜ n ponendo H
˜ n = cHn e K
˜ n = Kn al variare di c.
`e unica; ad esempio si hanno altre scelte H
c
2.2
2.2.1
Statistica Classica
Sufficienza
Una statistica Sn (xn ) `e una statistica sufficiente (classica) se e solo se vale la seguente condizione:
(SC): La densit`
a condizionata di X n dato Sn (X n ) = Sn (xn ) non dipende da θ.
Come vedremo, (SC) `e equivalente alla condizione (F) presentata nella sezione 2.1.
Teorema 2.2.1 (Criterio di fattorizzazione (classico)). Vale la condizione (SC) se e solo se vale
la condizione (F).
Dimostrazione. Per fissare le idee facciamo riferimento al caso in cui {f (·|θ) : θ ∈ Ω} siano densit`
a
discrete; in questo caso la densit`
a condizionata di X n dato Sn (X n ) = Sn (xn ) `e individuata dal
f (x1 |θ)···f (xn |θ)
P
rapporto
f (y1 |θ)···f (yn |θ) che in generale dipende da (xn , θ).
n
y ∈X :Sn (y )=Sn (xn )
n
n
Supponiamo che valga la condizione (SC). Allora, per un’opportuna funzione Hn (xn ), possiamo
dire che
f (x1 |θ) · · · f (xn |θ)
P
= Hn (xn ).
y ∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ)
n
n
n
22
P
In corrispondenza abbiamo (F) ponendo Kn (Sn (xn ), θ) = y ∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ).
n
n
n
Viceversa supponiamo che valga la condizione (F). Allora si ha
P
yn
f (x1 |θ) · · · f (xn |θ)
=P
∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ)
y
n
n
n
Hn (xn )Kn (Sn (xn ), θ)
∈X n :Sn (y )=Sn (x ) Hn (y n )Kn (Sn (y n ), θ)
n
n
Hn (xn )
=P
y n ∈X n :Sn (y n )=Sn (xn ) Hn (y n )
e quindi vale (SC) perch´e
2.2.2
P
Hn (xn )
y ∈X n :Sn (y )=Sn (xn )
n
n
Hn (y n )
,
(ovviamente) non dipende da θ. 2
Stimatori
In quel che segue useremo sempre la notazione xn per la media dei valori osservati, cio`e
(
P
nxn = ni=1 xi ;
x1 + · · · + xn
xn =
, da cui segue
Pn
n
i=1 (xi − xn ) = 0.
(2.2)
Inizieremo con lo stimatore con il metodo dei momenti e poi parleremo dello stimatore di massima
verosimiglianza. Per molti modelli di uso comune, e in particolare per quelli presentati in queste note, lo stimatore di massima verosimiglianza ha ottime propriet`a e sar`a quello a cui faremo
principalmente riferimento.
Osservazione 2.2.2. La Miscellanea alla fine del capitolo 7 in [3] illustra la connessione tra questi
due stimatori nel caso di modelli statistici costituiti da una famiglia esponenziale (di densit`a), cio`e
se si ha
f (x|θ) = a(x)b(θ)eh(x)k(θ)
per opportune funzioni a, b, h, k. I modelli statistici presentati in queste note sono esponenziali
tranne nel caso delle osservazioni Uniformi.
Stimatore con il metodo dei momenti. Nel caso in cui θ = (θ1 , . . . , θk ) ∈ Rk per qualche k,
si tratta di considerare il seguente sistema di equazioni:

Eθ [X1 ] = xn




 Eθ [X 2 ] = 1 Pn x2
1
i=1 i
n
.

 ..


P

Eθ [X1k ] = n1 ni=1 xki .
Allora, se esiste una soluzione (θ˜1 (xn ), . . . , θ˜k (xn )) del sistema, questa rappresenta lo stimatore di
θ con il metodo dei momenti.
Nel caso particolare di k = 1 abbiamo uno stimatore che dipende dalla media aritmetica xn , anche
quando questa non `e una statistica sufficiente.
Consideriamo il seguente esempio con k = 2 che `e piuttosto naturale nel caso di osservazioni normali
di media e varianza incognite: (θ1 , θ2 ) = (Eθ [X1 ], Varθ [X1 ]). Allora abbiamo il sistema
(
θ1 = x n
P
θ2 + θ12 = n1 ni=1 x2i ,
da cui si ottiene
(
θ˜1 (xn ) = xn
P
θ˜2 (xn ) = n1 ni=1 x2i − x2n =
23
1
n
Pn
i=1 (xi
− xn )2 .
Si osservi che l’ultima uguaglianza si verifica come segue:
n
n
n
1X 2
1X
1 X
2
2
2
xi − xn =
(xi − xn + xn ) − xn =
(xi − xn )2 + x2n + 2xn (xi − xn ) − x2n
n
n
n
i=1
i=1
i=1
n
n
n
X
1X
1X
=
(xi − xn )2 + x2n + 2xn
(xi − xn ) − x2n =
(xi − xn )2 .
n
n
i=1
i=1
i=1
Stimatore di massima verosimiglianza. Lo stimatore di massima verosimiglianza `e definito
come una funzione (se `e possibile definirla) θˆ : X n → Ω tale che
ˆ )) = max{Lx (θ) : θ ∈ Ω},
Lxn (θ(x
n
n
dove Lxn (θ) `e la funzione di verosimiglianza definita in (2.1).
` importante osservare che talvolta `e utile fare riferimento al logaritmo della funzione di verosimiE
glianza, cio`e
ˆ )) = max{log Lx (θ) : θ ∈ Ω};
log Lxn (θ(x
n
n
ovviamente questo `e lecito perch´e la funzione log(·) `e crescente1 .
ˆ ) `e esprimibile come una funzione di una statistica sufficiente. Questo
Infine osserviamo che θ(x
n
segue dal Criterio di Fattorizzazione, cio`e il Teorema 2.2.1 perch´e, per la condizione (F), si ha
ˆ )) = Hn (x ) max{Kn (Sn (x ), θ) : θ ∈ Ω}
Lxn (θ(x
n
n
n
e il punto di massimo in θ non cambia se si considerano due diverse scelte di punti di X n che
hanno la stessa immagine tramite Sn . In altri termini possiamo dire che Sn (xn ) = Sn (y n ) implica
ˆ ).
ˆ ) = θ(y
θ(x
n
n
2.3
Statistica Bayesiana
Regole operative.
Il legame tra densit`a iniziale e densit`a finale `e dato dalla formula
h(θ|xn ) =
f (x1 |θ) · · · f (xn |θ)h(θ)
,
fX n (xn )
(2.3)
R
dove fX n (xn ) = Ω f (x1 |η) · · · f (xn |η)h(η)dη `e la densit`a marginale di X n (discreta o continua,
dello stesso tipo delle densit`
a {f (·|θ) : θ ∈ Ω}; si osservi che la densit`a iniziale h e la densit`a finale
R
` opportuno sottolineare che
h(·|xn ) possono essere dell’altro tipo). E
Ω h(θ|xn )dθ = 1 e quindi il
1
fattore fX (x ) , che non dipende da θ, `e una costante di normalizzazione.
n
n
` utile considerare la seguente relazione di proporzionalit`
E
a : si dice che g1 `e proporzionale a g2 , in
simboli g1 ∝ g2 , se esiste c > 0 tale che g1 (θ) = cg2 (θ) per ogni θ ∈ Ω. Osserviamo che ∝ `e una
relazione di equivalenza:
` : g ∝ g.
• Riflessivita
• Simmetria: g1 ∝ g2 implica g2 ∝ g1 .
` : g1 ∝ g2 e g2 ∝ g3 implicano g1 ∝ g3 .
• Transitivita
1
In alcuni casi si potrebbe avere verosimiglianza nulla; in tal caso il logaritmo `e uguale a −∞, ma questo non ha
nessuna influenza nella ricerca dei punti di massimo.
24
Un’altra propriet`
a della relazione di proporzionalit`a `e la
• Chiusura rispetto al prodotto: g1 ∝ h1 e g2 ∝ h2 implicano g1 g2 ∝ h1 h2 .
Inoltre, se g1 ∝ g2 , allora g1 = g2 ; infatti, se g1 ∝ g2 , si ha g1 (θ) = cg2 (θ) per ogni θ ∈ Ω; allora
integrando si ha
Z
Z
g1 (θ)dθ = c g2 (θ)dθ,
| Ω {z }
| Ω {z }
=1
=1
da cui segue c = 1.
In conclusione la relazione di proporzionalit`a
h(θ|xn ) ∝ f (x1 |θ) · · · f (xn |θ)h(θ)
`e equivalente alla (2.3). La convenienza di usare la relazione di proporzionalit`a consiste nel fatto che
si evita di dover calcolare esattamente la densit`a (e in particolare una qualche costante moltiplicativa
di normalizzazione) individuando di fatto la densit`a a cui si `e interessati.
Aggiornamento delle densit`
a. La densit`a finale dopo n osservazioni diventa la nuova densit`
a
iniziale quando arriva la (n + 1)-sima osservazione; infatti si ha
f (xn+1 |θ)h(θ|xn ) ∝ f (x1 |θ) · · · f (xn |θ)f (xn+1 |θ)h(θ) ∝ h(θ|xn+1 ).
Quindi viene naturale pensare all’aggiornamento delle densit`a (e quindi degli stati di informazione
sul parametro) con l’acquisizione di nuove osservazioni.
Famiglie coniugate. Una famiglia di densit`a F = {hγ : γ ∈ I} `e coniugata rispetto al modello
statistico con densit`
a {f (·|θ) : θ ∈ Ω} se esiste una funzione ϕ : I × X → I tale che f (x|θ)hγ (θ) ∝
hϕ(γ,x) (θ).
L’insieme I viene detto insieme degli iperparametri. Dunque, se la densit`a iniziale appartiene
alla famiglia F, anche la densit`
a finale appartiene alla famiglia F. L’aggiornamento della densit`
a
consiste nell’aggiornamento dell’iperparametro che individua la densit`a; infatti si passa da γ a
ϕ(γ, x). Si ha la stessa cosa nel caso di n osservazioni e si passa da γ a ϕn (γ, xn ), dove ϕn :
I × X n → I coincide con ϕ per n = 1, mentre per n ≥ 2 si ha la seguente definizione per ricorrenza:
ϕn (γ, xn ) = ϕ(ϕn−1 (γ, xn−1 ), xn ).
Il concetto di famiglia coniugata ha interesse nel caso in cui l’insieme I `e sufficientemente maneggevole, cio`e ad esempio I ⊂ Rd per qualche d, e in generale γ rappresenta qualche grandezza
caratteristica della distribuzione con densit`a hγ .
2.3.1
Sufficienza
Una statistica Sn (xn ) `e una statistica sufficiente (Bayesiana) se e solo se vale la seguente condizione:
(SB): Per ogni densit`
a iniziale h esiste una funzione Fh tale che h(θ|xn ) = Fh (Sn (xn ), θ).
In altri termini la condizione (SB) coincide con la seguente: Sn (xn ) = Sn (y n ) implica h(·|xn ) =
h(·|y n ). Inoltre, come vedremo, (SB) `e equivalente alla condizione (F) presentata nella sezione
2.1.
25
Teorema 2.3.1 (Criterio di fattorizzazione (Bayesiano)). Vale la condizione (SB) se e solo se
vale la condizione (F).
Dimostrazione. Supponiamo che valga la condizione (SB). Allora si ha
f (x1 |θ) · · · f (xn |θ)h(θ)
= Fh (Sn (xn ), θ)
Ω f (x1 |η) · · · f (xn |η)h(η)dη
R
per una funzione Fh opportuna. Allora, se scegliamo una densit`a iniziale h tale che h(θ) > 0 per
ogni θ ∈ Ω, si verifica che vale la condizione (F) con una opportuna scelta delle funzioni Hn e Kn
indicata di seguito (e che dipende dalla scelta della densit`a iniziale h):
Z
Fh (Sn (xn ), θ)
f (x1 |η) · · · f (xn |η)h(η)dη ·
f (x1 |θ) · · · f (xn |θ) =
.
h(θ)
|Ω
{z
} |
{z
}
=Hn (xn )
=Kn (Sn (xn ),θ)
Viceversa supponiamo che valga la condizione (F). Allora si ha
h(θ|xn ) = R
e quindi vale (SB) con Fh (s, θ) =
Hn (xn )Kn (Sn (xn ), θ)h(θ)
,
Ω Hn (xn )Kn (Sn (xn ), η)h(η)dη
R Kn (s,θ)h(θ) .
Ω Kn (s,η)h(η)dη
2
Concludiamo con un altro risultato che illustra un procedimento per costruire una famiglia coniugata nel caso nel caso in cui si abbiano statistiche sufficienti con opportune propriet`a. Qui si
presenta una rielaborazione di una parte della sezione 9.3 in [4].
Proposizione 2.3.2 (Costruzione di una famiglia coniugata). Sia {f (·|θ) : θ ∈ Ω} un modello
statistico per una singola osservazione. Supponiamo che, per ogni n ≥ 1, esiste una statistica
sufficiente (Bayesiana) Sn (xn ), dove Sn : X n → S per un insieme S che non dipende da n.
Quindi, per il Teorema 2.3.1, si ha la fattorizzazione f (x1 |θ) · · · f (xn |θ) = Hn (xn )Kn (Sn (xn ), θ);
R
inoltre supponiamo che Ω Kn (σ, θ)dθ ∈ (0, ∞) per ogni (n, σ) ∈ I = N × S (dove N `e l’insieme dei
numeri interi positivi). Allora la famiglia di densit`
a {h(α,σ) : (α, σ) ∈ I} definita dalla relazione
h(α,σ) (θ) ∝ Kα (σ, θ) `e coniugata rispetto al modello statistico e la funzione ϕ : I × X → I `e definita
come segue: ϕ((α, σ), x) = (1 + α, S1+α (x, Sα← (σ))), dove Sα← (σ) `e un qualsiasi y α ∈ X α tale che
Sα (y α ) = σ.
Dimostrazione. Iniziamo osservando che, essendo f (x|θ) ∝ K1 (S1 (x), θ) e h(α,σ) (θ) ∝ Kα (σ, θ), si
ha f (x|θ)h(α,σ) (θ) ∝ K1 (S1 (x), θ)Kα (σ, θ). Allora basta verificare che
K1 (S1 (x), θ)Kα (σ, θ) ∝ K1+α (S1+α (x, Sα← (σ)), θ),
(2.4)
perch´e in corrispondenza si avrebbe f (x|θ)h(α,σ) (θ) ∝ K1+α (S1+α (x, Sα← (σ)), θ) ∝ hϕ((α,σ),x) . La
relazione di proporzionalit`
a (2.4) si dimostra osservando che, per ogni m1 , m2 ≥ 1 interi, si ha



 f (x1 |θ) · · · f (xm1 |θ) ∝ Km1 (Sm1 (xm1 ), θ)
f (y1 |θ) · · · f (ym2 |θ) ∝ Km2 (Sm2 (y m ), θ)
2


 f (x1 |θ) · · · f (xm |θ)f (y1 |θ) · · · f (ym |θ) ∝ Km +m (Sm +m (x , y ), θ),
1
2
1
2
1
2
m1
m2
da cui segue Km1 (Sm1 (xm1 ), θ)Km2 (Sm2 (y m ), θ) ∝ Km1 +m2 (Sm1 +m2 (xm1 , y m ), θ); allora baster`
a
2
2
m
2
porre m1 = 1, xm1 = x, m2 = α e scegliere y m ∈ X
tale che Sm2 (y m ) = σ. 2
2
2
26
Negli esempi che vedremo avremo sempre che, per ogni n ≥ 1, esiste una statistica sufficiente
(Bayesiana) Sn (xn ), dove Sn : X n → S per un insieme S che non dipende da n. Spesso per`o conviene
considerare famiglie di densit`
a coniugate leggermente pi`
u grandi sostituendo l’iperparametro α ∈ N
nella Proposizione 2.3.2 con un iperparametro positivo non necessariamente intero. In questo modo
si ha ancora una famiglia coniugata, l’aggiornamento degli iperparametri funziona nello stesso modo
e si considera una scelta pi`
u ricca per gli stati di informazioni iniziali sul parametro.
2.3.2
Stimatori
La teoria degli stimatori in Statistica Bayesiana si introduce facendo riferimento alla teoria delle
decisioni. Si considera una funzione di perdita ` : Ω × Ω → [0, ∞) con opportune propriet`a. Ad
esempio, nel caso in cui Ω ⊂ R (questo accade in molti esempi che vedremo), si richiedono le
seguenti propriet`
a:
• `(θ, θ∗ ) = 0 se e solo se θ = θ∗ ;
• `(θ, θ∗ ) crescente rispetto a |θ − θ∗ |.
In corrispondenza lo stimatore Bayesiano di θ (se esiste) `e definito come una funzione θ∗ : X n → Ω
tale che
Z
Z
`(θ, δ(xn ))h(θ|xn )dθ : δ ∈ ∆ ,
`(θ, θ∗ (xn ))h(θ|xn )dθ = min
Ω
Ω
R
dove ∆ `e la famiglia delle funzioni δ : X n → Ω per cui l’integrale Ω `(θ, δ(xn ))h(θ|xn )dθ esiste
finito. In altri termini `e come dire che
E[`(Θ, θ∗ (xn ))|X n = xn ] = min {E[`(Θ, δ(xn ))|X n = xn ] : δ ∈ ∆} ;
in quel che segue spesso faremo riferimento proprio alla notazione con la speranza matematica
condizionata.
Noi consideriamo sempre la funzione di perdita quadratica `(θ, θ∗ ) = (θ − θ∗ )2 , la quale soddisfa le
propriet`a citate sopra. In corrispondenza si ha
Z
θh(θ|xn ) o, in altri termini, θ∗ (xn ) = E[Θ|X n = xn ].
θ∗ (xn ) =
Ω
Per dimostrare questo iniziamo osservando che E[`(Θ, δ(xn ))|X n = xn ] = E[(Θ − δ(xn ))2 |X n = xn ];
allora si ha
E[(Θ − δ(xn ))2 |X n = xn ] =E[(Θ − θ∗ (xn ) + θ∗ (xn ) − δ(xn ))2 |X n = xn ]
=E[(Θ − θ∗ (xn ))2 |X n = xn ] + E[(θ∗ (xn ) − δ(xn ))2 |X n = xn ]
{z
}
|
≥0
+ 2E[(Θ − θ∗ (xn ))(θ∗ (xn ) − δ(xn ))|X n = xn ]
≥Var[Θ|X n = xn ] + 2(θ∗ (xn ) − δ(xn ))E[Θ − θ∗ (xn )|X n = xn ];
infine, poich´e si ha
E[Θ − θ∗ (xn )|X n = xn ] = E[Θ|X n = xn ] − θ∗ (xn ) = 0,
otteniamo la disuguaglianza
E[(Θ − δ(xn ))2 |X n = xn ] ≥ Var[Θ|X n = xn ] = E[(Θ − θ∗ (xn ))2 |X n = xn ]
per ogni scelta di δ ∈ ∆. Questo completa la dimostrazione perch´e abbiamo ottenuto una quantit`
a
minorante che non dipende dalla scelta di δ ∈ ∆, e tale quantit`a minorante `e raggiunta proprio per
δ = θ∗ .
27
2.3.3
Predizione
Ora definiamo la densit`
a predittiva, cio`e la densit`a di X n,m = (Xn+1 , . . . , Xn+m ) (osservazioni future) condizionata a X n = xn (osservazioni passate); tale densit`a verr`a indicata con gX n,m |X n (·|xn )
ed `e definita come segue:
R
fX n+m (xn , y m )
f (x1 |θ) · · · f (xn |θ)f (y1 |θ) · · · f (ym |θ)h(θ)dθ
R
.
gX n,m |X n (y m |xn ) =
= Ω
fX n (xn )
Ω f (x1 |θ) · · · f (xn |θ)h(θ)dθ
In corrispondenza si ha
R
gX n,m |X n (y m |xn ) =
Ω f (y1 |θ)R · · · f (ym |θ)f (x1 |θ) · · · f (xn |θ)h(θ)dθ
Ω f (x1 |θ) · · · f (xn |θ)h(θ)dθ
Z
f (y1 |θ) · · · f (ym |θ)h(θ|xn )dθ
=
Ω
e, se usiamo la notazione fX n (xn ) = fX n (xn ; h) per mettere in evidenza la dipendenza dalla densit`
a
iniziale h, possiamo concludere che
gX n,m |X n (y m |xn ) = fX m (y m ; h(·|xn )).
(2.5)
Inoltre viene naturale considerare la seguente definizione: Sn (xn ) `e una statistica sufficiente ai fini
predittivi se e solo se vale la seguente condizione:
(SP): Per ogni densit`
a iniziale h esiste una funzione Gh tale che gX n,m |X n (y m |xn ) = Gh (Sn (xn ), y m ).
In altri termini la condizione (SP) coincide con la seguente: Sn (xn ) = Sn (z n ) implica gX n,m |X n (·|xn ) =
gX n,m |X n (·|z n ). Allora possiamo enunciare il seguente risultato.
Proposizione 2.3.3 (Ogni statistica sufficiente `e sufficiente ai fini predittivi). Se vale la condizione
(SB), allora vale la condizione (SP).
Dimostrazione. Per ipotesi si ha che, per ogni densit`a iniziale h, esiste una funzione Fh tale che
h(θ|xn ) = Fh (Sn (xn ), θ). Allora, per la (2.5), si ha
gX n,m |X n (y m |xn ) = fX m (y m ; Fh (Sn (xn ), ·))
e quindi vale la (SP) con Gh (Sn (xn ), y m ) = fX m (y m ; Fh (Sn (xn ), ·)). 2
Negli esempi che vedremo si avr`
a che h(·|xn ) tende (in qualche senso2 ) a δθ0 per n → ∞, dove θ0
che `e il vero valore del parametro e δθ0 `e la distribuzione di una variabile aleatoria costante uguale
a θ0 . Allora in corrispondenza possiamo dire che gX n,m |X n (·|xn ) tende (nello stesso senso di prima)
per n → ∞ alla distribuzione con densit`a f (y1 |θ0 ) · · · f (ym |θ0 ).
2.4
Una propriet`
a delle statistiche sufficienti
Per quanto abbiamo visto (Teoremi 2.2.1 e 2.3.1), le definizioni di statistica sufficiente classica e
statistica sufficiente Bayesiana coincidono. Quindi si pu`o fare riferimento al concetto di sufficienza
in generale, senza distinzioni, facendo riferimento alla condizione (F). In particolare qui vogliamo
2
Si dovrebbe far riferimento ad un concetto di convergenza tra misure di probabilit`
a, ma non ci occuperemo di
questo aspetto.
28
dimostrare che ogni trasformazione invertibile di una statistica sufficiente `e ancora una statistica
sufficiente. Questo `e in accordo con il buon senso: se una statistica sufficiente contiene tutte le
informazioni sul parametro date dalle osservazioni, lo stesso deve valere se si considera una sua
trasformazione invertibile.
Proposizione 2.4.1. La condizione (F) vale per Sn (xn ) se e solo se vale per Tn (xn ) = gn (Sn (xn )),
dove gn `e una qualsiasi funzione invertibile.
Dimostrazione. Supponiamo che valga la condizione (F) vale per Sn (xn ): esistono due funzioni Hn
e Kn tali che
f (x1 |θ) · · · f (xn |θ) =Hn (xn )Kn (Sn (xn ), θ)
=Hn (xn )Kn (gn−1 (gn (Sn (xn ))), θ) = Hn (xn )Kn (gn−1 (Tn (xn )), θ).
Allora la condizione (F) vale per Tn (xn ) con Kn (gn−1 (·), θ) al posto della funzione Kn (·, θ). L’implicazione inversa si dimostra in maniera analoga. Supponiamo che valga la condizione (F) vale
per Tn (xn ): esistono due funzioni Hn e Kn tali che
f (x1 |θ) · · · f (xn |θ) =Hn (xn )Kn (Tn (xn ), θ)
=Hn (xn )Kn (gn (gn−1 (Tn (xn ))), θ) = Hn (xn )Kn (gn (Sn (xn )), θ).
Allora la condizione (F) vale per Sn (xn ) con Kn (gn (·), θ) al posto della funzione Kn (·, θ). 2
29
Capitolo 3
Modelli statistici di uso comune
I modelli statistici presentati sono di uso comune in lettaratura. In particolare i calcoli sulle famiglie coniugate fanno riferimento ad alcuni esempi presentati in [4] (Capitolo 9). Inoltre studieremo
alcune propriet`
a asintotiche dello stimatore Bayesiano quando il numero delle osservazioni n tende
ad infinito; in dettaglio vedremo che E[Θ|X n = xn ] → θ0 dove θ0 `e il vero valore del parametro (questa propriet`
a viene detta consistenza dello stimatore Bayesiano E[Θ|X n = xn ]), e che
Var[Θ|X n = xn ] → 0.
Per quanto abbiamo visto (Teoremi 2.2.1 e 2.3.1), le definizioni di statistica sufficiente classica e
statistica sufficiente Bayesiana coincidono con la condizione (F). In ogni modo, in ciascuno degli
esempi che vedremo, procederemo con la verifica della condizione (SC) come conseguenza di alcune
propriet`a delle distribuzioni delle osservazioni. Inoltre per tutti i modelli statistici `e facile osservare
che lo stimatore di massima verosimiglianza `e una funzione della statistica sufficiente.
In molti casi vedremo che una statistica sufficiente `e
Sn (xn ) =
n
X
xi = nxn ,
(3.1)
i=1
` opportuno osservare che Sn (xn ) nella (3.1) `e una
dove la seconda uguaglianza segue dalla (2.2). E
statistica sufficiente se e solo se lo `e Tn (xn ) = xn ; questo segue dalla Proposizione 2.4.1 con la
trasformazione invertibile t = gn (s) = ns .
3.1
Osservazioni Bernoulliane
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ B(θ); quindi si ha la
densit`a discreta
f (x|θ) = θx (1 − θ)1−x , x ∈ X = {0, 1}, θ ∈ Ω = [0, 1].
Si osservi che Sn (xn ) in (3.1) rappresenta il numero dei successi osservati; analogamente n −
Sn (xn ) = n(1 − xn ) rappresenta il numero degli insuccessi osservati.
Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha
Lxn (θ) =
n
Y
θxi (1 − θ)1−xi = θSn (xn ) (1 − θ)n−Sn (xn ) .
i=1
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) =
θSn (xn ) (1 − θ)n−Sn (xn ) . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼
30
Bin(n, θ); infatti, se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha
Qn
1
θSn (xn ) (1 − θ)n−Sn (xn )
i=1 f (xi |θ)
= n
.
= n
S
(x
)
n−S
(x
)
n
n
n (1 − θ)
n
gn (Sn (xn )|θ)
(Sn (x ) )
(S (x ) )θ
n
n
n
Esempio di statistica non sufficiente. Qui presentiamo un esempio di statistica non
sufficiente; in maniera analoga si possono costruire statistiche non sufficienti per gli altri
modelli statistici presentati di seguito. Per m < n, si considera la statistica Tm (xn )
definita come segue: Tm (xn ) = Sm (xm ). Quindi Tm (xn ) rappresenta il numero di
successi osservati nelle prime m prove. Allora, se consideriamo Sn (xn ) = Tm (xn ) +
Um (xn ), dove Um (xn ) `e il numero di successi osservati nelle ultime n − m prove, si ha
Lxn (θ) =
n
Y
θxi (1 − θ)1−xi = θTm (xn )+Um (xn ) (1 − θ)n−(Tm (xn )+Um (xn )) ;
i=1
quindi non vale (F) (perch´e appare la statistica Um (xn ) che non `e funzione di Tm (xn ))
e non vale (SC) (perch´e
Qn
θSn (xn ) (1 − θ)n−Sn (xn )
θUm (xn ) (1 − θ)n−m−Um (xn )
i=1 f (xi |θ)
= m
=
gm (Tm (xn )|θ)
(Tmm(x ) )
(Tm (x ) )θTm (xn ) (1 − θ)m−Tm (xn )
n
n
dipende da θ).
Per certi versi non `e sorprendente che Tm (xn ) non sia una statistica sufficiente;
infatti le statistiche sufficienti devono contenere tutte le informazioni sul parametro date
dalle osservazioni, mentre Tm (xn ) fa riferimento solo alle prime m prove trascurando le
rimanenti.
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ) = Sn (xn ) log θ + (n − Sn (xn )) log(1 − θ),
da cui segue
Sn (xn ) n − Sn (xn )
d
log Lxn (θ) =
−
.
dθ
θ
1−θ
ˆ ) = xn perch´e la disequazione
Quindi lo stimatore di massima verosimiglianza `e θ(x
0 diventa
Sn (xn )
θ
>
n−Sn (xn ) 1−θ
, θ
1−θ
>
n−Sn (xn ) 1
Sn (xn ) , θ
>
n
n
Sn (xn )
eθ<
Sn (xn )
n
d
dθ
log Lxn (θ) >
= xn .
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Beta sono una
famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la
densit`a iniziale abbiamo
hα,β (θ) ∝ θα−1 (1 − θ)β−1 .
In corrispondenza si ha
f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θSn (xn ) (1 − θ)n−Sn (xn ) θα−1 (1 − θ)β−1
=θα+Sn (xn )−1 (1 − θ)β+n−Sn (xn )−1 ∝ hαn ,βn (θ),
dove
(
αn = α + Sn (xn ) = α + nxn
βn = β + n − Sn (xn ) = β + n − nxn = β + n(1 − xn ).
31
(3.2)
Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo
(
α+nxn
n
E[Θ|X n = xn ] = αnα+β
= α+β+n
→ θ0
n
Var[Θ|X n = xn ] =
αn βn
(αn +βn )2 (αn +βn +1)
=
(α+nxn )(β+n(1−xn ))
(α+β+n)2 (α+β+n+1)
→ 0.
Calcoli di densit`
a predittive. Qui presentiamo alcuni calcoli sulle densit`a predittive
perch´e sono particolarmente semplici. Useremo la notazione
ym =
y1 + · · · + ym
m
e, come prima, scegliamo la densit`a iniziale hα,β tale che hα,β (θ) ∝ θα−1 (1 − θ)β−1 .
Allora, essendo hα,β (θ|xn ) ∝ θαn −1 (1 − θ)βn −1 dove αn e βn sono come in (3.2), e
ricordando l’espressione della densit`a Beta, si ha (ricordiamo che Ω = [0, 1])
Z
gX n,m |X n (y m |xn ) = f (y1 |θ) · · · f (ym |θ)hα,β (θ|xn )dθ
ZΩ
Γ(αn + βn ) αn −1
= θmym (1 − θ)m(1−ym )
θ
(1 − θ)βn −1 dθ
Γ(αn )Γ(βn )
Ω
Γ(αn + βn ) Γ(αn + my m )Γ(βn + m(1 − y m ))
=
Γ(αn )Γ(βn ) Γ(αn + my m + βn + m(1 − y m ))
Γ(α + β + n)
=
Γ(α + nxn )Γ(β + n(1 − xn ))
Γ(α + nxn + my m )Γ(β + n(1 − xn ) + m(1 − y m ))
.
·
Γ(α + β + n + m)
Inoltre osserviamo che nxn , my m , n(1 − xn ) + m(1 − y m ) sono interi non negativi, e
ricordando le propriet`
a della funzione Gamma, si ha
Qmym −1
gX n,m |X n (y m |xn ) =
j=0
(α + nxn + j)
Qm−1
j=0
Qm(1−ym )−1
j=0
(β + n(1 − xn ) + j)
(α + β + n + j)
,
Q
dove −1
j=0 . . . = 1 (in particolare, se specializziamo questa formula per m = 1, per
α+nxn
y ∈ {0, 1} si ha gX n,1 |X n (y|xn ) = q y (1−q)1−y , dove q = α+β+n
). In particolare si verifica
facilmente che la statistica sufficiente Sn (xn ) = xn `e anche una statistica sufficiente ai
fini predittivi. Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , in
accordo con quanto abbiamo detto prima si ha
my m
lim gX n,m |X n (y m |xn ) = θ0
n→∞
3.2
(1 − θ0 )m(1−ym ) = f (y1 |θ0 ) · · · f (ym |θ0 ).
Osservazioni a valori in un insieme finito
In questa sezione si vuole generalizzare il caso precedente considerando osservazioni che assumono
un insieme finito di valori (anzich´e i due valori {0, 1}). Per fissare le idee supporremo che l’insieme
finito di valori sia {1, . . . , m} con m ≥ 2; ovviamente si recupera il caso precedente con m = 2 con
la convenzione 1 = successo e 2 = insuccesso.
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria che assume i valori {1, . . . , m}
e, per ogni j ∈ {1, . . . , m}, la probabilit`a di osservare j `e θj ; quindi, se consideriamo gli insiemi
(
X = {x = (x(1) , . . . , x(m) ) ∈ {0, 1}m , x(1) + · · · + x(m) = 1}
Ω = {θ = (θ1 , . . . , θm ) ∈ [0, 1]m , θ1 + · · · + θm = 1}
32
(si osservi che X `e costituito dai vettori della base canonica di Rm ), si ha la densit`a discreta
f (x|θ) =
m
Y
(j)
θjx , x = (x(1) , . . . , x(m) ) ∈ X , θ = (θ1 , . . . , θm ) ∈ Ω.
j=1
Si osservi che, con la solita convenzione xn = (x1 , . . . , xn ) ∈ X n e considerando la notazione
P
(1)
(m)
(j)
(j)
xi = (xi , . . . , xi ) per i ∈ {1, . . . , n}, per ogni j ∈ {1, . . . , m} la statistica Sn (xn ) = ni=1 xi
indica il numero di risultati j osservati. Una diretta conseguenza della definizione delle statistiche
P
(1)
(m)
(j)
Sn (xn ), . . . , Sn (xn ) `e l’uguaglianza m
j=1 Sn (xn ) = n.
Statistica sufficiente. Si ha
Lxn (θ) =
n Y
m
Y
(j)
x
θj i
=
i=1 j=1
(1)
m
Y
S
(j)
θj n
(xn )
.
j=1
(m)
Quindi Sn (xn ) = (Sn (xn ), . . . , Sn (xn )) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) =
(j)
Q
Sn (xn )
1 e Kn (Sn (xn ), θ) = m
. La condizione (SC) si verifica agevolmente tenendo presente
j=1 θj
che Sn (X n ) ha distribuzione multinomiale di parametri n e θ1 , . . . , θm ; infatti, se indichiamo la
densit`a di Sn (X n ) con gn (·|θ), si ha
i=1 f (xi |θ)
=
gn (Sn (xn )|θ)
(j)
Sn (xn )
j=1 θj
Qm
Qn
n!
(1)
(m)
Sn (xn )!···Sn (xn )!
Qm
(j)
Sn (xn )
=
j=1 θj
1
n!
(1)
(m)
Sn (xn )!···Sn (xn )!
.
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ) =
m
X
Sn(j) (xn ) log θj ,
j=1
e procederemo ottenendo il punto di massimo con il metodo dei moltiplicatori di Lagrange perch´e
P
si ha una massimizzazione in θ sotto il vincolo m
j=1 θj = 1. Si deve considerare la funzione
L(θ, λ) =
m
X


m
X
Sn(j) (xn ) log θj + λ 
θj − 1
j=1
j=1
e le sue derivate parziali rispetto a θ1 , . . . , θm , λ uguagliate a zero forniscono le equazioni:
( (h)
(
(h)
Sn (xn )
S (x )
+
λ
=
0
(h
∈
{1,
.
.
.
,
m})
θh = n −λ n (h ∈ {1, . . . , m})
θh
Pm
Pm
j=1 θj = 1.
j=1 θj − 1 = 0;
Quindi lo stimatore di massima verosimiglianza `e (θˆ1 (xn ), . . . , θˆm (xn )) =
(1)
(m)
(x )
Sn (xn )
S
,..., n n n
n
e questo si spiega come segue: sommando su h nella prima equazione e ricordando l’uguaglianza
Pm
(j)
n
j=1 Sn (xn ) = n, si ottiene l’uguaglianza 1 = −λ ; allora si ottiene che λ = −n e i valori di
θ1 , . . . , θm forniscono il valore dello stimatore di massima verosimiglianza.
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a di Dirichlet sono
una famiglia coniugata. Prima di procedere bisogna definire tale famiglia di densit`a e questo viene
fatto facendo riferimento all’iperparametro γ = (α(1) , . . . , α(m) ) ∈ I = (0, ∞)m .
33
` una densit`a continua definita come segue:
Distribuzione di Dirichlet. E
( Γ(α(1) +···+α(m) ) (1)
α(m) −1
θα −1 · · · θm
se (θ1 , . . . , θm ) ∈ Ω
Γ(α(1) )···Γ(α(m) ) 1
hα(1) ,...,α(m) (θ1 , . . . , θm ) =
0
altrimenti
Si osservi che `e una densit`
a continua su Ω che `e un sottoinsieme di Rm di Rm -volume
nullo. La questione `e che si deve pensare ad un’usuale densit`a continua m − 1 dimensionale sulle prime m − 1 componenti e la componente m-sima `e legata alle prime m − 1
P
componenti dalla relazione θm = 1 − m
j=1 θj .
Si osservi che si recupera la densit`a Beta nel caso m = 2 perch´e, tenendo conto del
vincolo (θ1 , θ2 ) ∈ Ω da cui segue θ1 ∈ [0, 1] e θ2 = 1 − θ1 , si ottiene la seguente funzione
di θ1 :
Γ(α(1) + α(2) ) α(1) −1
(2)
θ1
(1 − θ1 )α −1 1[0,1] (θ1 ).
(1)
(2)
Γ(α )Γ(α )
Un’altro legame con la densit`
a Beta riguarda le marginali. A tal proposito, per ogni
P
(h) . Allora
j ∈ {1, . . . , m}, usiamo la notazione usando la notazione α˙ (j) := m
h=1,h6=j α
possiamo dire che, per ogni j ∈ {1, . . . , m}, la j-sima componente ha densit`a Beta di
parametri α(j) , α˙ (j) .
Per la densit`
a iniziale si ha
hα(1) ,...,α(m) (θ1 , . . . , θm ) ∝ θ1α
(1) −1
(m) −1
α
· · · θm
1(θ1 ,...,θm )∈Ω
e, in quel che segue, penseremo sempre a (θ1 , . . . , θm ) ∈ Ω omettendo il fattore 1(θ1 ,...,θm )∈Ω . In
corrispondenza si ha
f (x1 |θ1 , . . . , θm ) · · · f (xn |θ1 , . . . , θm )hα(1) ,...,α(m) (θ1 , . . . , θm )
(m)
(1)
α(1) +Sn (xn )−1
∝ θ1
α(m) +Sn
· · · θm
(xn )−1
∝ hα(1) ,...,α(m) (θ1 , . . . , θm )
n
n
dove
αn(h) = α(h) + Sn(h) (xn ) (h ∈ {1, . . . , m}).
(j)
Infine, per ogni j ∈ {1, . . . , m}, poich´e per la legge dei grandi numeri si ha
P
(h)
(j)
(j)
θ0 , usando ancora la notazione α˙ n = m
h=1,h6=j αn abbiamo




 E[Θj |X n = xn ] =
(j)
αn
(j)
(j)
αn +α˙ n



 Var[Θj |X n = xn ] =
3.3
Sn (xn )
n
(j)
(j)
(j)
→ Eθ0 [X1 ] =
(j)
(j) +S
(j)
α(j) +Sn (xn )
(x )
= α
Pm n(h) n → θ
Pm (h)
(h)
0
α
+n
+Sn (xn )
h=1
h=1 α
(j) +S (j) (x )
(j) +n−S (j) (x )
(j) (j)
α
α
˙
n
n
n
n
αn α˙ n
= Pm
→ 0.
2 P
(j)
(j) 2
(j)
(j)
(h) +n+1
( h=1 α(h) +n) ( m
)
αn +α˙ n
αn +α˙ n +1
h=1 α
=
αn
Pm
(h)
h=1 αn
=
Osservazioni Poissoniane
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ P oisson(θ); quindi si ha
la densit`a discreta
f (x|θ) =
θx −θ
e , x ∈ X = {0, 1, 2, . . .}, θ ∈ Ω = (0, ∞).
x!
34
Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha
Lxn (θ) =
n
Y
θ xi
i=1
xi !
e−θ =
θSn (xn ) −nθ
e
.
x1 ! · · · xn !
1
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = x1 !···x
e Kn (Sn (xn ), θ) =
n!
)
−nθ
S
(x
n
n e
. La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ P oisson(nθ);
θ
infatti, se indichiamo la densit`
a di Sn (X n ) con gn (·|θ), si ha
Qn
i=1 f (xi |θ)
gn (Sn (xn )|θ)
=
θSn (xn ) −nθ
x1 !···xn ! e
(nθ)Sn (xn ) −nθ
Sn (xn )! e
=
1
x1 !···xn !
.
nSn (xn )
Sn (xn )!
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ) = Sn (xn ) log θ − log(x1 ! · · · xn !) − nθ,
da cui segue
d
Sn (xn )
log Lxn (θ) =
− n.
dθ
θ
ˆ ) = xn perch´e la disequazione
Quindi lo stimatore di massima verosimiglianza `e θ(x
n
0 diventa
Sn (xn )
θ
>neθ<
Sn (xn )
n
d
dθ
log Lxn (θ) >
= xn .
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono
una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la
densit`a iniziale abbiamo
hα,β (θ) ∝ θα−1 e−βθ .
In corrispondenza si ha
f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θSn (xn ) e−nθ θα−1 e−βθ
=θα+Sn (xn )−1 e−(β+n)θ ∝ hαn ,βn (θ),
dove
(
αn = α + Sn (xn ) = α + nxn
βn = β + n.
Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo
(
n
E[Θ|X n = xn ] = αβnn = α+nx
β+n → θ0
Var[Θ|X n = xn ] =
3.4
αn
2
βn
=
α+nxn
(β+n)2
→ 0.
Osservazioni Esponenziali
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ Exp(θ); quindi si ha la
densit`a continua
f (x|θ) = θe−θx , x ∈ X = (0, ∞), θ ∈ Ω = (0, ∞).
35
Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha
Lxn (θ) =
n
Y
θe−θxi = θn e−θSn (xn ) .
i=1
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) =
θn e−θSn (xn ) . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ Gamma(n, θ);
infatti, se indichiamo la densit`
a di Sn (X n ) con gn (·|θ), si ha
Qn
θn e−θSn (xn )
1
i=1 f (xi |θ)
= θn
= 1
.
n−1
−θS
(x
)
n−1
n
n
gn (Sn (xn )|θ)
e
Γ(n) Sn (xn )
Γ(n) Sn (xn )
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ) = n log θ − θSn (xn ),
da cui segue
d
n
log Lxn (θ) = − Sn (xn ).
dθ
θ
ˆ ) = (xn )−1 perch´e la disequazione
Quindi lo stimatore di massima verosimiglianza `e θ(x
n
0 diventa Sn (xn ) <
n
θ
eθ<
n
Sn (xn )
= (xn
d
dθ
log Lxn (θ) >
)−1 .
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono
una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la
densit`a iniziale abbiamo
hα,β (θ) ∝ θα−1 e−βθ .
In corrispondenza si ha
f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θn e−θSn (xn ) θα−1 e−βθ
=θα+n−1 e−(β+Sn (xn ))θ ∝ hαn ,βn (θ),
dove
(
αn = α + n
βn = β + Sn (xn ) = β + nxn .
Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] =
(
abbiamo
E[Θ|X n = xn ] =
Var[Θ|X n =
3.5
αn
α+n
βn = β+nxn → θ0
α+n
xn ] = αβ n2 = (β+nx
2 →
n)
n
1
θ0 ,
0.
Osservazioni Normali (con sola media incognita)
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ N (θ, 1r ); quindi si ha la
densit`a continua
√
r
r
2
f (x|θ) = √ e− 2 (x−θ) , x ∈ X = R, θ ∈ Ω = R.
2π
36
Statistica sufficiente. Sia Sn (xn ) = xn . Allora si ha
√ n
n √
Y
r Pn
r − r (xi −θ)2
r
2
√ e 2
Lxn (θ) =
= √
e− 2 i=1 (xi −θ) .
2π
2π
i=1
Inoltre, osservando che
n
n
n
n
X
X
X
X
(xi − θ)2 =
(xi − xn )2 + n(xn − θ)2 + 2(xn − θ)
(xi − xn ), (3.3)
(xi − xn + xn − θ)2 =
i=1
i=1
i=1
|i=1 {z
}
=0; vedi (2.2)
possiamo dire che
√ n
nr
r Pn
r
2
2
Lxn (θ) = √
(3.4)
e− 2 i=1 (xi −xn ) e− 2 (xn −θ) .
2π
√ n r Pn
2
r
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = √2π
e− 2 i=1 (xi −xn ) e
nr
2
Kn (Sn (xn ), θ) = e− 2 (Sn (xn )−θ) . La condizione (SC) si verifica agevolmente tenendo presente che
1
Sn (X n ) ∼ N (θ, nr
); infatti, se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha
√ n r P n
√ n r Pn
Qn
(Sn (xn )−θ)2
− 2 i=1 (xi −xn )2 − nr
− 2 i=1 (xi −xn )2
√r
√r
2
e
e
e
f
(x
|θ)
2π
2π
i
i=1
p nr
.
=
=
p nr − nr (Sn (x )−θ)2
n
gn (Sn (xn )|θ)
e 2
2π
2π
Stimatore di massima verosimiglianza. Si ha
√ n
P
r
nr
− r2 n
(xi −xn )2
i=1
√
log Lxn (θ) = log
e
−
(xn − θ)2 ,
2
2π
da cui segue
d
log Lxn (θ) = nr(xn − θ).
dθ
ˆ ) = xn perch´e la disequazione
Quindi lo stimatore di massima verosimiglianza `e θ(x
n
d
dθ
log Lxn (θ) >
0 diventa θ < xn .
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Normali sono
una famiglia coniugata. Se consideriamo l’iperparametro γ = (µ, τ ) ∈ I = R×(0, ∞), per la densit`
a
iniziale abbiamo
τ
2
hµ,τ (θ) ∝ e− 2 (θ−µ) .
In corrispondenza, per la (3.4), si ha
f (x1 |θ) · · · f (xn |θ)hµ,τ (θ) ∝ e−
nr
(xn −θ)2
2
τ
2
1
2 +τ (θ−µ)2 )
e− 2 (θ−µ) = e− 2 (nr(xn −θ)
A questo punto osserviamo che
nr(xn − θ)2 + τ (θ − µ)2 =nrx2n + nrθ2 − 2nrxn θ + τ θ2 + τ µ2 − 2τ θµ
=(τ + nr)θ2 − 2(τ µ + nrxn )θ + nrx2n + τ µ2
τ µ + nrxn
nrx2n + τ µ2
2
=(τ + nr) θ − 2
θ+
τ + nr
τ + nr
e l’ultimo addendo non dipende da θ; quindi otteniamo
f (x1 |θ) · · · f (xn |θ)hµ,τ (θ) ∝ e−
τ +nr 2
n θ)
(θ −2 τ µ+nrx
2
τ +nr
37
∝ hµn ,τn (θ)
.
dove
(
n
µn = τ µ+nrx
τ +nr
τn = τ + nr;
l’ultima relazione di proporzionalit`
a si ottiene osservando che bisogna completare l’esponente in
2
n
.
maniera opportuna con un termine che non dipende da θ per far comparire θ − τ µ+nrx
τ +nr
Commenti sugli iperparametri. La media della densit`a finale µn `e una media pesata tra
la media della densit`
a iniziale µ e la media delle osservazioni xn , con pesi proporzionali
alle precisioni di competenza τ e nr rispettivamente; inoltre la precisione della densit`a
finale τn `e data dalla somma delle due precisioni.
Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo
(
n +τ µ
E[Θ|X n = xn ] = µn = nrx
→ θ0
nr+τ
1
1
Var[Θ|X n = xn ] = τn = τ +nr → 0.
3.6
Osservazioni Normali (con sola varianza incognita)
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ N (µ, 1θ ); quindi si ha la
densit`a continua
√
θ
θ
2
f (x|θ) = √ e− 2 (x−µ) , x ∈ X = R, θ ∈ Ω = (0, ∞).
2π
P
Statistica sufficiente. Sia Sn (xn ) = ni=1 (xi − µ)2 . Allora si ha
n
n √
Y
θ
θ − θ (xi −µ)2
θ2
√ e 2
Lxn (θ) =
= √
e− 2 Sn (xn ) .
2π
( 2π)n
i=1
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) =
n
2
θ e
√1
( 2π)n
e Kn (Sn (xn ), θ) =
− θ2 Sn (xn )
. La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ Gamma( n2 , 2θ ).
P
La distribuzione di Sn (X n ). Si ha θ ni=1 (Xi − µ)2 ∼ χ2 (n) = Gamma( n2 , 12 ) per la
Proposizione 1.1.3 (con µ1 = · · · = µn = µ e σ12 = · · · = σn2 = 1θ ); allora, poich´e
si ottiene Sn (X n ) moltiplicando per la costante c = 1θ , possiamo dire che Sn (X n ) ∼
1
Gamma( n2 , 2c
) = Gamma( n2 , 2θ ) per la Proposizione 1.1.2(ii).
A questo punto possiamo verificare la condizione (SC). Se indichiamo la densit`a di Sn (X n ) con
gn (·|θ), si ha
n
θ
Qn
√θ 2 e− 2 Sn (xn )
√1
n
f
(x
|θ)
(
2π)
( 2π)n
i
i=1
= θ n
=
.
n
1
n
(2) 2
gn (Sn (xn )|θ)
Sn (xn ) 2 −1
n
−1 − θ2 Sn (xn )
n
e
n Sn (xn ) 2
2
2 Γ( 2 )
Γ( )
2
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ) =
√
n
θ
log θ − n log( 2π) − Sn (xn ),
2
2
da cui segue
d
n
Sn (xn )
log Lxn (θ) =
−
.
dθ
2θ
2
−1
ˆ ) = Sn (xn )
Quindi lo stimatore di massima verosimiglianza `e θ(x
perch´e la disequazione
n
n
−1
Sn (xn )
d
n
.
dθ log Lxn (θ) > 0 diventa θ > Sn (xn ) e θ <
n
38
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono
una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la
densit`a iniziale abbiamo
hα,β (θ) ∝ θα−1 e−βθ .
In corrispondenza si ha
n
θ
f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θ 2 e− 2 Sn (xn ) θα−1 e−βθ
=θ
dove
(
αn = α +
βn = β +
Sn (xn )
θ
α+ n
−1 − β+ 2
2
e
n
2
Sn (xn )
2
=β+
∝ hαn ,βn (θ),
n Sn (xn )
.
2
n
S (x )
Infine, poich´e per la legge dei grandi numeri si ha n n n → Eθ0 [(X1 − µ)2 ] = Varθ0 [X1 ] =
abbiamo

α+ n
α

 E[Θ|X n = xn ] = βnn = β+ n Sn2(xn ) → θ0
2

 Var[Θ|X n = xn ] =
3.7
αn
2
βn
=
1
θ0 ,
n
α+ n
2
β+ n
2
Sn (xn )
n
2
→ 0.
Osservazioni Normali (con media e varianza incognite)
Pensiamo al caso in cui f (·|θ) = f (·|θ1 , θ2 ) `e la densit`a di una variabile aleatoria X ∼ N (θ1 , θ12 );
quindi si ha la densit`
a continua
√
θ2 θ2
2
f (x|θ1 , θ2 ) = √ e− 2 (x−θ1 ) , x ∈ X = R, (θ1 , θ2 ) ∈ Ω = R × (0, ∞).
2π
(1)
(2)
Statistica sufficiente. Sia Sn (xn ) = (Sn (xn ), Sn (xn )) = (xn ,
Lxn (θ1 , θ2 ) =
Pn
i=1 (xi
− xn )2 ). Allora si ha
√
√ n
θ2
nθ2 Pn
θ
θ
2
2
√ 2 e− 2 (xi −θ1 ) = √ 2
e− 2 i=1 (xi −θ1 )
2π
2π
i=1
√ n
nθ2
θ2 Pn
θ2
2
2
= √
e− 2 i=1 (xi −xn ) e− 2 (xn −θ1 )
2π
n
θ2 (2)
nθ2
(1)
1
2
θ22 e− 2 Sn (xn ) e− 2 (Sn (xn )−θ1 ) ,
= √
n
( 2π)
n
Y
(3.5)
dove la seconda uguaglianza segue dalla (3.3) con θ1 al posto di θ. Quindi Sn (xn ) `e una statistica sufn
θ2 (2)
nθ2
(1)
2
1
2 − 2 Sn (xn ) − 2 (Sn (xn )−θ1 )
ficiente perch´e vale (F) con Hn (xn ) = (√2π)
e
.
n e Kn (Sn (xn ), (θ1 , θ2 )) = θ2 e
La condizione (SC) si verifica agevolmente tenendo presente che la distribuzione della variabile alea(1)
(2)
toria Sn (X n ) = (Sn (X n ), Sn (X n )) si deduce facilmente dal seguente risultato noto in letteratura
(si veda il Teorema 5.4.1 in [3]).
Teorema 3.7.1. Per n ≥ 2, siano {X1 , . . . , Xn } variabili aleatorie indipendenti e, per ogni i ∈
P
{1, . . . , n}, Xi ∼ N (µ, σ 2 ). Allora: (i) X n e σ12 ni=1 (Xi − X n )2 sono indipendenti; (ii) X n ∼
P
2
N (µ, σn ); (iii) σ12 ni=1 (Xi − X n )2 ∼ χ2 (n − 1).
Commenti sul Teorema 3.7.1. La distribuzione di X n `e nota per le propriet`a delle combinazioni lineari di variabili aleatorie Normali 1-dimensionali indipendenti. Si osservi
39
P
che σ12 ni=1 (Xi − µ)2 ∼ χ2 (n) per la Proposizione 1.1.3 (con µ1 = · · · = µn = µ e
σ12 = · · · = σn2 = σ 2 ); quindi c’`e una differenza di un grado di libert`a rispetto alla distriP
buzione di ni=1 (Xi − X n )2 . Una spiegazione di questa differenza si basa sul fatto che
Pn
2 e esprimibile come funzione di una sottofamiglia n − 1 tra le variabili
i=1 (Xi − X n ) `
P
aleatorie scarto {Xi − X n : i ∈ {1, . . . , n}}. Infatti ni=2 (Xi − X n ) = −(X1 − X n ) per
P
P
P
la (2.2), da cui segue ni=1 (Xi − X n )2 = ( ni=2 (Xi − X n ))2 + ni=2 (Xi − X n )2 .
(1)
(2)
In altri termini il Teorema 3.7.1 ci dice quanto segue: Sn (X n ) e θ2 Sn (X n ) sono indipendenti;
(2)
(1)
(2)
1
Sn (X n ) ∼ N (θ1 , nθ1 2 ); θ2 Sn (X n ) ∼ χ2 (n−1) = Gamma( n−1
e Sn (X n ) si ottie2 , 2 ). Allora, poich´
(2)
ne da θ2 Sn (X n ) moltiplicando per la costante c =
1
θ2 ,
(1)
(2)
possiamo dire che Sn (X n ) e Sn (X n ) sono
(2)
1
n−1 θ2
indipendenti e, per la Proposizione 1.1.2(ii), Sn (X n ) ∼ Gamma( n−1
2 , 2c ) = Gamma( 2 , 2 ).
A questo punto possiamo verificare la condizione (SC). Se indichiamo la densit`a di Sn (X n ) con
gn (·|θ1 , θ2 ), si ha
n
√1
θ 2 e−
( 2π)n 2
Qn
i=1 f (xi |θ1 , θ2 )
(1)
(2)
=
gn (Sn (xn ), Sn (xn )|θ1 , θ2 )
q
nθ2 −
2π e
θ2 (2)
S (xn )
2 n
nθ2
(1)
(Sn (xn )−θ1 )2
2
θ2
2
p
( 21 )
nθ2
(1)
(Sn (xn )−θ1 )2
2
n−1
2
(2)
Γ( n−1
)
2
√1
( 2π)n
=
e−
Sn (xn )
n−1
−1
2
θ2
(2)
e− 2 Sn
(xn )
.
n−1
2
n−1
(2)
−1
n
2
2π Γ( n−1 ) Sn (xn )
2
Stimatore di massima verosimiglianza. Si ha
log Lxn (θ1 , θ2 ) =
√
n
θ2
nθ2 (1)
log θ2 − n log( 2π) − Sn(2) (xn ) −
(Sn (xn ) − θ1 )2 ,
2
2
2
da cui segue
(
d
dθ1
d
dθ2
(1)
log Lxn (θ1 , θ2 ) = nθ2 (Sn (xn ) − θ1 )
log Lxn (θ1 , θ2 ) =
n
2θ2
(2)
−
Sn (xn )
2
(1)
− n2 (Sn (xn ) − θ1 )2 .
Quindi lo stimatore di massima verosimiglianza `e (θˆ1 (xn ), θˆ2 (xn )) =
questo si spiega come segue: per θ2 fissato, la disequazione
(1)
Sn (xn )
n
.
(2)
Sn (xn )
= xn ; inoltre la disequazione
d
dθ1
(1)
d
dθ2 log Lxn (Sn (xn ), θ2 )
(1)
Sn (xn ),
(2)
Sn (xn )
n
−1 !
e
log Lxn (θ1 , θ2 ) > 0 diventa θ1 <
> 0 diventa
n
θ2
(2)
> Sn (xn ) e θ2 <
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma-Normali
sono una famiglia coniugata. Prima di procedere bisogna definire tale famiglia di densit`a (continue)
e questo viene fatto facendo riferimento all’iperparametro γ = (α, β, µ, τ ) ∈ I = (0, ∞) × (0, ∞) ×
R × (0, ∞).
` una densit`a continua 2-dimensionale definita come
Distribuzione Gamma-Normale. E
segue:
(
gα,β (θ2 )gµ,τ (θ1 |θ2 ) se (θ1 , θ2 ) ∈ R × (0, ∞)
hα,β,µ,τ (θ1 , θ2 ) =
0
altrimenti,
dove: gα,β `e la densit`
a della distribuzione Gamma(α, β); gµ,τ (·|θ2 ) `e la densit`a della
1
distribuzione N (µ, θ2 τ ).
40
Ovviamente la seconda densit`a marginale `e gα,β (θ2 ). La prima densit`a marginale `e
R
hα,β,µ,τ (θ1 , •) = R hα,β,µ,τ (θ1 , θ2 )dθ2 , e si verifica che
− 2α+1
2
1 ατ (θ1 − µ)2
hα,β,µ,τ (θ1 , •) ∝ 1 +
.
2α
β
In corrispondenza si ha
( R
θ1 hα,β,µ,τ (θ1 , •)dθ1 = µ
RR 2
2
R θ1 hα,β,µ,τ (θ1 , •)dθ1 − µ =
β
τ (α−1)
se 1 − 2 2α+1
< −1 ⇐⇒ α > 21
2
< −1 ⇐⇒ α > 1.
se 2 − 2 2α+1
2
Per la densit`
a iniziale si ha
√
β α α−1 −βθ2
θ2 τ θ 2 τ
2
hα,β,µ,τ (θ1 , θ2 ) =
θ2 e
1(0,∞) (θ2 ) √ e− 2 (θ1 −µ) ,
Γ(α)
2π
da cui segue
τ
exp −θ2 β + (θ1 − µ)2 1(0,∞) (θ2 ).
2
In quel che segue penseremo sempre a (θ1 , θ2 ) ∈ R × (0, ∞) omettendo il fattore 1(0,∞) (θ2 ). Allora,
per la (3.5), si ha
n
θ2 (2)
(1)
2
2
;
Sn (xn ) + n(Sn (xn ) − θ1 )
f (x1 |θ1 , θ2 ) · · · f (xn |θ1 , θ2 ) ∝ θ2 exp −
2
Pn
(2)
2
nel seguito manterremo Sn (xn ) al posto di
u
i=1 (xi − xn ) , mentre useremo la notazione pi`
(1)
semplice xn al posto di Sn (xn ). Quindi abbiamo
α+ 12 −1
hα,β,µ,τ (θ1 , θ2 ) ∝ θ2
f (x1 |θ1 ,θ2 ) · · · f (xn |θ1 , θ2 )hα,β,µ,τ (θ1 , θ2 )
α+ 1 −1
n
θ2 (2)
τ
2
2
∝ θ2 exp −
Sn (xn ) + n(xn − θ1 )
θ2 2 exp −θ2 β + (θ1 − µ)2
2
2



α+ n
+ 12 −1
2
∝ θ2



1
1 (2)
2
2 

exp 
−θ2 β + 2 Sn (xn ) + 2 (n(xn − θ1 ) + τ (θ1 − µ) ) ,
{z
}
|
(∗)
dove
1
nx2n + nθ12 − 2nxn θ1 + τ θ12 + τ µ2 − 2τ θ1 µ
2
1
= (τ + n)θ12 − 2(τ µ + nxn )θ1 + nx2n + τ µ2
2
τ +n
τ µ + nxn
nx2n + τ µ2
2
=
θ1 − 2
θ1 +
2
τ +n
τ +n
!
τ +n
τ µ + nxn
τ µ + nxn 2 nx2n + τ µ2
τ µ + nxn 2
2
=
θ1 − 2
θ1 +
−
+
2
τ +n
τ +n
τ +n
τ +n
!
τ +n
τ µ + nxn 2 τ + n nx2n + τ µ2
τ µ + nxn 2
=
θ1 −
+
−
2
τ +n
2
τ +n
τ +n
|
{z
}
(∗) =
(∗∗)
e
τ + n (nx2n + τ µ2 )(τ + n) − (τ µ + nxn )2
2
(τ + n)2
nτ x2n + n2 x2n + τ 2 µ2 + nτ µ2 − (τ 2 µ2 + n2 x2n + 2nτ µxn )
=
2(τ + n)
2
2
nτ xn + nτ µ − 2nτ µxn
nτ (xn − µ)2
=
=
.
2(τ + n)
2 τ +n
(∗∗) =
41
In conclusione, sostituendo, si ottiene
f (x1 |θ1 ,θ2 ) · · · f (xn |θ1 , θ2 )hα,β,µ,τ (θ1 , θ2 )
∝
α+ n + 1 −1
θ2 2 2 exp
1
nτ (xn − µ)2 τ + n
β + Sn(2) (xn ) +
+
2
2 τ +n
2
−θ2
τ µ + nxn
θ1 −
τ +n
2 !!
∝ hαn ,βn ,µn ,τn (θ1 , θ2 ),
dove


αn = α + n2



 β = β + 1 S (2) (x ) +
n
n
2 n
τ
µ+nx
n
 µn =

τ +n


 τ = τ + n.
n
nτ (xn −µ)2
2
τ +n
=β+
1
2
Pn
i=1 (xi
− xn )2 +
nτ (xn −µ)2
2
τ +n
(3.6)
Commenti sugli iperparametri. L’aggiornamento degli iperparametri ha analogie con i
casi visti precedentemente dove θ1 o θ2 sono noti.
• Abbiamo gi`
a visto il caso con θ1 noto (indicato con µ) e θ2 incognito (indicato con
θ) e, in corrispondenza, le densit`a Gamma per θ2 sono una famiglia coniugata con
il seguente aggiornamento di (αn , βn ):
(
αn = α + n2
(3.7)
P
βn = β + 12 ni=1 (xi − θ1 )2 .
Quindi, nel passare da θ1 noto a θ1 incognito (cio`e da (3.7) a (3.6)), si ottiene βn
in (3.6) sostituendo θ1 che appare in βn in (3.7) con la sua stima xn , e aggiungendo
(xn −µ)2
un ulteriore addendo nτ
che tiene conto della densit`a iniziale su θ1 .
2
τ +n
• Abbiamo gi`
a visto il caso con θ2 noto (indicato con r) e θ1 incognito (indicato con
θ) e, in corrispondenza, le densit`a Normali per θ1 sono una famiglia coniugata con
il seguente aggiornamento di (µn , τn ):
(
2 xn
µn = τ µ+nθ
τ +nθ2
(3.8)
τn = τ + nθ2 .
Quindi, nel passare da θ2 noto a θ2 incognito (cio`e da (3.8) a (3.6)), `e come se in
(3.8) dovessimo sostituire τ con θ2 τ e τn con θ2 τn (questo `e coerente con il fatto
che la densit`
a condizionata gµ,τ (·|θ2 ) che appare nella densit`a della distribuzione
Gamma-Normale `e la densit`a della distribuzione N (µ, θ21τ )) e, successivamente, si
ottengono le equazioni per µn e τn in (3.6) semplificando il valore θ2 .
(1)
Infine, poich´e si ha
x → Eθ0 [X1 ] = θ0 (per la legge dei grandi numeri come in altri casi studiati
Pn n
2
1
i=1 (xi −xn )
in precedenza) e
→ (2)
, abbiamo
n
θ0
 
(1)
+τ µ

→ θ0
 E[Θ1 |X n = xn ] = µn = nxτn+n


2

P

2 nτ (xn −µ)
β+ 12 n

βn
i=1 (xi −xn ) + 2
τ +n



Var[Θ1 |X n = xn ] = τn (αn −1) =
→0

(τ +n)(α+ n
−1)
2

n
α+
(2)
αn
2


 E[Θ2 |X n = xn ] = βn = β+ 1 Pn (x −x )2 + nτ (xn −µ)2 → θ0


n
i
i=1
2
2
τ +n


α+ n

αn
2


Var[Θ
|X
=
x
]
=
=
→ 0.

2
2

n
n
2 2

βn
1 Pn
2 nτ (xn −µ)
β+ 2
42
i=1 (xi −xn )
+
2
τ +n
Si osservi che E[Θ1 |X n = xn ] < ∞ se e solo se α + n2 > 12 e questa condizione `e sempre verificata
(essendo n ≥ 1). Inoltre si ha Var[Θ1 |X n = xn ] < ∞ se e solo se α + n2 > 1, e questo potrebbe non
essere vero per n = 1; in ogni modo questo non `e un problema perch´e siamo interessati a studiare
il limite per n che tende ad infinito.
3.8
Osservazioni Uniformi
Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ U [0, θ]; quindi si ha la
densit`a continua
1
f (x|θ) = 1[0,θ] (x), x ∈ X = [0, ∞), θ ∈ Ω = (0, ∞).
θ
Statistica sufficiente. Sia Sn (xn ) = max{x1 , . . . , xn }. Allora si ha
Lxn (θ) =
n
Y
1
i=1
θ
1[0,θ] (xi ) = θ−n 1[0,θ] (Sn (xn )).
Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) =
θ−n 1[0,θ] (Sn (xn )). La condizione (SC) si verifica agevolmente tenendo presente che la funzione di
distribuzione di Sn (X n ) `e
FSn (X n ) (y|θ) =Pθ (Sn (X n ) ≤ y) = Pθ (∩ni=1 {Xi ≤ y})

n

n
 0 = 0
Y
y n
=(Pθ (X1 ≤ y))n =
Pθ (Xi ≤ y) =
θ

 n
i=1
1 =1
se y < 0
se y ∈ [0, θ]
se y > θ;
infatti, se indichiamo la densit`
a di Sn (X n ) con gn (·|θ), si ha
gn (y|θ) = n
y n−1 1
1 (y)
θ
θ [0,θ]
(3.9)
e quindi
Qn
i=1 f (xi |θ)
gn (Sn (xn )|θ)
=
θ−n 1[0,θ] (Sn (xn ))
1[0,θ] (Sn (xn ))
.
=
n−1
n(Sn (xn ))n−1 1[0,θ] (Sn (xn ))
Sn (xn )
1
n
θ
θ 1[0,θ] (Sn (xn ))
Stimatore di massima verosimiglianza. La verosimiglianza assume anche il valore 0 ed
evitiamo di considerare il logaritmo. Si vede che
(
0
se θ < Sn (xn )
Lxn (θ) =
−n
θ
se θ ≥ Sn (xn ).
ˆ ) = Sn (x ) perch´e abbiamo una funzione di
Quindi lo stimatore di massima verosimiglianza `e θ(x
n
n
θ nulla in [0, Sn (xn )), che assume un valore positivo per θ = Sn (xn ), e che decresce in [Sn (xn ), ∞)
tendendo a zero per θ che tende a infinito.
Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Pareto sono
una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la
densit`a iniziale abbiamo
hα,β (θ) ∝ θ−(α+1) 1[β,∞) (θ).
43
In corrispondenza si ha
f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θ−n 1[0,θ] (Sn (xn ))θ−(α+1) 1[β,∞) (θ)
=θ−(α+n+1) 1[Sn (xn ),∞) (θ)1[β,∞) (θ)
=θ−(α+n+1) 1[max{β,Sn (xn )},∞) (θ) ∝ hαn ,βn (θ),
dove
(
αn = α + n
βn = max{β, Sn (xn )}.
Commenti sugli iperparametri. Il valore αn cresce con n ed otteniamo densit`a continue
sempre pi`
u concentrate in un intorno destro di βn (in accordo con le propriet`a asintotiche
di seguito). Si ha hαn ,βn (θ) = 0 per θ < βn e quindi in particolare per θ < Sn (xn );
questo `e in accordo con la definizione del modello statistico per cui i valori osservati
appartengono all’intervallo [0, θ].
Infine, poich´e `e noto che Sn (xn ) → θ0 , abbiamo
(
(α+n) max{β,Sn (xn )}
βn
=
→ max{β, θ0 }
E[Θ|X n = xn ] = ααnn−1
α+n−1
Var[Θ|X n = xn ] =
2
αn βn
(αn −1)2 (αn −2)
=
(α+n)(max{β,Sn (xn )})2
(α+n−1)2 (α+n−2)
→ 0.
Si osservi che Var[Θ|X n = xn ] < ∞ se e solo se α + n − 2 > 0, e questo potrebbe non essere vero
per n = 1; in ogni modo questo non `e un problema perch´e siamo interessati a studiare il limite per
n che tende ad infinito.
Alcune differenze tra questo modello statistico e gli altri. Come gi`a osservato (vedi Osservazione 2.2.2), tutti i modelli statistici che abbiamo visto prima sono costituiti da una famiglia
esponenziale (nel caso del modello con osservazioni Bernoulliane si dovrebbe considerare Ω = (0, 1)
anzich´e Ω = [0, 1]) tranne quello con osservazioni Uniformi in questa sezione.
Un’importante differenza tra questo modello statistico e quelli costituiti da famiglie esponenziali `e
che il supporto
Sθ = {x ∈ X : f (x|θ) > 0}
di ciascuna densit`
a f (·|θ) cambia al variare di θ; infatti si ha Sθ = [0, θ].
Un altro aspetto che distingue questo modello statistico dagli altri `e che la propriet`a di consistenza
E[Θ|X n = xn ] → θ0
potrebbe non essere soddisfatta per lo stimatore Bayesiano. Nel caso specifico c’`e consistenza se e
solo se
θ0 ∈ {θ ∈ (0, ∞) : hα,β (θ) > 0} = [β, ∞).
Quindi c’`e consistenza se e solo se il vero valore del parametro θ0 `e un valore ammissibile per la
densit`a iniziale. Per`
o non `e possibile scegliere β in modo tale che θ0 ≥ β perch´e θ0 `e incognito.
Questo problema mette in luce un difetto della Statistica Bayesiana: si possono avere problemi se il
supporto {θ ∈ Ω : h(θ) > 0} della densit`a iniziale h (che costituisce l’insieme dei valori ammissibili
del parametro secondo lo stato di informazione iniziale) non contiene il vero valore del parametro.
44
Confronto tra lo stimatore di massima verosimiglianza e quello con il metodo dei
momenti. In questa paragrafo useremo la notazione an ∼ bn per dire che limn→∞ abnn = 1.
ˆ ) = max{x1 , . . . , xn }. Tenendo presente
Iniziamo con lo stimatore di massima verosimiglianza θ(x
n
l’espressione della densit`
a (3.9), si ha
ˆ
Eθ [θ(X
n )] =
Z
θ
yn
0
y=θ
Z
y n−1 1
n y n+1
n θ n
n θn+1
n
y dy = n
dy = n
= n
=
θ
θ
θ
θ 0
θ n + 1 y=0 θ n + 1
n+1
e
2
y n−1 1
n
y n
dy −
θ
θ
θ
n+1
0
y=θ
Z
n θ n+1
n2
n y n+2
n θn+2
n2
n2
2
= n
θ
=
θ2 = n
−
θ2
−
y
dy −
2
n
2
θ 0
(n + 1)
θ n + 2 y=0 (n + 1)
θ n + 2 (n + 1)2
n
n(n + 1)2 − n2 (n + 2) 2 n(n2 + 2n + 1) − (n3 + 2n2 ) 2
n2
2
=
θ
=
−
θ =
θ
n + 2 (n + 1)2
(n + 2)(n + 1)2
(n + 2)(n + 1)2
n
θ2
n3 + 2n2 + n − n3 − 2n2 2
2
θ
=
θ
∼
.
=
(n + 2)(n + 1)2
(n + 2)(n + 1)2
n2
2 ˆ
ˆ
ˆ2
Varθ [θ(X
n )] =Eθ [θ (X n )] − Eθ [θ(X n )] =
Z
θ
2
Si osservi che ha lo stesso comportamento asintotico della varianza se si considera lo stimatore
ˆ
Tn (xn ) = n+1
e Eθ [Tn (X n )] = θ per ogni
n θ(xn ) in modo che si abbia uno stimatore non distorto, cio`
θ > 0; infatti si ha
n+1ˆ
n+1 n
θ(X n ) =
Eθ [Tn (X n )] = Eθ
θ=θ
n
n n+1
e
n+1ˆ
n+1 2
n
θ2
θ2
2
θ(X n ) =
θ
=
∼
.
Varθ [Tn (X n )] = Varθ
n
n
(n + 2)(n + 1)2
n(n + 2)
n2
Ora trattiamo lo stimatore con il metodo dei momenti. Si deve considerare l’equazione Eθ [X1 ] = xn
˜ ) = 2xn . In corrispondenza, ancora
(con incognita θ). Allora, poich´e Eθ [X1 ] = 2θ , lo stimatore `e θ(x
n
θ
tenendo conto che Eθ [X1 ] = 2 , si ha
n
X1 + · · · + Xn
2X
2
˜
Eθ [θ(X n )] = Eθ [2X n ] = 2Eθ
=
Eθ [Xi ] = nEθ [X1 ] = θ;
n
n
n
i=1
θ2
12 ,
inoltre, tenendo conto che Varθ [X1 ] =
si ha
n
4 X
4
θ2
X1 + · · · + Xn
˜
Varθ [θ(X n )] = Varθ [2X n ] = 4Varθ
= 2
Varθ [Xi ] = 2 nVarθ [X1 ] =
.
n
n
n
3n
i=1
In conclusione lo stimatore di massima verosimiglianza (e la sua versione non distorta Tn (xn )) ha
un comportamento asintotico migliore di dello stimatore ottenuto con il metodo dei momenti perch´e
ˆ
Var [θ(X
Var [Tn (X n )]
n )]
limn→∞ Varθ [θ(X
= 0 (e limn→∞ Varθ [θ(X
= 0).
˜
˜
)]
)]
θ
n
θ
n
45
Bibliografia
[1]
P. Baldi. Equazioni Differenziali Stocastiche e Applicazioni. Prima Edizione Pitagora, 1984.
[2]
P. Baldi. Equazioni Differenziali Stocastiche e Applicazioni. Seconda Edizione Pitagora, 2000.
[3]
G. Casella, R.L. Berger. Statistical Inference. Duxbury Press, 1990.
[4]
M.H. DeGroot. Optimal Statistical Decisions. McGraw-Hill, 1970.
[5]
S. Lang. Algebra Lineare. Bollati Boringhieri, 1970.
46