Lista delle definizioni e degli enunciati.

Elementi di Probabilit`a e Statistica
Lista di definizioni ed enunciati
1
Nozioni fondamentali di Calcolo delle Probabilit`
a.
Definizione 1.1 (Algebra di parti). Dato un insieme Ω, si chiama algebra
di parti una famiglia F di sottinsiemi di Ω tale che:
a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F;
b) se A ∈ F , anche il suo complementare Ac ∈ F;
c) se A e B sono elementi di F, anche A ∪ B ∈ F.
Definizione 1.2 (Probabilit`
a finitamente additiva). Data un’algebra
F di parti di un insieme Ω , si chiama probabilit`a (finitamente additiva) una
funzione P : F −→ [0, 1] tale che
a) se A, B ∈ F e A ∩ B = ∅ , allora P A ∪ B = P A + P B ;
b) P(Ω) = 1.
Gli elementi dell’algebra di parti F sono chiamati eventi , si chiama trascurabile un evento A tale che P(A) = 0 e si chiama quasi certo un evento
A tale che P(A) = 1.
Definizione 1.3 (σ-algebra di parti). Dato un insieme Ω, si chiama σalgebra di parti una famiglia F di sottinsiemi di Ω tale che:
a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F;
b) se A ∈ F , anche il suo complementare Ac ∈ F;
S
c) se (An )n≥1 `e una successione di elementi di F, anche +∞
n=1 An ∈ F.
Definizione 1.4 (Probabilit`
a). Assegnato un insieme Ω ed una σ-algebra
F di parti di Ω, si chiama probabilit`a una funzione P : F −→ [0, 1] tale che
a) se (A
una successione di elementi di F a due a due disgiunti,
n )n=1,2,...
`eP
S+∞
si ha P n=1 An = +∞
n=1 P(An ) ;
b) P(Ω) = 1.
Proposizione 1.5. Sia F una σ-algebra di parti di un insieme Ω e sia
P : F −→ [0, 1] semplicemente additiva (e tale che P(Ω) = 1 ). Sono
equivalenti le seguenti propriet`
a:
1) P `e σ-additiva;
2) An ↑ A =⇒ P(An ) → P(A)
(o anche P(An ) ↑ P(A) );
3) An ↓ A =⇒ P(An ) → P(A)
(o anche P(An ) ↓ P(A) )
1
4) An ↑ Ω
5) An ↓ ∅
=⇒ P(An ) → 1 ;
=⇒ P(An ) → 0 .
Nel caso in cui Ω sia un insieme finito e gli eventi elementari ωi siano
equiprobabili, si parla di distribuzione uniforme di probabilit`
a su Ω: in questo
caso si ottiene la formula
P(A) =
]A
|A|
=
]Ω
|Ω|
dove con ]A o con |A| si indica la cardinalit`
a (o numero degli elementi)
dell’insieme A. La formula sopra scritta `e anche chiamata rapporto tra casi
favorevoli e casi possibili.
Proposizione 1.6. Siano k ed n due interi: il numero di applicazioni da
{1, . . . , k} a {1, . . . , n} `e nk
Proposizione 1.7 (Permutazioni). Il numero di modi in cui si possono
ordinare gli elementi di {1, . . . , n} `e n!
Proposizione 1.8 (Coefficiente binomiale). Siano 0 ≤ k ≤ n : il numero di sottinsiemi di {1, . . . , n} formati da k elementi `e
n
n!
=
k
k! (n − k)!
Definizione 1.9. Assegnato uno spazio di probabilit`a Ω, F, P ed un
evento B non trascurabile, si chiama probabilit`
a condizionata di A rispetto
a B il numero
P A ∩ B)
P AB =
P B
Proposizione 1.10. Siano A1 , . . . , An eventi, e supponiamo che A1 ∩ . . . ∩
An−1 sia non trascurabile: vale la formula
P A1 ∩ . . . ∩ An = P A1 .P A2 A1 . . . P An A1 ∩ . . . ∩ An−1
Definizione 1.11 (Sistema di alternative). Si chiama sistema di alternative una partizione di Ω in n eventi non trascurabili B1 , . . . , Bn .
Ricordiamo che partizione significa che gli insiemi Bi sono a due a due
disgiunti e che la loro unione `e l’intero insieme Ω.
2
Proposizione 1.12 (Formula di Bayes). Sia B1 , . . . , Bn un sistema di
alternative: assegnato una qualunque evento A non trascurabile, valgono le
formule
n
X
P(A) =
P ABi P Bi
i=1
Bi P Bi )
P
A
P Bi A = Pn
Bj P Bj )
P
A
j=1
Definizione 1.13 (Indipendenza stocastica). Due eventi A e B sono
detti indipendenti se vale l’eguaglianza
P(A ∩ B) = P(A).P(B)
Definizione 1.14 (Indipendenza di pi`
u eventi). Assegnati n eventi
A1 , . . . , An , questi si dicono indipendenti se per ogni intero k con 2 ≤ k ≤ n
e per ogni scelta di interi 1 ≤ i1 < i2 < . . . < ik ≤ n , vale l’eguaglianza
P Ai1 ∩ · · · ∩ Aik = P Ai1 . . P Aik
Proposizione 1.15. Gli eventi A1 , . . . , An sono indipendenti se e solo se,
per ogni possibile scelta di Bi = Ai oppure Bi = Aci , vale l’eguaglianza
P B1 ∩ . . . ∩ Bn = P B1 . . P Bn
2
Probabilit`
a e variabili aleatorie su uno spazio
numerabile
Sia (an )n≥1 una successione di numeri positivi.
Proposizione 2.1. Sia v : IN → IN una applicazione biunivoca: allora
+∞
X
an =
n=1
+∞
X
av(n)
n=1
Proposizione 2.2. Sia A1 , A2 , . . . una partizione di IN (non importa se
formata di insiemi finiti o infiniti): vale la formula
+∞
X
n=1
an =
+∞ X
X
n=1 k∈An
3
ak
Queste due propriet`
a si estendono immediatamente alle serie assolutamente convergenti: ricordiamo che una serie numerica `e detta assolutamente
convergente se si ha
+∞
X
an < +∞
n=1
Consideriamo un insieme numerabile E = {e1 , e2 , . . .} sul quale sia definita
una misura m : per ogni insieme A ⊂ E si ha
X
m A =
m(ei )
ei ∈A
Consideriamo ora una funzione f : E → IR.
Definizione 2.3 (Integrale). Si dice che la funzione f `e integrabile se
X
f (ei ) m(ei ) < +∞
i
ed in tal caso chiamiamo integrale di f il numero
Z
X
f dm =
f (ei ) m(ei )
i
Indichiamo con L1 lo spazio delle funzioni integrabili. Osserviamo ancora
che,
se f `ePa valori positivi, ha sempre senso parlare di integrale di f , cio`e
R
f dm = i≥1 f (ei )m(ei ) ∈ [0, +∞].
R
R
R
1. se f, g ∈ L1 , anche (af + g) ∈ L1 e (af + g)dm = a f dm + g dm;
R
R
2. se 0 ≤ f ≤ g , allora f dm ≤ g dm;
R
R
R
3. f `e integrabile se e solo se |f | dm < +∞, inoltre f dm ≤ |f | dm;
R
4. se 0 ≤ f e f dm = 0, allora f vale identicamente 0 eccetto eventualmente su un insieme trascurabile.
Ricordiamo che si chiama trascurabile un insieme che ha misura nulla;
una propriet`
a verificata ovunque eccetto che su un insieme trascurabile
`e detta valere quasi ovunque (e si scrive q.o.), mentre in probabilit`a si
preferisce dire quasi certamente (e si scrive q.c.).
Teorema 2.4 (Beppo Levi). Sia (fn )n≥1 una successione crescente
di funR
zioni positive, convergente ad f : la successione degli integrali
fn dm n≥1
R
converge (crescendo) a f dm.
In maniera pi`
u sintetica si pu`o scrivere
Z
Z
0 ≤ fn , fn ↑ f =⇒ fn dm ↑ f dm
4
Teorema 2.5 (Convergenza dominata). Sia (fn )n≥1 una successione di
funzioni convergente puntualmente ad f e supponiamo che esista g positiva
integrabile tale che si abbia |fn | ≤ g qualunque sia n: vale allora la relazione
Z
Z
lim
fn dm =
f dm
n→∞
Teorema
2.6 (Diseguaglianza
di Schwartz). Siano f, g tali che
R 2
R 2
f dm < +∞ e g dm < +∞ : allora il prodotto f g `e integrabile e vale
la diseguaglianza
sZ
sZ
Z
f g dm ≤
f 2 dm
g 2 dm
Inoltre, se la diseguaglianza sopra scritta `e una eguaglianza, le funzioni f e
g coincidono a meno di una costante moltiplicativa (cio`e esiste t reale tale
che f (ei ) = t g(ei ) q.o.).
Consideriamo ora uno spazio di probabilit`a Ω, F, P nel quale l’insieme
Ω `e supposto numerabile.
Definizione 2.7
(Variabile aleatoria). Assegnato uno spazio di probabilit`
a Ω, F, P con Ω numerabile, si chiama variabile aleatoria reale (discreta) una funzione X : Ω → IR.
Definizione 2.8 (Legge di Probabilit`
a). Si chiama legge di probabilit`
a (o
anche distribuzione di probabilit`
a ) della v.a. reale X la probabilit`a definita
sui sottinsiemi di IR dalla formula
PX A = P X −1 (A)
La probabilit`
a PX viene anche
chiamata la probabilit`
a immagine (di P
mediante X) e indicata X P . Quando due variabili aleatorie hanno la
stessa legge di probabilit`
a sono dette equidistribuite (o anche isonome).
Poich´e Ω `e numerabile, anche l’immagine di X `e un sottinsieme (finito
o) numerabile della retta, cio`
e (x1 , x2 , . . .) ; per ogni punto xi , si consideri
il numero p(xi ) = P X = xi = P X −1 (xi ) . Vale la formula:
X
PX A = P X −1 (A) =
p(xi )
xi ∈A
S
(infatti X −1 (A) = xi ∈A X = xi ).
Alla funzione x → p(x) = P X = x viene dato il nome di funzione di
probabilit`
a o anche densit`
a discreta.
Osservazione 2.9. Assegnata una probabilit`
a discreta Q su IR esiste una
v.a. X la cui legge di probabilit`a sia Q.
5
Esempio 2.10 (Variabile Binomiale). La variabile Binomiale di parametri n e p considera n ripetizioni indipendenti di un esperimento che ha
probabilit`
a p di successo e conta il numero dei successi ottenuti. Quando
n = 1 viene anche chiamata di Bernoulli di parametro p.
I valori della v.a. binomiale sono gli interi {0, 1, . . . , n} e vale, per 0 ≤
k ≤ n, la formula
n k
p(k) = P X = k =
p (1 − p)n−k
k
Esempio 2.11 (Variabile di Poisson). La variabile di Poisson (di parametro λ , λ > 0) `e una variabile che assume tutti i valori interi positivi con
probabilit`
a
λn
p(n) = P X = n = e−λ
n!
Esempio 2.12 (Variabile Geometrica). La variabile Geometrica (di parametro p , 0 < p < 1 ) considera ripetizioni consecutive di un esperimento che
ha probabilit`
a p di successo e conta il numero di prove che `e stato necessario
effettuare per ottenere un successo.
I valori possibili sono gli interi strettamente positivi e si ha
p(n) = P X = n = (1 − p)n−1 p
Teorema 2.13 (Integrazione rispetto a una probabilit`
a immagine).
Siano X una v.a. discreta, PX = X P la sua legge di probabilit`a e ϕ :
IR → IR. ϕ `e integrabile rispetto a PX se e solo se ϕ◦X `e integrabile rispetto
a P, e in tal caso vale l’eguaglianza
Z
Z
ϕ(x) dPX (x) =
ϕ X(ω) dP(ω)
(2.1)
IR
Ω
Definizione 2.14 (Valore atteso). Data una v.a. reale discreta X, si dice
che essa ha valore atteso se `e integrabile rispetto a P, e in tal caso si chiama
valore atteso (o speranza matematica) l’integrale
Z
X
E X =
X(ω) dP(ω) =
X ωi P ωi
Ω
i
Se X `e a valori positivi, ha sempre senso scrivere E[X] =
[0, +∞[.
R
Ω X(ω) dP(ω)
∈
Osservazione 2.15. Sia X una variabile aleatoria a valori interi positivi:
vale la formula
X X E X =
P X>n =
P X≥n
n≥0
n≥1
6
Definizione 2.16 (Momenti). Sia 1 ≤ p < +∞ e X una v.a.: si chiama
momento assoluto di ordine p il numero
X
p E X =
|xi |p p(xi ) ∈ [0, +∞]
i
e se questo numero risulta finito, si dice che X ammette momento di ordine
p. Dato un intero positivo n, se X ammette
momento di ordine n, si chiama
momento di ordine n il numero E X n .
Proposizione 2.17. Siano 1 ≤ p < q < +∞: se X ha momento di ordine
q, ammette anche momento di ordine p.
Definizione 2.18 (Varianza). Sia X una variabile aleatoria dotata di momento secondo: si chiama Varianza di X il numero
2 = E X 2 − E[X]2
V ar X = E X − E[X]
Lemma 2.19 (Diseguaglianza di Markov). Sia X una v.a. a valori
positivi e t una costante positiva: vale la diseguaglianza
tP X ≥ t ≤ E X
Proposizione 2.20 (Diseguaglianza di Chebishev). Sia X una v.a.
dotata di momento secondo: vale la diseguaglianza
t2 P X − E[X] ≥ t ≤ V ar X
Corollario 2.21. La varianza di una v.a. X `e eguale a 0 se e solo se X `e
costante q.c.
Per semplicit`
a di notazioni, trattiamo il caso di variabili aleatorie a valori
2
in IR , sia dunque una variabile aleatoria doppia o bidimensionale, cio`e una
2
applicazione
a (denotata PX,Y =
X, Y : Ω−→IR . La sua legge di probabilit`
2
(X, Y ) P `e una probabilit`
a sui sottinsiemi di IR .
L’immagine
di
(X,
Y
)
`
e
un sottinsieme
numerabile di IR2 cio`e un insieme
di punti (xi, yj ) i ≥ 1, j ≥1 e la funzione di probabilit`
a `e definita da
p(xi , yj ) = P X = xi , Y = yj . Per ogni sottinsieme B ⊂ IR2 si ha
PX,Y B = P (X, Y ) ∈ B =
X
p(xi , yj )
(xi ,yj )∈B
Il teorema di integrazione rispetto ad una misura immagine si traduce
nell’eguaglianza
Z
ZZ
ϕ X(ω), Y (ω) dP(ω) =
ϕ(x, y) dPX,Y (x, y) =
E ϕ(X, Y ) =
IR2
Ω
7
=
X
ϕ(xi , yj ) p(xi , yj )
xi ,yj
che si deve leggere: ϕ(X, Y ) `e integrabile rispetto a P se e solo se ϕ `e
integrabile rispetto a PX,Y , ed in tal caso `e soddisfatta la formula scritta
sopra.
Definizione 2.22 (Covarianza). Supponiamo che X ed Y ammettano
momento secondo: si chiama covarianza il numero
Cov X, Y = E X − E[X] Y − E[Y ] = E XY − E[X] E[Y ]
Se Cov X, Y = 0, le due variabili sono dette incorrelate.
Proposizione 2.23. Siano X , Y dotate di momento secondo: vale la diseguaglianza
q
q
V ar Y
Cov X, Y ≤ V ar X
Se X , Y ammettono momento secondo e non sono costanti, si chiama
coefficiente di correlazione il numero
Cov X, Y
ρ X, Y = q
q
V ar X
V ar Y
Proposizione 2.24 (Matrice delle covarianze). Sia X1 , . . . , Xn una
variabile aleatoria n–dimensionale, supponiamo che ogni componente Xi abbia momento secondo e indichiamo con C la matrice delle covarianze (cio`e
Cij = Cov(Xi , Xj )).
La matrice C `e simmetrica, semidefinita positiva; inoltre vale la formula
V ar
n
X
ai Xi
i=1
=
n
X
Cij ai aj
i,j=1
Torniamo ad una variabile doppia (X, Y ), la cui legge di probabilit`a `e
identificata dalla funzione di probabilit`a p(xi , yj ); ognuna delle due componenti X ed Y `e una v.a. reale, e indichiamo con pX (xi ) = P{X = xi } (e
analogamente per pY ) le relative funzioni di probabilit`a.
Proposizione 2.25. Valgono le formule
X
X
pX (xi ) =
p(xi , yj )
pY (yj ) =
p(xi , yj )
yj
xi
Definizione 2.26. Due variabili aleatorie X ed Y si dicono indipendenti se,
scelti comunque due sottinsiemi A e B di IR, gli eventi X −1 (A) e Y −1 (B)
sono indipendenti, cio`e se vale la formula
P X ∈ A, Y ∈ B = P X ∈ A P Y ∈ B
8
Proposizione 2.27. Due variabili discrete X ed Y sono indipendenti se e
solo se le relative funzioni di probabilit`
a sono legate dalla formula
p(xi , yj ) = pX (xi ) pY (yj )
(2.2)
Definizione 2.28 (Probabilit`
a prodotto). Siano P1 e P2 due probabilit`a
sui sottinsiemi di IR: si chiama probabilit`
a prodotto (e si indica P1 ⊗ P2 ) la
probabilit`
a definita sui sottinsiemi di IR2 tale che, se A, B sono sottinsiemi
di IR, si abbia
P1 ⊗ P2 A × B = P1 A P2 B
Proposizione 2.29. Due variabili aleatorie X1 , X2 sono indipendenti se e
solo se la legge di probabilit`
a congiunta `e il prodotto delle singole leggi, cio`e
se si ha
PX1 ,X2 = PX1 ⊗ PX2
Di conseguenza si pu`
o dire, per definizione, che n v.a. X1 , . . . , Xn sono
indipendenti se la legge congiunta `e il prodotto delle singole leggi, cio`e se si
ha
PX1 ,...,Xn = PX1 ⊗ · · · ⊗ PXn
Osservazione 2.30. Assegnate n probabilit`a (discrete) P1 , . . . , Pn , come si
possono costruire n v.a. indipendenti X1 , . . . , Xn con legge rispettivamente
P1 , . . . , Pn , nel modo seguente.
Supponiamo che tutte le probabilit`a siano concentrate sullo stesso sottinsieme numerabile C ⊂ IR , poniamo Ω = C n (il prodotto cartesiano di C con
s´e stesso n volte) e su di esso mettiamo la probabilit`a prodotto P1 ⊗· · ·⊗Pn ;
`
sia poi Xi la proiezione canonica di indice i , cio`e Xi (x1 , . . . , xn ) = xi . E
immediato constatare che PXi = Xi (P) = Pi e che queste variabili sono
indipendenti.
Proposizione 2.31. Siano X, Y due v.a. indipendenti e f, g due funzioni
reali: le variabili f ◦ X e g ◦ Y sono indipendenti.
Proposizione 2.32. Dati n eventi A1 , . . . , An , questi sono indipendenti
se e solo se le loro funzioni indicatrici IA1 , . . . , IAn sono indipendenti come
variabili aleatorie.
Definizione 2.33. Data una famiglia qualsiasi di variabili aleatorie (Xi )i∈I
,
queste si dicono indipendenti se ogni sottofamiglia finita Xi1 , . . . , Xin `e
formata da variabili indipendenti.
Teorema 2.34. Siano X, Y due variabili indipendenti dotate di momento
primo: anche XY ammette momento primo e vale la formula
E XY = E X E Y
9
Corollario 2.35. Due variabili indipendenti dotate di momento secondo
sono incorrelate
Proposizione 2.36 (Formula della convoluzione discreta). Siano X, Y
due v.a. indipendenti a valori interi (relativi) e sia Z = X + Y : vale la
formula
+∞
X
pZ (n) = P Z = n =
pX (h)pY (n − h)
h=−∞
Consideriamo ora variabili aleatorie X, Y, . . . a valori interi positivi.
Definizione 2.37. Data una variabile aleatoria X a valori interi positivi, si
chiama funzione generatrice delle probabilit`
a la funzione GX (.) definita da
GX (t) =
+∞
X
tn p(n) = E tX
n=0
Proposizione 2.38. Valgono le seguenti propriet`
a:
1. GX (t) = GY (t)
⇐⇒
X e Y sono equidistribuite;
2. X e Y indipendenti =⇒ GX+Y (t) = GX (t).GY (t).
Proposizione 2.39. Sia X una v.a. a valori interi positivi: valgono le
seguenti eguaglianze
1. E X = limt→1− G0X (t)
2. E X(X − 1) = limt→1− G00X (t)
Riportiamo qua sotto una tabella delle funzioni generatrici delle pi`
u usuali variabili aleatorie a valori interi:
n
• X ∼ B(n, p)
=⇒
GX (t) = 1 + p(t − 1) ;
• X Geometrica di parametro p
=⇒
• X di Poisson di parametro λ
=⇒
GX (t) =
tp
1−t(1−p) ;
GX (t) = eλ(t−1) .
Teorema 2.40 (Legge dei grandi numeri per variabili Binomiali).
Sia X1 , X2 , . . . una successione di v.a. di Bernoulli di parametro p : ponendo
Sn = X1 + · · · + Xn , per ogni ε > 0, vale il seguente limite
n S
o
n
− p > ε = 0
lim P n→∞
n
10
Osservazione 2.41. Pi`
u in generale se le variabili X1 , X2 , . . . siano indipendenti, equidistribuite, dotate di momento secondo e con varianza σ 2
strettamente positiva, ponendo E Xi = m, si ha
n S
o
n
lim P − m > ε = 0
n→∞
n
Una famiglia (non necessariamente una successione) Xi i∈I di variabili aleatorie indipendenti ed equidistribuite verr`a d’ora innanzi indicata con
l’abbreviazione i.i.d. .
Definizione 2.42 (Convergenza in Probabilit`
a). Data una successione
di v.a. Xn n≥1 ed una v.a. X, si dice che la successione converge in
probabilit`
a verso X se, per ogni ε > 0
o
n
lim P Xn − X ≥ ε = 0
n→∞
Teorema 2.43. Nelle ipotesi del Teorema 2.40, dato ε > 0, esiste una
costante positiva H(p, ε) tale che si abbia
n S
o
n
P − p > ε ≤ 2 exp − n H(p, ε)
n
Lemma 2.44 (Formula di Stirling). Esiste una costante positiva c tale
che per ogni intero n si abbia
n! = c
dove
1
12n+1
≤ θn ≤
1
n n √
n exp(θn ) = c nn+ 2 e−n exp(θn )
e
1
12n
Il teorema di De Moivre-Laplace `e un caso particolare del Teorema del
Limite Centrale: di nuovo X1 , X2 , . . . `e una successione di variabili indipendenti di Bernoulli di parametro p e sia q = 1 − p .
Teorema 2.45 (Limite Centrale per Variabili Binomiali). Presi due
numeri a, b con −∞ ≤ a < b ≤ +∞, si ha
Z b
n
o
x2
Sn − np
1
≤b = √
e− 2 dx
lim P a ≤ √
n→∞
npq
2π a
x2
Gli integrali della funzione e− 2 su un intervallo qualsiasi non possono
venire calcolati esplicitamente: per venire incontro a questa difficolt`a sono
Rx
t2
state compilate delle tavole statistiche della funzione Φ(x) = √12π −∞ e− 2 dt
(per x positivo).
11
3
Inferenza statistica su uno spazio di Probabilit`
a
numerabile
Definizione
3.1 (Modello
statistico). Si chiama modello statistico una
θ
terna Ω, F, P , θ ∈ Θ dove Ω `e un insieme, F una σ-algebra di parti di
Ω e, per ogni θ ∈ Θ , Pθ `e una probabilit`a su Ω, F .
Supporremo sempre che a due parametri diversi θ1 e θ2 corrispondano
due probabilit`
a diverse (come si usa dire, il modello `e identificabile).
In un modello statistico si chiama trascurabile un evento A ∈ F trascurabile per ogni probabilit`
a Pθ .
Definizione 3.2 (Verosimiglianza).
Assegnato un modello statistico
θ
Ω, F, P , θ ∈ Θ con Ω numerabile, si chiama verosimiglianza la funzione
L : Θ × Ω → IR+ definita da
L(θ, ω) = Pθ {ω}
Definizione 3.3 (Campione). Sia mθ , θ ∈ Θ una famiglia parametrizzata di leggi di probabilit`
a discrete tutte concentrate su un sottoinsieme
numerabile C di IR: si chiama campione di taglia n e legge mθ una famiglia
(X1 , . . . , Xn ) di n variabili aleatorie indipendenti ciascuna con legge mθ .
Il modo canonicoper rappresentare come modello statistico un campione
di legge mθ , θ ∈ Θ `e il seguente: sia C l’insieme su cui sono concentrate
le probabilit`
a mθ , e poniamo (per θ ∈ Θ e xi ∈ C), p(θ, xi ) = mθ {xi } .
Poniamo poi Ω = C n , F = P(Ω) e scegliamo come verosimiglianza
L(θ ; x1 , . . . , xn ) = p(θ, x1 ) · · · p(θ, xn )
Consideriamo come Xi la proiezione canonica di indice i da Ω su C: le
variabili X1 , . . . , Xn sono indipendenti e ciascuna con legge mθ .
Definizione
3.4 (Stima). Assegnato un modello statistico Ω, F, (Pθ , θ ∈
Θ) , si chiama stima una variabile aleatoria U : Ω → IR.
In genere una stima `e accoppiata ad una funzione g : θ → IR.
Definizione 3.5 (Stima corretta). Assegnata una funzione g : Θ → IR,
θ
la stima
U di g(θ) `e detta corretta se, per ogni θ, U `e P -integrabile e si ha
θ
E U = g(θ).
Definizione 3.6 (Stima consistente). Sia mθ , θ ∈ Θ una famiglia di
leggi di probabilit`
a discrete su IR e consideriamo, per ogni n, un campione
X1 , . . . , Xn di legge mθ ; sia poi Un = hn (X1 , . . . , Xn ) una stima di g(θ)
basata sulle
osservazioni del campione n-simo. Si dice che la successione di
stime Un n≥1 `e consistente se, scelti comunque θ ∈ Θ ed ε > 0, si ha
lim Pθ Un − g(θ) > ε = 0
n→∞
12
Definizione 3.7 (Stima di massima verosimiglianza). Sia assegnato
un modello statistico Ω, F, (Pθ , θ ∈ Θ) tale che Θ ⊂ IR : si dice che U `e
una stima di massima verosimiglianza se, per ogni ω ∈ Ω, si ha
L U (ω), ω = sup L θ, ω
θ∈Θ
Usualmente la stima di massima verosimiglianza, se esiste, viene indicata
b
θ(ω).
Teorema 3.8. Sia mθ , θ ∈ Θ una famiglia di leggi di probabilit`
a concentrate sugli interi positivi, e supponiamo che Θ sia un intervallo di IR e che,
ponendo p(θ, k) = mθ ({k}), questa si possa scrivere nella forma
p(θ, k) = c(θ) exp θ T (k) g(k)
dove T : IN → IR. Consideriamo un campione infinito X1 , X2 , . . . di legge
mθ e supponiamo che esista, per ogni n, la stima di massima verosimiglianza
θbn relativa al campione di taglia n: allora la successione di stime θbn n≥1 `e
consistente.
Definizione 3.9 (Rischio). Sia U una stima della funzione g(θ): si chiama
Rischio (quadratico) il numero
2 = Eθ U − g(θ)
Osserviamo ancora che, se U `e corretta, R θ, U = V arθ U .
La definizione di rischio introduce un criterio di ordinamento parziale tra
le stime, pi`
u precisamente diremo che
R θ, U
• U `e preferibile a V se, per ogni θ, R(θ, U ) ≤ R(θ, V );
• U `e strettamente preferibile a V se `e preferibile e, per almeno un
parametro θ, R(θ, U ) < R(θ, V );
• U `e ammissibile se non esistono stime strettamente preferibili a U ;
• U `e ottimale se `e preferibile a ogni altra stima.
Definizione 3.10 (Riassunto esaustivo). Sia T : Ω → E una variabile aleatoria: si dice che T `e un riassunto esaustivo se si pu`o scrivere la
verosimiglianza nella forma
L θ, ω = h(θ, T (ω)) k(ω)
Teorema 3.11. Sia T un riassunto esaustivo e U una stima di g(θ) : esiste una stima V della forma V (ω) = f T (ω) preferibile a U, inoltre V `e
strettamente preferibile a meno che U non sia gi`
a nella forma f ◦ T . Infine,
se U `e corretta, anche V `e corretta.
13
Supponiamo assegnato un modello statistico, ed un numero α con 0 <
α < 1; i valori tipici sono 0,1 ; 0,05 e 0,01.
Definizione 3.12 (Regione di Fiducia). Sia assegnato, per ogni ω ∈ Ω,
un sottoinsieme dei parametri C(ω) ⊂ Θ: si dice che C(ω) `e una regione di
fiducia per il parametro θ al livello (1 − α) se, qualunque sia θ, si ha
Pθ ω θ ∈ C(ω) ≥ 1 − α
o (ci`
o che `e lo stesso) Pθ ω θ ∈
/ C(ω) ≤ α.
Se Θ ⊆ IR e C(ω) `e un intervallo, si parla di intervallo di fiducia.
Intervallo di fiducia per un campione di Bernoulli
Consideriamo un campione X1 , . . . , Xn di legge di Bernoulli di parametro
θ e vogliamo individuare un intervallo di fiducia
per il parametro θ:
cerchiamo un intervallo di fiducia della forma I = X(ω) − d , X(ω) + d Utilizzando
la diseguaglianza
di Chebishev si ricava l’intervallo di fiducia
1
1
X(ω) − √4nα
, X(ω) + √4nα
, o (come si scrive pi`
u sinteticamente) X(ω) ±
√1 .
4nα
Intervallo di fiducia approssimato mediante il teorema di De
Moivre-Laplace
Siamo nella stessa situazione dell’esercizio precedente, ma questa volta
utilizziamo il fatto che
Pθ
n X + · · · + X − nθ
n√
o
o
X −θ
1
n
p
≤ x = Pθ
np
≤ x ≈ Φ(x)
θ(1 − θ)n
θ(1 − θ)
Introduciamo una notazione: dato 0 < β < 1, chiamiamo qβ il numero
tale che Φ(qβ ) = β.
√
Dunque Pθ n √|X−θ| > q1− α ≈ α : si ottiene pertanto l’intervallo
di fiducia X(ω) ±
θ(1−θ)
q1− α
√2 .
2 n
2
Il primo passo da compiere, di fronte a un test statistico, `e formulare
un’ipotesi: questo si ottiene effettuando una partizione dell’insieme Θ dei
parametri in due sottinsiemi non vuoti Θ0 e Θ1 corrispondenti rispettivamente ai parametri dell’ipotesi e a quelli dell’ alternativa.
Il secondo passo `e pianificare un esperimento: questo equivale a scegliere
un evento D ∈ F (detto regione critica) che consiste nell’insieme dei risultati
ω che portano a rifiutare l’ipotesi.
Definizione 3.13 (Livello e potenza). Si chiama taglia di un test di
regione critica D il numero
sup Pθ D
θ∈Θ0
14
Si dice che il test `e di livello α se la sua taglia `e minore o eguale ad α.
Si chiama
potenza del test la funzione πD : Θ1 → [0, 1] definita da
θ
θ−→P D .
Diremo che il test di regione critica D `e pi`
u potente del test di regione
∗
θ
critica D se, per ogni θ ∈ Θ1 , si ha P (D) ≥ Pθ (D∗ ).
Quando Θ0 `e ridotto a un solo punto (cio`e Θ0 = {θ0 }) si dice che l’ipotesi
`e semplice; perfettamente analoga naturalmente `e la definizione di alternativa semplice.
Esempio 3.14. Dato un campione X1, . . . , Xn con legge di Bernoulli, pianifichiamo il test dell’ipotesi semplice H0 θ = θ0 contro
H1 θ 6= θ0 al livello
α. Scegliamo una regione critica della forma D = ω X(ω) − θ0 > d .
q Utilizzando la diseguaglianza di Chebishev, si ottiene per d il valore
θ0 (1−θ0 )
.
nα
Utilizzando l’approssimazione suggerita dal Teorema di De Moivreq
0)
Laplace, si ottiene il valore d = q1− α2 θ0 (1−θ
.
n
Lemma 3.15 (Lemma di Neyman-Pearson). Supponiamo assegnato un
modello statistico
nel quale l’insieme Θ dei parametri
`e ridotto a due
punti
(Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 .
Consideriamo l’insieme D cos`ı definito
D = ω ∈ Ω L(θ0 , ω) ≤ c L(θ1 , ω)
dove c `e una costante positiva. Allora
1. D `e la regione critica di un test pi`
u potente di ogni altro test di livello
θ
0
P D ;
2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D .
Quando l’insieme dei parametri Θ `e un intervallo di IR (intervallo in senso
lato, cio`e anche una semiretta
o tutta la retta) si parla
di test unilatero se
l’ipotesi `e della forma H0 θ ≤ θ0 o della forma H0 θ ≥ θ0 .
Definizione 3.16 (Rapporto di verosimiglianza crescente). Supponiamo assegnato un modello statistico nel quale l’insieme dei parametri Θ
`e un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: si
dice che il modello `e a rapporto di verosimiglianza crescente rispetto a T se,
scelti comunque θ1 < θ2 , esiste una funzione reale (strettamente) crescente
a valori positivi fθ1 ,θ2 tale che valga l’eguaglianza
L(θ2 , ω)
= fθ1 ,θ2 T (ω)
L(θ1 , ω)
15
Teorema 3.17 (Test unilatero). Supponiamo che il modello sia a rapporto
di verosimiglianza crescente rispetto a T e consideriamo il test unilatero
H0 θ≤ θ0 contro
l’alternativa H1 θ > θ0 ; consideriamo poi l’insieme
D = ω T (ω) ≥ d dove d `e un opportuno numero. Il test di regione critica
D `e tale che:
1. vale l’eguaglianza supθ≤θ0 Pθ D = Pθ0 D ;
2. D `e pi`
u potente di qualsiasi altro test D∗ con livello Pθ0 D .
4
Probabilit`
a e variabili aleatorie su uno spazio
generale
Definizione 4.1. Sia A una famiglia di parti di un insieme E: si chiama
σ-algebra generata da A la pi`
u piccola σ-algebra contenente A: essa coincide
con l’intersezione di tutte le σ-algebre contenenti A.
Proposizione 4.2 (I boreliani). Sulla retta reale IR coincidono le σalgebre generate, ad esempio, da queste famiglie di insiemi:
1. le semirette del tipo ] − ∞, x] , al variare di x ∈ IR ;
2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con −∞ < a < b < +∞ ;
3. gli aperti di IR ;
4. i chiusi di IR .
La σ-algebra da essi generata `e chiamata σ-algebra di Borel su IR (e
indicata B(IR)) ed i relativi elementi sono detti boreliani.
Analoga `e la definizione della σ-algebra B IRn dei boreliani di IRn che
`e generata, ad esempio, dalle seguenti famiglie di insiemi:
1. gli aperti di IRn ;
2. i prodotti cartesiani A1 × . . . × An , dove ogni Ai `e un boreliano di IR ;
3. i prodotti cartesiani della forma ] − ∞, x1 ] × . . . ×] − ∞, xn ] .
Teorema 4.3 (Unicit`
a di Probabilit`
a). Siano P e Q due probabilit`
a
definite su una σ-algebra F di parti di un insieme E e supponiamo che P e
Q coincidano su una famiglia I di parti tale che:
1) I genera F ;
2) I `e stabile per l’intersezione (finita).
Allora P e Q coincidono su tutto F.
Teorema 4.4 (Esistenza di Probabilit`
a). Sia A un’algebra di parti di un
insieme E e sia P : A → [0, 1] una funzione σ-additiva (tale che P(E) = 1):
P si prolunga (in un sol modo) alla σ-algebra F generata da A.
16
Definizione4.5 (Funzione di ripartizione). Sia P una probabilit`a definita
su IR, B(IR) : si chiama funzione
di ripartizione la funzione F : IR → [0, 1]
definita da F (x) = P ] − ∞, x] .
Proposizione 4.6. La funzione di ripartizione sopra definita gode delle
seguenti propriet`
a:
1. `e crescente;
2. `e continua a destra;
3. F (+∞) = limx→+∞ F (x) = 1
e
F (−∞) = limx→−∞ F (x) = 0 .
Teorema 4.7 (Esistenza di una Probabilit`
a su B(IR)). Assegnata una
funzione F : IR → [0, 1] con le propriet`
a 1), 2) e 3) sopra scritte, esiste
una ed una sola probabilit`
a P su B(IR) tale che, per ogni x ∈ IR, si abbia
F (x) = P ] − ∞, x] .
Esempio 4.8 (Probabilit`
a discrete). Abbiamo gi`a incontrato le probabilit`
a discrete (dette anche atomiche) su B(IR): P `e concentrata sulla
successione
P di punti (x1 , x2 , . . .) e, per ogni A ∈ B(IR) , vale l’eguaglianza
P(A) = xi ∈A p(xi ) essendo p(xi ) = P {xi } .
P In particolare la funzione di ripartizione soddisfa l’eguaglianza F (x) =
xi ≤x p(xi ).
Esempio 4.9 (Probabilit`
a diffusa). Ogni punto `e trascurabile per la
probabilit`
a P associata alla funzione di ripartizione F se e solo se F `e
continua: questo `e una conseguenza della formula P {x} = ∆F (x). Le
probabilit`
a che godono di questa propriet`a sono dette diffuse.
Definizione 4.10 (Spazio e applicazione misurabile). Si chiama spazio
misurabile una coppia E, E dove E `e un insieme
e E una σ-algebra di parti
di E. Dati due spazi misurabili E, E e F, F , una applicazione f : E → F
`e detta misurabile se, per ogni A ∈ F , f −1 (A) ∈ E.
Proposizione 4.11. Con le notazioni della definizione precedente, se A `e
una famiglia di parti di F che genera la σ-algebra F, affinch´e una funzione
f : E → F sia misurabile, `e sufficiente che, per ogni A ∈ A , f −1 (A) ∈ E.
Una funzione misurabile da IR, B(IR) su IR, B(IR) `e detta boreliana.
Definizione 4.12 (Funzione semplice). Dato uno spazio misurable E, E ,
si chiama semplice una funzione misurabile ϕ : E → IR che prende un numero finito di valori (cio`e la cui immagine `e un insieme finito).
Definizione 4.13 (Integrale delle
Pn funzioni semplici). Sia ϕ una funzione semplice della forma ϕ =
i=1 ai IAi : definiamo integrale di ϕ il
numero
Z
n
X
ϕ(x) dm(x) =
ai m(Ai )
E
i=1
17
Teorema 4.14 (Approssimazione con funzioni semplici). Sia f una
funzione misurabile a valori positivi: esiste una successione di funzioni semplici (ϕn )n≥1 tale che
ϕn ↑ f
Definizione 4.15 (Integrale delle funzioni a valori positivi). Sia f
una funzione misurabile a valori positivi e consideriamo una successione di
funzioni semplici (ϕn )n≥1 tale che ϕn ↑ f : si definisce integrale di f il
numero
Z
Z
f dm = lim ϕn dm
n≥1
Teorema 4.16 (Propriet`
a di Beppo Levi). Se (ϕn )n≥1 e (ψn )n≥1 sono
due successioni di funzioni semplici convergenti alla funzione f si ha
Z
Z
lim
ϕn dm = lim
ψn dm
n→∞
n→∞
Inoltre se (fn )n≥1 `e una successione di funzioni misurabili a valori positivi,
si ha
Z
Z
fn ↑ f =⇒
fn dm ↑ f dm
Consideriamo ora una generica funzione misurabile f , e poniamo f + =
f ∨ 0 = max(f, 0) e f − = −(f ∧ 0) = − min(f, 0) : entrambe sono funzioni
misurabili (`e una verifica immediata) e si ha |f | = f + + f − e f = f + − f − .
Definizione 4.17 (Funzione integrabile
e integrale). Si dice che la
R
funzione misurabile f `e integrabile se |f |dm < +∞, e in tal caso si chiama
integrale di f il numero
Z
Z
Z
+
f dm =
f dm − f − dm .
Teorema 4.18 (Convergenza dominata). Sia (fn )n≥1 una successione di
funzioni misurabili convergente puntualmente ad f e supponiamo che esista g
integrabile a valori positivi tale che si abbia, per ogni x ∈ E , |fn (x)| ≤ g(x) :
allora si ha
Z
Z
lim
fn dm =
f dm .
n→∞
Vale la diseguaglianza di Schwartz: se f 2 e g 2 sono integrabili, il prodotto
f g ∈ L1 e si ha
sZ
sZ
Z
f 2 dm
g 2 dm .
f g dm ≤
18
Definizione 4.19 (Densit`
a di probabilit`
a). Si chiama densit`
a di probabilit`
a su IR una funzione reale f definita suR IR, misurabile e a valori positivi,
+∞
integrabile (secondo Lebesgue) e tale che −∞ f (x) dx = 1.
Ad una densit`
a f `e associata una probabilit`a P su B(IR) mediante la
formula
Z
f (x) dx
P(A) =
A
Teorema 4.20 (Integrazione rispetto a una misura definita da una
densit`
a). Una funzione misurabile g definita su IR `e integrabile rispetto a
P se e solo se il prodotto gf `e integrabile rispetto alla misura di Lebesgue,
e in tal caso si ha
Z
Z
g(x) dP(x) =
g(x)f (x) dx .
Analoga `e la definizione di probabilit`
a definita da una densit`
a su
IRn , B(IRn ) , ed il relativo teorema di integrazione.
Proposizione 4.21 (Funzioni assolutamente continue). La probabilit`
a
associata ad una funzione di ripartizione F `e definita da una densit`
a se e
solo se F `e assolutamente continua, cio`e per ogni ε > 0, esiste δ > 0 tale
che, prese delle coppie di punti (xi , yi ),
X
X
F (xi ) − F (yi ) < ε
|xi − yi | < δ =⇒
i≤n
i≤n
Definizione 4.22 (Variabile
aleatoria reale). Assegnato uno spazio di
Probabilit`
a Ω, F, P , si chiama variabile aleatoria reale una applicazione
misurabile X : (Ω, F) → (IR, B(IR)).
Definizione 4.23 (Legge di Probabilit`
a). Si chiama legge di probabilit`
a
(o anche distribuzione di probabilit`
a) di una variabile aleatoria reale X
l’immagine di P mediante X; si chiama funzione di ripartizione di X la
funzione di ripartizione della sua legge di probabilit`a.
Osservazione 4.24. Assegnata comunque una probabilit`a Q su IR, B(IR) ,
esiste una variabile aleatoria X la cui legge di probabilit`a sia eguale a Q.
Teorema 4.25 (Integrazione rispetto ad una probabilit`
a immagine).
Sia ϕ : IR → IR boreliana: ϕ `e integrabile rispetto a PX se e solo se ϕ ◦ X
`e integrabile rispetto a P e in tal caso vale la formula
Z
Z
ϕ(x) dPX (x) =
ϕ X(ω) dP(ω) .
IR
Ω
19
Ad esempio, il valore atteso di X (se esiste) `e l’integrale
Z
Z
x dPX (x)
X(ω) dP(ω) =
E X =
IR
Ω
Per definizione, si chiama
variabile aleatoria
doppia una applicazione
2
2
misurabile (X, Y ) : Ω, F → IR , B(IR ) . Le componenti X e Y sono due
funzioni definite su Ω a valori reali.
Proposizione 4.26. La coppia (X, Y ) `e una variabile aleatoria (cio`e `e misurabile come applicazione a valori in IR2 ) se e solo se entrambe le componenti X e Y sono variabili aleatorie reali (cio`e misurabili come applicazioni
a valori in IR).
La legge di probabilit`
a della coppia (X, Y ) `e l’immagine di P mediante
l’applicazione (X, Y ): `e quindi una probabilit`a su B(IR2 ). Il Teorema 4.25 si
estende senza difficolt`
a al caso vettoriale, in particolare presa ϕ : IR2 → IR
boreliana e limitata, vale la formula
Z
ZZ
ϕ X(ω), Y (ω) dP(ω) =
ϕ(x, y) dPX,Y (x, y)
IR2
Ω
Per poter estendere al caso generale i risultati della Proposizione 2.29 e
del Teorema 2.34, dobbiamo per`o insistere un poco sulla nozione di probabilit`
a prodotto.
Definizione4.27 (Probabilit`
a prodotto). Siano P e Q due probabilit`a
su IR, B(IR) : si chiama
probabilit`
a prodotto (e si indica P ⊗ Q) la proba
bilit`
a su IR2 , B(IR2 ) tale che, presi comunque due sottinsiemi boreliani A
e B di IR, si abbia
P ⊗ Q A × B = P A).Q B
Se ϕ : IR2 → IR `e boreliana e limitata (oppure a valori positivi) vale la
formula di integrazione
ZZ
Z Z
ϕ(x, y) dP⊗Q (x, y) =
ϕ(x, y) dQ(y) dP(x)
IR2
IR
IR
` immediata l’estensione al caso generale della caratterizzazione provata
E
nel caso delle variabili discrete con la Proposizione 2.29: pi`
u precisamente
X e Y sono indipendenti se e solo se PX,Y = PX ⊗ PY .
Teorema 4.28. Supponiamo che X ed Y siano indipendenti e dotate di
momento primo: anche XY ha valore atteso e vale la formula
E XY = E X E Y
20
Definizione 4.29. Si dice che la v.a. reale X ha densit`
a f se la sua legge
di probabili`
a PX ha densit`
a f , cio`e se per ogni boreliano A vale la formula
Z
f (x) dx
P X ∈ A = PX A =
A
Proposizione 4.30. Sia X una variabile aleatoria reale. Sono equivalenti
le due seguenti affermazioni:
1. X ha densit`
a f;
2. per ogni funzione reale ϕ boreliana e limitata, vale la formula
Z
E ϕ(X) =
ϕ(x) f (x) dx
IR
Proposizione 4.31. Sia (X, Y ) una variabile doppia con densit`
a f (x, y):
anche le componenti X ed Y ammettono densit`
a f1 ed f2 che soddisfano le
formule
Z +∞
Z +∞
f1 (x) =
f (x, y)dy
f2 (y) =
f (x, y) dx
−∞
−∞
Proposizione 4.32. Sia (X, Y ) una variabile doppia con densit`
a: le variabili X e Y sono indipendenti se e solo se tra le densit`
a vale la seguente
relazione (quasi ovunque)
f (x, y) = f1 (x) f2 (y)
Proposizione 4.33 (Formula della convoluzione). Siano X, Y due variabili indipendenti con densit`
a rispettivamente f1 ed f2 : la somma (X +Y )
ha densit`
a g data dalla formula
Z +∞
g(x) =
f1 (x − y)f2 (y) dy
−∞
Proposizione 4.34. Sia X una v.a. reale con densit`
a f diversa da 0 su
un aperto A ⊆ IR e sia h : A → B un diffeomorfismo. Consideriamo la
variabile Y = h(X) : essa ha densit`
a g data da
(
0
se y ∈
/B
dx(y) d h−1 (y) g(y) =
−1
f h (y)
= f x(y) dy
se y ∈ B
dy
La formula per la trasformazione della densit`a di una v.a. vettoriale
X mediante un diffeomorfismo `e anch’essa conseguenza della formula del
cambio di variabili per integrali (questa volta n-dimensionali) ed `e del tutto
21
−1 analoga alla formula 4.34: il termine d hd y(y) `e sostituito col valore assoluto
del determinante della matrice Jacobiana della funzione h−1 .
Vediamo come si usa in concreto questa formula, limitandoci per semplicit`
a al caso di una variabile doppia (X, Y ) con densit`a f diversa da 0
sull’aperto A di IR2 : consideriamo un diffeomorfismo h da A su B e sia
(U, V ) = h(X, Y ). La coppia (U, V ) ha una densit`a g che si annulla fuori di
B, mentre su B soddisfa la formula
∂x ∂x ∂u
∂v
g(u, v) = f x(u, v), y(u, v) . ∂y ∂y ∂u
∂v
a b si intende il valore assoluto del determinante della matrice
dove con c d
a b
.
c d
Esempio 4.35 (Densit`
a uniforme). Si chiama densit`a uniforme sull’intervallo ]a, b[ la densit`
a definita da
1
per a < x < b
b−a
f (x) =
0
altrimenti
Se X `e una v.a. con tale densit`a, si ha E[X] =
a+b
2
e V ar(X) =
La funzione Gamma `e definita, per r > 0, da Γ(r) =
R +∞
0
(b−a)2
12 .
xr−1 e−x dx.
Definizione 4.36. Si chiama densit`a Gamma di parametri r e λ , (r >
0 , λ > 0), (e si indica Γ(r, λ)) la funzione definita da
1
r r−1 e−λx
x>0
Γ(r) λ x
f (x) =
0
x≤0
Quando r = 1, la densit`
a Γ(1, λ) si chiama pi`
u semplicemente esponenziale di parametro λ.
Se X ∼ Γ(r, λ) e β > 0, vale la formula
Γ(r + β)
E Xβ =
Γ(r) λβ
Proposizione 4.37. Se X ∼ Γ(r1 , λ) , Y ∼ Γ(r2 , λ) e sono indipendenti,
allora (X + Y ) ∼ Γ(r1 + r2 , λ)
Abbiamo visto che
√1
2π
2
e
R +∞
−∞
e−
x2
2
dx =
√
− x2
2π : ne segue che la funzione f (x) =
`e una densit`
a di probabilit`a, detta densit`a Normale o Gaussiana
Rx
t2
N (0, 1) , e la funzione Φ(x) = √12π −∞ e− 2 dt `e la relativa funzione di
ripartizione.
Per una variabile X ∼ N (0, 1) si ha E[X] = 0 e V ar X = E X 2 = 1.
22
Definizione 4.38 (Variabile Gaussiana).
Si dice che la variabile X ha
legge gaussiana N (m, σ 2 ) m ∈ IR , σ > 0 se X−m
ha legge N (0, 1)
σ
La densit`
a di Y `e la funzione g definita da
g(y) = √
(y−m)2
1
e− 2σ2
2π σ
inoltre E[X] = m , V ar X = σ 2 .
Proposizione 4.39. Se X ∼ N m1 , σ12 , Y ∼ N m2 , σ22 e sono indipendenti, allora (X + Y ) ∼ N m1 + m2 , σ12 + σ22 .
Osservazione 4.40. Se X ∼ N (0, 1), allora X 2 ∼ Γ 21 , 21 .
Ricordiamo la definizione di convergenza in probabilit`
a:
Definizione 4.41 (Convergenza
in probabilit`
a). Si dice che la succes
sione di variabili aleatorie Xn n≥1 converge in probabilit`a alla v.a. X se,
per ogni ε > 0 , si ha
lim P Xn − X > ε = 0
n→∞
Teorema 4.42 (Legge dei grandi numeri). Sia X1 , X2 , . . . una successione di variabili aleatorie dotate di momento secondo, incorrelate, e supponiamo che E[Xi ] = m per ogni i (cio`e hanno tutte lo stesso valore atteso)
e che esista una costante K tale che si abbia V ar(Xi ) ≤ K qualunque sia i
(cio`e le varianze sono equilimitate). Allora, posto Sn = X1 + · · · + Xn , la
a ad m .
successione Snn n≥1 converge in probabilit`
` usuale indicare X n =
E
Sn
n
(la media empirica delle variabili X1 , . . . , Xn ).
Esercizio 4.43. Sia (Xn )n≥1 una successione di variabili aleatorie dotate
di momento secondo e supponiamo che
lim E Xn = c
lim V ar Xn = 0
n→∞
n→∞
La successione converge in probabilit`a a c .
Proposizione 4.44. Sia Xn n≥1 una successione convergente in probabilit`
a a c e sia g una funzione boreliana continua nel punto c : allora Yn =
g(Xn ) converge in probabilit`
a a g(c).
Definizione
4.45 (Convergenza in legge). Si dice che la successione di
v.a. Xn n≥1 converge in legge (o anche in distribuzione) alla v.a. X se per
ogni f : IR → IR continua e limitata, si ha
lim E f Xn = E f X
n→∞
23
Proposizione 4.46. Siano Xn e X variabili aleatorie, Fn ed F le relative
funzioni di ripartizione; supponiamo inoltre che F sia continua. Allora sono
equivalenti le seguenti affermazioni:
a) la successione (Xn )n≥1 converge a X in legge;
b) per ogni x ∈ IR , si ha limn→∞ Fn (x) = F (x) .
Quello che viene qui enunciato `e il Teorema Limite Centrale di Paul
L´evy:
Teorema 4.47. Sia X1 , X2 , . . . una successione di variabili indipendenti
equidistribuite, dotate di momento primo µ e di varianza σ 2 (diversa da 0):
posto Sn = X1 + · · · + Xn , la successione
Sn − nµ √ X n − µ √
= n
σ
nσ
converge in legge alla variabile gaussiana N (0, 1) .
Definizione 4.48 (Quantile). Data una funzione di ripartizione F ed un
numero 0 < α < 1 , si chiama α-quantile di F il numero cos`ı definito
rα = inf x ∈ IR F (x) > α .
Definizione 4.49 (Legge chi-quadro). Si chiama
legge chi-quadro a n
gradi di libert`
a (e si indica χ2 (n)) la legge Γ n2 , 21 .
Se (X1 , . . . , Xn ) sono indipendenti gaussiane N (0, 1) , allora X12 +· · ·+Xn2
ha legge χ2 (n) .
Definizione 4.50 (Legge di Student). Siano X ∼ N (0, 1) , Y ∼ χ2 (n)
indipendenti: si chiama legge di Student a n gradi di libert`
a (e si indica T (n))
la legge di
√
nX
√
Y
Definizione 4.51 (Legge di Fisher). Siano Cn e Cm due variabili indipendenti con legge rispettivamente χ2 (n) e χ2 (m) : si chiama legge di
Fisher Fn,m la legge di
Cn /n
Cm /m
5
Inferenza statistica su uno spazio di Probabilit`
a
generale
Definizione
5.1 (Modello
Statistico). Si chiama modello statistico una
θ
terna Ω, F, P , θ ∈ Θ dove Ω `e un insieme, F una σ-algebra di parti di
Ω e, per ogni θ ∈ Θ , Pθ `e una probabilit`a su Ω, F .
24
Ipotesi 5.2 (Modello con densit`
a). Supponiamo che il modello statistico
soddisfi le seguenti condizioni:
a) Ω `e uno spazio euclideo IRn (o un sottinsieme misurabile di uno spazio
euclideo);
b) F `e la σ-algebra di Borel su Ω ;
c) le probabilit`
a Pθ ammettono densit`a rispetto alla misura di Lebesgue
n-dimensionale λ .
Definizione 5.3 (Verosimiglianza). Si chiama verosimiglianza una funzione L : Θ × Ω → IR+ tale che, fissato θ , L(θ, .) sia una versione della
densit`
a di Pθ (rispetto alla misura di Lebesgue λ).
Definizione 5.4 (Campione). Sia f (θ, .) , θ ∈ Θ una famiglia parametrizzata di densit`
a di probabilit`
a su IR: si chiama campione di taglia n e densit`
a
f (θ, .) una famiglia di variabili aleatorie indipendenti, equidistribuite, aventi
densit`
a f (θ, .) (sotto Pθ ).
La costruzione canonica di un campione `e la seguente: si prende Ω = IRn
e si considera come verosimiglianza la funzione
n
Y
L θ ; x1 , . . . , x n =
f (θ, xi )
i=1
Si definiscono infine come variabili Xi le proiezioni canoniche di indice i.
Se ogni densit`
a f (θ, .) si annulla fuori di un intervallo I ⊆ IR, conviene
considerare come spazio Ω = I n anzich`e IRn .
Definizione 5.5 (Riassunto esaustivo). Una variabile aleatoria T : Ω →
E `e detta un riassunto esaustivo se si pu`o scrivere la verosimiglianza nella
forma
L θ ; x1 , . . . , xn = h θ , T (x1 , . . . , xn ) k(x1 , . . . , xn )
Teorema 5.6. Sia T un riassunto esaustivo e U una stima
di g(θ) : esiste
una stima V della forma V (x1 , . . . , xn ) = f T (x1 , . . . , xn ) preferibile a U,
inoltre V `e strettamente preferibile a meno che U non sia gi`
a nella forma
f ◦ T . Infine, se U `e corretta, anche V `e corretta.
Definizione 5.7 (Stima di massima verosimiglianza). Sia assegnato
un modello statistico tale che Θ ⊂ IR : si dice che U `e una stima di massima
verosimiglianza se, per quasi ogni (x1 , . . . , xn ) ∈ Ω, si ha
L U (x1 , . . . , xn ) ; x1 , . . . , xn = max L θ ; x1 , . . . , xn
θ∈Θ
Ricordiamo che usualmente si indica θb la stima di massima verosimiglianza.
25
Teorema 5.8. Supponiamo che Θ sia un intervallo di IR e sia assegnata
una famiglia di densit`
a f (θ, x) , θ ∈ Θ che si possano scrivere nella forma
f (θ, x) = c(θ) . exp θ T (x) . g(x)
con una opportuna applicazione T : IR → IR. Consideriamo un campione
infinito X1 , X2 , . . . con densit`
a f (θ, .) e supponiamo che esista, per ogni n, la
stima di massima verosimiglianza
θbn relativa al campione di taglia n: allora
b
la successione di stime θn n≥1 `e consistente.
Quando le densit`
a verificano la condizione del Teorema 5.8, si dice che
si ha un modello esponenziale: la definizione pu`o essere estesa al caso a
dimensione maggiore di 1, supponendo Θ ⊆ IRk e che esista una applicazione
(boreliana) T : IR → IRk in modo che si abbia
f (θ, x) = c(θ). exp hθ, T (x)i .g(x)
dove h., .i `e il prodotto scalare in IRk .
Lemma 5.9 (Lemma di Neyman-Pearson). Supponiamo assegnato un
modello statistico
nel quale l’insieme Θ dei parametri
`e ridotto a due
punti
(Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 .
Consideriamo l’insieme D cos`ı definito
D = (x1 , . . . , xn ) ∈ Ω L(θ0 ; x1 , . . . , xn )) ≤ c L(θ1 ; x1 , . . . , xn ))
dove c `e una costante positiva. Allora
1. D `e la regione critica di un test pi`
u potente di ogni altro test di livello
θ
0
P D ;
2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D .
Osservazione 5.10 (Soglia di accettazione). Quando si pianifica un test
statistico, per prima cosa si sceglie un livello α (solitamente vicino a 0) e in
seguito si sceglie una regione critica D che abbia livello α .
Spesso ci si trova in questa situazione: per ogni numero 0 < α < 1, `e
assegnata una regione critica Dα di livello α in modo tale che, se α1 ≤ α2 ,
allora Dα1 ⊆ Dα2 . Inoltre ∪0<α<1 Dα = Ω e ∩0<α<1 Dα = ∅ .
Allora, per ogni ω
¯ ∈ Ω (cio`e per ogni risultato dell’indagine statistica) `e
assegnato un numero α
¯ tale che, se α < α
¯, ω
¯∈
/ Dα e se α > α
¯, ω
¯ ∈ Dα .
Tale numero α
¯ sar`
a chiamato soglia di accettazione.
6
Inferenza statistica sui modelli gaussiani
Lemma 6.1. Sia X = (X1 , . . . , Xn ) un vettore aleatorio formato da n v.a.
indipendenti con densit`
a N (0, 1) , sia A una matrice n × n ortogonale (cio`e
la matrice di un cambio di base) e sia Y = A X. Anche le componenti
(Y1 , . . . , Yn ) sono indipendenti con densit`
a N (0, 1) .
26
Se (X1 , . . . , Xn ) `e un campione di n variabili aleatorie, indichiamo con
n
X = X1 +···+X
la media empirica, e con
n
P
2
S =
Xi − X
n−1
i
2
(e naturalmente S ne `e la radice quadrata). Se c’`e pericolo di confusione
(ad esempio se ci sono due campioni anche di taglia diversa (X1 , . . . , Xn ) e
(Y1 , . . . , Ym ) ) indicheremo S 2 (X) e S 2 (Y ) .
Teorema 6.2. Siano X1 , . . . , Xn indipendenti con densit`
a N (m, σ 2 ) . Si
hanno i seguenti risultati:
a) le variabili X e S 2 sono indipendenti;
a N (m,
b) X ha densit`
c) la variabile
σ2
n )
P
e
i≤n
Xi −X
σ2
2
ha densit`
a χ2 (n − 1) ;
√
n X −m
S
ha densit`
a di Student T (n − 1) .
Consideriamo ora come modello statistico un campione di taglia n e
densit`
a N (m, σ 2 ) .
P
P 2
Si ottiene un riassunto esaustivo con la variabile doppia
X
i Xi ,
2
P
P i i
( se la media `e nota con i Xi − m , se la varianza `e nota con i Xi ).
Valgono le seguenti stime di massima verosimiglianza per i parametri:
1) m
b = X sempre;
2
P
i Xi −m
2
se m `e nota;
2) σ
b =
n
2
P
i Xi −X
2
3) σ
b =
se m `e sconosciuta.
n
Una stima corretta della varianza `e data da
2
P
i Xi − X
2
S =
n−1
Osservazione 6.3. L’ultima propriet`a non `e specifica delle variabili gaussiane: infatti date n variabili X1 , . . . , Xn indipendenti equidistribuite, dotate
di momento secondo, `e sempre vero che
h P X − X 2 i
i
i
E
= V ar X1
n−1
27
Supponiamo assegnato un campione X1 , . . . , Xn di taglia n e densit`a
gaussiana.
Esempio 6.4 (Intervallo di fiducia per la media). Vogliamo trovare un
intervallo di fiducia al livello (1−α) per la media di un campione gaussiano,
con varianza nota.
Consideriamo un intervallo di fiducia della forma [X(ω) − d , X(ω) + d] ,
con d tale che
√
n √n X − m > d n ≤ α
Pm X − m > d = Pm
σ
σ
Imponendo che la diseguaglianza sopra scritta sia un’eguaglianza si otq
σ
√
tiene l’intervallo di fiducia X(ω) ± 1−α/2
.
n
Esempio 6.5 (Test unilatero). Consideriamo il test della forma H0 m ≤
m0 contro H1 m > m0 , con varianza nota, al livello α
Prendiamo m1 < m2 e scriviamo il rapporto delle verosimiglianze:
hm − m X L m2 ; x1 , . . . , xn
n m22 − m21 i
2
1
= exp
xi −
σ2
2 σ2
L m1 ; x1 , . . . , xn
i
Questo risulta crescenterispetto alla v.a. X e pertanto la regione critica
viene della forma D = X ≥ c ; `e pi`
u comodo scrivere la regione critica
√
nella forma X − m0 ≥ d , e ricordando che (sotto Pm0 ) σn X − m0 ha
√
densit`
a N (0, 1) , si ottiene
n
σ
d = q1−α .
Esaminiamo ora il caso di test sulla media di un campione gaussiano con
varianza sconosciuta, che `e noto col nome di test di Student.
Definizione 6.6 (Legge di Student decentrata). Si chiama legge di
Student a n gradi di libert`
a decentrata di a (indicata anche T (n) decentrata
di a ) la legge di
√
nX
√
Y
dove X ∼ N (a, 1) , Y ∼ χ2 (n) e sono indipendenti.
Le densit`
a di Student decentrate di a , al variare di a , sono a rapporto di
verosimiglianza crescente (rispetto alla identit`a, cio`e alla variabile T (x) = x
su IR ).
√
Osservazione 6.7. La variabile aleatoria
Student T (n−1) decentrata di
m
√
σ
n
.
28
nX
S
2
(sotto Pm,σ ) ha legge di
Esempio 6.8 (Test di Student unilatero).
Consideriamo, al livello α,
la regione critica
di
un
test
dell’ipotesi
H
0 m ≤ 0 , σ qualsiasi , contro
l’alternativa H1 m > 0 , σ qualsiasi.
√
√
La distribuzione di probabilit`a di nS X `e T (n − 1) decentrata di m σ n ,
e queste sono a rapporto di verosimiglianza crescente rispetto a m
σ : siamo
pertanto condotti a una regione critica della forma
√
√n X(ω)
n
o
nX
D=
≥ d = ω ∈ Ω
≥d
S
S(ω)
con d = t(1−α, n−1) .
Osservazione 6.9. Se il test `e della forma
H0 m ≤ m0 , σ qualsiasi
contro
H1 m > m0 , σ qualsiasi
si ha una regione critica della forma
n √n X − m o
0
D=
≥ t(1−α, n−1)
S
Esempio 6.10 (Test di Student). Consideriamo il test
H0 m = 0 , σ qualsiasi
H1 m 6= 0 , σ qualsiasi
al livello α .
La regione critica `e della forma
n √n X − m o
o
D =
≥ t(1− α2 , n−1)
S
Esempio 6.11 (Intervallo di fiducia per la media, con varianza sconosciuta).
L’ intervallo di fiducia per la media al livello (1−α) , con varianza sconosciuta, `e della forma
X(ω) ±
t(1− α2 , n−1) S(ω)
√
.
n
Prima di affrontare i test sulla varianza, osserviamo che valgono le seguenti
propriet`
a:
2
P
i Xi −m
• se m `e noto,
ha densit`a χ2 (n) ;
σ2
2
P
i Xi −X
• se m `e sconosciuto,
ha densit`a χ2 (n − 1) .
σ2
29
Esempio 6.12 (Test sulla varianza con media sconosciuta). Consideriamo il test
H0 σ 2 ≤ σ02 , m qualsiasi
contro H1 σ 2 > σ02 , m qualsiasi
al livello α .
Si tratta di un test unilatero sulla varianza, e si arriva alla regione critica
nX
o
2
D =
Xi − X ≥ c
i
con c scelto in modo tale che si abbia
n P X − X 2
c o
i
i
m,σ02
≥
=α
P
σ02
σ02
e si ottiene
c
= χ2(1−α , n−1) .
σ02
Ci occupiamo ora del caso in cui l’osservazione statistica
sia formata da
2 ) e Y , . . . , Y (di
due campioni indipendenti
X
,
.
.
.
,
X
(di
legge
N
m
,
σ
1
n
1
1
k
1
legge N m2 , σ22 ).
Esempio 6.13 (Confronto tra due varianze). Identifichiamo il test
H0 σ12 ≤ σ22
contro
H1 σ12 > σ22
al livello α prescelto.
Se σ12 = σ22 , la variabile
2
P
S 2 (X)
i Xi − X /(n − 1)
= P
2
S 2 (Y )
/(k − 1)
j Yj − Y
ha legge di Fisher Fn−1 , k−1 (vedi 4.51).
Se chiamiamo F( 1 − α , n, k) lo (1 − α)–quantile della legge Fn ,k , la
regione critica del test richiesto `e data da
2
X
−
X
/(n − 1)
i
i≤n
≥ F(1−α , n−1, k−1)
2
P
Y
−
Y
/(k
−
1)
j
j≤k
P
D =
Definizione 6.14 (Problema di Behrens-Fisher). Si chiama problema
di Behrens-Fisher l’individuazione della regione critica del test dell’ipotesi
H0 m 1 = m 2
contro
H1 m1 6= m2 .
30
Noi ci limitiamo al caso pi`
u semplice nel quale si abbia σ12 = σ22 (cio`e le
varianze sono sconosciute, ma eguali).
Lemma 6.15. Se m1 = m2 e σ12 = σ22 , la variabile
Zn,k = qP
i≤n
X −Y
2 P
2
Xi − X + j≤k Yj − Y
√
n+k−2
q
1
1
n + k
ha densit`
a di Student T (n + k − 2) .
La soluzione del problema di Behrens-Fisher `e sostanzialmente
un’estensione
del test di Student: se consideriamo l’ipotesi H0 m1 = m2 , si considera
come regione critica (al livello α)
o
n
D = Zn,k ≥ t(1− α2 , n+k−2)
mentre il test dell’ipotesi H0 m1 ≤ m2 avr`a regione critica
n
o
D = Zn,k ≥ t(1−α , n+k−2) .
Definizione 6.16 (Modelli lineari). Si chiama modello statistico lineare
un modello nel quale l’osservazione `e data da n variabili aleatorie X1 , . . . , Xn
che si possano scrivere nella forma
Xi =
k
X
aij θj + σWi
j=1
con le seguenti propriet`
a:
a) k < n , (θ1 , . . . , θk ) ∈ IRk e σ > 0 ;
b) la matrice n × k , A = [aij ] `e di rango massimo (e quindi l’applicazione
lineare ad essa associata A : IRk → IRn `e iniettiva;
c) le variabili W1 , . . . , Wn sono gaussiane N (0, 1) indipendenti.
Definizione 6.17 (Modello di regressione). Il modello `e detto di regressione quando `e della forma
Xi = θ1 + θ2 zi + · · · + θk zik−1 + σWi
con z1 6= z2 6= · · · =
6 zn (e k < n).
Per i modelli lineari useremo anche la notazione vettoriale X = Aθ+σW.
31
Lemma 6.18. Sia A : IRk → IRn una applicazione lineare iniettiva. Dato
x ∈ IRn , il punto y ∈ IRk che minimizza kx − A yk2 `e dato da y = U x ,
−1
essendo U = At A At .
L’espressione della verosimiglianza del modello in forma vettoriale si
scrive
kx − A θk2
n
L θ, σ 2 ; x = (2π)− 2 exp −
−
n
log
σ
2 σ2
b
Vediamo le stime di massima verosimiglianza: la stima di θ `e θ(x)
= Ux
2
b = U X ), e la stima di σ `e
(o, scritta come variabile aleatoria, θ
σ
b2 =
b 2
kX − Aθk
kX − A U Xk2
=
.
n
n
Teorema 6.19 (Teorema di Gauss Markov). U X `e una stima corretta
di θ , di rischio minimo tra tutte le stime lineari corrette. Inoltre
kX − A U Xk2
n−k
`e una stima corretta di σ 2 .
32