Elementi di Probabilit`a e Statistica Lista di definizioni ed enunciati 1 Nozioni fondamentali di Calcolo delle Probabilit` a. Definizione 1.1 (Algebra di parti). Dato un insieme Ω, si chiama algebra di parti una famiglia F di sottinsiemi di Ω tale che: a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F; b) se A ∈ F , anche il suo complementare Ac ∈ F; c) se A e B sono elementi di F, anche A ∪ B ∈ F. Definizione 1.2 (Probabilit` a finitamente additiva). Data un’algebra F di parti di un insieme Ω , si chiama probabilit`a (finitamente additiva) una funzione P : F −→ [0, 1] tale che a) se A, B ∈ F e A ∩ B = ∅ , allora P A ∪ B = P A + P B ; b) P(Ω) = 1. Gli elementi dell’algebra di parti F sono chiamati eventi , si chiama trascurabile un evento A tale che P(A) = 0 e si chiama quasi certo un evento A tale che P(A) = 1. Definizione 1.3 (σ-algebra di parti). Dato un insieme Ω, si chiama σalgebra di parti una famiglia F di sottinsiemi di Ω tale che: a) l’insieme vuoto ∅ e l’intero insieme Ω sono elementi di F; b) se A ∈ F , anche il suo complementare Ac ∈ F; S c) se (An )n≥1 `e una successione di elementi di F, anche +∞ n=1 An ∈ F. Definizione 1.4 (Probabilit` a). Assegnato un insieme Ω ed una σ-algebra F di parti di Ω, si chiama probabilit`a una funzione P : F −→ [0, 1] tale che a) se (A una successione di elementi di F a due a due disgiunti, n )n=1,2,... `eP S+∞ si ha P n=1 An = +∞ n=1 P(An ) ; b) P(Ω) = 1. Proposizione 1.5. Sia F una σ-algebra di parti di un insieme Ω e sia P : F −→ [0, 1] semplicemente additiva (e tale che P(Ω) = 1 ). Sono equivalenti le seguenti propriet` a: 1) P `e σ-additiva; 2) An ↑ A =⇒ P(An ) → P(A) (o anche P(An ) ↑ P(A) ); 3) An ↓ A =⇒ P(An ) → P(A) (o anche P(An ) ↓ P(A) ) 1 4) An ↑ Ω 5) An ↓ ∅ =⇒ P(An ) → 1 ; =⇒ P(An ) → 0 . Nel caso in cui Ω sia un insieme finito e gli eventi elementari ωi siano equiprobabili, si parla di distribuzione uniforme di probabilit` a su Ω: in questo caso si ottiene la formula P(A) = ]A |A| = ]Ω |Ω| dove con ]A o con |A| si indica la cardinalit` a (o numero degli elementi) dell’insieme A. La formula sopra scritta `e anche chiamata rapporto tra casi favorevoli e casi possibili. Proposizione 1.6. Siano k ed n due interi: il numero di applicazioni da {1, . . . , k} a {1, . . . , n} `e nk Proposizione 1.7 (Permutazioni). Il numero di modi in cui si possono ordinare gli elementi di {1, . . . , n} `e n! Proposizione 1.8 (Coefficiente binomiale). Siano 0 ≤ k ≤ n : il numero di sottinsiemi di {1, . . . , n} formati da k elementi `e n n! = k k! (n − k)! Definizione 1.9. Assegnato uno spazio di probabilit`a Ω, F, P ed un evento B non trascurabile, si chiama probabilit` a condizionata di A rispetto a B il numero P A ∩ B) P AB = P B Proposizione 1.10. Siano A1 , . . . , An eventi, e supponiamo che A1 ∩ . . . ∩ An−1 sia non trascurabile: vale la formula P A1 ∩ . . . ∩ An = P A1 .P A2 A1 . . . P An A1 ∩ . . . ∩ An−1 Definizione 1.11 (Sistema di alternative). Si chiama sistema di alternative una partizione di Ω in n eventi non trascurabili B1 , . . . , Bn . Ricordiamo che partizione significa che gli insiemi Bi sono a due a due disgiunti e che la loro unione `e l’intero insieme Ω. 2 Proposizione 1.12 (Formula di Bayes). Sia B1 , . . . , Bn un sistema di alternative: assegnato una qualunque evento A non trascurabile, valgono le formule n X P(A) = P ABi P Bi i=1 Bi P Bi ) P A P Bi A = Pn Bj P Bj ) P A j=1 Definizione 1.13 (Indipendenza stocastica). Due eventi A e B sono detti indipendenti se vale l’eguaglianza P(A ∩ B) = P(A).P(B) Definizione 1.14 (Indipendenza di pi` u eventi). Assegnati n eventi A1 , . . . , An , questi si dicono indipendenti se per ogni intero k con 2 ≤ k ≤ n e per ogni scelta di interi 1 ≤ i1 < i2 < . . . < ik ≤ n , vale l’eguaglianza P Ai1 ∩ · · · ∩ Aik = P Ai1 . . P Aik Proposizione 1.15. Gli eventi A1 , . . . , An sono indipendenti se e solo se, per ogni possibile scelta di Bi = Ai oppure Bi = Aci , vale l’eguaglianza P B1 ∩ . . . ∩ Bn = P B1 . . P Bn 2 Probabilit` a e variabili aleatorie su uno spazio numerabile Sia (an )n≥1 una successione di numeri positivi. Proposizione 2.1. Sia v : IN → IN una applicazione biunivoca: allora +∞ X an = n=1 +∞ X av(n) n=1 Proposizione 2.2. Sia A1 , A2 , . . . una partizione di IN (non importa se formata di insiemi finiti o infiniti): vale la formula +∞ X n=1 an = +∞ X X n=1 k∈An 3 ak Queste due propriet` a si estendono immediatamente alle serie assolutamente convergenti: ricordiamo che una serie numerica `e detta assolutamente convergente se si ha +∞ X an < +∞ n=1 Consideriamo un insieme numerabile E = {e1 , e2 , . . .} sul quale sia definita una misura m : per ogni insieme A ⊂ E si ha X m A = m(ei ) ei ∈A Consideriamo ora una funzione f : E → IR. Definizione 2.3 (Integrale). Si dice che la funzione f `e integrabile se X f (ei ) m(ei ) < +∞ i ed in tal caso chiamiamo integrale di f il numero Z X f dm = f (ei ) m(ei ) i Indichiamo con L1 lo spazio delle funzioni integrabili. Osserviamo ancora che, se f `ePa valori positivi, ha sempre senso parlare di integrale di f , cio`e R f dm = i≥1 f (ei )m(ei ) ∈ [0, +∞]. R R R 1. se f, g ∈ L1 , anche (af + g) ∈ L1 e (af + g)dm = a f dm + g dm; R R 2. se 0 ≤ f ≤ g , allora f dm ≤ g dm; R R R 3. f `e integrabile se e solo se |f | dm < +∞, inoltre f dm ≤ |f | dm; R 4. se 0 ≤ f e f dm = 0, allora f vale identicamente 0 eccetto eventualmente su un insieme trascurabile. Ricordiamo che si chiama trascurabile un insieme che ha misura nulla; una propriet` a verificata ovunque eccetto che su un insieme trascurabile `e detta valere quasi ovunque (e si scrive q.o.), mentre in probabilit`a si preferisce dire quasi certamente (e si scrive q.c.). Teorema 2.4 (Beppo Levi). Sia (fn )n≥1 una successione crescente di funR zioni positive, convergente ad f : la successione degli integrali fn dm n≥1 R converge (crescendo) a f dm. In maniera pi` u sintetica si pu`o scrivere Z Z 0 ≤ fn , fn ↑ f =⇒ fn dm ↑ f dm 4 Teorema 2.5 (Convergenza dominata). Sia (fn )n≥1 una successione di funzioni convergente puntualmente ad f e supponiamo che esista g positiva integrabile tale che si abbia |fn | ≤ g qualunque sia n: vale allora la relazione Z Z lim fn dm = f dm n→∞ Teorema 2.6 (Diseguaglianza di Schwartz). Siano f, g tali che R 2 R 2 f dm < +∞ e g dm < +∞ : allora il prodotto f g `e integrabile e vale la diseguaglianza sZ sZ Z f g dm ≤ f 2 dm g 2 dm Inoltre, se la diseguaglianza sopra scritta `e una eguaglianza, le funzioni f e g coincidono a meno di una costante moltiplicativa (cio`e esiste t reale tale che f (ei ) = t g(ei ) q.o.). Consideriamo ora uno spazio di probabilit`a Ω, F, P nel quale l’insieme Ω `e supposto numerabile. Definizione 2.7 (Variabile aleatoria). Assegnato uno spazio di probabilit` a Ω, F, P con Ω numerabile, si chiama variabile aleatoria reale (discreta) una funzione X : Ω → IR. Definizione 2.8 (Legge di Probabilit` a). Si chiama legge di probabilit` a (o anche distribuzione di probabilit` a ) della v.a. reale X la probabilit`a definita sui sottinsiemi di IR dalla formula PX A = P X −1 (A) La probabilit` a PX viene anche chiamata la probabilit` a immagine (di P mediante X) e indicata X P . Quando due variabili aleatorie hanno la stessa legge di probabilit` a sono dette equidistribuite (o anche isonome). Poich´e Ω `e numerabile, anche l’immagine di X `e un sottinsieme (finito o) numerabile della retta, cio` e (x1 , x2 , . . .) ; per ogni punto xi , si consideri il numero p(xi ) = P X = xi = P X −1 (xi ) . Vale la formula: X PX A = P X −1 (A) = p(xi ) xi ∈A S (infatti X −1 (A) = xi ∈A X = xi ). Alla funzione x → p(x) = P X = x viene dato il nome di funzione di probabilit` a o anche densit` a discreta. Osservazione 2.9. Assegnata una probabilit` a discreta Q su IR esiste una v.a. X la cui legge di probabilit`a sia Q. 5 Esempio 2.10 (Variabile Binomiale). La variabile Binomiale di parametri n e p considera n ripetizioni indipendenti di un esperimento che ha probabilit` a p di successo e conta il numero dei successi ottenuti. Quando n = 1 viene anche chiamata di Bernoulli di parametro p. I valori della v.a. binomiale sono gli interi {0, 1, . . . , n} e vale, per 0 ≤ k ≤ n, la formula n k p(k) = P X = k = p (1 − p)n−k k Esempio 2.11 (Variabile di Poisson). La variabile di Poisson (di parametro λ , λ > 0) `e una variabile che assume tutti i valori interi positivi con probabilit` a λn p(n) = P X = n = e−λ n! Esempio 2.12 (Variabile Geometrica). La variabile Geometrica (di parametro p , 0 < p < 1 ) considera ripetizioni consecutive di un esperimento che ha probabilit` a p di successo e conta il numero di prove che `e stato necessario effettuare per ottenere un successo. I valori possibili sono gli interi strettamente positivi e si ha p(n) = P X = n = (1 − p)n−1 p Teorema 2.13 (Integrazione rispetto a una probabilit` a immagine). Siano X una v.a. discreta, PX = X P la sua legge di probabilit`a e ϕ : IR → IR. ϕ `e integrabile rispetto a PX se e solo se ϕ◦X `e integrabile rispetto a P, e in tal caso vale l’eguaglianza Z Z ϕ(x) dPX (x) = ϕ X(ω) dP(ω) (2.1) IR Ω Definizione 2.14 (Valore atteso). Data una v.a. reale discreta X, si dice che essa ha valore atteso se `e integrabile rispetto a P, e in tal caso si chiama valore atteso (o speranza matematica) l’integrale Z X E X = X(ω) dP(ω) = X ωi P ωi Ω i Se X `e a valori positivi, ha sempre senso scrivere E[X] = [0, +∞[. R Ω X(ω) dP(ω) ∈ Osservazione 2.15. Sia X una variabile aleatoria a valori interi positivi: vale la formula X X E X = P X>n = P X≥n n≥0 n≥1 6 Definizione 2.16 (Momenti). Sia 1 ≤ p < +∞ e X una v.a.: si chiama momento assoluto di ordine p il numero X p E X = |xi |p p(xi ) ∈ [0, +∞] i e se questo numero risulta finito, si dice che X ammette momento di ordine p. Dato un intero positivo n, se X ammette momento di ordine n, si chiama momento di ordine n il numero E X n . Proposizione 2.17. Siano 1 ≤ p < q < +∞: se X ha momento di ordine q, ammette anche momento di ordine p. Definizione 2.18 (Varianza). Sia X una variabile aleatoria dotata di momento secondo: si chiama Varianza di X il numero 2 = E X 2 − E[X]2 V ar X = E X − E[X] Lemma 2.19 (Diseguaglianza di Markov). Sia X una v.a. a valori positivi e t una costante positiva: vale la diseguaglianza tP X ≥ t ≤ E X Proposizione 2.20 (Diseguaglianza di Chebishev). Sia X una v.a. dotata di momento secondo: vale la diseguaglianza t2 P X − E[X] ≥ t ≤ V ar X Corollario 2.21. La varianza di una v.a. X `e eguale a 0 se e solo se X `e costante q.c. Per semplicit` a di notazioni, trattiamo il caso di variabili aleatorie a valori 2 in IR , sia dunque una variabile aleatoria doppia o bidimensionale, cio`e una 2 applicazione a (denotata PX,Y = X, Y : Ω−→IR . La sua legge di probabilit` 2 (X, Y ) P `e una probabilit` a sui sottinsiemi di IR . L’immagine di (X, Y ) ` e un sottinsieme numerabile di IR2 cio`e un insieme di punti (xi, yj ) i ≥ 1, j ≥1 e la funzione di probabilit` a `e definita da p(xi , yj ) = P X = xi , Y = yj . Per ogni sottinsieme B ⊂ IR2 si ha PX,Y B = P (X, Y ) ∈ B = X p(xi , yj ) (xi ,yj )∈B Il teorema di integrazione rispetto ad una misura immagine si traduce nell’eguaglianza Z ZZ ϕ X(ω), Y (ω) dP(ω) = ϕ(x, y) dPX,Y (x, y) = E ϕ(X, Y ) = IR2 Ω 7 = X ϕ(xi , yj ) p(xi , yj ) xi ,yj che si deve leggere: ϕ(X, Y ) `e integrabile rispetto a P se e solo se ϕ `e integrabile rispetto a PX,Y , ed in tal caso `e soddisfatta la formula scritta sopra. Definizione 2.22 (Covarianza). Supponiamo che X ed Y ammettano momento secondo: si chiama covarianza il numero Cov X, Y = E X − E[X] Y − E[Y ] = E XY − E[X] E[Y ] Se Cov X, Y = 0, le due variabili sono dette incorrelate. Proposizione 2.23. Siano X , Y dotate di momento secondo: vale la diseguaglianza q q V ar Y Cov X, Y ≤ V ar X Se X , Y ammettono momento secondo e non sono costanti, si chiama coefficiente di correlazione il numero Cov X, Y ρ X, Y = q q V ar X V ar Y Proposizione 2.24 (Matrice delle covarianze). Sia X1 , . . . , Xn una variabile aleatoria n–dimensionale, supponiamo che ogni componente Xi abbia momento secondo e indichiamo con C la matrice delle covarianze (cio`e Cij = Cov(Xi , Xj )). La matrice C `e simmetrica, semidefinita positiva; inoltre vale la formula V ar n X ai Xi i=1 = n X Cij ai aj i,j=1 Torniamo ad una variabile doppia (X, Y ), la cui legge di probabilit`a `e identificata dalla funzione di probabilit`a p(xi , yj ); ognuna delle due componenti X ed Y `e una v.a. reale, e indichiamo con pX (xi ) = P{X = xi } (e analogamente per pY ) le relative funzioni di probabilit`a. Proposizione 2.25. Valgono le formule X X pX (xi ) = p(xi , yj ) pY (yj ) = p(xi , yj ) yj xi Definizione 2.26. Due variabili aleatorie X ed Y si dicono indipendenti se, scelti comunque due sottinsiemi A e B di IR, gli eventi X −1 (A) e Y −1 (B) sono indipendenti, cio`e se vale la formula P X ∈ A, Y ∈ B = P X ∈ A P Y ∈ B 8 Proposizione 2.27. Due variabili discrete X ed Y sono indipendenti se e solo se le relative funzioni di probabilit` a sono legate dalla formula p(xi , yj ) = pX (xi ) pY (yj ) (2.2) Definizione 2.28 (Probabilit` a prodotto). Siano P1 e P2 due probabilit`a sui sottinsiemi di IR: si chiama probabilit` a prodotto (e si indica P1 ⊗ P2 ) la probabilit` a definita sui sottinsiemi di IR2 tale che, se A, B sono sottinsiemi di IR, si abbia P1 ⊗ P2 A × B = P1 A P2 B Proposizione 2.29. Due variabili aleatorie X1 , X2 sono indipendenti se e solo se la legge di probabilit` a congiunta `e il prodotto delle singole leggi, cio`e se si ha PX1 ,X2 = PX1 ⊗ PX2 Di conseguenza si pu` o dire, per definizione, che n v.a. X1 , . . . , Xn sono indipendenti se la legge congiunta `e il prodotto delle singole leggi, cio`e se si ha PX1 ,...,Xn = PX1 ⊗ · · · ⊗ PXn Osservazione 2.30. Assegnate n probabilit`a (discrete) P1 , . . . , Pn , come si possono costruire n v.a. indipendenti X1 , . . . , Xn con legge rispettivamente P1 , . . . , Pn , nel modo seguente. Supponiamo che tutte le probabilit`a siano concentrate sullo stesso sottinsieme numerabile C ⊂ IR , poniamo Ω = C n (il prodotto cartesiano di C con s´e stesso n volte) e su di esso mettiamo la probabilit`a prodotto P1 ⊗· · ·⊗Pn ; ` sia poi Xi la proiezione canonica di indice i , cio`e Xi (x1 , . . . , xn ) = xi . E immediato constatare che PXi = Xi (P) = Pi e che queste variabili sono indipendenti. Proposizione 2.31. Siano X, Y due v.a. indipendenti e f, g due funzioni reali: le variabili f ◦ X e g ◦ Y sono indipendenti. Proposizione 2.32. Dati n eventi A1 , . . . , An , questi sono indipendenti se e solo se le loro funzioni indicatrici IA1 , . . . , IAn sono indipendenti come variabili aleatorie. Definizione 2.33. Data una famiglia qualsiasi di variabili aleatorie (Xi )i∈I , queste si dicono indipendenti se ogni sottofamiglia finita Xi1 , . . . , Xin `e formata da variabili indipendenti. Teorema 2.34. Siano X, Y due variabili indipendenti dotate di momento primo: anche XY ammette momento primo e vale la formula E XY = E X E Y 9 Corollario 2.35. Due variabili indipendenti dotate di momento secondo sono incorrelate Proposizione 2.36 (Formula della convoluzione discreta). Siano X, Y due v.a. indipendenti a valori interi (relativi) e sia Z = X + Y : vale la formula +∞ X pZ (n) = P Z = n = pX (h)pY (n − h) h=−∞ Consideriamo ora variabili aleatorie X, Y, . . . a valori interi positivi. Definizione 2.37. Data una variabile aleatoria X a valori interi positivi, si chiama funzione generatrice delle probabilit` a la funzione GX (.) definita da GX (t) = +∞ X tn p(n) = E tX n=0 Proposizione 2.38. Valgono le seguenti propriet` a: 1. GX (t) = GY (t) ⇐⇒ X e Y sono equidistribuite; 2. X e Y indipendenti =⇒ GX+Y (t) = GX (t).GY (t). Proposizione 2.39. Sia X una v.a. a valori interi positivi: valgono le seguenti eguaglianze 1. E X = limt→1− G0X (t) 2. E X(X − 1) = limt→1− G00X (t) Riportiamo qua sotto una tabella delle funzioni generatrici delle pi` u usuali variabili aleatorie a valori interi: n • X ∼ B(n, p) =⇒ GX (t) = 1 + p(t − 1) ; • X Geometrica di parametro p =⇒ • X di Poisson di parametro λ =⇒ GX (t) = tp 1−t(1−p) ; GX (t) = eλ(t−1) . Teorema 2.40 (Legge dei grandi numeri per variabili Binomiali). Sia X1 , X2 , . . . una successione di v.a. di Bernoulli di parametro p : ponendo Sn = X1 + · · · + Xn , per ogni ε > 0, vale il seguente limite n S o n − p > ε = 0 lim P n→∞ n 10 Osservazione 2.41. Pi` u in generale se le variabili X1 , X2 , . . . siano indipendenti, equidistribuite, dotate di momento secondo e con varianza σ 2 strettamente positiva, ponendo E Xi = m, si ha n S o n lim P − m > ε = 0 n→∞ n Una famiglia (non necessariamente una successione) Xi i∈I di variabili aleatorie indipendenti ed equidistribuite verr`a d’ora innanzi indicata con l’abbreviazione i.i.d. . Definizione 2.42 (Convergenza in Probabilit` a). Data una successione di v.a. Xn n≥1 ed una v.a. X, si dice che la successione converge in probabilit` a verso X se, per ogni ε > 0 o n lim P Xn − X ≥ ε = 0 n→∞ Teorema 2.43. Nelle ipotesi del Teorema 2.40, dato ε > 0, esiste una costante positiva H(p, ε) tale che si abbia n S o n P − p > ε ≤ 2 exp − n H(p, ε) n Lemma 2.44 (Formula di Stirling). Esiste una costante positiva c tale che per ogni intero n si abbia n! = c dove 1 12n+1 ≤ θn ≤ 1 n n √ n exp(θn ) = c nn+ 2 e−n exp(θn ) e 1 12n Il teorema di De Moivre-Laplace `e un caso particolare del Teorema del Limite Centrale: di nuovo X1 , X2 , . . . `e una successione di variabili indipendenti di Bernoulli di parametro p e sia q = 1 − p . Teorema 2.45 (Limite Centrale per Variabili Binomiali). Presi due numeri a, b con −∞ ≤ a < b ≤ +∞, si ha Z b n o x2 Sn − np 1 ≤b = √ e− 2 dx lim P a ≤ √ n→∞ npq 2π a x2 Gli integrali della funzione e− 2 su un intervallo qualsiasi non possono venire calcolati esplicitamente: per venire incontro a questa difficolt`a sono Rx t2 state compilate delle tavole statistiche della funzione Φ(x) = √12π −∞ e− 2 dt (per x positivo). 11 3 Inferenza statistica su uno spazio di Probabilit` a numerabile Definizione 3.1 (Modello statistico). Si chiama modello statistico una θ terna Ω, F, P , θ ∈ Θ dove Ω `e un insieme, F una σ-algebra di parti di Ω e, per ogni θ ∈ Θ , Pθ `e una probabilit`a su Ω, F . Supporremo sempre che a due parametri diversi θ1 e θ2 corrispondano due probabilit` a diverse (come si usa dire, il modello `e identificabile). In un modello statistico si chiama trascurabile un evento A ∈ F trascurabile per ogni probabilit` a Pθ . Definizione 3.2 (Verosimiglianza). Assegnato un modello statistico θ Ω, F, P , θ ∈ Θ con Ω numerabile, si chiama verosimiglianza la funzione L : Θ × Ω → IR+ definita da L(θ, ω) = Pθ {ω} Definizione 3.3 (Campione). Sia mθ , θ ∈ Θ una famiglia parametrizzata di leggi di probabilit` a discrete tutte concentrate su un sottoinsieme numerabile C di IR: si chiama campione di taglia n e legge mθ una famiglia (X1 , . . . , Xn ) di n variabili aleatorie indipendenti ciascuna con legge mθ . Il modo canonicoper rappresentare come modello statistico un campione di legge mθ , θ ∈ Θ `e il seguente: sia C l’insieme su cui sono concentrate le probabilit` a mθ , e poniamo (per θ ∈ Θ e xi ∈ C), p(θ, xi ) = mθ {xi } . Poniamo poi Ω = C n , F = P(Ω) e scegliamo come verosimiglianza L(θ ; x1 , . . . , xn ) = p(θ, x1 ) · · · p(θ, xn ) Consideriamo come Xi la proiezione canonica di indice i da Ω su C: le variabili X1 , . . . , Xn sono indipendenti e ciascuna con legge mθ . Definizione 3.4 (Stima). Assegnato un modello statistico Ω, F, (Pθ , θ ∈ Θ) , si chiama stima una variabile aleatoria U : Ω → IR. In genere una stima `e accoppiata ad una funzione g : θ → IR. Definizione 3.5 (Stima corretta). Assegnata una funzione g : Θ → IR, θ la stima U di g(θ) `e detta corretta se, per ogni θ, U `e P -integrabile e si ha θ E U = g(θ). Definizione 3.6 (Stima consistente). Sia mθ , θ ∈ Θ una famiglia di leggi di probabilit` a discrete su IR e consideriamo, per ogni n, un campione X1 , . . . , Xn di legge mθ ; sia poi Un = hn (X1 , . . . , Xn ) una stima di g(θ) basata sulle osservazioni del campione n-simo. Si dice che la successione di stime Un n≥1 `e consistente se, scelti comunque θ ∈ Θ ed ε > 0, si ha lim Pθ Un − g(θ) > ε = 0 n→∞ 12 Definizione 3.7 (Stima di massima verosimiglianza). Sia assegnato un modello statistico Ω, F, (Pθ , θ ∈ Θ) tale che Θ ⊂ IR : si dice che U `e una stima di massima verosimiglianza se, per ogni ω ∈ Ω, si ha L U (ω), ω = sup L θ, ω θ∈Θ Usualmente la stima di massima verosimiglianza, se esiste, viene indicata b θ(ω). Teorema 3.8. Sia mθ , θ ∈ Θ una famiglia di leggi di probabilit` a concentrate sugli interi positivi, e supponiamo che Θ sia un intervallo di IR e che, ponendo p(θ, k) = mθ ({k}), questa si possa scrivere nella forma p(θ, k) = c(θ) exp θ T (k) g(k) dove T : IN → IR. Consideriamo un campione infinito X1 , X2 , . . . di legge mθ e supponiamo che esista, per ogni n, la stima di massima verosimiglianza θbn relativa al campione di taglia n: allora la successione di stime θbn n≥1 `e consistente. Definizione 3.9 (Rischio). Sia U una stima della funzione g(θ): si chiama Rischio (quadratico) il numero 2 = Eθ U − g(θ) Osserviamo ancora che, se U `e corretta, R θ, U = V arθ U . La definizione di rischio introduce un criterio di ordinamento parziale tra le stime, pi` u precisamente diremo che R θ, U • U `e preferibile a V se, per ogni θ, R(θ, U ) ≤ R(θ, V ); • U `e strettamente preferibile a V se `e preferibile e, per almeno un parametro θ, R(θ, U ) < R(θ, V ); • U `e ammissibile se non esistono stime strettamente preferibili a U ; • U `e ottimale se `e preferibile a ogni altra stima. Definizione 3.10 (Riassunto esaustivo). Sia T : Ω → E una variabile aleatoria: si dice che T `e un riassunto esaustivo se si pu`o scrivere la verosimiglianza nella forma L θ, ω = h(θ, T (ω)) k(ω) Teorema 3.11. Sia T un riassunto esaustivo e U una stima di g(θ) : esiste una stima V della forma V (ω) = f T (ω) preferibile a U, inoltre V `e strettamente preferibile a meno che U non sia gi` a nella forma f ◦ T . Infine, se U `e corretta, anche V `e corretta. 13 Supponiamo assegnato un modello statistico, ed un numero α con 0 < α < 1; i valori tipici sono 0,1 ; 0,05 e 0,01. Definizione 3.12 (Regione di Fiducia). Sia assegnato, per ogni ω ∈ Ω, un sottoinsieme dei parametri C(ω) ⊂ Θ: si dice che C(ω) `e una regione di fiducia per il parametro θ al livello (1 − α) se, qualunque sia θ, si ha Pθ ω θ ∈ C(ω) ≥ 1 − α o (ci` o che `e lo stesso) Pθ ω θ ∈ / C(ω) ≤ α. Se Θ ⊆ IR e C(ω) `e un intervallo, si parla di intervallo di fiducia. Intervallo di fiducia per un campione di Bernoulli Consideriamo un campione X1 , . . . , Xn di legge di Bernoulli di parametro θ e vogliamo individuare un intervallo di fiducia per il parametro θ: cerchiamo un intervallo di fiducia della forma I = X(ω) − d , X(ω) + d Utilizzando la diseguaglianza di Chebishev si ricava l’intervallo di fiducia 1 1 X(ω) − √4nα , X(ω) + √4nα , o (come si scrive pi` u sinteticamente) X(ω) ± √1 . 4nα Intervallo di fiducia approssimato mediante il teorema di De Moivre-Laplace Siamo nella stessa situazione dell’esercizio precedente, ma questa volta utilizziamo il fatto che Pθ n X + · · · + X − nθ n√ o o X −θ 1 n p ≤ x = Pθ np ≤ x ≈ Φ(x) θ(1 − θ)n θ(1 − θ) Introduciamo una notazione: dato 0 < β < 1, chiamiamo qβ il numero tale che Φ(qβ ) = β. √ Dunque Pθ n √|X−θ| > q1− α ≈ α : si ottiene pertanto l’intervallo di fiducia X(ω) ± θ(1−θ) q1− α √2 . 2 n 2 Il primo passo da compiere, di fronte a un test statistico, `e formulare un’ipotesi: questo si ottiene effettuando una partizione dell’insieme Θ dei parametri in due sottinsiemi non vuoti Θ0 e Θ1 corrispondenti rispettivamente ai parametri dell’ipotesi e a quelli dell’ alternativa. Il secondo passo `e pianificare un esperimento: questo equivale a scegliere un evento D ∈ F (detto regione critica) che consiste nell’insieme dei risultati ω che portano a rifiutare l’ipotesi. Definizione 3.13 (Livello e potenza). Si chiama taglia di un test di regione critica D il numero sup Pθ D θ∈Θ0 14 Si dice che il test `e di livello α se la sua taglia `e minore o eguale ad α. Si chiama potenza del test la funzione πD : Θ1 → [0, 1] definita da θ θ−→P D . Diremo che il test di regione critica D `e pi` u potente del test di regione ∗ θ critica D se, per ogni θ ∈ Θ1 , si ha P (D) ≥ Pθ (D∗ ). Quando Θ0 `e ridotto a un solo punto (cio`e Θ0 = {θ0 }) si dice che l’ipotesi `e semplice; perfettamente analoga naturalmente `e la definizione di alternativa semplice. Esempio 3.14. Dato un campione X1, . . . , Xn con legge di Bernoulli, pianifichiamo il test dell’ipotesi semplice H0 θ = θ0 contro H1 θ 6= θ0 al livello α. Scegliamo una regione critica della forma D = ω X(ω) − θ0 > d . q Utilizzando la diseguaglianza di Chebishev, si ottiene per d il valore θ0 (1−θ0 ) . nα Utilizzando l’approssimazione suggerita dal Teorema di De Moivreq 0) Laplace, si ottiene il valore d = q1− α2 θ0 (1−θ . n Lemma 3.15 (Lemma di Neyman-Pearson). Supponiamo assegnato un modello statistico nel quale l’insieme Θ dei parametri `e ridotto a due punti (Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 . Consideriamo l’insieme D cos`ı definito D = ω ∈ Ω L(θ0 , ω) ≤ c L(θ1 , ω) dove c `e una costante positiva. Allora 1. D `e la regione critica di un test pi` u potente di ogni altro test di livello θ 0 P D ; 2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D . Quando l’insieme dei parametri Θ `e un intervallo di IR (intervallo in senso lato, cio`e anche una semiretta o tutta la retta) si parla di test unilatero se l’ipotesi `e della forma H0 θ ≤ θ0 o della forma H0 θ ≥ θ0 . Definizione 3.16 (Rapporto di verosimiglianza crescente). Supponiamo assegnato un modello statistico nel quale l’insieme dei parametri Θ `e un intervallo di IR e sia T una variabile aleatoria reale definita su Ω: si dice che il modello `e a rapporto di verosimiglianza crescente rispetto a T se, scelti comunque θ1 < θ2 , esiste una funzione reale (strettamente) crescente a valori positivi fθ1 ,θ2 tale che valga l’eguaglianza L(θ2 , ω) = fθ1 ,θ2 T (ω) L(θ1 , ω) 15 Teorema 3.17 (Test unilatero). Supponiamo che il modello sia a rapporto di verosimiglianza crescente rispetto a T e consideriamo il test unilatero H0 θ≤ θ0 contro l’alternativa H1 θ > θ0 ; consideriamo poi l’insieme D = ω T (ω) ≥ d dove d `e un opportuno numero. Il test di regione critica D `e tale che: 1. vale l’eguaglianza supθ≤θ0 Pθ D = Pθ0 D ; 2. D `e pi` u potente di qualsiasi altro test D∗ con livello Pθ0 D . 4 Probabilit` a e variabili aleatorie su uno spazio generale Definizione 4.1. Sia A una famiglia di parti di un insieme E: si chiama σ-algebra generata da A la pi` u piccola σ-algebra contenente A: essa coincide con l’intersezione di tutte le σ-algebre contenenti A. Proposizione 4.2 (I boreliani). Sulla retta reale IR coincidono le σalgebre generate, ad esempio, da queste famiglie di insiemi: 1. le semirette del tipo ] − ∞, x] , al variare di x ∈ IR ; 2. gli intervalli semiaperti ]a, b] (oppure [a, b[ ) , con −∞ < a < b < +∞ ; 3. gli aperti di IR ; 4. i chiusi di IR . La σ-algebra da essi generata `e chiamata σ-algebra di Borel su IR (e indicata B(IR)) ed i relativi elementi sono detti boreliani. Analoga `e la definizione della σ-algebra B IRn dei boreliani di IRn che `e generata, ad esempio, dalle seguenti famiglie di insiemi: 1. gli aperti di IRn ; 2. i prodotti cartesiani A1 × . . . × An , dove ogni Ai `e un boreliano di IR ; 3. i prodotti cartesiani della forma ] − ∞, x1 ] × . . . ×] − ∞, xn ] . Teorema 4.3 (Unicit` a di Probabilit` a). Siano P e Q due probabilit` a definite su una σ-algebra F di parti di un insieme E e supponiamo che P e Q coincidano su una famiglia I di parti tale che: 1) I genera F ; 2) I `e stabile per l’intersezione (finita). Allora P e Q coincidono su tutto F. Teorema 4.4 (Esistenza di Probabilit` a). Sia A un’algebra di parti di un insieme E e sia P : A → [0, 1] una funzione σ-additiva (tale che P(E) = 1): P si prolunga (in un sol modo) alla σ-algebra F generata da A. 16 Definizione4.5 (Funzione di ripartizione). Sia P una probabilit`a definita su IR, B(IR) : si chiama funzione di ripartizione la funzione F : IR → [0, 1] definita da F (x) = P ] − ∞, x] . Proposizione 4.6. La funzione di ripartizione sopra definita gode delle seguenti propriet` a: 1. `e crescente; 2. `e continua a destra; 3. F (+∞) = limx→+∞ F (x) = 1 e F (−∞) = limx→−∞ F (x) = 0 . Teorema 4.7 (Esistenza di una Probabilit` a su B(IR)). Assegnata una funzione F : IR → [0, 1] con le propriet` a 1), 2) e 3) sopra scritte, esiste una ed una sola probabilit` a P su B(IR) tale che, per ogni x ∈ IR, si abbia F (x) = P ] − ∞, x] . Esempio 4.8 (Probabilit` a discrete). Abbiamo gi`a incontrato le probabilit` a discrete (dette anche atomiche) su B(IR): P `e concentrata sulla successione P di punti (x1 , x2 , . . .) e, per ogni A ∈ B(IR) , vale l’eguaglianza P(A) = xi ∈A p(xi ) essendo p(xi ) = P {xi } . P In particolare la funzione di ripartizione soddisfa l’eguaglianza F (x) = xi ≤x p(xi ). Esempio 4.9 (Probabilit` a diffusa). Ogni punto `e trascurabile per la probabilit` a P associata alla funzione di ripartizione F se e solo se F `e continua: questo `e una conseguenza della formula P {x} = ∆F (x). Le probabilit` a che godono di questa propriet`a sono dette diffuse. Definizione 4.10 (Spazio e applicazione misurabile). Si chiama spazio misurabile una coppia E, E dove E `e un insieme e E una σ-algebra di parti di E. Dati due spazi misurabili E, E e F, F , una applicazione f : E → F `e detta misurabile se, per ogni A ∈ F , f −1 (A) ∈ E. Proposizione 4.11. Con le notazioni della definizione precedente, se A `e una famiglia di parti di F che genera la σ-algebra F, affinch´e una funzione f : E → F sia misurabile, `e sufficiente che, per ogni A ∈ A , f −1 (A) ∈ E. Una funzione misurabile da IR, B(IR) su IR, B(IR) `e detta boreliana. Definizione 4.12 (Funzione semplice). Dato uno spazio misurable E, E , si chiama semplice una funzione misurabile ϕ : E → IR che prende un numero finito di valori (cio`e la cui immagine `e un insieme finito). Definizione 4.13 (Integrale delle Pn funzioni semplici). Sia ϕ una funzione semplice della forma ϕ = i=1 ai IAi : definiamo integrale di ϕ il numero Z n X ϕ(x) dm(x) = ai m(Ai ) E i=1 17 Teorema 4.14 (Approssimazione con funzioni semplici). Sia f una funzione misurabile a valori positivi: esiste una successione di funzioni semplici (ϕn )n≥1 tale che ϕn ↑ f Definizione 4.15 (Integrale delle funzioni a valori positivi). Sia f una funzione misurabile a valori positivi e consideriamo una successione di funzioni semplici (ϕn )n≥1 tale che ϕn ↑ f : si definisce integrale di f il numero Z Z f dm = lim ϕn dm n≥1 Teorema 4.16 (Propriet` a di Beppo Levi). Se (ϕn )n≥1 e (ψn )n≥1 sono due successioni di funzioni semplici convergenti alla funzione f si ha Z Z lim ϕn dm = lim ψn dm n→∞ n→∞ Inoltre se (fn )n≥1 `e una successione di funzioni misurabili a valori positivi, si ha Z Z fn ↑ f =⇒ fn dm ↑ f dm Consideriamo ora una generica funzione misurabile f , e poniamo f + = f ∨ 0 = max(f, 0) e f − = −(f ∧ 0) = − min(f, 0) : entrambe sono funzioni misurabili (`e una verifica immediata) e si ha |f | = f + + f − e f = f + − f − . Definizione 4.17 (Funzione integrabile e integrale). Si dice che la R funzione misurabile f `e integrabile se |f |dm < +∞, e in tal caso si chiama integrale di f il numero Z Z Z + f dm = f dm − f − dm . Teorema 4.18 (Convergenza dominata). Sia (fn )n≥1 una successione di funzioni misurabili convergente puntualmente ad f e supponiamo che esista g integrabile a valori positivi tale che si abbia, per ogni x ∈ E , |fn (x)| ≤ g(x) : allora si ha Z Z lim fn dm = f dm . n→∞ Vale la diseguaglianza di Schwartz: se f 2 e g 2 sono integrabili, il prodotto f g ∈ L1 e si ha sZ sZ Z f 2 dm g 2 dm . f g dm ≤ 18 Definizione 4.19 (Densit` a di probabilit` a). Si chiama densit` a di probabilit` a su IR una funzione reale f definita suR IR, misurabile e a valori positivi, +∞ integrabile (secondo Lebesgue) e tale che −∞ f (x) dx = 1. Ad una densit` a f `e associata una probabilit`a P su B(IR) mediante la formula Z f (x) dx P(A) = A Teorema 4.20 (Integrazione rispetto a una misura definita da una densit` a). Una funzione misurabile g definita su IR `e integrabile rispetto a P se e solo se il prodotto gf `e integrabile rispetto alla misura di Lebesgue, e in tal caso si ha Z Z g(x) dP(x) = g(x)f (x) dx . Analoga `e la definizione di probabilit` a definita da una densit` a su IRn , B(IRn ) , ed il relativo teorema di integrazione. Proposizione 4.21 (Funzioni assolutamente continue). La probabilit` a associata ad una funzione di ripartizione F `e definita da una densit` a se e solo se F `e assolutamente continua, cio`e per ogni ε > 0, esiste δ > 0 tale che, prese delle coppie di punti (xi , yi ), X X F (xi ) − F (yi ) < ε |xi − yi | < δ =⇒ i≤n i≤n Definizione 4.22 (Variabile aleatoria reale). Assegnato uno spazio di Probabilit` a Ω, F, P , si chiama variabile aleatoria reale una applicazione misurabile X : (Ω, F) → (IR, B(IR)). Definizione 4.23 (Legge di Probabilit` a). Si chiama legge di probabilit` a (o anche distribuzione di probabilit` a) di una variabile aleatoria reale X l’immagine di P mediante X; si chiama funzione di ripartizione di X la funzione di ripartizione della sua legge di probabilit`a. Osservazione 4.24. Assegnata comunque una probabilit`a Q su IR, B(IR) , esiste una variabile aleatoria X la cui legge di probabilit`a sia eguale a Q. Teorema 4.25 (Integrazione rispetto ad una probabilit` a immagine). Sia ϕ : IR → IR boreliana: ϕ `e integrabile rispetto a PX se e solo se ϕ ◦ X `e integrabile rispetto a P e in tal caso vale la formula Z Z ϕ(x) dPX (x) = ϕ X(ω) dP(ω) . IR Ω 19 Ad esempio, il valore atteso di X (se esiste) `e l’integrale Z Z x dPX (x) X(ω) dP(ω) = E X = IR Ω Per definizione, si chiama variabile aleatoria doppia una applicazione 2 2 misurabile (X, Y ) : Ω, F → IR , B(IR ) . Le componenti X e Y sono due funzioni definite su Ω a valori reali. Proposizione 4.26. La coppia (X, Y ) `e una variabile aleatoria (cio`e `e misurabile come applicazione a valori in IR2 ) se e solo se entrambe le componenti X e Y sono variabili aleatorie reali (cio`e misurabili come applicazioni a valori in IR). La legge di probabilit` a della coppia (X, Y ) `e l’immagine di P mediante l’applicazione (X, Y ): `e quindi una probabilit`a su B(IR2 ). Il Teorema 4.25 si estende senza difficolt` a al caso vettoriale, in particolare presa ϕ : IR2 → IR boreliana e limitata, vale la formula Z ZZ ϕ X(ω), Y (ω) dP(ω) = ϕ(x, y) dPX,Y (x, y) IR2 Ω Per poter estendere al caso generale i risultati della Proposizione 2.29 e del Teorema 2.34, dobbiamo per`o insistere un poco sulla nozione di probabilit` a prodotto. Definizione4.27 (Probabilit` a prodotto). Siano P e Q due probabilit`a su IR, B(IR) : si chiama probabilit` a prodotto (e si indica P ⊗ Q) la proba bilit` a su IR2 , B(IR2 ) tale che, presi comunque due sottinsiemi boreliani A e B di IR, si abbia P ⊗ Q A × B = P A).Q B Se ϕ : IR2 → IR `e boreliana e limitata (oppure a valori positivi) vale la formula di integrazione ZZ Z Z ϕ(x, y) dP⊗Q (x, y) = ϕ(x, y) dQ(y) dP(x) IR2 IR IR ` immediata l’estensione al caso generale della caratterizzazione provata E nel caso delle variabili discrete con la Proposizione 2.29: pi` u precisamente X e Y sono indipendenti se e solo se PX,Y = PX ⊗ PY . Teorema 4.28. Supponiamo che X ed Y siano indipendenti e dotate di momento primo: anche XY ha valore atteso e vale la formula E XY = E X E Y 20 Definizione 4.29. Si dice che la v.a. reale X ha densit` a f se la sua legge di probabili` a PX ha densit` a f , cio`e se per ogni boreliano A vale la formula Z f (x) dx P X ∈ A = PX A = A Proposizione 4.30. Sia X una variabile aleatoria reale. Sono equivalenti le due seguenti affermazioni: 1. X ha densit` a f; 2. per ogni funzione reale ϕ boreliana e limitata, vale la formula Z E ϕ(X) = ϕ(x) f (x) dx IR Proposizione 4.31. Sia (X, Y ) una variabile doppia con densit` a f (x, y): anche le componenti X ed Y ammettono densit` a f1 ed f2 che soddisfano le formule Z +∞ Z +∞ f1 (x) = f (x, y)dy f2 (y) = f (x, y) dx −∞ −∞ Proposizione 4.32. Sia (X, Y ) una variabile doppia con densit` a: le variabili X e Y sono indipendenti se e solo se tra le densit` a vale la seguente relazione (quasi ovunque) f (x, y) = f1 (x) f2 (y) Proposizione 4.33 (Formula della convoluzione). Siano X, Y due variabili indipendenti con densit` a rispettivamente f1 ed f2 : la somma (X +Y ) ha densit` a g data dalla formula Z +∞ g(x) = f1 (x − y)f2 (y) dy −∞ Proposizione 4.34. Sia X una v.a. reale con densit` a f diversa da 0 su un aperto A ⊆ IR e sia h : A → B un diffeomorfismo. Consideriamo la variabile Y = h(X) : essa ha densit` a g data da ( 0 se y ∈ /B dx(y) d h−1 (y) g(y) = −1 f h (y) = f x(y) dy se y ∈ B dy La formula per la trasformazione della densit`a di una v.a. vettoriale X mediante un diffeomorfismo `e anch’essa conseguenza della formula del cambio di variabili per integrali (questa volta n-dimensionali) ed `e del tutto 21 −1 analoga alla formula 4.34: il termine d hd y(y) `e sostituito col valore assoluto del determinante della matrice Jacobiana della funzione h−1 . Vediamo come si usa in concreto questa formula, limitandoci per semplicit` a al caso di una variabile doppia (X, Y ) con densit`a f diversa da 0 sull’aperto A di IR2 : consideriamo un diffeomorfismo h da A su B e sia (U, V ) = h(X, Y ). La coppia (U, V ) ha una densit`a g che si annulla fuori di B, mentre su B soddisfa la formula ∂x ∂x ∂u ∂v g(u, v) = f x(u, v), y(u, v) . ∂y ∂y ∂u ∂v a b si intende il valore assoluto del determinante della matrice dove con c d a b . c d Esempio 4.35 (Densit` a uniforme). Si chiama densit`a uniforme sull’intervallo ]a, b[ la densit` a definita da 1 per a < x < b b−a f (x) = 0 altrimenti Se X `e una v.a. con tale densit`a, si ha E[X] = a+b 2 e V ar(X) = La funzione Gamma `e definita, per r > 0, da Γ(r) = R +∞ 0 (b−a)2 12 . xr−1 e−x dx. Definizione 4.36. Si chiama densit`a Gamma di parametri r e λ , (r > 0 , λ > 0), (e si indica Γ(r, λ)) la funzione definita da 1 r r−1 e−λx x>0 Γ(r) λ x f (x) = 0 x≤0 Quando r = 1, la densit` a Γ(1, λ) si chiama pi` u semplicemente esponenziale di parametro λ. Se X ∼ Γ(r, λ) e β > 0, vale la formula Γ(r + β) E Xβ = Γ(r) λβ Proposizione 4.37. Se X ∼ Γ(r1 , λ) , Y ∼ Γ(r2 , λ) e sono indipendenti, allora (X + Y ) ∼ Γ(r1 + r2 , λ) Abbiamo visto che √1 2π 2 e R +∞ −∞ e− x2 2 dx = √ − x2 2π : ne segue che la funzione f (x) = `e una densit` a di probabilit`a, detta densit`a Normale o Gaussiana Rx t2 N (0, 1) , e la funzione Φ(x) = √12π −∞ e− 2 dt `e la relativa funzione di ripartizione. Per una variabile X ∼ N (0, 1) si ha E[X] = 0 e V ar X = E X 2 = 1. 22 Definizione 4.38 (Variabile Gaussiana). Si dice che la variabile X ha legge gaussiana N (m, σ 2 ) m ∈ IR , σ > 0 se X−m ha legge N (0, 1) σ La densit` a di Y `e la funzione g definita da g(y) = √ (y−m)2 1 e− 2σ2 2π σ inoltre E[X] = m , V ar X = σ 2 . Proposizione 4.39. Se X ∼ N m1 , σ12 , Y ∼ N m2 , σ22 e sono indipendenti, allora (X + Y ) ∼ N m1 + m2 , σ12 + σ22 . Osservazione 4.40. Se X ∼ N (0, 1), allora X 2 ∼ Γ 21 , 21 . Ricordiamo la definizione di convergenza in probabilit` a: Definizione 4.41 (Convergenza in probabilit` a). Si dice che la succes sione di variabili aleatorie Xn n≥1 converge in probabilit`a alla v.a. X se, per ogni ε > 0 , si ha lim P Xn − X > ε = 0 n→∞ Teorema 4.42 (Legge dei grandi numeri). Sia X1 , X2 , . . . una successione di variabili aleatorie dotate di momento secondo, incorrelate, e supponiamo che E[Xi ] = m per ogni i (cio`e hanno tutte lo stesso valore atteso) e che esista una costante K tale che si abbia V ar(Xi ) ≤ K qualunque sia i (cio`e le varianze sono equilimitate). Allora, posto Sn = X1 + · · · + Xn , la a ad m . successione Snn n≥1 converge in probabilit` ` usuale indicare X n = E Sn n (la media empirica delle variabili X1 , . . . , Xn ). Esercizio 4.43. Sia (Xn )n≥1 una successione di variabili aleatorie dotate di momento secondo e supponiamo che lim E Xn = c lim V ar Xn = 0 n→∞ n→∞ La successione converge in probabilit`a a c . Proposizione 4.44. Sia Xn n≥1 una successione convergente in probabilit` a a c e sia g una funzione boreliana continua nel punto c : allora Yn = g(Xn ) converge in probabilit` a a g(c). Definizione 4.45 (Convergenza in legge). Si dice che la successione di v.a. Xn n≥1 converge in legge (o anche in distribuzione) alla v.a. X se per ogni f : IR → IR continua e limitata, si ha lim E f Xn = E f X n→∞ 23 Proposizione 4.46. Siano Xn e X variabili aleatorie, Fn ed F le relative funzioni di ripartizione; supponiamo inoltre che F sia continua. Allora sono equivalenti le seguenti affermazioni: a) la successione (Xn )n≥1 converge a X in legge; b) per ogni x ∈ IR , si ha limn→∞ Fn (x) = F (x) . Quello che viene qui enunciato `e il Teorema Limite Centrale di Paul L´evy: Teorema 4.47. Sia X1 , X2 , . . . una successione di variabili indipendenti equidistribuite, dotate di momento primo µ e di varianza σ 2 (diversa da 0): posto Sn = X1 + · · · + Xn , la successione Sn − nµ √ X n − µ √ = n σ nσ converge in legge alla variabile gaussiana N (0, 1) . Definizione 4.48 (Quantile). Data una funzione di ripartizione F ed un numero 0 < α < 1 , si chiama α-quantile di F il numero cos`ı definito rα = inf x ∈ IR F (x) > α . Definizione 4.49 (Legge chi-quadro). Si chiama legge chi-quadro a n gradi di libert` a (e si indica χ2 (n)) la legge Γ n2 , 21 . Se (X1 , . . . , Xn ) sono indipendenti gaussiane N (0, 1) , allora X12 +· · ·+Xn2 ha legge χ2 (n) . Definizione 4.50 (Legge di Student). Siano X ∼ N (0, 1) , Y ∼ χ2 (n) indipendenti: si chiama legge di Student a n gradi di libert` a (e si indica T (n)) la legge di √ nX √ Y Definizione 4.51 (Legge di Fisher). Siano Cn e Cm due variabili indipendenti con legge rispettivamente χ2 (n) e χ2 (m) : si chiama legge di Fisher Fn,m la legge di Cn /n Cm /m 5 Inferenza statistica su uno spazio di Probabilit` a generale Definizione 5.1 (Modello Statistico). Si chiama modello statistico una θ terna Ω, F, P , θ ∈ Θ dove Ω `e un insieme, F una σ-algebra di parti di Ω e, per ogni θ ∈ Θ , Pθ `e una probabilit`a su Ω, F . 24 Ipotesi 5.2 (Modello con densit` a). Supponiamo che il modello statistico soddisfi le seguenti condizioni: a) Ω `e uno spazio euclideo IRn (o un sottinsieme misurabile di uno spazio euclideo); b) F `e la σ-algebra di Borel su Ω ; c) le probabilit` a Pθ ammettono densit`a rispetto alla misura di Lebesgue n-dimensionale λ . Definizione 5.3 (Verosimiglianza). Si chiama verosimiglianza una funzione L : Θ × Ω → IR+ tale che, fissato θ , L(θ, .) sia una versione della densit` a di Pθ (rispetto alla misura di Lebesgue λ). Definizione 5.4 (Campione). Sia f (θ, .) , θ ∈ Θ una famiglia parametrizzata di densit` a di probabilit` a su IR: si chiama campione di taglia n e densit` a f (θ, .) una famiglia di variabili aleatorie indipendenti, equidistribuite, aventi densit` a f (θ, .) (sotto Pθ ). La costruzione canonica di un campione `e la seguente: si prende Ω = IRn e si considera come verosimiglianza la funzione n Y L θ ; x1 , . . . , x n = f (θ, xi ) i=1 Si definiscono infine come variabili Xi le proiezioni canoniche di indice i. Se ogni densit` a f (θ, .) si annulla fuori di un intervallo I ⊆ IR, conviene considerare come spazio Ω = I n anzich`e IRn . Definizione 5.5 (Riassunto esaustivo). Una variabile aleatoria T : Ω → E `e detta un riassunto esaustivo se si pu`o scrivere la verosimiglianza nella forma L θ ; x1 , . . . , xn = h θ , T (x1 , . . . , xn ) k(x1 , . . . , xn ) Teorema 5.6. Sia T un riassunto esaustivo e U una stima di g(θ) : esiste una stima V della forma V (x1 , . . . , xn ) = f T (x1 , . . . , xn ) preferibile a U, inoltre V `e strettamente preferibile a meno che U non sia gi` a nella forma f ◦ T . Infine, se U `e corretta, anche V `e corretta. Definizione 5.7 (Stima di massima verosimiglianza). Sia assegnato un modello statistico tale che Θ ⊂ IR : si dice che U `e una stima di massima verosimiglianza se, per quasi ogni (x1 , . . . , xn ) ∈ Ω, si ha L U (x1 , . . . , xn ) ; x1 , . . . , xn = max L θ ; x1 , . . . , xn θ∈Θ Ricordiamo che usualmente si indica θb la stima di massima verosimiglianza. 25 Teorema 5.8. Supponiamo che Θ sia un intervallo di IR e sia assegnata una famiglia di densit` a f (θ, x) , θ ∈ Θ che si possano scrivere nella forma f (θ, x) = c(θ) . exp θ T (x) . g(x) con una opportuna applicazione T : IR → IR. Consideriamo un campione infinito X1 , X2 , . . . con densit` a f (θ, .) e supponiamo che esista, per ogni n, la stima di massima verosimiglianza θbn relativa al campione di taglia n: allora b la successione di stime θn n≥1 `e consistente. Quando le densit` a verificano la condizione del Teorema 5.8, si dice che si ha un modello esponenziale: la definizione pu`o essere estesa al caso a dimensione maggiore di 1, supponendo Θ ⊆ IRk e che esista una applicazione (boreliana) T : IR → IRk in modo che si abbia f (θ, x) = c(θ). exp hθ, T (x)i .g(x) dove h., .i `e il prodotto scalare in IRk . Lemma 5.9 (Lemma di Neyman-Pearson). Supponiamo assegnato un modello statistico nel quale l’insieme Θ dei parametri `e ridotto a due punti (Θ = θ0 , θ1 ) e sia dato il test dell’ipotesi H0 θ = θ0 contro H1 θ = θ1 . Consideriamo l’insieme D cos`ı definito D = (x1 , . . . , xn ) ∈ Ω L(θ0 ; x1 , . . . , xn )) ≤ c L(θ1 ; x1 , . . . , xn )) dove c `e una costante positiva. Allora 1. D `e la regione critica di un test pi` u potente di ogni altro test di livello θ 0 P D ; 2. vale la diseguaglianza Pθ1 D ≥ Pθ0 D . Osservazione 5.10 (Soglia di accettazione). Quando si pianifica un test statistico, per prima cosa si sceglie un livello α (solitamente vicino a 0) e in seguito si sceglie una regione critica D che abbia livello α . Spesso ci si trova in questa situazione: per ogni numero 0 < α < 1, `e assegnata una regione critica Dα di livello α in modo tale che, se α1 ≤ α2 , allora Dα1 ⊆ Dα2 . Inoltre ∪0<α<1 Dα = Ω e ∩0<α<1 Dα = ∅ . Allora, per ogni ω ¯ ∈ Ω (cio`e per ogni risultato dell’indagine statistica) `e assegnato un numero α ¯ tale che, se α < α ¯, ω ¯∈ / Dα e se α > α ¯, ω ¯ ∈ Dα . Tale numero α ¯ sar` a chiamato soglia di accettazione. 6 Inferenza statistica sui modelli gaussiani Lemma 6.1. Sia X = (X1 , . . . , Xn ) un vettore aleatorio formato da n v.a. indipendenti con densit` a N (0, 1) , sia A una matrice n × n ortogonale (cio`e la matrice di un cambio di base) e sia Y = A X. Anche le componenti (Y1 , . . . , Yn ) sono indipendenti con densit` a N (0, 1) . 26 Se (X1 , . . . , Xn ) `e un campione di n variabili aleatorie, indichiamo con n X = X1 +···+X la media empirica, e con n P 2 S = Xi − X n−1 i 2 (e naturalmente S ne `e la radice quadrata). Se c’`e pericolo di confusione (ad esempio se ci sono due campioni anche di taglia diversa (X1 , . . . , Xn ) e (Y1 , . . . , Ym ) ) indicheremo S 2 (X) e S 2 (Y ) . Teorema 6.2. Siano X1 , . . . , Xn indipendenti con densit` a N (m, σ 2 ) . Si hanno i seguenti risultati: a) le variabili X e S 2 sono indipendenti; a N (m, b) X ha densit` c) la variabile σ2 n ) P e i≤n Xi −X σ2 2 ha densit` a χ2 (n − 1) ; √ n X −m S ha densit` a di Student T (n − 1) . Consideriamo ora come modello statistico un campione di taglia n e densit` a N (m, σ 2 ) . P P 2 Si ottiene un riassunto esaustivo con la variabile doppia X i Xi , 2 P P i i ( se la media `e nota con i Xi − m , se la varianza `e nota con i Xi ). Valgono le seguenti stime di massima verosimiglianza per i parametri: 1) m b = X sempre; 2 P i Xi −m 2 se m `e nota; 2) σ b = n 2 P i Xi −X 2 3) σ b = se m `e sconosciuta. n Una stima corretta della varianza `e data da 2 P i Xi − X 2 S = n−1 Osservazione 6.3. L’ultima propriet`a non `e specifica delle variabili gaussiane: infatti date n variabili X1 , . . . , Xn indipendenti equidistribuite, dotate di momento secondo, `e sempre vero che h P X − X 2 i i i E = V ar X1 n−1 27 Supponiamo assegnato un campione X1 , . . . , Xn di taglia n e densit`a gaussiana. Esempio 6.4 (Intervallo di fiducia per la media). Vogliamo trovare un intervallo di fiducia al livello (1−α) per la media di un campione gaussiano, con varianza nota. Consideriamo un intervallo di fiducia della forma [X(ω) − d , X(ω) + d] , con d tale che √ n √n X − m > d n ≤ α Pm X − m > d = Pm σ σ Imponendo che la diseguaglianza sopra scritta sia un’eguaglianza si otq σ √ tiene l’intervallo di fiducia X(ω) ± 1−α/2 . n Esempio 6.5 (Test unilatero). Consideriamo il test della forma H0 m ≤ m0 contro H1 m > m0 , con varianza nota, al livello α Prendiamo m1 < m2 e scriviamo il rapporto delle verosimiglianze: hm − m X L m2 ; x1 , . . . , xn n m22 − m21 i 2 1 = exp xi − σ2 2 σ2 L m1 ; x1 , . . . , xn i Questo risulta crescenterispetto alla v.a. X e pertanto la regione critica viene della forma D = X ≥ c ; `e pi` u comodo scrivere la regione critica √ nella forma X − m0 ≥ d , e ricordando che (sotto Pm0 ) σn X − m0 ha √ densit` a N (0, 1) , si ottiene n σ d = q1−α . Esaminiamo ora il caso di test sulla media di un campione gaussiano con varianza sconosciuta, che `e noto col nome di test di Student. Definizione 6.6 (Legge di Student decentrata). Si chiama legge di Student a n gradi di libert` a decentrata di a (indicata anche T (n) decentrata di a ) la legge di √ nX √ Y dove X ∼ N (a, 1) , Y ∼ χ2 (n) e sono indipendenti. Le densit` a di Student decentrate di a , al variare di a , sono a rapporto di verosimiglianza crescente (rispetto alla identit`a, cio`e alla variabile T (x) = x su IR ). √ Osservazione 6.7. La variabile aleatoria Student T (n−1) decentrata di m √ σ n . 28 nX S 2 (sotto Pm,σ ) ha legge di Esempio 6.8 (Test di Student unilatero). Consideriamo, al livello α, la regione critica di un test dell’ipotesi H 0 m ≤ 0 , σ qualsiasi , contro l’alternativa H1 m > 0 , σ qualsiasi. √ √ La distribuzione di probabilit`a di nS X `e T (n − 1) decentrata di m σ n , e queste sono a rapporto di verosimiglianza crescente rispetto a m σ : siamo pertanto condotti a una regione critica della forma √ √n X(ω) n o nX D= ≥ d = ω ∈ Ω ≥d S S(ω) con d = t(1−α, n−1) . Osservazione 6.9. Se il test `e della forma H0 m ≤ m0 , σ qualsiasi contro H1 m > m0 , σ qualsiasi si ha una regione critica della forma n √n X − m o 0 D= ≥ t(1−α, n−1) S Esempio 6.10 (Test di Student). Consideriamo il test H0 m = 0 , σ qualsiasi H1 m 6= 0 , σ qualsiasi al livello α . La regione critica `e della forma n √n X − m o o D = ≥ t(1− α2 , n−1) S Esempio 6.11 (Intervallo di fiducia per la media, con varianza sconosciuta). L’ intervallo di fiducia per la media al livello (1−α) , con varianza sconosciuta, `e della forma X(ω) ± t(1− α2 , n−1) S(ω) √ . n Prima di affrontare i test sulla varianza, osserviamo che valgono le seguenti propriet` a: 2 P i Xi −m • se m `e noto, ha densit`a χ2 (n) ; σ2 2 P i Xi −X • se m `e sconosciuto, ha densit`a χ2 (n − 1) . σ2 29 Esempio 6.12 (Test sulla varianza con media sconosciuta). Consideriamo il test H0 σ 2 ≤ σ02 , m qualsiasi contro H1 σ 2 > σ02 , m qualsiasi al livello α . Si tratta di un test unilatero sulla varianza, e si arriva alla regione critica nX o 2 D = Xi − X ≥ c i con c scelto in modo tale che si abbia n P X − X 2 c o i i m,σ02 ≥ =α P σ02 σ02 e si ottiene c = χ2(1−α , n−1) . σ02 Ci occupiamo ora del caso in cui l’osservazione statistica sia formata da 2 ) e Y , . . . , Y (di due campioni indipendenti X , . . . , X (di legge N m , σ 1 n 1 1 k 1 legge N m2 , σ22 ). Esempio 6.13 (Confronto tra due varianze). Identifichiamo il test H0 σ12 ≤ σ22 contro H1 σ12 > σ22 al livello α prescelto. Se σ12 = σ22 , la variabile 2 P S 2 (X) i Xi − X /(n − 1) = P 2 S 2 (Y ) /(k − 1) j Yj − Y ha legge di Fisher Fn−1 , k−1 (vedi 4.51). Se chiamiamo F( 1 − α , n, k) lo (1 − α)–quantile della legge Fn ,k , la regione critica del test richiesto `e data da 2 X − X /(n − 1) i i≤n ≥ F(1−α , n−1, k−1) 2 P Y − Y /(k − 1) j j≤k P D = Definizione 6.14 (Problema di Behrens-Fisher). Si chiama problema di Behrens-Fisher l’individuazione della regione critica del test dell’ipotesi H0 m 1 = m 2 contro H1 m1 6= m2 . 30 Noi ci limitiamo al caso pi` u semplice nel quale si abbia σ12 = σ22 (cio`e le varianze sono sconosciute, ma eguali). Lemma 6.15. Se m1 = m2 e σ12 = σ22 , la variabile Zn,k = qP i≤n X −Y 2 P 2 Xi − X + j≤k Yj − Y √ n+k−2 q 1 1 n + k ha densit` a di Student T (n + k − 2) . La soluzione del problema di Behrens-Fisher `e sostanzialmente un’estensione del test di Student: se consideriamo l’ipotesi H0 m1 = m2 , si considera come regione critica (al livello α) o n D = Zn,k ≥ t(1− α2 , n+k−2) mentre il test dell’ipotesi H0 m1 ≤ m2 avr`a regione critica n o D = Zn,k ≥ t(1−α , n+k−2) . Definizione 6.16 (Modelli lineari). Si chiama modello statistico lineare un modello nel quale l’osservazione `e data da n variabili aleatorie X1 , . . . , Xn che si possano scrivere nella forma Xi = k X aij θj + σWi j=1 con le seguenti propriet` a: a) k < n , (θ1 , . . . , θk ) ∈ IRk e σ > 0 ; b) la matrice n × k , A = [aij ] `e di rango massimo (e quindi l’applicazione lineare ad essa associata A : IRk → IRn `e iniettiva; c) le variabili W1 , . . . , Wn sono gaussiane N (0, 1) indipendenti. Definizione 6.17 (Modello di regressione). Il modello `e detto di regressione quando `e della forma Xi = θ1 + θ2 zi + · · · + θk zik−1 + σWi con z1 6= z2 6= · · · = 6 zn (e k < n). Per i modelli lineari useremo anche la notazione vettoriale X = Aθ+σW. 31 Lemma 6.18. Sia A : IRk → IRn una applicazione lineare iniettiva. Dato x ∈ IRn , il punto y ∈ IRk che minimizza kx − A yk2 `e dato da y = U x , −1 essendo U = At A At . L’espressione della verosimiglianza del modello in forma vettoriale si scrive kx − A θk2 n L θ, σ 2 ; x = (2π)− 2 exp − − n log σ 2 σ2 b Vediamo le stime di massima verosimiglianza: la stima di θ `e θ(x) = Ux 2 b = U X ), e la stima di σ `e (o, scritta come variabile aleatoria, θ σ b2 = b 2 kX − Aθk kX − A U Xk2 = . n n Teorema 6.19 (Teorema di Gauss Markov). U X `e una stima corretta di θ , di rischio minimo tra tutte le stime lineari corrette. Inoltre kX − A U Xk2 n−k `e una stima corretta di σ 2 . 32
© Copyright 2025 ExpyDoc