Universit` a di Roma Tor Vergata Facolt` a di Scienze Matematiche Fisiche e Naturali Dipartimento di Matematica Appunti di Inferenza Statistica (3 crediti) per la Laurea Magistrale in Informatica Claudio Macci1 Anno Accademico 2013-2014 1 Contatti e informazioni alla pagina web http://www.mat.uniroma2.it/∼macci Premessa Questo materiale rappresenta ci` o che ho preparato per tenere le lezioni dei primi tre crediti di Inferenza Statistica e Teoria dell’Informazione, insegnamento per la Laurea Magistrale in Informatica, per l’a.a. 2013-2014. Le variazioni rispetto alla versione per l’a.a. 2012-2013 riguardano una correzione di un segno nell’Esempio 1.2.10, un commento subito dopo la condizione (F), e la dimostrazione del Teorema 2.3.1. Il materiale `e abbondante e, in base a quanto verr`a spiegato in aula di anno in anno, alcune parti di questo materiale non saranno nel programma d’esame. Nella scelta degli argomenti ho tenuto conto di quanto abitualmente insegno nelle lezioni di Calcolo delle Probabilit` a e Statistica (per la Laurea Triennale in Informatica) e delle esigenze segnalate da altri docenti che tengono altri insegnamenti del Corso di Laurea Magistrale in Informatica. Nei Capitoli 2 e 3 di questi appunti ho tratto spunto da quanto imparato da studente dell’esame di Statistica Matematica tenuto dal Prof. Fabio Spizzichino (Laurea in Matematica presso l’Universit`a di Roma La Sapienza, Anno Accademico 1991-1992) e dal materiale preparato per le lezioni che ho tenuto in anni passati per i seguenti insegnamenti: Statistica II (Laurea in Matematica presso l’Universit` a di Torino, Anni Accademici 2001-2002, 2002-2003 e 2003-2004); esercitazioni di Statistica (Laurea in Matematica presso l’Universit`a di Roma Tor Vergata, Anni Accademici 2005-2006, 2006-2007 e 2007-2008). Mi scuso fin da ora per gli errori e refusi di varia natura che troverete (ad esempio non mi sono preoccupato di controllare se le parole sono correttamente divise in sillabe quando si va a capo ...). Ovviamente qualsiasi segnalazione in proposito `e benvenuta e ringrazio fin da ora chi provveder` a (e chi ha provveduto) in tal senso. Roma, Aprile 2014 Claudio Macci Indice 1 Risultati di Calcolo delle Probabilit` a 1.1 Variabili aleatorie reali discrete e continue . . . . . . . . . . . . . . . . . . . . 1.1.1 Variabili aleatorie reali discrete: definizioni ed esempi . . . . . . . . . 1.1.2 Variabili aleatorie reali continue: definizioni ed esempi . . . . . . . . . 1.2 Variabili aleatorie n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Variabili aleatorie n-dimensionali discrete . . . . . . . . . . . . . . . . 1.2.2 Variabili aleatorie n-dimensionali continue . . . . . . . . . . . . . . . . 1.2.3 Casi con densit` a congiunta mista . . . . . . . . . . . . . . . . . . . . . 1.2.4 Il teorema del cambio di variabile per densit`a congiunte continue . . . 1.2.5 Variabili aleatorie n-dimensionali non continue, con marginali continue 1.2.6 Distribuzione Normale n-dimensionale . . . . . . . . . . . . . . . . . . 2 Statistica Classica e Statistica Bayesiana 2.1 Introduzione . . . . . . . . . . . . . . . . . 2.2 Statistica Classica . . . . . . . . . . . . . 2.2.1 Sufficienza . . . . . . . . . . . . . . 2.2.2 Stimatori . . . . . . . . . . . . . . 2.3 Statistica Bayesiana . . . . . . . . . . . . 2.3.1 Sufficienza . . . . . . . . . . . . . . 2.3.2 Stimatori . . . . . . . . . . . . . . 2.3.3 Predizione . . . . . . . . . . . . . . 2.4 Una propriet` a delle statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Modelli statistici di uso comune 3.1 Osservazioni Bernoulliane . . . . . . . . . . . . . . . . 3.2 Osservazioni a valori in un insieme finito . . . . . . . . 3.3 Osservazioni Poissoniane . . . . . . . . . . . . . . . . . 3.4 Osservazioni Esponenziali . . . . . . . . . . . . . . . . 3.5 Osservazioni Normali (con sola media incognita) . . . 3.6 Osservazioni Normali (con sola varianza incognita) . . 3.7 Osservazioni Normali (con media e varianza incognite) 3.8 Osservazioni Uniformi . . . . . . . . . . . . . . . . . . Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 3 5 5 7 8 11 14 16 . . . . . . . . . 21 21 22 22 23 24 25 27 28 28 . . . . . . . . 30 30 32 34 35 36 38 39 43 46 1 Capitolo 1 Risultati di Calcolo delle Probabilit` a 1.1 Variabili aleatorie reali discrete e continue Una variabile aleatoria reale X assume valori in R. La sua funzione di distribuzione FX `e definita come segue: FX (x) = P (X ≤ x), per ogni x ∈ R. 1.1.1 Variabili aleatorie reali discrete: definizioni ed esempi Una variabile aleatoria reale X `e discreta, con densit`a discreta fX , se P (X ∈ A) = X fX (x) per ogni A ⊂ R. x∈A La densit`a discreta fX `e definita come segue: fX (x) = P (X = x), per ogni x ∈ R. P Inoltre si dice che X ha speranza matematica finita se x∈X |x|fX (x) < ∞ e, in tal caso, la P 2 speranza matematica `e E[X] = x∈X xfX (x). Infine, se X ha speranza matematica finita, allora X ha speranza matematica finita e si definisce varianza la seguente quantit`a (finita): Var[X] = E[(X − E[X])2 ]. In particolare si verifica che Var[X] = E[X 2 ] − E2 [X]. Concludiamo con un elenco di distribuzioni di variabili aleatorie discrete reali. Distribuzioni Bernoulliana. Una variabile aleatoria X ha distribuzione Bernoulliana di parametro p ∈ [0, 1] (in simboli X ∼ B(p)) se si ha fX (1) = p e fX (0) = 1 − p; quindi fX (k) = pk (1 − p)1−k per k ∈ {0, 1}. In corrispondenza si ha E[X] = p e Var[X] = p(1 − p). Distribuzioni Binomiale. Una variabile aleatoria X ha distribuzione Binomiale di parametri n e p (in simboli X ∼ Bin(n, p)) se si ha Y = X1 + · · · + Xn , dove {X1 , . . . , Xn } sono indipendenti e con distribuzione B(p); quindi fX (k) = (nk )pk (1 − p)n−k per k ∈ {0, 1, . . . , n} perch´e ognuna delle (nk ) sequenze ordinate di n elementi in {0, 1} con esattamente k volte 1 ha probabilit`a pk (1 − p)1−k . In particolare si ha Bin(1, p) = B(p). In corrispondenza si ha E[X] = np e Var[X] = np(1 − p). La variabile aleatoria X viene introdotta per contare il numero di successi su n prove indipendenti e tutte con probabilit` a di successo p. 2 Distribuzione di Poisson. Una variabile aleatoria X ha distribuzione di Poisson di parametro k λ > 0 (in simboli X ∼ P oisson(λ)) se si ha fX (k) = λk! e−λ per ogni k ≥ 0 intero. In corrispondenza si verifica che E[X] = λ e Var[X] = λ. Distribuzione Geometrica. Una variabile aleatoria X ha distribuzione Geometrica di parametro p ∈ (0, 1) (in simboli X ∼ Geo(p)) se si ha fX (k) = (1 − p)k−1 p per ogni k ≥ 1 intero. In corrispondenza si verifica che E[X] = p1 e Var[X] = 1−p . La variabile aleatoria X viene introdotta p2 per contare il numero di prove necessarie per avere il primo successo nel caso in cui si abbiano prove indipendenti e tutte con probabilit` a di successo p. 1.1.2 Variabili aleatorie reali continue: definizioni ed esempi Una variabile aleatoria reale X `e continua, con densit`a continua fX , se Z fX (x)dx per ogni A ∈ BR , P (X ∈ A) = A dove BR `e la pi` u piccola σ-algebra su R contenente gli insiemi aperti di R. A differenza della densit` a discreta, esistono diverse versioni della densit`a continua fX ; ad esempio la definizione della densit`a continua `e arbitraria su insiemi finiti o numerabili di punti. Tutte le funzioni che coincidono con FX0 nei punti dove FX `e derivabile forniscono versioni della densit` a continua. R∞ Inoltre si dice che X ha speranza matematica finita se −∞ |x|fX (x)dx < ∞ e, in tal caso, la R∞ speranza matematica `e E[X] = −∞ xfX (x)dx. La definizione di varianza si ottiene adattando a questo contesto la definizione vista per il caso discreto. In quel che segue faremo riferimento alla seguente proposizione che fornisce la densit`a continua di una variabile aleatoria X2 ottenuta come trasformazione affine non costante di una variabile continua X1 . Proposizione 1.1.1 (Trasformazione affine di una variabile aleatoria continua). Sia X1 una variabile aleatoria reale continua con densit` a fX1 e sia X2 = aX1 + b per a, b ∈ R tali che a 6= 0. 1 Allora la variabile aleatoria X2 `e continua con densit` a fX2 , e si ha fX2 (x2 ) = |a| fX1 x2a−b . Concludiamo con un elenco di distribuzioni di variabili aleatorie continue reali; in corrispondenza richiamiamo anche alcuni risultati (Proposizioni 1.1.2 e 1.1.3). In vista di quel che segue, dato un qualsiasi A ⊂ R, useremo la notazione 1A per la funzione 1A : R → {0, 1} definita come segue: ( 1 se x ∈ A 1A (x) = 0 se x ∈ Ac , dove Ac = R\A `e il complementare dell’insieme A. Inoltre faremo riferimento alla funzione Gamma definita come segue: Z ∞ Γ(α) = xα−1 e−x dx per ogni α > 0. 0 Si osservi che si ha Γ(α + 1) = αΓ(α) per ogni α > 0; quindi, se α `e intero, si ha Γ(α) = (α − 1)!. Distribuzione Esponenziale. Una variabile aleatoria X ha distribuzione Esponenziale di parametro λ > 0 (in simboli X ∼ Exp(λ)) se si ha fX (x) = λe−λx 1(0,∞) (x). In corrispondenza si ha E[X] = λ1 e Var[X] = λ12 . 3 Distribuzione Gamma. Una variabile aleatoria X ha distribuzione Gamma di parametri α, β > β α α−1 −βx 0 (in simboli X ∼ Gamma(α, β)) se si ha fX (x) = Γ(α) x e 1(0,∞) (x). Una variabile aleatoria X ha distribuzione chi-quadro con n gradi di libert`a (in simboli X ∼ χ2 (n)) se X ∼ Gamma( n2 , 12 ). In particolare si ha Gamma(1, β) = Exp(β). In corrispondenza si ha E[X] = Infine richiamiamo i seguenti risultati. α β e Var[X] = α . β2 Proposizione 1.1.2. (i) Se {X1 , . . . , Xn } sono indipendenti e, per ogni i ∈ {1, . . . , n}, Xi ∼ Gamma(αi , β), allora X1 + · · · + Xn ∼ Gamma(α1 + · · · + αn , β). (ii) Se X ∼ Gamma(α, β) e c > 0, allora cX ∼ Gamma(α, βc ). Distribuzione Uniforme. Una variabile aleatoria X ha distribuzione Uniforme su [a, b] (in 1 1[a,b] (x). In corrispondenza si ha E[X] = a+b simboli X ∼ U [a, b]) se si ha fX (x) = b−a 2 (punto medio dell’intervallo) e Var[X] = (b−a)2 12 . Distribuzione Beta. Una variabile aleatoria X ha distribuzione Beta di parametri α, β > 0 (in Γ(α+β) α−1 x (1 − x)β−1 1[0,1] (x). In particolare si ha simboli X ∼ Beta(α, β)) se si ha fX (x) = Γ(α)Γ(β) Beta(1, 1) = U [0, 1]. In corrispondenza si ha E[X] = α α+β e Var[X] = αβ . (α+β)2 (α+β+1) Distribuzione di Pareto. Una variabile aleatoria X ha distribuzione di Pareto di parametri α, β > 0 (in simboli X ∼ P areto(α, β)) se si ha fX (x) = αβ α x−(α+1) 1[β,∞) (x). Osserviamo che Z ∞ Z ∞ k α −(α+1) k αβ α x−(α−k+1) dx per ogni k ≥ 1 x αβ x 1[β,∞) (x)dx = E[X ] = β 0 e quindi E[X k ] < ∞ se e solo se α − k + 1 > 1, che equivale a dire k < α; inoltre, se k < α, si 2 αβ k αβ ha E[X k ] = α−k . Quindi in corrispondenza si ha E[X] = α−1 se α > 1 e Var[X] = (α−1)αβ2 (α−2) se α > 2. Distribuzione Normale (o Gaussiana). Una variabile aleatoria X ha distribuzione Normale (x−µ)2 di parametri µ ∈ R e σ 2 > 0 (in simboli X ∼ N (µ, σ 2 )) se si ha fX (x) = √ 1 2 e− 2σ2 . In 2πσ corrispondenza si ha E[X] = µ e Var[X] = σ 2 ; quindi talvolta si parla di distribuzione Normale di ` noto che, se X ∼ N (µ, σ 2 ), X−µ ∼ N (0, 1); la distribuzione N (0, 1) `e media µ e varianza σ 2 . E σ detta distribuzione Normale standard. In alcuni casi `e utile fare riferimento al reciproco della varianza σ 2 ; quindi si considera r = σ12 e tale parametro r viene detto precisione; in corrispondenza la densit`a assume la seguente espressione: fX (x) = √ r(x−µ)2 √ r e− 2 . 2π Spiegazione della terminologia. Si usa questo termine perch´e, quando si ha una piccola varianza, i valori sono concentrati attorno alla media µ con alta probabilit`a e quindi `e ragionevole pensare al fatto che si ha un’alta precisione. Lo stesso tipo di discorso si pu`o fare nel caso di varianza grande a cui corrisponde una piccola precisione. Talvolta (questo viene utile quando si fa riferimento alla estensione n-dimensionale) una variabile aleatoria costante c (quindi discreta) viene considerata come una variabile aleatoria con distribuzione N (c, 0). Concludiamo richiamando i seguenti risultati. 4 Proposizione 1.1.3. Se {X1 , . . . , Xn } sono indipendenti e, per ogni i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ), 2 P i) allora ni=1 (Xiσ−µ ∼ Gamma( n2 , 12 ) = χ2 (n). 2 i P Dimostrazione. Noi siamo interessati alla distribuzione di ni=1 Zi2 dove, per ogni i ∈ {1, . . . , n}, i Zi = Xiσ−µ . Le variabili aleatorie {Z1 , . . . , Zn } sono indipendenti e Normali standard. Le variai bili aleatorie {Z12 , . . . , Zn2 } sono ovviamente indipendenti. Inoltre ciascuna delle variabili aleatorie {Z12 , . . . , Zn2 } ha distribuzione Gamma( 21 , 12 ); infatti, per ogni i ∈ {1, . . . , n}, se usiamo il simbolo Φ per la funzione di distribuzione delle variabili aleatorie con distribuzione Normale standard si ha √ √ √ √ P (− √t ≤ Zi ≤ t)√= Φ( t) −√Φ(− t) P (Zi2 ≤ t) = = Φ( t) − (1 − Φ( t)) = 2Φ( t) − 1 se t ≥ 0 0 se t < 0, e la corrispondente densit` a continua che si ottiene derivando `e √ 2 t) 2 ( 1 fZi (t) = 2 √ e− 2π 1 1 t− 2 − t β α α−1 −βt √ 1(0,∞) (t) = √ e 2 1(0,∞) (t) = t e 1(0,∞) (t) , Γ(α) 2 t 2π α=β= 21 perch´e Z ∞ Z ∞ 2 − 12 Z ∞√ 1 x2 2 − x2 1 x − −1 −y = y 2 e dy = e 2 xdx = e 2 xdx Γ 2 2 x 0 0 0 Z ∞ √ √ √ Z ∞ − x2 √ 1 √ x2 1 e 2 dx = 2 2π √ e− 2 dx = 2 π = π = 2 2 2π 0 0 | {z } =1−Φ(0)=1− 12 = 12 2 (si `e considerato il cambio di variabile y = x2 , da cui segue che dy = xdx e gli estremi di integrazione P non cambiano). In conclusione possiamo dire che ni=1 Zi2 ∼ Gamma( n2 , 12 ) come conseguenza della Proposizione 1.1.2(i) con α1 = · · · = αn = β = 21 . 2 1.2 Variabili aleatorie n-dimensionali Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) assume valori in Rn . 1.2.1 Variabili aleatorie n-dimensionali discrete Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) `e discreta, con densit`a discreta fX n , se P (X n ∈ A) = X fX n (xn ) per ogni A ⊂ Rn . xn ∈A La densit`a discreta fX n `e definita come segue: fX n (xn ) = P (X n = xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn . In corrispondenza possiamo considerare le densit`a marginali (discrete) per un sottoinsieme di variabili aleatorie. Ad esempio, per i ∈ {1, . . . , n} arbitrariamente fissato, la densit`a marginale discreta fXi della variabile aleatoria reale Xi si ottiene come segue: fXi (xi ) = X y n :yi =xi 5 fX n (y n ). Si verifica che le componenti di X n = (X1 , . . . , Xn ) sono indipendenti, cio`e P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ) per ogni A1 . . . , An ⊂ R, se e solo se fX n (xn ) = fX1 (x1 ) · · · fXn (xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn . Esempio 1.2.1 (Geometriche Indipendenti). Consideriamo (X1 , X2 ) dove X1 e X2 sono indipendenti e, per i ∈ {1, 2}, Xi ∼ Geo(pi ). Calcoliamo le seguenti probabilit` a: X P (X1 = X2 ) = fX1 ,X2 (x1 , x2 ) = X fX1 (x1 )fX2 (x1 ) x1 ≥1 x1 =x2 ≥1 = X (1 − p1 )x1 −1 p1 (1 − p2 )x1 −1 p2 = p1 p2 X ((1 − p1 )(1 − p2 ))x1 −1 x1 ≥1 x1 ≥1 p1 p2 p1 p2 = ; = 1 − (1 − p1 )(1 − p2 ) p1 + p2 − p1 p2 P (X1 > X2 ) = X fX1 ,X2 (x1 , x2 ) = = (1 − p2 )x2 −1 p2 fX2 (x2 ) X fX1 (x1 ) (1 − p1 )x1 −1 p1 = p1 p2 x1 >x2 x2 ≥1 X x1 >x2 x2 ≥1 x1 >x2 ≥1 X X X (1 − p2 )x2 −1 x2 ≥1 (1 − p1 )x2 +1−1 1 − (1 − p1 ) p2 X (1 − p2 )(1 − p1 ) p2 = ((1 − p2 )(1 − p1 ))x2 = 1 − p2 1 − p2 1 − (1 − p2 )(1 − p1 ) x2 ≥1 p2 − p1 p2 p2 (1 − p1 ) = = p1 + p2 − p1 p2 p1 + p2 − p1 p2 1 −p1 p2 e P (X1 < X2 ) = p1p+p (si calcola in maniera analoga a quanto fatto per P (X1 > X2 ); si 2 −p1 p2 ottiene lo stesso valore scambiando il ruolo di p1 e p2 ). Si osservi che la somma delle tre probabilit` a calcolate `e uguale a 1 come deve essere. Densit` a condizionate e speranze matematiche condizionate. Per fissare le idee consideriamo il caso n = 2 e il condizionamento di X1 rispetto a X2 = x2 . Nel caso in cui fX2 (x2 ) > 0, possiamo considerare la densit`a di X1 condizionata a X2 = x2 , definita come segue fX1 ,X2 (x1 , x2 ) . fX1 |X2 (x1 |x2 ) = fX2 (x2 ) Si verifica facilmente che fX1 |X2 (·|x2 ) `e una densit`a di una variabile aleatoria reale discreta. In riferimento a tale densit` a si pu` o fare riferimento al concetto di speranza matematica e di varianza come visto in precedenza; in corrispondenza abbiamo la speranza matematica di X1 condizionata a X2 = x2 che indicheremo con E[X1 |X2 = x2 ] e, analogamente, la varianza di X1 condizionata a X2 = x2 che indicheremo con Var[X1 |X2 = x2 ]. Esempio 1.2.2 (Schema di Bernoulli: tempi di primo e secondo successo). Consideriamo (X1 , X2 ) con la seguente densit` a congiunta: ( (1 − p)x1 −1 p(1 − p)(x2 −x1 )−1 p = p2 (1 − p)x2 −2 se x2 > x1 ≥ 1, (x1 e x2 interi) fX1 ,X2 (x1 , x2 ) = 0 altrimenti. 6 Allora si ha fX2 (x2 ) = X fX1 ,X2 (x1 , x2 ) = x1 ≥1 xX 2 −1 p2 (1 − p)x2 −2 = (x2 − 1)p2 (1 − p)x2 −2 per x2 ≥ 2 intero, x1 =1 da cui segue fX1 |X2 (x1 |x2 ) = fX1 ,X2 (x1 , x2 ) p2 (1 − p)x2 −2 1 = = per x1 ∈ {1, . . . , x2 − 1} fX2 (x2 ) (x2 − 1)p2 (1 − p)x2 −2 x2 − 1 (quindi X1 |X2 = x2 ha distribuzione Uniforme Discreta sull’insieme {1, . . . , x2 − 1}) e E[X1 |X2 = x2 ] = xX 2 −1 x1 x1 =1 1 (x2 − 1)x2 1 x2 = = . x2 − 1 2 x2 − 1 2 Si osservi che le variabili aleatorie in questo esempio hanno la seguente interpretazione: Xk `e il numero di prove necessarie per avere il k-simo successo in prove indipendenti con probabilit` a di successo p in ogni prova. In riferimento a tale interpretazione `e noto che, per ogni k ≥ 1 intero, la densit` a discreta di Xk `e k −1 )pk (1 − p)xk −k per xk ≥ k intero, fXk (xk ) = (xk−1 e in tal caso si dice che Xk ha distribuzione Binomiale Negativa di parametri k e p. 1.2.2 Variabili aleatorie n-dimensionali continue Una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) `e continua, con densit`a continua fX n , se Z fX n (xn )dx1 · · · dxn per ogni A ∈ BRn , P (X n ∈ A) = A dove BRn `e la pi` u piccola σ-algebra su Rn contenente gli insiemi aperti di Rn . In corrispondenza possiamo considerare le densit` a marginali (continue) per un sottoinsieme di variabili aleatorie. Ad esempio, per i ∈ {1, . . . , n} arbitrariamente fissato, la densit`a marginale discreta fXi della variabile aleatoria reale Xi si ottiene come segue: Z fXi (xi ) = fX n (y1 , . . . , yi−1 , xi , yi+1 , . . . , yn )dy1 · · · dyi−1 dyi+1 · · · dyn . Rn−1 Si verifica che le componenti di X n = (X1 , . . . , Xn ) sono indipendenti, cio`e P (a1 ≤ X1 ≤ b1 , . . . , an ≤ Xn ≤ bn ) =P (a1 ≤ X1 ≤ b1 ) · · · P (an ≤ Xn ≤ bn ) per ogni a1 , b1 . . . , an , bn ∈ R, se e solo se fX n (xn ) = fX1 (x1 ) · · · fXn (xn ), per ogni xn = (x1 , . . . , xn ) ∈ Rn . Esempio 1.2.3 (Esponenziali Indipendenti). Consideriamo (X1 , X2 ) dove X1 e X2 sono indipendenti e, per i ∈ {1, 2}, la variabile aleatoria Xi ∼ Exp(λi ). Calcoliamo le seguenti probabilit` a: P (X1 = X2 ) = 0 perch´e l’evento fa riferimento ad un sottoinsieme del piano di area nulla; Z Z ∞ Z ∞ −λ2 x2 P (X1 > X2 ) = fX1 ,X2 (x1 , x2 )1x1 >x2 dx1 dx2 = dx2 λ2 e dx1 λ1 e−λ1 x1 2 x2 ZR∞ Z0 ∞ = dx2 λ2 e−λ2 x2 [−e−λ1 x1 ]xx11 =∞ dx2 λ2 e−λ2 x2 e−λ1 x2 =x2 = 0 0 Z ∞ λ2 λ2 λ2 −(λ1 +λ2 )x2 = dx2 (λ1 + λ2 )e = ·1= λ1 + λ2 0 λ1 + λ2 λ1 + λ2 7 1 e P (X1 < X2 ) = λ1λ+λ (si calcola in maniera analoga a quanto fatto per P (X1 > X2 ); si ottiene lo 2 stesso valore scambiando il ruolo di λ1 e λ2 ). Si osservi che la somma delle tre probabilit` a calcolate `e uguale a 1 come deve essere. Densit` a condizionate e speranze matematiche condizionate. Per fissare le idee consideriamo il caso n = 2 e il condizionamento di X1 rispetto a X2 = x2 . Nel caso in cui fX2 (x2 ) > 0, possiamo considerare la densit`a di X1 condizionata a X2 = x2 , definita come segue fX1 ,X2 (x1 , x2 ) . fX1 |X2 (x1 |x2 ) = fX2 (x2 ) Si verifica facilmente che fX1 |X2 (·|x2 ) `e una densit`a di una variabile aleatoria reale continua. In riferimento a tale densit` a si pu` o fare riferimento al concetto di speranza matematica e di varianza come visto in precedenza nel caso discreto e in corrispondenza useremo le stesse notazioni. Esempio 1.2.4 (Processo di Poisson: tempi del primo e secondo evento). Consideriamo (X1 , X2 ) con la seguente densit` a congiunta: ( λe−λx1 λe−λ(x2 −x1 ) = λ2 e−λx2 se x2 > x1 > 0 fX1 ,X2 (x1 , x2 ) = 0 altrimenti. Allora si ha Z fX2 (x2 ) = Z x2 fX1 ,X2 (x1 , x2 )dx1 = λ2 e−λx2 dx1 1(0,∞) (x2 ) = λ2 x2 e−λx2 1(0,∞) (x2 ), 0 R da cui, per x2 > 0, segue 1 λ2 e−λx2 = per x1 ∈ (0, x2 ) 2 −λx 2 x2 λ x2 e fX1 |X2 (x1 |x2 ) = (quindi X1 |X2 = x2 ∼ U [0, x2 ]) e x2 Z E[X1 |X2 = x2 ] = 0 2 x1 =x2 1 x 1 x2 x1 dx1 = 1 = . x2 2 x1 =0 x2 2 Si osservi che E[X1 |X2 = x2 ] coincide con il punto medio dell’intervallo [0, x2 ] in accordo con quanto avevamo detto sulla distribuzione Uniforme. Si osservi che le variabili aleatorie in questo esempio hanno la seguente interpretazione: Xk `e l’istante del k-simo evento di un Processo di Poisson di intensit` a λ. In riferimento a tale interpretazione `e noto che, per ogni k ≥ 1 intero, la densit` a continua di Xk `e λk k−1 −λxk x e fXk (xk ) = 1(0,∞) (xk ), Γ(k) k cio`e Xk ∼ Gamma(k, λ). 1.2.3 Casi con densit` a congiunta mista Esistono casi con densit` a congiunta mista. Per fissare le idee consideriamo il caso n = 2; inoltre supporremo che X1 sia una variabile aleatoria discreta e che X2 sia una variabile aleatoria continua. La variabile aleatoria (X1 , X2 ) ha densit`a congiunta mista fX1 ,X2 , discreta su X1 e continua su X2 , se X Z P ((X1 , X2 ) ∈ A1 × A2 ) = fX1 ,X2 (x1 , x2 )dx2 per ogni A1 ⊂ R e A2 ∈ BR . x1 ∈A1 A2 8 In corrispondenza si le densit` a marginali sono definite come segue: la densit`a discreta di X1 `e Z fX1 ,X2 (x1 , x2 )dx2 ; fX1 (x1 ) = R la densit`a continua di X2 `e X fX2 (x2 ) = fX1 ,X2 (x1 , x2 ). x1 ∈R Come negli altri casi visti in precedenza possiamo dire che le variabili aleatorie X1 e X2 sono indipendenti, cio`e P (X1 ∈ A, a ≤ X2 ≤ b) = P (X1 ∈ A)P (a ≤ X2 ≤ b) per ogni A ⊂ R e a, b ∈ R, se e solo se fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 ), per ogni x2 = (x1 , x2 ) ∈ R2 . Inoltre possiamo definire le densit` a condizionate, le speranze matematiche condizionate e le varianze a condizionate. Ovviamente fX1 |X2 (·|x2 ) `e una densit`a discreta come fX1 e fX2 |X1 (·|x1 ) `e una densit` continua come fX2 . Ora presentiamo due esempi. Esempio 1.2.5 (Geometrica con parametro uniforme). Consideriamo la seguente densit` a congiunta mista (con n = 2, X1 discreta e X2 continua): ( (1 − x2 )x1 −1 x2 se (x1 , x2 ) ∈ {1, 2, 3, . . .} × (0, 1) fX1 ,X2 (x1 , x2 ) = 0 altrimenti. Allora si ha fX2 (x2 ) = X fX1 ,X2 (x1 , x2 ) = x1 ≥1 X (1 − x2 )x1 −1 x2 1(0,1) (x2 ) = 1(0,1) (x2 ) x1 ≥1 da cui, per x2 ∈ (0, 1), segue (1 − x2 )x1 −1 x2 = (1 − x2 )x1 −1 x2 per x1 ≥ 1 intero 1 (quindi X1 |X2 = x2 ∼ Geo(x2 )) e X 1 E[X1 |X2 = x2 ] = x1 (1 − x2 )x1 −1 x2 = x2 fX1 |X2 (x1 |x2 ) = x1 ≥1 in accordo con quanto avevamo detto sulla distribuzione Geometrica. Inoltre si ha Z Z 1 fX1 (x1 ) = fX1 ,X2 (x1 , x2 )dx2 = (1 − x2 )x1 −1 x2 dx2 R 0 Z 1 Γ(2)Γ(x1 ) x1 −1 per x1 ≥ 1 intero = x2−1 dx2 = 2 (1 − x2 ) Γ(2 + x1 ) 0 (l’ultima uguaglianza tiene conto dell’espressione della densit` a continua della distribuzione Beta(2, x1 )) da cui segue fX2 |X1 (x2 |x1 ) = (1 − x2 )x1 −1 x2 1(0,1) (x2 ) Γ(2)Γ(x1 ) Γ(2+x1 ) = Γ(2 + x1 ) 2−1 x (1 − x2 )x1 −1 1(0,1) (x2 ) Γ(2)Γ(x1 ) 2 (quindi X2 |X1 = x1 ∼ Beta(2, x1 )) e Z 1 Γ(2 + x1 ) 2−1 2 E[X2 |X1 = x1 ] = x2 x2 (1 − x2 )x1 −1 dx2 = Γ(2)Γ(x ) 2 + x1 1 0 in accordo con quanto avevamo detto sulla distribuzione Beta. 9 Esempio 1.2.6 (Dati censurati). Consideriamo una variabile aleatoria 2-dimensionale continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ Exp(λi ). In corrispondenza consideriamo la variabile aleatoria (X1 , X2 ) = (1Y1 ≤Y2 , min{Y1 , Y2 }). Le distribuzioni marginali della variabili aleatoria (X1 , X2 ) si deducono facilmente come segue. 1 • Si ha X1 ∼ B( λ1λ+λ ) per quanto visto nell’Esempio 1.2.3; quindi si ha la densit` a discreta x12 1−x1 1 1 fX1 (x1 ) = λ1λ+λ 1 − λ1λ+λ per x1 ∈ {0, 1}; infatti 2 2 ( 1 P (X1 = 1) = P (Y1 ≤ Y2 ) = P (Y1 < Y2 ) = λ1λ+λ 2 λ2 λ1 P (X1 = 0) = P (Y1 > Y2 ) = λ1 +λ2 = 1 − λ1 +λ2 . • Si ha X2 ∼ Exp(λ1 + λ2 ) perch´e, per ogni t ≥ 0, {min{Y1 , Y2 } > t} = {Y1 > t} ∩ {Y2 > t} da cui segue (per le ipotesi su Y1 e Y2 - indipendenza e distribuzione esponenziale per entrambe le variabili aleatorie) P (min{Y1 , Y2 } > t) = P (Y1 > t)P (Y2 > t) = e−λ1 t e−λ2 t = e−(λ1 +λ2 )t . Ora studiamo la distribuzione congiunta di (X1 , X2 ). Per ogni t ≥ 0, si ha P (X1 = 1, X2 > t) =P (Y1 ≤ Y2 , Y1 > t) = P (t < Y1 ≤ Y2 ) Z ∞ Z ∞ Z ∞ −λ1 y1 −λ2 y2 = λ1 e λ2 e dy2 dy1 = λ1 e−λ1 y1 e−λ2 y1 dy1 t y1 t Z ∞ λ1 = (λ1 + λ2 )e−(λ1 +λ2 )y1 dy1 = P (X1 = 1)P (X2 > t) λ1 + λ2 t e P (X1 = 0, X2 > t) =P (Y1 > Y2 , Y2 > t) = P (t < Y2 < Y1 ) Z ∞ Z ∞ Z ∞ −λ2 y2 −λ1 y1 = λ2 e λ1 e dy1 dy2 = λ2 e−λ2 y2 e−λ1 y2 dy2 t y2 t Z ∞ λ2 (λ1 + λ2 )e−(λ1 +λ2 )y2 dy2 = P (X1 = 0)P (X2 > t). = λ1 + λ2 t Quindi le variabili aleatorie X1 e X2 sono indipendenti, e questo `e un caso particolare con densit` a congiunta mista. In conclusione diamo una spiegazione della terminologia dati censurati usata nei casi in cui si hanno tempi aleatori da studiare non completamente osservabili. Per fissare le idee supponiamo di avere a che fare con un qualsiasi contesto in survival analysis e parleremo di tempo di funzionamento. Ad esempio supponiamo di essere interessati ad un tempo di funzionamento Y1 e di avere un tempo massimo di osservazione Y2 , il quale a sua volta potrebbe essere aleatorio (come accade sopra) o meno e indipendente (come accade sopra) o meno da Y1 . Allora il tempo di funzionamento osservato sar` a X2 = min{Y1 , Y2 } e abbiamo due casi individuati dai valori della variabile aleatoria variabile aleatoria X1 = 1Y1 ≤Y2 : • se X1 = 1, siamo riusciti ad osservare tutto il tempo di funzionamento e l’interruzione del funzionamento; • se X1 = 0, siamo riusciti ad osservare una parte del tempo di funzionamento (in questo senso si parla di tempo di funzionamento censurato), che coincide con il massimo tempo di osservazione; quindi non osserveremo l’interruzione del funzionamento che accadr` a dopo la fine del tempo di osservazione. 10 1.2.4 Il teorema del cambio di variabile per densit` a congiunte continue Iniziamo con l’enunciato. Teorema 1.2.7 (Teorema del cambio di variabile). Siano U e V aperti di Rn e sia ψ : U → V una funzione biunivoca tale che ψ e ψ −1 hanno derivate parziali continue. Inoltre siano X n = (X1 , . . . , Xn ) e Y n = (Y1 , . . . , Yn ) due variabili aleatorie n-dimensionali tali che P (Y n ∈ U ) = 1 e a continua fY n , X n ha densit` a continua X n = ψ(Y n ). Allora, se Y n ha densit` fX n (xn ) = fY n (ψ −1 (xn ))| det Jψ−1 (xn )|1V (xn ), dove Jψ−1 (xn ) = ∂ψi−1 ∂xj (xn ) i,j∈{1,...,n} `e la matrice Jacobiana associata a ψ −1 . Ora vediamo alcuni esempi con l’uso di questo risultato. Esempio 1.2.8 (Esempio con Esponenziali). Consideriamo una variabile aleatoria 2-dimensionale continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ Exp(λ) (`e la stessa situazione dell’Esempio 1.2.6 con λ1 = λ2 = λ). In corrispondenza consideriamo la variabile 1 aleatoria (X1 , X2 ) = ( Y1Y+Y , Y1 + Y2 ). 2 Le distribuzioni marginali della variabili aleatoria (X1 , X2 ) si deducono facilmente come segue. • La variabile aleatoria X1 ha la seguente funzione di distribuzione 0 Y1 ≤ x1 = FX1 (x1 ) = P (X1 ≤ x1 ) = P (∗) Y1 + Y2 1 se x1 ≤ 0 se x1 ∈ (0, 1) se x1 ≥ 1, dove (∗) =P (Y1 ≤ x1 (Y1 + Y2 )) = P (x1 Y2 ≥ (1 − x1 )Y1 ) = P ! Z Z Z ∞ = λe−λy1 0 Z = ∞ λe ∞ 1−x1 y1 x1 1−x −λ 1+ x 1 y1 1 λe−λy2 dy2 ∞ dy1 = λe−λy1 e −λ 1−x1 y1 x1 dy1 0 Z ∞ dy1 = λe − xλ y1 1 Z dy1 = x1 0 0 1 − x1 Y1 Y2 ≥ x1 0 ∞ λ − xλ y1 e 1 dy1 = x1 , x1 e quindi X1 ha densit` a continua fX1 (x1 ) = 1[0,1] (x1 ). In conclusione X1 ∼ U [0, 1]. • Si ha X2 ∼ Gamma(2, λ) per la Proposizione 1.1.2(i) con α1 = α2 = 1 e β = λ. Ora studiamo la distribuzione congiunta di (X1 , X2 ). Si usa il teorema del cambio di variabile (Teorema 1.2.7) con U = (0, ∞) × (0, ∞), V = (0, 1) × (0, ∞) 1 ψ(y1 , y2 ) = y1y+y , y1 + y2 2 f −λy1 1 −λy2 1 Y1 ,Y2 (y1 , y2 ) = λe (0,∞) (y1 )λe (0,∞) (y2 ). In corrispondenza si ha ψ −1 (x1 , x2 ) = (x1 x2 , x2 (1 − x1 )) perch´e ( ( ( 1 x1 = y1y+y y1 = x1 x2 x x = y 1 2 1 2 x2 = y1 + y2 , x2 = y1 + y2 , 11 y2 = x2 − x1 x2 = x2 (1 − x1 ); inoltre si ha | det Jψ−1 (x1 , x2 )| = det x2 −x2 x1 1 − x1 ! = |x2 (1 − x1 ) + x1 x2 | = |x2 | e si verifica che 1(0,∞) (y1 )1(0,∞) (y2 ) = 1(0,∞) (x1 x2 )1(0,∞) (x2 (1 − x1 )) = 1V (x1 , x2 ). Quindi otteniamo la seguente densit` a congiunta fX1 ,X2 (x1 , x2 ) =λe−λx1 x2 λe−λx2 (1−x1 ) |x2 |1V (x1 , x2 ) = 1(0,1) (x1 ) λ2 x2 e−λx2 1(0,∞) (x2 ), | {z } | {z } =fX1 (x1 ) =fX2 (x2 ) dove l’ultima uguaglianza mette in evidenza il fatto che X1 e X2 sono indipendenti con le densit` a marginali che gi` a calcolate (infatti 1(0,1) (x1 ) `e una diversa versione della densit` a continua della λ2 2−1 −λx2 2 −λx 2 1(0,∞) (x2 )). distribuzione U [0, 1], e λ x2 e 1(0,∞) (x2 ) coincide con Γ(2) x2 e Esempio 1.2.9 (Esempio con Normali). Consideriamo una variabile aleatoria 2-dimensionale continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e, per ogni i ∈ {1, 2}, Yi ∼ N (0, 1). In corrispondenza consideriamo la variabile aleatoria (X1 , X2 ) costituita dalle coordinate polari associate al punto di p [ (Y ,Y ) ), dove A `e il punto del coordinate cartesiane (Y1 , Y2 ), cio`e (X1 , X2 ) = ( Y12 + Y22 , AOA 1 2 piano con coordinate (1, 0), A(Y1 ,Y2 ) `e il punto del piano con coordinate (Y1 , Y2 ) e O = (0, 0) `e l’origine. Si usa il teorema del cambio di variabile (Teorema 1.2.7) con U = R2 \ {(y1 , y2 ) : y1 ≤ 0, y2 = 0}, V = (0, ∞) × (−π, π) p [ (y ,y ) ) ψ(y1 , y2 ) = ( y12 + y22 , AOA 1 2 2 2 2 +y 2 y1 y2 y1 2 f − − 1 1 (y , y ) = √ e 2 √ e 2 = 1 e− 2 . Y1 ,Y2 1 2 2π 2π 2π Vale la pena osservare che, per avere una funzione biunivoca tra insiemi aperti, per le coordinate cartesiane consideriamo il piano privato del semiasse negativo, cio`e l’insieme U ; quindi (osservando che per la densit` a congiunta si pu` o trascurare il semiasse negativo perch´e ha area nulla) si pensa di avere 1 − y12 +y22 2 fY1 ,Y2 (y1 , y2 ) = 1U (y1 , y2 ). e 2π ` noto che ψ −1 (x1 , x2 ) = (x1 cos x2 , x1 sin x2 ); inoltre si ha E ! cos x2 −x1 sin x2 | det Jψ−1 (x1 , x2 )| = det = |x1 cos2 x2 + x1 sin2 x2 | = |x1 | sin x2 x1 cos x2 e si verifica che 1U (y1 , y2 ) = 1U (x1 cos x2 , x1 sin x2 ) = 1V (x1 , x2 ). Quindi otteniamo la seguente densit` a congiunta fX1 ,X2 (x1 , x2 ) = x2 1 − x21 1 1 e 2 |x1 |1V (x1 , x2 ) = x1 e− 2 1(0,∞) (x1 ) 1(−π,π) (x2 ) . 2π | {z } |2π {z } =fX1 (x1 ) =fX2 (x2 ) In corrispondenza possiamo dire che X1 e X2 sono indipendenti con le densit` a marginali fX1 e fX2 indicate; in particolare X2 ∼ U [−π, π]. 12 Esempio 1.2.10 (Proseguimento dell’Esempio 1.2.9). Consideriamo la stessa situazione dell’Esempio 1.2.9 e definiamo la variabile aleatoria W = YY12 . Allora per ogni t ∈ R si ha FW (t) =P (W ≤ t) = P Y2 ≤t Y1 =P Y2 Y2 ≤ t ∩ {Y1 ≥ 0} + P ≤ t ∩ {Y1 < 0} Y1 Y1 =P ({Y2 ≤ tY1 } ∩ {Y1 > 0}) + P ({Y2 ≥ tY1 } ∩ {Y1 < 0}) Z ty1 Z ∞ Z ∞ Z 0 1 − y12 1 − y12 1 − y22 1 − y22 2 2 2 2 √ e √ e √ e √ e = dy2 dy1 + dy2 dy1 . 2π 2π 2π 2π 0 −∞ −∞ ty1 A questo punto possiamo ottenere la densit` a continua di W derivando rispetto a t. Prima di tutto, tenendo presente che si pu` o derivare sotto il segno di integrale, si ha Z ∞ Z 0 2 y1 (ty1 )2 1 − y12 1 − (ty1 )2 1 1 √ e 2 √ e 2 y1 dy1 − √ e− 2 √ e− 2 y1 dy1 fW (t) = 2π 2π 2π 2π 0 −∞ Z ∞ (1+t2 )y2 Z 0 2 )y 2 (1+t 1 1 1 1 = e− 2 y1 dy1 − e− 2 y1 dy1 ; 2π 0 2π −∞ inoltre, poich´e il secondo integrale coincide con l’opposto del primo (basta considerare un semplice cambio di variabile), otteniamo la seguente espressione: Z ∞ (1+t2 )y2 Z ∞ (1+t2 )y2 2 1 1 1 − 2 fW (t) = e y1 dy1 = e− 2 (1 + t2 )y1 dy1 2 2π 0 π(1 + t ) 0 2 )y 2 y1 =∞ (1+t 1 1 1 −e− 2 = . = π(1 + t2 ) π(1 + t2 ) y1 =0 Possiamo ottenere lo stesso risultato in un altro modo osservando che W = tan X2 , dove X2 `e la variabile aleatoria nell’Esempio 1.2.9 e quindi X2 ∼ U [−π, π]. A tal proposito si ricorda che x 7→ tan x `e invertibile con inversa y 7→ arctan y per x ∈ − π2 , π2 . Quindi si ha (∗) FW (t) = P (W ≤ t) = P (tan X2 ≤ t) = 2 Z arctan t − π2 1 1 π dx2 = arctan t + 2π π 2 (∗) (si osservi che l’uguaglianza = si motiva in maniera diversa distinguendo i casi t ≤ 0 e t > 0) da 1 cui, derivando rispetto a t, si ottiene ancora la densit` a fW (t) = π(1+t 2 ) . In conclusione possiamo dire che la variabile aleatoria W ha distribuzione di Cauchy, e tale distribuzione costituisce un esempio di distribuzione continua per cui non si ha una speranza matematica finita. Esempio 1.2.11 (Esempio con Uniformi). Consideriamo una variabile aleatoria 2-dimensionale continua (Y1 , Y2 ) dove Y1 e Y2 sono indipendenti e ciascuna delle due ha distribuzione Uniforme su [0, 1]. In corrispondenza consideriamo la variabile aleatoria (X1 , X2 ) = (Y1 + Y2 , Y1 − Y2 ). Si usa il teorema del cambio di variabile (Teorema 1.2.7) con U = (0, 1) × (0, 1), V = {(x1 , x2 ) : 0 < x1 + x2 < 2, 0 < x1 − x2 < 2} ψ(y1 , y2 ) = (y1 + y2 , y1 − y2 ) fY1 ,Y2 (y1 , y2 ) = 1(0,1) (y1 )1(0,1) (y2 ) (stiamo considerando le versioni 1(0,1) (y1 ) e 1(0,1) (y2 ) al posto di 1[0,1] (y1 ) e 1[0,1] (y2 ) rispettiva 2 x1 −x2 mente). In corrispondenza si ha ψ −1 (x1 , x2 ) = x1 +x perch´e 2 , 2 ( ( 2 x1 = y1 + y2 y1 = x1 +x 2 2 x2 = y1 − y2 , y2 = x1 −x 2 ; 13 inoltre si ha | det Jψ−1 (x1 , x2 )| = det 1 2 1 2 1 2 − 21 ! 1 1 1 = − − = 4 4 2 e si verifica che 1(0,1) (y1 )1(0,1) (y2 ) = 1(0,1) x1 + x2 2 1(0,1) x1 − x2 2 = 1V (x1 , x2 ). Quindi otteniamo la seguente densit` a congiunta 1 fX1 ,X2 (x1 , x2 ) = 1V (x1 , x2 ). 2 In corrispondenza possiamo dire che (X1 , X2 ) ha distribuzione uniforme sull’insieme V (che `e il quadrato di vertici (0, 0), (1, 1), (2, 0), (1, −1); l’area di tale quadrato `e uguale a 2 (e in effetti si √ vede che il lato del quadrato ha lunghezza 2) e questo spiega perch`e appare il denominatore 2 nell’espressione della densit` a. Osserviamo che X1 e X2 non sono indipendenti perch´e V non `e un insieme esprimibile come prodotto cartesiano tra due insiemi. 1.2.5 Variabili aleatorie n-dimensionali non continue, con marginali continue In generale, date n variabili aleatorie reali X1 , . . . , Xn definite su uno stesso spazio di probabilit`a, non `e possibile conoscere la distribuzione della variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ). Per` o la distribuzione della variabile aleatoria n-dimensionale `e nota se le componenti sono indipendenti. In particolare abbiamo gi`a illustrato il caso di componenti indipendenti nel caso di variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn ) discreta e continua (e anche il caso con densit`a mista). ` opportuno osservare la seguente differenza tra variabili aleatorie n-dimensionali discrete e contiE nue. In generale, date n variabili aleatorie reali discrete X1 , . . . , Xn definite su uno stesso spazio di probabilit`a, `e sempre possibile pensarle come le componenti di una variabile aleatoria discreta ndimensionale X n = (X1 , . . . , Xn ). Al contrario, date n variabili aleatorie reali continue X1 , . . . , Xn definite su uno stesso spazio di probabilit`a, non `e garantito che queste siano le componenti di una variabile aleatoria continua n-dimensionale X n = (X1 , . . . , Xn ). In quel che segue costruiremo alcuni esempi e, per fare questo, `e opportuno fare riferimento a casi in cui si ha P (X n ∈ S) = 1, dove S ⊂ Rn e il Rn -volume1 di S `e nullo. In quel che segue consideriamo alcuni esempi n-dimensionali con n = 2 (per fissare le idee) in cui l’insieme S `e una retta, o l’unione di due semirette e un segmento, o l’unione di due rette. Esempio 1.2.12 (Trasformazione affine). Sia n = 2. Poniamo X2 = aX1 + b dove a, b ∈ R e a 6= 0 (si esclude a = 0 perch´e altrimenti si avrebbe X2 = b, e quindi si avrebbe un caso con X2 discreta). Allora (X1 , X2 ) non pu` o essere continua perch´e non `e possibile trovare una densit` a continua fX1 ,X2 . 2 Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = ax1 + b}, si ha P ((X1 , X2 ) ∈ S) = 1 per costruzione e S ha area nulla nel piano (essendo una retta). Per` o possiamo avere le marginali continue. Infatti, se X1 `e una variabile aleatoria continua con densit` a fX1 , allora anche X2 `e continua con densit` a fX2 data dalla Proposizione 1.1.1. Si osservi che si ha Z P ((X1 , X2 ) ∈ A) = fX1 (x1 )dx1 per ogni A ∈ BR2 . {x1 ∈R:(x1 ,ax1 +b)∈A} 1 Ad esempio il R2 -volume di S ⊂ R2 `e l’area di S. 14 Tale formula mette in evidenza che, dato un qualsiasi insieme A ∈ BR2 , possiamo limitarci a considerare la sua traccia dell’insieme A sulla retta S. Esempio 1.2.13 (Esempio 1 con marginali simmetriche con la stessa distribuzione). Sia n = 2. Poniamo X2 = g(X1 ), dove ( x se |x| ≤ 1 g(x) = (1.1) −x se |x| > 1. Allora (X1 , X2 ) non pu` o essere continua perch´e non `e possibile trovare una densit` a continua fX1 ,X2 . 2 Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = g(x1 )}, si ha P ((X1 , X2 ) ∈ S) = 1 per costruzione e S ha area nulla nel piano (essendo l’unione di un segmento e di due semirette). Poi osserviamo che, se X1 `e simmetrica (cio`e X1 ha la stessa distribuzione di −X1 ), X1 e X2 hanno la stessa distribuzione. Questo si dimostra come segue. Per ogni t ∈ R si ha P (X2 ≤ t) =P ({X2 ≤ t} ∩ {|X1 | ≤ 1}) + P ({X2 ≤ t} ∩ {|X1 | > 1}) =P ({X1 ≤ t} ∩ {|X1 | ≤ 1}) + P ({−X1 ≤ t} ∩ {|X1 | > 1}) e, poich´e per ipotesi di simmetria per la X1 si ha P ({−X1 ≤ t} ∩ {|X1 | > 1}) = P ({X1 ≤ t} ∩ {| − X1 | > 1}) = P ({X1 ≤ t} ∩ {|X1 | > 1}), otteniamo che P (X2 ≤ t) = P ({X1 ≤ t} ∩ {|X1 | ≤ 1}) + P ({X1 ≤ t} ∩ {|X1 | > 1}) = P (X1 ≤ t). In conclusione, se X1 `e continua (e per ipotesi di simmetria la sua densit` a continua deve essere una funzione simmetrica), allora X2 `e continua con la stessa densit` a. Esempio 1.2.14 (Esempio 2 con marginali simmetriche con la stessa distribuzione). Sia n = 2. Poniamo X2 = ZX1 , dove Z `e una variabile aleatoria indipendente da X1 e tale che P (Z = 1) = P (Z = −1) = 21 . Allora (X1 , X2 ) non pu` o essere continua perch´e non `e possibile trovare una densit` a continua fX1 ,X2 . 2 Infatti, se consideriamo l’insieme S = {(x1 , x2 ) ∈ R : x2 = |x1 |}, si ha P ((X1 , X2 ) ∈ S) = 1 per costruzione e S ha area nulla nel piano (essendo l’unione di due rette). Poi osserviamo che, se X1 `e simmetrica (cio`e X1 ha la stessa distribuzione di −X1 ), X1 e X2 hanno la stessa distribuzione. Questo si dimostra come segue. Per ogni t ∈ R si ha P (X2 ≤ t) =P (ZX1 ≤ t) = P ({ZX1 ≤ t} ∩ {Z = 1}) + P ({ZX1 ≤ t} ∩ {Z = −1}) =P ({X1 ≤ t} ∩ {Z = 1}) + P ({−X1 ≤ t} ∩ {Z = −1}) e, poich´e per le ipotesi si ha ( P ({X1 ≤ t} ∩ {Z = 1}) = P (X1 ≤ t)P (Z = 1) = P (X21 ≤t) P ({−X1 ≤ t} ∩ {Z = −1}) = P (−X1 ≤ t)P (Z = −1) = P (−X2 1 ≤t) = otteniamo che P (X1 ≤t) , 2 P (X1 ≤ t) P (X1 ≤ t) + = P (X1 ≤ t). 2 2 Quindi possiamo concludere come nell’Esempio 1.2.13: se X1 `e continua (e per ipotesi di simmetria la sua densit` a continua deve essere una funzione simmetrica), allora anche X2 `e continua con la stessa densit` a. P (X2 ≤ t) = 15 1.2.6 Distribuzione Normale n-dimensionale In questo paragrafo viene utile considerare le variabili aleatorie n-dimensionali come particolari vettori colonna. A tal fine scriveremo X n = (X1 , . . . , Xn )0 dove il simbolo 0 viene usato per l’operazione di trasposta per matrici in tutto il paragrafo. In generale la distribuzione di una variabile aleatoria n-dimensionale X n = (X1 , . . . , Xn )0 (per n ≥ 1; quindi possiamo anche considerare le variabili aleatorie reali) `e individuata dalla funzione caratteristica ϕX n : Rn → C, la quale `e definita come segue: ϕX n (tn ) = E[exp(it0n X n )], P dove i2 = −1 (unit` a immaginaria complessa), tn = (t1 , . . . , tn )0 ∈ Rn e t0n X n = ni=1 ti Xi . Nel caso n ≥ 2, la funzione caratteristica consente di fornire una condizione necessaria e sufficiente per le variabili aleatorie X1 , . . . , Xn ; precisamente si ha indipendenza se e solo se ϕX n (tn ) = n Y ϕXi (ti ) per ogni tn = (t1 , . . . , tn )0 ∈ Rn . i=1 La Definizione 1.2.15 riguarda l’estensione n-dimensionale del caso unidimensionale standardizzato (dove standardizzato significa con media 0 e varianza 1), mentre la Definizione 1.2.16 riguarda l’estensione n-dimensionale del caso generale. Definizione 1.2.15. Si dice che X n = (X1 , . . . , Xn )0 ha distribuzione Normale Nn (0, In ) se X1 , . . . , Xn sono variabili aleatorie reali indipendenti con distribuzione N (0, 1). In tal caso si ha ktn k2 ϕX n (tn ) = e− 2 , dove ktn k2 = t21 + · · · + t2n ; inoltre possiamo dire che X n = (X1 , . . . , Xn )0 `e continua con densit` a x2 x2 kx k2 1 1 1 n 1 − n2 fX n (xn ) = √ e− 2 · · · √ e− 2 = , e n 2π 2π (2π) 2 dove kxn k2 = x21 + · · · + x2n . Definizione 1.2.16. Sia Σ2n = (σij )i,j∈{1,...,n} ∈ Rn×n una matrice con le seguenti propriet` a: • simmetrica (cio`e σij = σji per ogni i, j ∈ {1, . . . , n}); • semi-definita positiva (cio`e t0n Σ2n tn ≥ 0 per ogni tn = (t1 , . . . , tn )0 ∈ Rn , dove t0n Σ2n tn = Pn i,j=1 ti σij tj ). In tal caso esiste una matrice Σn ∈ Rn×n simmetrica e semi-definita positiva per cui si ha Σ2n = (Σn )2 . Allora, dato µn ∈ Rn , si dice che X n = (X1 , . . . , Xn )0 ha distribuzione Normale Nn (µn , Σ2n ) se ha la distribuzione di µn + Σn Z n dove Z n = (Z1 , . . . , Zn )0 ha distribuzione Normale Nn (0, In ) in accordo con la Definizione 1.2.15. In corrispondenza la funzione caratteristica `e ϕX n (tn ) = exp it0n µn − t0n Σ2n tn 2 . Spiegazione dell’esistenza della matrice Σn . Facendo riferimento al Teorema Spettrale (si veda [5], Capitolo 11), per la simmetria di Σ2n esiste una base di autovettori ortogonali di Σ2n ; in corrispondenza sia B la matrice ottenuta con gli autovettori (pensati come vettori colonna) normalizzati. Allora si ha: • B 0 B = In , che equivale a dire B 0 = B −1 ; 16 • B 0 Σ2n B = D dove D = diag(λ1 , . . . , λn ) `e la matrice diagonale costituita dagli autovalori λ1 , . . . , λn di Σ2n , da cui segue Σ2n = BDB −1 = BDB 0 ; • λ1 , . . . , λn ≥ 0 perch´e la matrice Σ2n `e semi-definita positiva e, se consideriamo la √ √ 1 1 matrice D 2 = diag( λ1 , . . . , λn ), la matrice richiesta `e Σn = BD 2 B 0 (infatti: Σn 1 1 `e simmetrica perch´e Σ0n = (BD 2 B 0 )0 = BD 2 B 0 = Σn ; Σn `e semi-definita positiva 1 perch´e, per ogni tn ∈ Rn , posto B 0 tn = (a1 , . . . , an )0 , si ha t0n Σn tn = t0n BD 2 B 0 tn = P √ 1 1 1 (Bt0n )0 D 2 B 0 tn = ni=1 λi a2i ≥ 0; si ha (Σn )2 = (BD 2 B 0 )(BD 2 B 0 ) = BDB 0 = Σ2n ). Interpretazione dei parametri. Osserviamo che, se X n = (X1 , . . . , Xn )0 ha distribuzione Normale Nn (µn , Σ2n ), allora µn = (µ1 , . . . , µn )0 `e il vettore delle medie (cio`e µi = E[Xi ] per i ∈ {1, . . . , n}) e Σ2n `e la matrice di covarianza (cio`e σij = Cov(Xi , Xj ) per i, j ∈ {1, . . . , n}). In particolare osserviamo anche che la matrice di covarianza deve essere simmetrica (perch´e la covarianza tra due variabili aleatorie `e simmetrica) e semi-definita positiva (perch´e, per ogni tn =∈ Rn , si verifica che t0n Σ2n tn = Var[t0n X n ] ≥ 0). (1) (h) Combinazioni lineari di variabili Normali indipendenti. Siano X n , . . . , X n variabili alea(j) , Σ2n,(j) ). Si osservi che torie n-dimensionali indipendenti e, per ogni j ∈ {1, . . . , h}, X n ∼ Nn (µ(j) n qualcuna tra queste potrebbe essere la costante µ(j) e matrice di covarianza Σ2n,(j) nulla. Nei n calcoli con funzioni caratteristiche che presentiamo di seguito le uguaglianze indicate con (∗) seguono dall’ipotesi di indipendenza, mentre le uguaglianze indicate con (∗∗) seguono dall’ipotesi (j) , Σ2n,(j) ) per ogni j ∈ {1, . . . , h}. X n ∼ Nn (µ(j) n Ph P P (j) • Siano a1 , . . . , ah ∈ R; allora , hj=1 a2j Σ2n,(j) ). Questo si ∼ Nn ( hj=1 aj µ(j) j=1 aj X n n dimostra calcolando la sua funzione caratteristica come segue: h h X X = E exp i ϕPh a X (j) (tn ) = E exp it0n aj X (j) aj t0n X (j) n n j=1 j n j=1 = E h Y j=1 exp iaj t0n X (j) n j=1 (∗) = h Y i h E exp iaj t0n X (j) n j=1 h Y 1 2 0 2 (∗∗) 0 (j) = exp iaj tn µn − aj tn Σn,(j) tn 2 j=1 h h X X 1 = exp it0n aj µ(j) − t0n a2j Σ2n,(j) tn . n 2 j=1 • Siano A1 , . . . , Ah ∈ Rm×n ; allora j=1 (j) j=1 Aj X n Ph 17 P P ∼ Nm ( hj=1 Aj µ(j) , hj=1 Aj Σ2n,(j) A0j ). Quen sto si dimostra calcolando la sua funzione caratteristica come segue: h h X X = E exp i ϕPh A X (j) (tm ) = E exp it0m Aj X (j) t0m Aj X (j) n n j=1 j n j=1 = E h Y j=1 = E exp it0m Aj X (j) n j=1 (∗) = h Y h Y exp i(A0j tm )0 X (j) n j=1 i h E exp i(A0j tm )0 X (j) n j=1 (∗∗) = h Y j=1 1 0 0 0 0 (j) 0 2 exp i(Aj tm ) µn − (Aj tm ) Σn,(j) (Aj tm ) 2 h Y 1 0 0 0 (j) 2 = exp itm Aj µn − tm Aj Σn,(j) Aj tm 2 j=1 h h X X 1 = exp it0m − t0m Aj µ(j) Aj Σ2n,(j) A0j tm . n 2 j=1 Classificazione. [2]. j=1 Abbiamo due casi. Qui `e presentata una rielaborazione dell’Esercizio E0.4 in 1. Σ2n invertibile. In questo caso anche Σn `e invertibile. Allora, se consideriamo il teorema del cambio di variabile (Teorema 1.2.7) con la funzione ψ : Rn → Rn definita dalla trasformazione affine ψ(z n ) = µn + Σn z n , abbiamo una funzione invertibile con inversa ψ −1 (xn ) = Σ−1 n (xn − −1 0 µn ) e Jψ−1 (xn ) = Σn . In conclusione X n = (X1 , . . . , Xn ) ha densit`a fX n (xn ) = −1 (x −µ )k2 n n 2 kΣ 1 − n n e (2π) 2 | det(Σ−1 n )| = 1 n − 1 e (2π) 2 (det(Σ2n )) 2 −1 (x −µ ) (xn −µ )0 (Σ2 n n) n n 2 . 2. Σ2n non invertibile. Abbiamo gi`a visto che t0n Σ2n tn = Var[t0n X n ] ≥ 0. Inoltre, se consideriamo l’insieme ker(Σ2n ) = {v n ∈ Rn : Σ2n v n = 0n } - dove 0n ∈ Rn `e il vettore nullo - detto P nucleo di Σ2n , per tn ∈ ker(Σ2n ) si ha che t0n X n = ni=1 ti Xi `e una variabile aleatoria costante; P quindi P ( ni=1 ti (Xi − µi ) = 0) = 1, cio`e P (X n − µn ∈ (ker(Σ2n ))⊥ ) = 1, dove l’insieme (ker(Σ2n ))⊥ = {wn ∈ Rn : w0n v n = 0 per ogni v n ∈ ker(Σ2n )} `e detto ortogonale del nucleo di Σ2n . Infine possiamo dimostrare che P (X n ∈ µn + Im(Σ2n )) = 1, (1.2) dove l’insieme Im(Σ2n ) = {Σ2n v n : v n ∈ Rn } `e detto immagine di Σ2n ; a tal proposito si dovr` a verificare che Im(Σ2n ) = (ker(Σ2n ))⊥ . (1.3) Prima di tutto iniziamo osservando che vale l’inclusione Im(Σ2n ) ⊂ (ker(Σ2n ))⊥ perch´e, per ogni v n ∈ Rn e wn ∈ ker(Σ2n ) si ha w0n (Σ2n v n ) = (w0n Σ2n v n )0 = v 0n Σ2n wn = v 0n 0n = 0 18 (la prima uguaglianza segue dal fatto che la trasposta di un numero coincide con il numero stesso); inoltre, poich´e abbiamo le due seguenti uguaglianze note in algebra lineare ( n = dim ker(Σ2n ) + dim Im(Σ2n ) n = dim ker(Σ2n ) + dim(ker(Σ2n ))⊥ , si ha dim Im(Σ2n ) = dim(ker(Σ2n ))⊥ ; in conclusione Im(Σ2n ) `e un sottospazio vettoriale di (ker(Σ2n ))⊥ con la stessa dimensione di (ker(Σ2n ))⊥ , e questo dimostra l’uguaglianza (1.3). Rivisitazione degli Esempi 1.2.12, 1.2.13 e 1.2.14. Per gli Esempi 1.2.13 e 1.2.14 si veda anche l’Esercizio E0.4 in [1] e l’Esercizio E0.15 in [2] (dove, per semplicit`a, in entrambi i casi si assume σ12 = 1). • Esempio 1.2.12. Consideriamo l’esempio in questione assumendo che la variabile aleatoria ` opportuno X1 abbia distribuzione Normale 1-dimensionale di media µ1 e varianza σ12 . E ricordare che le costanti sono particolari distribuzioni Normali con varianza nulla. Quindi `e consentito considerare i seguenti casi: σ12 = 0 e quindi X1 = µ1 costante; a = 0 che porta ad avere X2 = b costante. Questi casi verranno discussi alla fine di questo esempio rivisitato. In generale `e noto che anche la variabile aleatoria X2 ha distribuzione Normale 1-dimensionale di media µ2 = aµ1 +b e varianza σ22 = a2 σ12 . In questo caso (X1 , X2 )0 ha distribuzione Normale 2-dimensionale con vettore delle medie (µ1 , µ2 )0 = (µ1 , aµ1 + b)0 e matrice di covarianza ! ! Var[X1 ] Cov(X1 , X2 ) σ12 aσ12 2 Σ2 = = ; Cov(X2 , X1 ) Var[X2 ] aσ12 a2 σ12 gli elementi extra-diagonali, coincidenti per simmetria della matrice di covarianza, si ottengono osservando che Cov(X1 , X2 ) = Cov(X1 , aX1 + b) = aCov(X1 , X1 ) + Cov(X1 , b) = aVar[X1 ] + 0 = aσ12 . Osserviamo che det Σ2n = a2 (σ12 )2 − a2 (σ12 )2 = 0 e quindi, in riferimento alla classificazione presentata sopra, siamo nel secondo caso. A proposito della (1.2), e in particolare dell’insieme µn + Im(Σ2n ) con n = 2, si ha Im(Σ22 ) ={(σ12 x1 + aσ12 x2 , aσ12 x1 + a2 σ12 x2 )0 : x1 , x2 ∈ R} ={(σ12 (x1 + ax2 ), aσ12 (x1 + ax2 ))0 : x1 , x2 ∈ R} = {σ12 (y, ay)0 : y ∈ R}; quindi, se σ12 > 0, con probabilit` a 1 la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme costituito dalla retta generata dai multipli del vettore σ12 (1, a)0 e traslata con vettore delle medie µ2 = (µ1 , aµ1 + b)0 . Si osservi che la matrice di covarianza che individua la direzione della retta dipende da a e non dipende da b; del resto le costanti additive non hanno influenza nel calcolo delle varianze e delle covarianze. Ora concludiamo con i casi particolari. Se σ12 = 0, la retta traslata citata sopra si riduce al singolo punto µ2 e quindi si ha la variabile aleatoria costante (X1 , X2 )0 = (µ1 , aµ1 + b)0 . Se a = 0, la retta traslata citata sopra `e del tipo x2 = b in accordo con il fatto che si ha la variabile aleatoria costante X2 = b. 19 • Esempi 1.2.13 e 1.2.14. Consideriamo gli esempi in questione assumendo che la variabile aleatoria X1 abbia distribuzione Normale 1-dimensionale di media 0 (perch´e vogliamo che X1 sia simmetrica) e varianza σ12 > 0 (escludiamo il caso che σ12 = 0 perch´e si avrebbe la variabile aleatoria costante X1 = 0, da cui segue X2 = 0; quindi si avrebbe una variabile aleatoria 2dimensionale con distribuzione Normale rappresentata dalla costante (X1 , X2 )0 = (0, 0)0 ). Allora, per quanto abbiamo visto in ciascuno dei due esempi in questione, anche la variabile aleatoria X2 ha distribuzione Normale di media 0 e varianza σ12 > 0. Per`o in entrambi i casi la variabile aleatoria (X1 , X2 )0 non ha distribuzione Normale 2-dimensionale perch´e: – Nell’Esempio 1.2.13, la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme S = {(x1 , x2 ) ∈ R2 : x2 = g(x1 )} con probabilit`a 1; – Nell’Esempio 1.2.14, la variabile aleatoria (X1 , X2 )0 assume valori nell’insieme S = {(x1 , x2 ) ∈ R2 : x2 = |x1 |} con probabilit`a 1 (pi` u precisamente negli insiemi {(x1 , x2 ) ∈ 2 2 R : x2 = x1 } e {(x1 , x2 ) ∈ R : x2 = −x1 } con probabilit`a 21 e 12 rispettivamente). Tali situazioni sono ovviamente in disaccordo con la (1.2). 20 Capitolo 2 Statistica Classica e Statistica Bayesiana 2.1 Introduzione Un modello statistico `e una famiglia di distribuzioni {Pθ : θ ∈ Ω} dove Ω ⊂ Rd per qualche d; le distribuzioni sono tutte dello stesso tipo, cio`e sono tutte discrete o continue e, in corrispondenza, si fa riferimento ad una famiglia di densit`a (discrete o continue) {f (·|θ) : θ ∈ Ω}. In genere si ha un insieme di riferimento X (detto spazio campionario) dove le densit`a sono positive almeno per un valore di θ. Penseremo sempre di avere una situazione di identificabilit`a, cio`e Pθ1 6= Pθ2 se θ1 6= θ2 . Si suppone di avere delle variabili aleatorie osservabili (dette osservazioni ), la cui distribuzione `e una tra quelle del modello statistico Pθ0 , dove θ0 rappresenta il vero valore del parametro che individua la vera distribuzione delle osservazioni, e θ0 `e incognito. Il problema dell’Inferenza Statistica consiste nel dedurre informazioni su θ0 a partire dai valori osservati. Abbiamo due possibili approcci di cui diamo subito una breve descrizione: Statistica Classica e Statistica Bayesiana. Le definizioni di stimatore e statistica sufficiente verranno presentati alla fine di questa sezione. Statistica Classica. Si suppone di avere variabili aleatorie X1 , . . . , Xn i.i.d. e con distribuzione comune Pθ0 , dove θ0 `e un parametro incognito e deterministico. In tal caso si deve far riferimento alla famiglia {fX n (·|θ) : θ ∈ Ω} delle possibili densit`a congiunte (discrete o continue) di X n = (X1 , . . . , Xn ), cio`e fX n (xn |θ) = f (x1 |θ) · · · f (xn |θ). Talvolta, per xn ∈ X n fissato, questa espressione viene considerata come la seguente funzione Ω 3 θ 7→ Lxn (θ) = f (x1 |θ) · · · f (xn |θ), (2.1) detta funzione di verosimiglianza. Statistica Bayesiana. Si suppone di avere variabili aleatorie X1 , . . . , Xn i.i.d. condizionatamente a {Θ = θ0 }, dove Θ `e una variabile aleatoria a valori in Ω; dunque θ0 viene considerato un parametro incognito e aleatorio. In tal caso si deve far riferimento alla densit`a congiunta (discreta, 21 continua o mista) di (X1 , . . . , Xn , Θ), che `e fX n ,Θ (xn , θ) = f (x1 |θ) · · · f (xn |θ)h(θ), dove h `e la densit` a marginale (discreta o continua) di Θ. In quel che segue, anche alla luce degli esempi che verranno trattati nel seguito, penseremo che h R sia una densit` a continua. Quindi vedremo spesso integrali del tipo Ω dθ e non sommatorie del tipo P θ∈Ω . Dunque gli stati di informazione su θ0 in questo caso vengono descritti da possibili densit`a su Ω (discrete o continue) per la variabile aleatoria Θ. In particolare abbiamo lo stato di informazione iniziale (prima delle osservazioni) e lo stato di informazione finale (dopo delle osservazioni); nel primo caso si parla di densit` a iniziale (o densit` a a priori ) h che `e la densit`a marginale di Θ, nel secondo caso si parla di densit` a finale (o densit` a a posteriori ) h(·|xn ) che `e la densit`a marginale di Θ condizionata a X n = xn . Statistiche: stimatori e statistiche sufficienti. Una qualsiasi funzione Sn : X n → Sn (per un qualche insieme Sn ) viene detta statistica. Una statistica che fornisce una stima di una certa funzione del parametro f (θ) (eventualmente il parametro stesso se f `e la funzione identit`a) viene detta stimatore di f (θ). Una statistica che contiene tutte le informazioni sul parametro date dalle osservazioni viene detta statistica sufficiente. Come vedremo il concetto di statistica sufficiente in Statistica Classica e in Statistica Bayesiana ha una diversa formulazione. Vedremo anche che i due concetti coincidono perch´e si ha una stessa caratterizzazione nota come Criterio di Fattorizzazione delle densit`a per la statistica Sn : (F): Esistono due funzioni Hn e Kn tali che f (x1 |θ) · · · f (xn |θ) = Hn (xn )Kn (Sn (xn ), θ). Vale la pena osservare che la scelta delle funzioni Hn e Kn che appaiono nella condizione (F) non ˜n e K ˜ n ponendo H ˜ n = cHn e K ˜ n = Kn al variare di c. `e unica; ad esempio si hanno altre scelte H c 2.2 2.2.1 Statistica Classica Sufficienza Una statistica Sn (xn ) `e una statistica sufficiente (classica) se e solo se vale la seguente condizione: (SC): La densit` a condizionata di X n dato Sn (X n ) = Sn (xn ) non dipende da θ. Come vedremo, (SC) `e equivalente alla condizione (F) presentata nella sezione 2.1. Teorema 2.2.1 (Criterio di fattorizzazione (classico)). Vale la condizione (SC) se e solo se vale la condizione (F). Dimostrazione. Per fissare le idee facciamo riferimento al caso in cui {f (·|θ) : θ ∈ Ω} siano densit` a discrete; in questo caso la densit` a condizionata di X n dato Sn (X n ) = Sn (xn ) `e individuata dal f (x1 |θ)···f (xn |θ) P rapporto f (y1 |θ)···f (yn |θ) che in generale dipende da (xn , θ). n y ∈X :Sn (y )=Sn (xn ) n n Supponiamo che valga la condizione (SC). Allora, per un’opportuna funzione Hn (xn ), possiamo dire che f (x1 |θ) · · · f (xn |θ) P = Hn (xn ). y ∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ) n n n 22 P In corrispondenza abbiamo (F) ponendo Kn (Sn (xn ), θ) = y ∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ). n n n Viceversa supponiamo che valga la condizione (F). Allora si ha P yn f (x1 |θ) · · · f (xn |θ) =P ∈X n :Sn (y )=Sn (x ) f (y1 |θ) · · · f (yn |θ) y n n n Hn (xn )Kn (Sn (xn ), θ) ∈X n :Sn (y )=Sn (x ) Hn (y n )Kn (Sn (y n ), θ) n n Hn (xn ) =P y n ∈X n :Sn (y n )=Sn (xn ) Hn (y n ) e quindi vale (SC) perch´e 2.2.2 P Hn (xn ) y ∈X n :Sn (y )=Sn (xn ) n n Hn (y n ) , (ovviamente) non dipende da θ. 2 Stimatori In quel che segue useremo sempre la notazione xn per la media dei valori osservati, cio`e ( P nxn = ni=1 xi ; x1 + · · · + xn xn = , da cui segue Pn n i=1 (xi − xn ) = 0. (2.2) Inizieremo con lo stimatore con il metodo dei momenti e poi parleremo dello stimatore di massima verosimiglianza. Per molti modelli di uso comune, e in particolare per quelli presentati in queste note, lo stimatore di massima verosimiglianza ha ottime propriet`a e sar`a quello a cui faremo principalmente riferimento. Osservazione 2.2.2. La Miscellanea alla fine del capitolo 7 in [3] illustra la connessione tra questi due stimatori nel caso di modelli statistici costituiti da una famiglia esponenziale (di densit`a), cio`e se si ha f (x|θ) = a(x)b(θ)eh(x)k(θ) per opportune funzioni a, b, h, k. I modelli statistici presentati in queste note sono esponenziali tranne nel caso delle osservazioni Uniformi. Stimatore con il metodo dei momenti. Nel caso in cui θ = (θ1 , . . . , θk ) ∈ Rk per qualche k, si tratta di considerare il seguente sistema di equazioni: Eθ [X1 ] = xn Eθ [X 2 ] = 1 Pn x2 1 i=1 i n . .. P Eθ [X1k ] = n1 ni=1 xki . Allora, se esiste una soluzione (θ˜1 (xn ), . . . , θ˜k (xn )) del sistema, questa rappresenta lo stimatore di θ con il metodo dei momenti. Nel caso particolare di k = 1 abbiamo uno stimatore che dipende dalla media aritmetica xn , anche quando questa non `e una statistica sufficiente. Consideriamo il seguente esempio con k = 2 che `e piuttosto naturale nel caso di osservazioni normali di media e varianza incognite: (θ1 , θ2 ) = (Eθ [X1 ], Varθ [X1 ]). Allora abbiamo il sistema ( θ1 = x n P θ2 + θ12 = n1 ni=1 x2i , da cui si ottiene ( θ˜1 (xn ) = xn P θ˜2 (xn ) = n1 ni=1 x2i − x2n = 23 1 n Pn i=1 (xi − xn )2 . Si osservi che l’ultima uguaglianza si verifica come segue: n n n 1X 2 1X 1 X 2 2 2 xi − xn = (xi − xn + xn ) − xn = (xi − xn )2 + x2n + 2xn (xi − xn ) − x2n n n n i=1 i=1 i=1 n n n X 1X 1X = (xi − xn )2 + x2n + 2xn (xi − xn ) − x2n = (xi − xn )2 . n n i=1 i=1 i=1 Stimatore di massima verosimiglianza. Lo stimatore di massima verosimiglianza `e definito come una funzione (se `e possibile definirla) θˆ : X n → Ω tale che ˆ )) = max{Lx (θ) : θ ∈ Ω}, Lxn (θ(x n n dove Lxn (θ) `e la funzione di verosimiglianza definita in (2.1). ` importante osservare che talvolta `e utile fare riferimento al logaritmo della funzione di verosimiE glianza, cio`e ˆ )) = max{log Lx (θ) : θ ∈ Ω}; log Lxn (θ(x n n ovviamente questo `e lecito perch´e la funzione log(·) `e crescente1 . ˆ ) `e esprimibile come una funzione di una statistica sufficiente. Questo Infine osserviamo che θ(x n segue dal Criterio di Fattorizzazione, cio`e il Teorema 2.2.1 perch´e, per la condizione (F), si ha ˆ )) = Hn (x ) max{Kn (Sn (x ), θ) : θ ∈ Ω} Lxn (θ(x n n n e il punto di massimo in θ non cambia se si considerano due diverse scelte di punti di X n che hanno la stessa immagine tramite Sn . In altri termini possiamo dire che Sn (xn ) = Sn (y n ) implica ˆ ). ˆ ) = θ(y θ(x n n 2.3 Statistica Bayesiana Regole operative. Il legame tra densit`a iniziale e densit`a finale `e dato dalla formula h(θ|xn ) = f (x1 |θ) · · · f (xn |θ)h(θ) , fX n (xn ) (2.3) R dove fX n (xn ) = Ω f (x1 |η) · · · f (xn |η)h(η)dη `e la densit`a marginale di X n (discreta o continua, dello stesso tipo delle densit` a {f (·|θ) : θ ∈ Ω}; si osservi che la densit`a iniziale h e la densit`a finale R ` opportuno sottolineare che h(·|xn ) possono essere dell’altro tipo). E Ω h(θ|xn )dθ = 1 e quindi il 1 fattore fX (x ) , che non dipende da θ, `e una costante di normalizzazione. n n ` utile considerare la seguente relazione di proporzionalit` E a : si dice che g1 `e proporzionale a g2 , in simboli g1 ∝ g2 , se esiste c > 0 tale che g1 (θ) = cg2 (θ) per ogni θ ∈ Ω. Osserviamo che ∝ `e una relazione di equivalenza: ` : g ∝ g. • Riflessivita • Simmetria: g1 ∝ g2 implica g2 ∝ g1 . ` : g1 ∝ g2 e g2 ∝ g3 implicano g1 ∝ g3 . • Transitivita 1 In alcuni casi si potrebbe avere verosimiglianza nulla; in tal caso il logaritmo `e uguale a −∞, ma questo non ha nessuna influenza nella ricerca dei punti di massimo. 24 Un’altra propriet` a della relazione di proporzionalit`a `e la • Chiusura rispetto al prodotto: g1 ∝ h1 e g2 ∝ h2 implicano g1 g2 ∝ h1 h2 . Inoltre, se g1 ∝ g2 , allora g1 = g2 ; infatti, se g1 ∝ g2 , si ha g1 (θ) = cg2 (θ) per ogni θ ∈ Ω; allora integrando si ha Z Z g1 (θ)dθ = c g2 (θ)dθ, | Ω {z } | Ω {z } =1 =1 da cui segue c = 1. In conclusione la relazione di proporzionalit`a h(θ|xn ) ∝ f (x1 |θ) · · · f (xn |θ)h(θ) `e equivalente alla (2.3). La convenienza di usare la relazione di proporzionalit`a consiste nel fatto che si evita di dover calcolare esattamente la densit`a (e in particolare una qualche costante moltiplicativa di normalizzazione) individuando di fatto la densit`a a cui si `e interessati. Aggiornamento delle densit` a. La densit`a finale dopo n osservazioni diventa la nuova densit` a iniziale quando arriva la (n + 1)-sima osservazione; infatti si ha f (xn+1 |θ)h(θ|xn ) ∝ f (x1 |θ) · · · f (xn |θ)f (xn+1 |θ)h(θ) ∝ h(θ|xn+1 ). Quindi viene naturale pensare all’aggiornamento delle densit`a (e quindi degli stati di informazione sul parametro) con l’acquisizione di nuove osservazioni. Famiglie coniugate. Una famiglia di densit`a F = {hγ : γ ∈ I} `e coniugata rispetto al modello statistico con densit` a {f (·|θ) : θ ∈ Ω} se esiste una funzione ϕ : I × X → I tale che f (x|θ)hγ (θ) ∝ hϕ(γ,x) (θ). L’insieme I viene detto insieme degli iperparametri. Dunque, se la densit`a iniziale appartiene alla famiglia F, anche la densit` a finale appartiene alla famiglia F. L’aggiornamento della densit` a consiste nell’aggiornamento dell’iperparametro che individua la densit`a; infatti si passa da γ a ϕ(γ, x). Si ha la stessa cosa nel caso di n osservazioni e si passa da γ a ϕn (γ, xn ), dove ϕn : I × X n → I coincide con ϕ per n = 1, mentre per n ≥ 2 si ha la seguente definizione per ricorrenza: ϕn (γ, xn ) = ϕ(ϕn−1 (γ, xn−1 ), xn ). Il concetto di famiglia coniugata ha interesse nel caso in cui l’insieme I `e sufficientemente maneggevole, cio`e ad esempio I ⊂ Rd per qualche d, e in generale γ rappresenta qualche grandezza caratteristica della distribuzione con densit`a hγ . 2.3.1 Sufficienza Una statistica Sn (xn ) `e una statistica sufficiente (Bayesiana) se e solo se vale la seguente condizione: (SB): Per ogni densit` a iniziale h esiste una funzione Fh tale che h(θ|xn ) = Fh (Sn (xn ), θ). In altri termini la condizione (SB) coincide con la seguente: Sn (xn ) = Sn (y n ) implica h(·|xn ) = h(·|y n ). Inoltre, come vedremo, (SB) `e equivalente alla condizione (F) presentata nella sezione 2.1. 25 Teorema 2.3.1 (Criterio di fattorizzazione (Bayesiano)). Vale la condizione (SB) se e solo se vale la condizione (F). Dimostrazione. Supponiamo che valga la condizione (SB). Allora si ha f (x1 |θ) · · · f (xn |θ)h(θ) = Fh (Sn (xn ), θ) Ω f (x1 |η) · · · f (xn |η)h(η)dη R per una funzione Fh opportuna. Allora, se scegliamo una densit`a iniziale h tale che h(θ) > 0 per ogni θ ∈ Ω, si verifica che vale la condizione (F) con una opportuna scelta delle funzioni Hn e Kn indicata di seguito (e che dipende dalla scelta della densit`a iniziale h): Z Fh (Sn (xn ), θ) f (x1 |η) · · · f (xn |η)h(η)dη · f (x1 |θ) · · · f (xn |θ) = . h(θ) |Ω {z } | {z } =Hn (xn ) =Kn (Sn (xn ),θ) Viceversa supponiamo che valga la condizione (F). Allora si ha h(θ|xn ) = R e quindi vale (SB) con Fh (s, θ) = Hn (xn )Kn (Sn (xn ), θ)h(θ) , Ω Hn (xn )Kn (Sn (xn ), η)h(η)dη R Kn (s,θ)h(θ) . Ω Kn (s,η)h(η)dη 2 Concludiamo con un altro risultato che illustra un procedimento per costruire una famiglia coniugata nel caso nel caso in cui si abbiano statistiche sufficienti con opportune propriet`a. Qui si presenta una rielaborazione di una parte della sezione 9.3 in [4]. Proposizione 2.3.2 (Costruzione di una famiglia coniugata). Sia {f (·|θ) : θ ∈ Ω} un modello statistico per una singola osservazione. Supponiamo che, per ogni n ≥ 1, esiste una statistica sufficiente (Bayesiana) Sn (xn ), dove Sn : X n → S per un insieme S che non dipende da n. Quindi, per il Teorema 2.3.1, si ha la fattorizzazione f (x1 |θ) · · · f (xn |θ) = Hn (xn )Kn (Sn (xn ), θ); R inoltre supponiamo che Ω Kn (σ, θ)dθ ∈ (0, ∞) per ogni (n, σ) ∈ I = N × S (dove N `e l’insieme dei numeri interi positivi). Allora la famiglia di densit` a {h(α,σ) : (α, σ) ∈ I} definita dalla relazione h(α,σ) (θ) ∝ Kα (σ, θ) `e coniugata rispetto al modello statistico e la funzione ϕ : I × X → I `e definita come segue: ϕ((α, σ), x) = (1 + α, S1+α (x, Sα← (σ))), dove Sα← (σ) `e un qualsiasi y α ∈ X α tale che Sα (y α ) = σ. Dimostrazione. Iniziamo osservando che, essendo f (x|θ) ∝ K1 (S1 (x), θ) e h(α,σ) (θ) ∝ Kα (σ, θ), si ha f (x|θ)h(α,σ) (θ) ∝ K1 (S1 (x), θ)Kα (σ, θ). Allora basta verificare che K1 (S1 (x), θ)Kα (σ, θ) ∝ K1+α (S1+α (x, Sα← (σ)), θ), (2.4) perch´e in corrispondenza si avrebbe f (x|θ)h(α,σ) (θ) ∝ K1+α (S1+α (x, Sα← (σ)), θ) ∝ hϕ((α,σ),x) . La relazione di proporzionalit` a (2.4) si dimostra osservando che, per ogni m1 , m2 ≥ 1 interi, si ha f (x1 |θ) · · · f (xm1 |θ) ∝ Km1 (Sm1 (xm1 ), θ) f (y1 |θ) · · · f (ym2 |θ) ∝ Km2 (Sm2 (y m ), θ) 2 f (x1 |θ) · · · f (xm |θ)f (y1 |θ) · · · f (ym |θ) ∝ Km +m (Sm +m (x , y ), θ), 1 2 1 2 1 2 m1 m2 da cui segue Km1 (Sm1 (xm1 ), θ)Km2 (Sm2 (y m ), θ) ∝ Km1 +m2 (Sm1 +m2 (xm1 , y m ), θ); allora baster` a 2 2 m 2 porre m1 = 1, xm1 = x, m2 = α e scegliere y m ∈ X tale che Sm2 (y m ) = σ. 2 2 2 26 Negli esempi che vedremo avremo sempre che, per ogni n ≥ 1, esiste una statistica sufficiente (Bayesiana) Sn (xn ), dove Sn : X n → S per un insieme S che non dipende da n. Spesso per`o conviene considerare famiglie di densit` a coniugate leggermente pi` u grandi sostituendo l’iperparametro α ∈ N nella Proposizione 2.3.2 con un iperparametro positivo non necessariamente intero. In questo modo si ha ancora una famiglia coniugata, l’aggiornamento degli iperparametri funziona nello stesso modo e si considera una scelta pi` u ricca per gli stati di informazioni iniziali sul parametro. 2.3.2 Stimatori La teoria degli stimatori in Statistica Bayesiana si introduce facendo riferimento alla teoria delle decisioni. Si considera una funzione di perdita ` : Ω × Ω → [0, ∞) con opportune propriet`a. Ad esempio, nel caso in cui Ω ⊂ R (questo accade in molti esempi che vedremo), si richiedono le seguenti propriet` a: • `(θ, θ∗ ) = 0 se e solo se θ = θ∗ ; • `(θ, θ∗ ) crescente rispetto a |θ − θ∗ |. In corrispondenza lo stimatore Bayesiano di θ (se esiste) `e definito come una funzione θ∗ : X n → Ω tale che Z Z `(θ, δ(xn ))h(θ|xn )dθ : δ ∈ ∆ , `(θ, θ∗ (xn ))h(θ|xn )dθ = min Ω Ω R dove ∆ `e la famiglia delle funzioni δ : X n → Ω per cui l’integrale Ω `(θ, δ(xn ))h(θ|xn )dθ esiste finito. In altri termini `e come dire che E[`(Θ, θ∗ (xn ))|X n = xn ] = min {E[`(Θ, δ(xn ))|X n = xn ] : δ ∈ ∆} ; in quel che segue spesso faremo riferimento proprio alla notazione con la speranza matematica condizionata. Noi consideriamo sempre la funzione di perdita quadratica `(θ, θ∗ ) = (θ − θ∗ )2 , la quale soddisfa le propriet`a citate sopra. In corrispondenza si ha Z θh(θ|xn ) o, in altri termini, θ∗ (xn ) = E[Θ|X n = xn ]. θ∗ (xn ) = Ω Per dimostrare questo iniziamo osservando che E[`(Θ, δ(xn ))|X n = xn ] = E[(Θ − δ(xn ))2 |X n = xn ]; allora si ha E[(Θ − δ(xn ))2 |X n = xn ] =E[(Θ − θ∗ (xn ) + θ∗ (xn ) − δ(xn ))2 |X n = xn ] =E[(Θ − θ∗ (xn ))2 |X n = xn ] + E[(θ∗ (xn ) − δ(xn ))2 |X n = xn ] {z } | ≥0 + 2E[(Θ − θ∗ (xn ))(θ∗ (xn ) − δ(xn ))|X n = xn ] ≥Var[Θ|X n = xn ] + 2(θ∗ (xn ) − δ(xn ))E[Θ − θ∗ (xn )|X n = xn ]; infine, poich´e si ha E[Θ − θ∗ (xn )|X n = xn ] = E[Θ|X n = xn ] − θ∗ (xn ) = 0, otteniamo la disuguaglianza E[(Θ − δ(xn ))2 |X n = xn ] ≥ Var[Θ|X n = xn ] = E[(Θ − θ∗ (xn ))2 |X n = xn ] per ogni scelta di δ ∈ ∆. Questo completa la dimostrazione perch´e abbiamo ottenuto una quantit` a minorante che non dipende dalla scelta di δ ∈ ∆, e tale quantit`a minorante `e raggiunta proprio per δ = θ∗ . 27 2.3.3 Predizione Ora definiamo la densit` a predittiva, cio`e la densit`a di X n,m = (Xn+1 , . . . , Xn+m ) (osservazioni future) condizionata a X n = xn (osservazioni passate); tale densit`a verr`a indicata con gX n,m |X n (·|xn ) ed `e definita come segue: R fX n+m (xn , y m ) f (x1 |θ) · · · f (xn |θ)f (y1 |θ) · · · f (ym |θ)h(θ)dθ R . gX n,m |X n (y m |xn ) = = Ω fX n (xn ) Ω f (x1 |θ) · · · f (xn |θ)h(θ)dθ In corrispondenza si ha R gX n,m |X n (y m |xn ) = Ω f (y1 |θ)R · · · f (ym |θ)f (x1 |θ) · · · f (xn |θ)h(θ)dθ Ω f (x1 |θ) · · · f (xn |θ)h(θ)dθ Z f (y1 |θ) · · · f (ym |θ)h(θ|xn )dθ = Ω e, se usiamo la notazione fX n (xn ) = fX n (xn ; h) per mettere in evidenza la dipendenza dalla densit` a iniziale h, possiamo concludere che gX n,m |X n (y m |xn ) = fX m (y m ; h(·|xn )). (2.5) Inoltre viene naturale considerare la seguente definizione: Sn (xn ) `e una statistica sufficiente ai fini predittivi se e solo se vale la seguente condizione: (SP): Per ogni densit` a iniziale h esiste una funzione Gh tale che gX n,m |X n (y m |xn ) = Gh (Sn (xn ), y m ). In altri termini la condizione (SP) coincide con la seguente: Sn (xn ) = Sn (z n ) implica gX n,m |X n (·|xn ) = gX n,m |X n (·|z n ). Allora possiamo enunciare il seguente risultato. Proposizione 2.3.3 (Ogni statistica sufficiente `e sufficiente ai fini predittivi). Se vale la condizione (SB), allora vale la condizione (SP). Dimostrazione. Per ipotesi si ha che, per ogni densit`a iniziale h, esiste una funzione Fh tale che h(θ|xn ) = Fh (Sn (xn ), θ). Allora, per la (2.5), si ha gX n,m |X n (y m |xn ) = fX m (y m ; Fh (Sn (xn ), ·)) e quindi vale la (SP) con Gh (Sn (xn ), y m ) = fX m (y m ; Fh (Sn (xn ), ·)). 2 Negli esempi che vedremo si avr` a che h(·|xn ) tende (in qualche senso2 ) a δθ0 per n → ∞, dove θ0 che `e il vero valore del parametro e δθ0 `e la distribuzione di una variabile aleatoria costante uguale a θ0 . Allora in corrispondenza possiamo dire che gX n,m |X n (·|xn ) tende (nello stesso senso di prima) per n → ∞ alla distribuzione con densit`a f (y1 |θ0 ) · · · f (ym |θ0 ). 2.4 Una propriet` a delle statistiche sufficienti Per quanto abbiamo visto (Teoremi 2.2.1 e 2.3.1), le definizioni di statistica sufficiente classica e statistica sufficiente Bayesiana coincidono. Quindi si pu`o fare riferimento al concetto di sufficienza in generale, senza distinzioni, facendo riferimento alla condizione (F). In particolare qui vogliamo 2 Si dovrebbe far riferimento ad un concetto di convergenza tra misure di probabilit` a, ma non ci occuperemo di questo aspetto. 28 dimostrare che ogni trasformazione invertibile di una statistica sufficiente `e ancora una statistica sufficiente. Questo `e in accordo con il buon senso: se una statistica sufficiente contiene tutte le informazioni sul parametro date dalle osservazioni, lo stesso deve valere se si considera una sua trasformazione invertibile. Proposizione 2.4.1. La condizione (F) vale per Sn (xn ) se e solo se vale per Tn (xn ) = gn (Sn (xn )), dove gn `e una qualsiasi funzione invertibile. Dimostrazione. Supponiamo che valga la condizione (F) vale per Sn (xn ): esistono due funzioni Hn e Kn tali che f (x1 |θ) · · · f (xn |θ) =Hn (xn )Kn (Sn (xn ), θ) =Hn (xn )Kn (gn−1 (gn (Sn (xn ))), θ) = Hn (xn )Kn (gn−1 (Tn (xn )), θ). Allora la condizione (F) vale per Tn (xn ) con Kn (gn−1 (·), θ) al posto della funzione Kn (·, θ). L’implicazione inversa si dimostra in maniera analoga. Supponiamo che valga la condizione (F) vale per Tn (xn ): esistono due funzioni Hn e Kn tali che f (x1 |θ) · · · f (xn |θ) =Hn (xn )Kn (Tn (xn ), θ) =Hn (xn )Kn (gn (gn−1 (Tn (xn ))), θ) = Hn (xn )Kn (gn (Sn (xn )), θ). Allora la condizione (F) vale per Sn (xn ) con Kn (gn (·), θ) al posto della funzione Kn (·, θ). 2 29 Capitolo 3 Modelli statistici di uso comune I modelli statistici presentati sono di uso comune in lettaratura. In particolare i calcoli sulle famiglie coniugate fanno riferimento ad alcuni esempi presentati in [4] (Capitolo 9). Inoltre studieremo alcune propriet` a asintotiche dello stimatore Bayesiano quando il numero delle osservazioni n tende ad infinito; in dettaglio vedremo che E[Θ|X n = xn ] → θ0 dove θ0 `e il vero valore del parametro (questa propriet` a viene detta consistenza dello stimatore Bayesiano E[Θ|X n = xn ]), e che Var[Θ|X n = xn ] → 0. Per quanto abbiamo visto (Teoremi 2.2.1 e 2.3.1), le definizioni di statistica sufficiente classica e statistica sufficiente Bayesiana coincidono con la condizione (F). In ogni modo, in ciascuno degli esempi che vedremo, procederemo con la verifica della condizione (SC) come conseguenza di alcune propriet`a delle distribuzioni delle osservazioni. Inoltre per tutti i modelli statistici `e facile osservare che lo stimatore di massima verosimiglianza `e una funzione della statistica sufficiente. In molti casi vedremo che una statistica sufficiente `e Sn (xn ) = n X xi = nxn , (3.1) i=1 ` opportuno osservare che Sn (xn ) nella (3.1) `e una dove la seconda uguaglianza segue dalla (2.2). E statistica sufficiente se e solo se lo `e Tn (xn ) = xn ; questo segue dalla Proposizione 2.4.1 con la trasformazione invertibile t = gn (s) = ns . 3.1 Osservazioni Bernoulliane Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ B(θ); quindi si ha la densit`a discreta f (x|θ) = θx (1 − θ)1−x , x ∈ X = {0, 1}, θ ∈ Ω = [0, 1]. Si osservi che Sn (xn ) in (3.1) rappresenta il numero dei successi osservati; analogamente n − Sn (xn ) = n(1 − xn ) rappresenta il numero degli insuccessi osservati. Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha Lxn (θ) = n Y θxi (1 − θ)1−xi = θSn (xn ) (1 − θ)n−Sn (xn ) . i=1 Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) = θSn (xn ) (1 − θ)n−Sn (xn ) . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ 30 Bin(n, θ); infatti, se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha Qn 1 θSn (xn ) (1 − θ)n−Sn (xn ) i=1 f (xi |θ) = n . = n S (x ) n−S (x ) n n n (1 − θ) n gn (Sn (xn )|θ) (Sn (x ) ) (S (x ) )θ n n n Esempio di statistica non sufficiente. Qui presentiamo un esempio di statistica non sufficiente; in maniera analoga si possono costruire statistiche non sufficienti per gli altri modelli statistici presentati di seguito. Per m < n, si considera la statistica Tm (xn ) definita come segue: Tm (xn ) = Sm (xm ). Quindi Tm (xn ) rappresenta il numero di successi osservati nelle prime m prove. Allora, se consideriamo Sn (xn ) = Tm (xn ) + Um (xn ), dove Um (xn ) `e il numero di successi osservati nelle ultime n − m prove, si ha Lxn (θ) = n Y θxi (1 − θ)1−xi = θTm (xn )+Um (xn ) (1 − θ)n−(Tm (xn )+Um (xn )) ; i=1 quindi non vale (F) (perch´e appare la statistica Um (xn ) che non `e funzione di Tm (xn )) e non vale (SC) (perch´e Qn θSn (xn ) (1 − θ)n−Sn (xn ) θUm (xn ) (1 − θ)n−m−Um (xn ) i=1 f (xi |θ) = m = gm (Tm (xn )|θ) (Tmm(x ) ) (Tm (x ) )θTm (xn ) (1 − θ)m−Tm (xn ) n n dipende da θ). Per certi versi non `e sorprendente che Tm (xn ) non sia una statistica sufficiente; infatti le statistiche sufficienti devono contenere tutte le informazioni sul parametro date dalle osservazioni, mentre Tm (xn ) fa riferimento solo alle prime m prove trascurando le rimanenti. Stimatore di massima verosimiglianza. Si ha log Lxn (θ) = Sn (xn ) log θ + (n − Sn (xn )) log(1 − θ), da cui segue Sn (xn ) n − Sn (xn ) d log Lxn (θ) = − . dθ θ 1−θ ˆ ) = xn perch´e la disequazione Quindi lo stimatore di massima verosimiglianza `e θ(x 0 diventa Sn (xn ) θ > n−Sn (xn ) 1−θ , θ 1−θ > n−Sn (xn ) 1 Sn (xn ) , θ > n n Sn (xn ) eθ< Sn (xn ) n d dθ log Lxn (θ) > = xn . Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Beta sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la densit`a iniziale abbiamo hα,β (θ) ∝ θα−1 (1 − θ)β−1 . In corrispondenza si ha f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θSn (xn ) (1 − θ)n−Sn (xn ) θα−1 (1 − θ)β−1 =θα+Sn (xn )−1 (1 − θ)β+n−Sn (xn )−1 ∝ hαn ,βn (θ), dove ( αn = α + Sn (xn ) = α + nxn βn = β + n − Sn (xn ) = β + n − nxn = β + n(1 − xn ). 31 (3.2) Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo ( α+nxn n E[Θ|X n = xn ] = αnα+β = α+β+n → θ0 n Var[Θ|X n = xn ] = αn βn (αn +βn )2 (αn +βn +1) = (α+nxn )(β+n(1−xn )) (α+β+n)2 (α+β+n+1) → 0. Calcoli di densit` a predittive. Qui presentiamo alcuni calcoli sulle densit`a predittive perch´e sono particolarmente semplici. Useremo la notazione ym = y1 + · · · + ym m e, come prima, scegliamo la densit`a iniziale hα,β tale che hα,β (θ) ∝ θα−1 (1 − θ)β−1 . Allora, essendo hα,β (θ|xn ) ∝ θαn −1 (1 − θ)βn −1 dove αn e βn sono come in (3.2), e ricordando l’espressione della densit`a Beta, si ha (ricordiamo che Ω = [0, 1]) Z gX n,m |X n (y m |xn ) = f (y1 |θ) · · · f (ym |θ)hα,β (θ|xn )dθ ZΩ Γ(αn + βn ) αn −1 = θmym (1 − θ)m(1−ym ) θ (1 − θ)βn −1 dθ Γ(αn )Γ(βn ) Ω Γ(αn + βn ) Γ(αn + my m )Γ(βn + m(1 − y m )) = Γ(αn )Γ(βn ) Γ(αn + my m + βn + m(1 − y m )) Γ(α + β + n) = Γ(α + nxn )Γ(β + n(1 − xn )) Γ(α + nxn + my m )Γ(β + n(1 − xn ) + m(1 − y m )) . · Γ(α + β + n + m) Inoltre osserviamo che nxn , my m , n(1 − xn ) + m(1 − y m ) sono interi non negativi, e ricordando le propriet` a della funzione Gamma, si ha Qmym −1 gX n,m |X n (y m |xn ) = j=0 (α + nxn + j) Qm−1 j=0 Qm(1−ym )−1 j=0 (β + n(1 − xn ) + j) (α + β + n + j) , Q dove −1 j=0 . . . = 1 (in particolare, se specializziamo questa formula per m = 1, per α+nxn y ∈ {0, 1} si ha gX n,1 |X n (y|xn ) = q y (1−q)1−y , dove q = α+β+n ). In particolare si verifica facilmente che la statistica sufficiente Sn (xn ) = xn `e anche una statistica sufficiente ai fini predittivi. Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , in accordo con quanto abbiamo detto prima si ha my m lim gX n,m |X n (y m |xn ) = θ0 n→∞ 3.2 (1 − θ0 )m(1−ym ) = f (y1 |θ0 ) · · · f (ym |θ0 ). Osservazioni a valori in un insieme finito In questa sezione si vuole generalizzare il caso precedente considerando osservazioni che assumono un insieme finito di valori (anzich´e i due valori {0, 1}). Per fissare le idee supporremo che l’insieme finito di valori sia {1, . . . , m} con m ≥ 2; ovviamente si recupera il caso precedente con m = 2 con la convenzione 1 = successo e 2 = insuccesso. Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria che assume i valori {1, . . . , m} e, per ogni j ∈ {1, . . . , m}, la probabilit`a di osservare j `e θj ; quindi, se consideriamo gli insiemi ( X = {x = (x(1) , . . . , x(m) ) ∈ {0, 1}m , x(1) + · · · + x(m) = 1} Ω = {θ = (θ1 , . . . , θm ) ∈ [0, 1]m , θ1 + · · · + θm = 1} 32 (si osservi che X `e costituito dai vettori della base canonica di Rm ), si ha la densit`a discreta f (x|θ) = m Y (j) θjx , x = (x(1) , . . . , x(m) ) ∈ X , θ = (θ1 , . . . , θm ) ∈ Ω. j=1 Si osservi che, con la solita convenzione xn = (x1 , . . . , xn ) ∈ X n e considerando la notazione P (1) (m) (j) (j) xi = (xi , . . . , xi ) per i ∈ {1, . . . , n}, per ogni j ∈ {1, . . . , m} la statistica Sn (xn ) = ni=1 xi indica il numero di risultati j osservati. Una diretta conseguenza della definizione delle statistiche P (1) (m) (j) Sn (xn ), . . . , Sn (xn ) `e l’uguaglianza m j=1 Sn (xn ) = n. Statistica sufficiente. Si ha Lxn (θ) = n Y m Y (j) x θj i = i=1 j=1 (1) m Y S (j) θj n (xn ) . j=1 (m) Quindi Sn (xn ) = (Sn (xn ), . . . , Sn (xn )) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = (j) Q Sn (xn ) 1 e Kn (Sn (xn ), θ) = m . La condizione (SC) si verifica agevolmente tenendo presente j=1 θj che Sn (X n ) ha distribuzione multinomiale di parametri n e θ1 , . . . , θm ; infatti, se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha i=1 f (xi |θ) = gn (Sn (xn )|θ) (j) Sn (xn ) j=1 θj Qm Qn n! (1) (m) Sn (xn )!···Sn (xn )! Qm (j) Sn (xn ) = j=1 θj 1 n! (1) (m) Sn (xn )!···Sn (xn )! . Stimatore di massima verosimiglianza. Si ha log Lxn (θ) = m X Sn(j) (xn ) log θj , j=1 e procederemo ottenendo il punto di massimo con il metodo dei moltiplicatori di Lagrange perch´e P si ha una massimizzazione in θ sotto il vincolo m j=1 θj = 1. Si deve considerare la funzione L(θ, λ) = m X m X Sn(j) (xn ) log θj + λ θj − 1 j=1 j=1 e le sue derivate parziali rispetto a θ1 , . . . , θm , λ uguagliate a zero forniscono le equazioni: ( (h) ( (h) Sn (xn ) S (x ) + λ = 0 (h ∈ {1, . . . , m}) θh = n −λ n (h ∈ {1, . . . , m}) θh Pm Pm j=1 θj = 1. j=1 θj − 1 = 0; Quindi lo stimatore di massima verosimiglianza `e (θˆ1 (xn ), . . . , θˆm (xn )) = (1) (m) (x ) Sn (xn ) S ,..., n n n n e questo si spiega come segue: sommando su h nella prima equazione e ricordando l’uguaglianza Pm (j) n j=1 Sn (xn ) = n, si ottiene l’uguaglianza 1 = −λ ; allora si ottiene che λ = −n e i valori di θ1 , . . . , θm forniscono il valore dello stimatore di massima verosimiglianza. Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a di Dirichlet sono una famiglia coniugata. Prima di procedere bisogna definire tale famiglia di densit`a e questo viene fatto facendo riferimento all’iperparametro γ = (α(1) , . . . , α(m) ) ∈ I = (0, ∞)m . 33 ` una densit`a continua definita come segue: Distribuzione di Dirichlet. E ( Γ(α(1) +···+α(m) ) (1) α(m) −1 θα −1 · · · θm se (θ1 , . . . , θm ) ∈ Ω Γ(α(1) )···Γ(α(m) ) 1 hα(1) ,...,α(m) (θ1 , . . . , θm ) = 0 altrimenti Si osservi che `e una densit` a continua su Ω che `e un sottoinsieme di Rm di Rm -volume nullo. La questione `e che si deve pensare ad un’usuale densit`a continua m − 1 dimensionale sulle prime m − 1 componenti e la componente m-sima `e legata alle prime m − 1 P componenti dalla relazione θm = 1 − m j=1 θj . Si osservi che si recupera la densit`a Beta nel caso m = 2 perch´e, tenendo conto del vincolo (θ1 , θ2 ) ∈ Ω da cui segue θ1 ∈ [0, 1] e θ2 = 1 − θ1 , si ottiene la seguente funzione di θ1 : Γ(α(1) + α(2) ) α(1) −1 (2) θ1 (1 − θ1 )α −1 1[0,1] (θ1 ). (1) (2) Γ(α )Γ(α ) Un’altro legame con la densit` a Beta riguarda le marginali. A tal proposito, per ogni P (h) . Allora j ∈ {1, . . . , m}, usiamo la notazione usando la notazione α˙ (j) := m h=1,h6=j α possiamo dire che, per ogni j ∈ {1, . . . , m}, la j-sima componente ha densit`a Beta di parametri α(j) , α˙ (j) . Per la densit` a iniziale si ha hα(1) ,...,α(m) (θ1 , . . . , θm ) ∝ θ1α (1) −1 (m) −1 α · · · θm 1(θ1 ,...,θm )∈Ω e, in quel che segue, penseremo sempre a (θ1 , . . . , θm ) ∈ Ω omettendo il fattore 1(θ1 ,...,θm )∈Ω . In corrispondenza si ha f (x1 |θ1 , . . . , θm ) · · · f (xn |θ1 , . . . , θm )hα(1) ,...,α(m) (θ1 , . . . , θm ) (m) (1) α(1) +Sn (xn )−1 ∝ θ1 α(m) +Sn · · · θm (xn )−1 ∝ hα(1) ,...,α(m) (θ1 , . . . , θm ) n n dove αn(h) = α(h) + Sn(h) (xn ) (h ∈ {1, . . . , m}). (j) Infine, per ogni j ∈ {1, . . . , m}, poich´e per la legge dei grandi numeri si ha P (h) (j) (j) θ0 , usando ancora la notazione α˙ n = m h=1,h6=j αn abbiamo E[Θj |X n = xn ] = (j) αn (j) (j) αn +α˙ n Var[Θj |X n = xn ] = 3.3 Sn (xn ) n (j) (j) (j) → Eθ0 [X1 ] = (j) (j) +S (j) α(j) +Sn (xn ) (x ) = α Pm n(h) n → θ Pm (h) (h) 0 α +n +Sn (xn ) h=1 h=1 α (j) +S (j) (x ) (j) +n−S (j) (x ) (j) (j) α α ˙ n n n n αn α˙ n = Pm → 0. 2 P (j) (j) 2 (j) (j) (h) +n+1 ( h=1 α(h) +n) ( m ) αn +α˙ n αn +α˙ n +1 h=1 α = αn Pm (h) h=1 αn = Osservazioni Poissoniane Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ P oisson(θ); quindi si ha la densit`a discreta f (x|θ) = θx −θ e , x ∈ X = {0, 1, 2, . . .}, θ ∈ Ω = (0, ∞). x! 34 Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha Lxn (θ) = n Y θ xi i=1 xi ! e−θ = θSn (xn ) −nθ e . x1 ! · · · xn ! 1 Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = x1 !···x e Kn (Sn (xn ), θ) = n! ) −nθ S (x n n e . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ P oisson(nθ); θ infatti, se indichiamo la densit` a di Sn (X n ) con gn (·|θ), si ha Qn i=1 f (xi |θ) gn (Sn (xn )|θ) = θSn (xn ) −nθ x1 !···xn ! e (nθ)Sn (xn ) −nθ Sn (xn )! e = 1 x1 !···xn ! . nSn (xn ) Sn (xn )! Stimatore di massima verosimiglianza. Si ha log Lxn (θ) = Sn (xn ) log θ − log(x1 ! · · · xn !) − nθ, da cui segue d Sn (xn ) log Lxn (θ) = − n. dθ θ ˆ ) = xn perch´e la disequazione Quindi lo stimatore di massima verosimiglianza `e θ(x n 0 diventa Sn (xn ) θ >neθ< Sn (xn ) n d dθ log Lxn (θ) > = xn . Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la densit`a iniziale abbiamo hα,β (θ) ∝ θα−1 e−βθ . In corrispondenza si ha f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θSn (xn ) e−nθ θα−1 e−βθ =θα+Sn (xn )−1 e−(β+n)θ ∝ hαn ,βn (θ), dove ( αn = α + Sn (xn ) = α + nxn βn = β + n. Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo ( n E[Θ|X n = xn ] = αβnn = α+nx β+n → θ0 Var[Θ|X n = xn ] = 3.4 αn 2 βn = α+nxn (β+n)2 → 0. Osservazioni Esponenziali Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ Exp(θ); quindi si ha la densit`a continua f (x|θ) = θe−θx , x ∈ X = (0, ∞), θ ∈ Ω = (0, ∞). 35 Statistica sufficiente. Sia Sn (xn ) come in (3.1). Allora si ha Lxn (θ) = n Y θe−θxi = θn e−θSn (xn ) . i=1 Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) = θn e−θSn (xn ) . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ Gamma(n, θ); infatti, se indichiamo la densit` a di Sn (X n ) con gn (·|θ), si ha Qn θn e−θSn (xn ) 1 i=1 f (xi |θ) = θn = 1 . n−1 −θS (x ) n−1 n n gn (Sn (xn )|θ) e Γ(n) Sn (xn ) Γ(n) Sn (xn ) Stimatore di massima verosimiglianza. Si ha log Lxn (θ) = n log θ − θSn (xn ), da cui segue d n log Lxn (θ) = − Sn (xn ). dθ θ ˆ ) = (xn )−1 perch´e la disequazione Quindi lo stimatore di massima verosimiglianza `e θ(x n 0 diventa Sn (xn ) < n θ eθ< n Sn (xn ) = (xn d dθ log Lxn (θ) > )−1 . Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la densit`a iniziale abbiamo hα,β (θ) ∝ θα−1 e−βθ . In corrispondenza si ha f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θn e−θSn (xn ) θα−1 e−βθ =θα+n−1 e−(β+Sn (xn ))θ ∝ hαn ,βn (θ), dove ( αn = α + n βn = β + Sn (xn ) = β + nxn . Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = ( abbiamo E[Θ|X n = xn ] = Var[Θ|X n = 3.5 αn α+n βn = β+nxn → θ0 α+n xn ] = αβ n2 = (β+nx 2 → n) n 1 θ0 , 0. Osservazioni Normali (con sola media incognita) Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ N (θ, 1r ); quindi si ha la densit`a continua √ r r 2 f (x|θ) = √ e− 2 (x−θ) , x ∈ X = R, θ ∈ Ω = R. 2π 36 Statistica sufficiente. Sia Sn (xn ) = xn . Allora si ha √ n n √ Y r Pn r − r (xi −θ)2 r 2 √ e 2 Lxn (θ) = = √ e− 2 i=1 (xi −θ) . 2π 2π i=1 Inoltre, osservando che n n n n X X X X (xi − θ)2 = (xi − xn )2 + n(xn − θ)2 + 2(xn − θ) (xi − xn ), (3.3) (xi − xn + xn − θ)2 = i=1 i=1 i=1 |i=1 {z } =0; vedi (2.2) possiamo dire che √ n nr r Pn r 2 2 Lxn (θ) = √ (3.4) e− 2 i=1 (xi −xn ) e− 2 (xn −θ) . 2π √ n r Pn 2 r Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = √2π e− 2 i=1 (xi −xn ) e nr 2 Kn (Sn (xn ), θ) = e− 2 (Sn (xn )−θ) . La condizione (SC) si verifica agevolmente tenendo presente che 1 Sn (X n ) ∼ N (θ, nr ); infatti, se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha √ n r P n √ n r Pn Qn (Sn (xn )−θ)2 − 2 i=1 (xi −xn )2 − nr − 2 i=1 (xi −xn )2 √r √r 2 e e e f (x |θ) 2π 2π i i=1 p nr . = = p nr − nr (Sn (x )−θ)2 n gn (Sn (xn )|θ) e 2 2π 2π Stimatore di massima verosimiglianza. Si ha √ n P r nr − r2 n (xi −xn )2 i=1 √ log Lxn (θ) = log e − (xn − θ)2 , 2 2π da cui segue d log Lxn (θ) = nr(xn − θ). dθ ˆ ) = xn perch´e la disequazione Quindi lo stimatore di massima verosimiglianza `e θ(x n d dθ log Lxn (θ) > 0 diventa θ < xn . Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Normali sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (µ, τ ) ∈ I = R×(0, ∞), per la densit` a iniziale abbiamo τ 2 hµ,τ (θ) ∝ e− 2 (θ−µ) . In corrispondenza, per la (3.4), si ha f (x1 |θ) · · · f (xn |θ)hµ,τ (θ) ∝ e− nr (xn −θ)2 2 τ 2 1 2 +τ (θ−µ)2 ) e− 2 (θ−µ) = e− 2 (nr(xn −θ) A questo punto osserviamo che nr(xn − θ)2 + τ (θ − µ)2 =nrx2n + nrθ2 − 2nrxn θ + τ θ2 + τ µ2 − 2τ θµ =(τ + nr)θ2 − 2(τ µ + nrxn )θ + nrx2n + τ µ2 τ µ + nrxn nrx2n + τ µ2 2 =(τ + nr) θ − 2 θ+ τ + nr τ + nr e l’ultimo addendo non dipende da θ; quindi otteniamo f (x1 |θ) · · · f (xn |θ)hµ,τ (θ) ∝ e− τ +nr 2 n θ) (θ −2 τ µ+nrx 2 τ +nr 37 ∝ hµn ,τn (θ) . dove ( n µn = τ µ+nrx τ +nr τn = τ + nr; l’ultima relazione di proporzionalit` a si ottiene osservando che bisogna completare l’esponente in 2 n . maniera opportuna con un termine che non dipende da θ per far comparire θ − τ µ+nrx τ +nr Commenti sugli iperparametri. La media della densit`a finale µn `e una media pesata tra la media della densit` a iniziale µ e la media delle osservazioni xn , con pesi proporzionali alle precisioni di competenza τ e nr rispettivamente; inoltre la precisione della densit`a finale τn `e data dalla somma delle due precisioni. Infine, poich´e per la legge dei grandi numeri si ha xn → Eθ0 [X1 ] = θ0 , abbiamo ( n +τ µ E[Θ|X n = xn ] = µn = nrx → θ0 nr+τ 1 1 Var[Θ|X n = xn ] = τn = τ +nr → 0. 3.6 Osservazioni Normali (con sola varianza incognita) Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ N (µ, 1θ ); quindi si ha la densit`a continua √ θ θ 2 f (x|θ) = √ e− 2 (x−µ) , x ∈ X = R, θ ∈ Ω = (0, ∞). 2π P Statistica sufficiente. Sia Sn (xn ) = ni=1 (xi − µ)2 . Allora si ha n n √ Y θ θ − θ (xi −µ)2 θ2 √ e 2 Lxn (θ) = = √ e− 2 Sn (xn ) . 2π ( 2π)n i=1 Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = n 2 θ e √1 ( 2π)n e Kn (Sn (xn ), θ) = − θ2 Sn (xn ) . La condizione (SC) si verifica agevolmente tenendo presente che Sn (X n ) ∼ Gamma( n2 , 2θ ). P La distribuzione di Sn (X n ). Si ha θ ni=1 (Xi − µ)2 ∼ χ2 (n) = Gamma( n2 , 12 ) per la Proposizione 1.1.3 (con µ1 = · · · = µn = µ e σ12 = · · · = σn2 = 1θ ); allora, poich´e si ottiene Sn (X n ) moltiplicando per la costante c = 1θ , possiamo dire che Sn (X n ) ∼ 1 Gamma( n2 , 2c ) = Gamma( n2 , 2θ ) per la Proposizione 1.1.2(ii). A questo punto possiamo verificare la condizione (SC). Se indichiamo la densit`a di Sn (X n ) con gn (·|θ), si ha n θ Qn √θ 2 e− 2 Sn (xn ) √1 n f (x |θ) ( 2π) ( 2π)n i i=1 = θ n = . n 1 n (2) 2 gn (Sn (xn )|θ) Sn (xn ) 2 −1 n −1 − θ2 Sn (xn ) n e n Sn (xn ) 2 2 2 Γ( 2 ) Γ( ) 2 Stimatore di massima verosimiglianza. Si ha log Lxn (θ) = √ n θ log θ − n log( 2π) − Sn (xn ), 2 2 da cui segue d n Sn (xn ) log Lxn (θ) = − . dθ 2θ 2 −1 ˆ ) = Sn (xn ) Quindi lo stimatore di massima verosimiglianza `e θ(x perch´e la disequazione n n −1 Sn (xn ) d n . dθ log Lxn (θ) > 0 diventa θ > Sn (xn ) e θ < n 38 Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la densit`a iniziale abbiamo hα,β (θ) ∝ θα−1 e−βθ . In corrispondenza si ha n θ f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θ 2 e− 2 Sn (xn ) θα−1 e−βθ =θ dove ( αn = α + βn = β + Sn (xn ) θ α+ n −1 − β+ 2 2 e n 2 Sn (xn ) 2 =β+ ∝ hαn ,βn (θ), n Sn (xn ) . 2 n S (x ) Infine, poich´e per la legge dei grandi numeri si ha n n n → Eθ0 [(X1 − µ)2 ] = Varθ0 [X1 ] = abbiamo α+ n α E[Θ|X n = xn ] = βnn = β+ n Sn2(xn ) → θ0 2 Var[Θ|X n = xn ] = 3.7 αn 2 βn = 1 θ0 , n α+ n 2 β+ n 2 Sn (xn ) n 2 → 0. Osservazioni Normali (con media e varianza incognite) Pensiamo al caso in cui f (·|θ) = f (·|θ1 , θ2 ) `e la densit`a di una variabile aleatoria X ∼ N (θ1 , θ12 ); quindi si ha la densit` a continua √ θ2 θ2 2 f (x|θ1 , θ2 ) = √ e− 2 (x−θ1 ) , x ∈ X = R, (θ1 , θ2 ) ∈ Ω = R × (0, ∞). 2π (1) (2) Statistica sufficiente. Sia Sn (xn ) = (Sn (xn ), Sn (xn )) = (xn , Lxn (θ1 , θ2 ) = Pn i=1 (xi − xn )2 ). Allora si ha √ √ n θ2 nθ2 Pn θ θ 2 2 √ 2 e− 2 (xi −θ1 ) = √ 2 e− 2 i=1 (xi −θ1 ) 2π 2π i=1 √ n nθ2 θ2 Pn θ2 2 2 = √ e− 2 i=1 (xi −xn ) e− 2 (xn −θ1 ) 2π n θ2 (2) nθ2 (1) 1 2 θ22 e− 2 Sn (xn ) e− 2 (Sn (xn )−θ1 ) , = √ n ( 2π) n Y (3.5) dove la seconda uguaglianza segue dalla (3.3) con θ1 al posto di θ. Quindi Sn (xn ) `e una statistica sufn θ2 (2) nθ2 (1) 2 1 2 − 2 Sn (xn ) − 2 (Sn (xn )−θ1 ) ficiente perch´e vale (F) con Hn (xn ) = (√2π) e . n e Kn (Sn (xn ), (θ1 , θ2 )) = θ2 e La condizione (SC) si verifica agevolmente tenendo presente che la distribuzione della variabile alea(1) (2) toria Sn (X n ) = (Sn (X n ), Sn (X n )) si deduce facilmente dal seguente risultato noto in letteratura (si veda il Teorema 5.4.1 in [3]). Teorema 3.7.1. Per n ≥ 2, siano {X1 , . . . , Xn } variabili aleatorie indipendenti e, per ogni i ∈ P {1, . . . , n}, Xi ∼ N (µ, σ 2 ). Allora: (i) X n e σ12 ni=1 (Xi − X n )2 sono indipendenti; (ii) X n ∼ P 2 N (µ, σn ); (iii) σ12 ni=1 (Xi − X n )2 ∼ χ2 (n − 1). Commenti sul Teorema 3.7.1. La distribuzione di X n `e nota per le propriet`a delle combinazioni lineari di variabili aleatorie Normali 1-dimensionali indipendenti. Si osservi 39 P che σ12 ni=1 (Xi − µ)2 ∼ χ2 (n) per la Proposizione 1.1.3 (con µ1 = · · · = µn = µ e σ12 = · · · = σn2 = σ 2 ); quindi c’`e una differenza di un grado di libert`a rispetto alla distriP buzione di ni=1 (Xi − X n )2 . Una spiegazione di questa differenza si basa sul fatto che Pn 2 e esprimibile come funzione di una sottofamiglia n − 1 tra le variabili i=1 (Xi − X n ) ` P aleatorie scarto {Xi − X n : i ∈ {1, . . . , n}}. Infatti ni=2 (Xi − X n ) = −(X1 − X n ) per P P P la (2.2), da cui segue ni=1 (Xi − X n )2 = ( ni=2 (Xi − X n ))2 + ni=2 (Xi − X n )2 . (1) (2) In altri termini il Teorema 3.7.1 ci dice quanto segue: Sn (X n ) e θ2 Sn (X n ) sono indipendenti; (2) (1) (2) 1 Sn (X n ) ∼ N (θ1 , nθ1 2 ); θ2 Sn (X n ) ∼ χ2 (n−1) = Gamma( n−1 e Sn (X n ) si ottie2 , 2 ). Allora, poich´ (2) ne da θ2 Sn (X n ) moltiplicando per la costante c = 1 θ2 , (1) (2) possiamo dire che Sn (X n ) e Sn (X n ) sono (2) 1 n−1 θ2 indipendenti e, per la Proposizione 1.1.2(ii), Sn (X n ) ∼ Gamma( n−1 2 , 2c ) = Gamma( 2 , 2 ). A questo punto possiamo verificare la condizione (SC). Se indichiamo la densit`a di Sn (X n ) con gn (·|θ1 , θ2 ), si ha n √1 θ 2 e− ( 2π)n 2 Qn i=1 f (xi |θ1 , θ2 ) (1) (2) = gn (Sn (xn ), Sn (xn )|θ1 , θ2 ) q nθ2 − 2π e θ2 (2) S (xn ) 2 n nθ2 (1) (Sn (xn )−θ1 )2 2 θ2 2 p ( 21 ) nθ2 (1) (Sn (xn )−θ1 )2 2 n−1 2 (2) Γ( n−1 ) 2 √1 ( 2π)n = e− Sn (xn ) n−1 −1 2 θ2 (2) e− 2 Sn (xn ) . n−1 2 n−1 (2) −1 n 2 2π Γ( n−1 ) Sn (xn ) 2 Stimatore di massima verosimiglianza. Si ha log Lxn (θ1 , θ2 ) = √ n θ2 nθ2 (1) log θ2 − n log( 2π) − Sn(2) (xn ) − (Sn (xn ) − θ1 )2 , 2 2 2 da cui segue ( d dθ1 d dθ2 (1) log Lxn (θ1 , θ2 ) = nθ2 (Sn (xn ) − θ1 ) log Lxn (θ1 , θ2 ) = n 2θ2 (2) − Sn (xn ) 2 (1) − n2 (Sn (xn ) − θ1 )2 . Quindi lo stimatore di massima verosimiglianza `e (θˆ1 (xn ), θˆ2 (xn )) = questo si spiega come segue: per θ2 fissato, la disequazione (1) Sn (xn ) n . (2) Sn (xn ) = xn ; inoltre la disequazione d dθ1 (1) d dθ2 log Lxn (Sn (xn ), θ2 ) (1) Sn (xn ), (2) Sn (xn ) n −1 ! e log Lxn (θ1 , θ2 ) > 0 diventa θ1 < > 0 diventa n θ2 (2) > Sn (xn ) e θ2 < Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Gamma-Normali sono una famiglia coniugata. Prima di procedere bisogna definire tale famiglia di densit`a (continue) e questo viene fatto facendo riferimento all’iperparametro γ = (α, β, µ, τ ) ∈ I = (0, ∞) × (0, ∞) × R × (0, ∞). ` una densit`a continua 2-dimensionale definita come Distribuzione Gamma-Normale. E segue: ( gα,β (θ2 )gµ,τ (θ1 |θ2 ) se (θ1 , θ2 ) ∈ R × (0, ∞) hα,β,µ,τ (θ1 , θ2 ) = 0 altrimenti, dove: gα,β `e la densit` a della distribuzione Gamma(α, β); gµ,τ (·|θ2 ) `e la densit`a della 1 distribuzione N (µ, θ2 τ ). 40 Ovviamente la seconda densit`a marginale `e gα,β (θ2 ). La prima densit`a marginale `e R hα,β,µ,τ (θ1 , •) = R hα,β,µ,τ (θ1 , θ2 )dθ2 , e si verifica che − 2α+1 2 1 ατ (θ1 − µ)2 hα,β,µ,τ (θ1 , •) ∝ 1 + . 2α β In corrispondenza si ha ( R θ1 hα,β,µ,τ (θ1 , •)dθ1 = µ RR 2 2 R θ1 hα,β,µ,τ (θ1 , •)dθ1 − µ = β τ (α−1) se 1 − 2 2α+1 < −1 ⇐⇒ α > 21 2 < −1 ⇐⇒ α > 1. se 2 − 2 2α+1 2 Per la densit` a iniziale si ha √ β α α−1 −βθ2 θ2 τ θ 2 τ 2 hα,β,µ,τ (θ1 , θ2 ) = θ2 e 1(0,∞) (θ2 ) √ e− 2 (θ1 −µ) , Γ(α) 2π da cui segue τ exp −θ2 β + (θ1 − µ)2 1(0,∞) (θ2 ). 2 In quel che segue penseremo sempre a (θ1 , θ2 ) ∈ R × (0, ∞) omettendo il fattore 1(0,∞) (θ2 ). Allora, per la (3.5), si ha n θ2 (2) (1) 2 2 ; Sn (xn ) + n(Sn (xn ) − θ1 ) f (x1 |θ1 , θ2 ) · · · f (xn |θ1 , θ2 ) ∝ θ2 exp − 2 Pn (2) 2 nel seguito manterremo Sn (xn ) al posto di u i=1 (xi − xn ) , mentre useremo la notazione pi` (1) semplice xn al posto di Sn (xn ). Quindi abbiamo α+ 12 −1 hα,β,µ,τ (θ1 , θ2 ) ∝ θ2 f (x1 |θ1 ,θ2 ) · · · f (xn |θ1 , θ2 )hα,β,µ,τ (θ1 , θ2 ) α+ 1 −1 n θ2 (2) τ 2 2 ∝ θ2 exp − Sn (xn ) + n(xn − θ1 ) θ2 2 exp −θ2 β + (θ1 − µ)2 2 2 α+ n + 12 −1 2 ∝ θ2 1 1 (2) 2 2 exp −θ2 β + 2 Sn (xn ) + 2 (n(xn − θ1 ) + τ (θ1 − µ) ) , {z } | (∗) dove 1 nx2n + nθ12 − 2nxn θ1 + τ θ12 + τ µ2 − 2τ θ1 µ 2 1 = (τ + n)θ12 − 2(τ µ + nxn )θ1 + nx2n + τ µ2 2 τ +n τ µ + nxn nx2n + τ µ2 2 = θ1 − 2 θ1 + 2 τ +n τ +n ! τ +n τ µ + nxn τ µ + nxn 2 nx2n + τ µ2 τ µ + nxn 2 2 = θ1 − 2 θ1 + − + 2 τ +n τ +n τ +n τ +n ! τ +n τ µ + nxn 2 τ + n nx2n + τ µ2 τ µ + nxn 2 = θ1 − + − 2 τ +n 2 τ +n τ +n | {z } (∗) = (∗∗) e τ + n (nx2n + τ µ2 )(τ + n) − (τ µ + nxn )2 2 (τ + n)2 nτ x2n + n2 x2n + τ 2 µ2 + nτ µ2 − (τ 2 µ2 + n2 x2n + 2nτ µxn ) = 2(τ + n) 2 2 nτ xn + nτ µ − 2nτ µxn nτ (xn − µ)2 = = . 2(τ + n) 2 τ +n (∗∗) = 41 In conclusione, sostituendo, si ottiene f (x1 |θ1 ,θ2 ) · · · f (xn |θ1 , θ2 )hα,β,µ,τ (θ1 , θ2 ) ∝ α+ n + 1 −1 θ2 2 2 exp 1 nτ (xn − µ)2 τ + n β + Sn(2) (xn ) + + 2 2 τ +n 2 −θ2 τ µ + nxn θ1 − τ +n 2 !! ∝ hαn ,βn ,µn ,τn (θ1 , θ2 ), dove αn = α + n2 β = β + 1 S (2) (x ) + n n 2 n τ µ+nx n µn = τ +n τ = τ + n. n nτ (xn −µ)2 2 τ +n =β+ 1 2 Pn i=1 (xi − xn )2 + nτ (xn −µ)2 2 τ +n (3.6) Commenti sugli iperparametri. L’aggiornamento degli iperparametri ha analogie con i casi visti precedentemente dove θ1 o θ2 sono noti. • Abbiamo gi` a visto il caso con θ1 noto (indicato con µ) e θ2 incognito (indicato con θ) e, in corrispondenza, le densit`a Gamma per θ2 sono una famiglia coniugata con il seguente aggiornamento di (αn , βn ): ( αn = α + n2 (3.7) P βn = β + 12 ni=1 (xi − θ1 )2 . Quindi, nel passare da θ1 noto a θ1 incognito (cio`e da (3.7) a (3.6)), si ottiene βn in (3.6) sostituendo θ1 che appare in βn in (3.7) con la sua stima xn , e aggiungendo (xn −µ)2 un ulteriore addendo nτ che tiene conto della densit`a iniziale su θ1 . 2 τ +n • Abbiamo gi` a visto il caso con θ2 noto (indicato con r) e θ1 incognito (indicato con θ) e, in corrispondenza, le densit`a Normali per θ1 sono una famiglia coniugata con il seguente aggiornamento di (µn , τn ): ( 2 xn µn = τ µ+nθ τ +nθ2 (3.8) τn = τ + nθ2 . Quindi, nel passare da θ2 noto a θ2 incognito (cio`e da (3.8) a (3.6)), `e come se in (3.8) dovessimo sostituire τ con θ2 τ e τn con θ2 τn (questo `e coerente con il fatto che la densit` a condizionata gµ,τ (·|θ2 ) che appare nella densit`a della distribuzione Gamma-Normale `e la densit`a della distribuzione N (µ, θ21τ )) e, successivamente, si ottengono le equazioni per µn e τn in (3.6) semplificando il valore θ2 . (1) Infine, poich´e si ha x → Eθ0 [X1 ] = θ0 (per la legge dei grandi numeri come in altri casi studiati Pn n 2 1 i=1 (xi −xn ) in precedenza) e → (2) , abbiamo n θ0 (1) +τ µ → θ0 E[Θ1 |X n = xn ] = µn = nxτn+n 2 P 2 nτ (xn −µ) β+ 12 n βn i=1 (xi −xn ) + 2 τ +n Var[Θ1 |X n = xn ] = τn (αn −1) = →0 (τ +n)(α+ n −1) 2 n α+ (2) αn 2 E[Θ2 |X n = xn ] = βn = β+ 1 Pn (x −x )2 + nτ (xn −µ)2 → θ0 n i i=1 2 2 τ +n α+ n αn 2 Var[Θ |X = x ] = = → 0. 2 2 n n 2 2 βn 1 Pn 2 nτ (xn −µ) β+ 2 42 i=1 (xi −xn ) + 2 τ +n Si osservi che E[Θ1 |X n = xn ] < ∞ se e solo se α + n2 > 12 e questa condizione `e sempre verificata (essendo n ≥ 1). Inoltre si ha Var[Θ1 |X n = xn ] < ∞ se e solo se α + n2 > 1, e questo potrebbe non essere vero per n = 1; in ogni modo questo non `e un problema perch´e siamo interessati a studiare il limite per n che tende ad infinito. 3.8 Osservazioni Uniformi Pensiamo al caso in cui f (·|θ) `e la densit`a di una variabile aleatoria X ∼ U [0, θ]; quindi si ha la densit`a continua 1 f (x|θ) = 1[0,θ] (x), x ∈ X = [0, ∞), θ ∈ Ω = (0, ∞). θ Statistica sufficiente. Sia Sn (xn ) = max{x1 , . . . , xn }. Allora si ha Lxn (θ) = n Y 1 i=1 θ 1[0,θ] (xi ) = θ−n 1[0,θ] (Sn (xn )). Quindi Sn (xn ) `e una statistica sufficiente perch´e vale (F) con Hn (xn ) = 1 e Kn (Sn (xn ), θ) = θ−n 1[0,θ] (Sn (xn )). La condizione (SC) si verifica agevolmente tenendo presente che la funzione di distribuzione di Sn (X n ) `e FSn (X n ) (y|θ) =Pθ (Sn (X n ) ≤ y) = Pθ (∩ni=1 {Xi ≤ y}) n n 0 = 0 Y y n =(Pθ (X1 ≤ y))n = Pθ (Xi ≤ y) = θ n i=1 1 =1 se y < 0 se y ∈ [0, θ] se y > θ; infatti, se indichiamo la densit` a di Sn (X n ) con gn (·|θ), si ha gn (y|θ) = n y n−1 1 1 (y) θ θ [0,θ] (3.9) e quindi Qn i=1 f (xi |θ) gn (Sn (xn )|θ) = θ−n 1[0,θ] (Sn (xn )) 1[0,θ] (Sn (xn )) . = n−1 n(Sn (xn ))n−1 1[0,θ] (Sn (xn )) Sn (xn ) 1 n θ θ 1[0,θ] (Sn (xn )) Stimatore di massima verosimiglianza. La verosimiglianza assume anche il valore 0 ed evitiamo di considerare il logaritmo. Si vede che ( 0 se θ < Sn (xn ) Lxn (θ) = −n θ se θ ≥ Sn (xn ). ˆ ) = Sn (x ) perch´e abbiamo una funzione di Quindi lo stimatore di massima verosimiglianza `e θ(x n n θ nulla in [0, Sn (xn )), che assume un valore positivo per θ = Sn (xn ), e che decresce in [Sn (xn ), ∞) tendendo a zero per θ che tende a infinito. Famiglia coniugata e comportamento asintotico. Come vedremo le densit`a Pareto sono una famiglia coniugata. Se consideriamo l’iperparametro γ = (α, β) ∈ I = (0, ∞) × (0, ∞), per la densit`a iniziale abbiamo hα,β (θ) ∝ θ−(α+1) 1[β,∞) (θ). 43 In corrispondenza si ha f (x1 |θ) · · · f (xn |θ)hα,β (θ) ∝θ−n 1[0,θ] (Sn (xn ))θ−(α+1) 1[β,∞) (θ) =θ−(α+n+1) 1[Sn (xn ),∞) (θ)1[β,∞) (θ) =θ−(α+n+1) 1[max{β,Sn (xn )},∞) (θ) ∝ hαn ,βn (θ), dove ( αn = α + n βn = max{β, Sn (xn )}. Commenti sugli iperparametri. Il valore αn cresce con n ed otteniamo densit`a continue sempre pi` u concentrate in un intorno destro di βn (in accordo con le propriet`a asintotiche di seguito). Si ha hαn ,βn (θ) = 0 per θ < βn e quindi in particolare per θ < Sn (xn ); questo `e in accordo con la definizione del modello statistico per cui i valori osservati appartengono all’intervallo [0, θ]. Infine, poich´e `e noto che Sn (xn ) → θ0 , abbiamo ( (α+n) max{β,Sn (xn )} βn = → max{β, θ0 } E[Θ|X n = xn ] = ααnn−1 α+n−1 Var[Θ|X n = xn ] = 2 αn βn (αn −1)2 (αn −2) = (α+n)(max{β,Sn (xn )})2 (α+n−1)2 (α+n−2) → 0. Si osservi che Var[Θ|X n = xn ] < ∞ se e solo se α + n − 2 > 0, e questo potrebbe non essere vero per n = 1; in ogni modo questo non `e un problema perch´e siamo interessati a studiare il limite per n che tende ad infinito. Alcune differenze tra questo modello statistico e gli altri. Come gi`a osservato (vedi Osservazione 2.2.2), tutti i modelli statistici che abbiamo visto prima sono costituiti da una famiglia esponenziale (nel caso del modello con osservazioni Bernoulliane si dovrebbe considerare Ω = (0, 1) anzich´e Ω = [0, 1]) tranne quello con osservazioni Uniformi in questa sezione. Un’importante differenza tra questo modello statistico e quelli costituiti da famiglie esponenziali `e che il supporto Sθ = {x ∈ X : f (x|θ) > 0} di ciascuna densit` a f (·|θ) cambia al variare di θ; infatti si ha Sθ = [0, θ]. Un altro aspetto che distingue questo modello statistico dagli altri `e che la propriet`a di consistenza E[Θ|X n = xn ] → θ0 potrebbe non essere soddisfatta per lo stimatore Bayesiano. Nel caso specifico c’`e consistenza se e solo se θ0 ∈ {θ ∈ (0, ∞) : hα,β (θ) > 0} = [β, ∞). Quindi c’`e consistenza se e solo se il vero valore del parametro θ0 `e un valore ammissibile per la densit`a iniziale. Per` o non `e possibile scegliere β in modo tale che θ0 ≥ β perch´e θ0 `e incognito. Questo problema mette in luce un difetto della Statistica Bayesiana: si possono avere problemi se il supporto {θ ∈ Ω : h(θ) > 0} della densit`a iniziale h (che costituisce l’insieme dei valori ammissibili del parametro secondo lo stato di informazione iniziale) non contiene il vero valore del parametro. 44 Confronto tra lo stimatore di massima verosimiglianza e quello con il metodo dei momenti. In questa paragrafo useremo la notazione an ∼ bn per dire che limn→∞ abnn = 1. ˆ ) = max{x1 , . . . , xn }. Tenendo presente Iniziamo con lo stimatore di massima verosimiglianza θ(x n l’espressione della densit` a (3.9), si ha ˆ Eθ [θ(X n )] = Z θ yn 0 y=θ Z y n−1 1 n y n+1 n θ n n θn+1 n y dy = n dy = n = n = θ θ θ θ 0 θ n + 1 y=0 θ n + 1 n+1 e 2 y n−1 1 n y n dy − θ θ θ n+1 0 y=θ Z n θ n+1 n2 n y n+2 n θn+2 n2 n2 2 = n θ = θ2 = n − θ2 − y dy − 2 n 2 θ 0 (n + 1) θ n + 2 y=0 (n + 1) θ n + 2 (n + 1)2 n n(n + 1)2 − n2 (n + 2) 2 n(n2 + 2n + 1) − (n3 + 2n2 ) 2 n2 2 = θ = − θ = θ n + 2 (n + 1)2 (n + 2)(n + 1)2 (n + 2)(n + 1)2 n θ2 n3 + 2n2 + n − n3 − 2n2 2 2 θ = θ ∼ . = (n + 2)(n + 1)2 (n + 2)(n + 1)2 n2 2 ˆ ˆ ˆ2 Varθ [θ(X n )] =Eθ [θ (X n )] − Eθ [θ(X n )] = Z θ 2 Si osservi che ha lo stesso comportamento asintotico della varianza se si considera lo stimatore ˆ Tn (xn ) = n+1 e Eθ [Tn (X n )] = θ per ogni n θ(xn ) in modo che si abbia uno stimatore non distorto, cio` θ > 0; infatti si ha n+1ˆ n+1 n θ(X n ) = Eθ [Tn (X n )] = Eθ θ=θ n n n+1 e n+1ˆ n+1 2 n θ2 θ2 2 θ(X n ) = θ = ∼ . Varθ [Tn (X n )] = Varθ n n (n + 2)(n + 1)2 n(n + 2) n2 Ora trattiamo lo stimatore con il metodo dei momenti. Si deve considerare l’equazione Eθ [X1 ] = xn ˜ ) = 2xn . In corrispondenza, ancora (con incognita θ). Allora, poich´e Eθ [X1 ] = 2θ , lo stimatore `e θ(x n θ tenendo conto che Eθ [X1 ] = 2 , si ha n X1 + · · · + Xn 2X 2 ˜ Eθ [θ(X n )] = Eθ [2X n ] = 2Eθ = Eθ [Xi ] = nEθ [X1 ] = θ; n n n i=1 θ2 12 , inoltre, tenendo conto che Varθ [X1 ] = si ha n 4 X 4 θ2 X1 + · · · + Xn ˜ Varθ [θ(X n )] = Varθ [2X n ] = 4Varθ = 2 Varθ [Xi ] = 2 nVarθ [X1 ] = . n n n 3n i=1 In conclusione lo stimatore di massima verosimiglianza (e la sua versione non distorta Tn (xn )) ha un comportamento asintotico migliore di dello stimatore ottenuto con il metodo dei momenti perch´e ˆ Var [θ(X Var [Tn (X n )] n )] limn→∞ Varθ [θ(X = 0 (e limn→∞ Varθ [θ(X = 0). ˜ ˜ )] )] θ n θ n 45 Bibliografia [1] P. Baldi. Equazioni Differenziali Stocastiche e Applicazioni. Prima Edizione Pitagora, 1984. [2] P. Baldi. Equazioni Differenziali Stocastiche e Applicazioni. Seconda Edizione Pitagora, 2000. [3] G. Casella, R.L. Berger. Statistical Inference. Duxbury Press, 1990. [4] M.H. DeGroot. Optimal Statistical Decisions. McGraw-Hill, 1970. [5] S. Lang. Algebra Lineare. Bollati Boringhieri, 1970. 46
© Copyright 2025 ExpyDoc