Appunti di Probabilità e Statistica a.a. 2014/2015 BOZZA 2 Riuscire a controllare l’incertezza può significare riuscire a ridurla The things one feels absolutely certain about are never true (Oscar Wilde) c Copyright 2014 Mirko D’Ovidio Appunti rilasciati per il solo uso non commerciale. 1.5 (testing) 4 marzo 2015. Gli Appunti: i) sono stati scritti utilizzando LATEX su Linux - Debian (software free); ii) sono una raccolta di materiale per i corsi di Probabilità e Statistica ancora in versione preliminare, pertanto sarà cosa estremamente gradita la comunicazione di chiunque volesse segnalare errori di stampa o di concetto (materiale gratuito). Il materiale riportato in queste note è stato selezionato in modo da garantire una trattazione (spero) ben organizzata di argomenti che comunque non si deve considerare esaustiva ma dovrebbe avere lo scopo di aiutare e supportare nello studio della probabilità e della statistica. Gli appunti vanno quindi intesi come una lettura da affiancare ad un libro di testo, più completo e dettagliato, da concordare in maniera diversa nei due corsi di ”Calcolo delle Probabilità” e ”Probabilità e Statistica”. Alcuni concetti sono trattati in maniera più approfondita, possono risultare quindi troppo avanzati. Lo scopo di queste note è quello di fornire un aiuto nella comprensione della teoria di base ma anche quello di stimolare gli interessi di alcuni verso teorie più avanzate. - : il simbolo indica gli argomenti importanti. Il resto degli appunti è necessario per la comprensione di tali argomenti (prerequisiti o applicazioni). Indice 1 2 3 Osservazione e Probabilità 1.1 Statistica descrittiva . . . . 1.2 Probabilità . . . . . . . . . 1.3 Statistica inferenziale . . . 1.4 Probabilità e Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Misura e Probabilità 2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . 2.2 Misure positive e di Lebesgue . . . . . . . . . . 2.3 Funzioni misurabili e spazi di Lebesgue . . . . . 2.4 Misure di Probabilità - . . . . . . . . . . . . . . 2.5 Il concetto di Probabilità e le diverse impostazioni 2.6 Spazi di Probabilità uniformi . . . . . . . . . . . . . . . . . . . . . Variabili Aleatorie 3.1 Definizione di variabile aleatoria - . . . . . . . . 3.2 Media e Momenti . . . . . . . . . . . . . . . . . . 3.3 Alcune disuguaglianze fondamentali . . . . . . . . 3.4 Relazioni tra variabili aleatorie - . . . . . . . . . 3.4.1 Eventi di misura nulla . . . . . . . . . . . 3.4.2 Probabilità congiunte e condizionate . . . . 3.4.3 Trasformazioni di v.a. . . . . . . . . . . . 3.4.4 Somme di variabili aleatorie . . . . . . . . 3.4.5 Somme aleatorie di variabili aleatorie . . . 3.4.6 Tabella di contingenza . . . . . . . . . . . 3.4.7 Variabili aleatorie ordinate . . . . . . . . . 3.4.8 Successioni monotone di variabili aleatorie 3.4.9 Simulazione, generatori di numeri casuali . 3.5 Serie numeriche e di funzioni . . . . . . . . . . . . 3.6 Trasformate di densità . . . . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 4 14 16 . . . . . . 19 19 22 27 35 42 43 . . . . . . . . . . . . . . . 47 47 60 64 66 66 67 72 77 82 82 85 87 90 91 95 iv 3.7 3.8 Convergenza di variabili aleatorie 3.7.1 Definizioni di convergenza . 3.7.2 Teoremi limite . . . . . . . 3.7.3 Metodi Monte Carlo . . . . Processi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 102 109 110 114 4 Gli universi campionari 119 4.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 5 Inferenza statistica 5.1 Stima parametrica - . . . . . . . . . . . . . 5.1.1 Proprietà desiderabili di uno stimatore 5.1.2 Metodi di stima . . . . . . . . . . . . 5.2 Verifica delle ipotesi statistiche - . . . . . . 5.2.1 Test parametrici . . . . . . . . . . . . 5.2.2 Test non parametrici . . . . . . . . . 5.3 Stima in presenza di parametri di disturbo . . 5.4 Inferenza su particolari parametri . . . . . . . 5.5 Logiche inferenziali . . . . . . . . . . . . . . 6 7 I modelli lineari 6.1 Il modello lineare generale . . . . 6.2 Stima dei parametri . . . . . . . . 6.3 Il caso di una variabile esplicativa 6.4 Modelli lineari generalizzati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 127 128 136 142 142 147 149 151 153 . . . . 157 157 158 160 161 Distribuzioni di probabilità elementari 165 7.1 Variabili discrete - . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.2 Variabili continue - . . . . . . . . . . . . . . . . . . . . . . . . . . 172 A Alcune somme notevoli 179 B Svolgimenti 181 Bibliografia 196 Introduzione Nelle scienze applicate si procede sempre allo stesso modo, si osserva, si elabora, si traggono conclusioni. Si raccolgono dati da un campione e si traggono conclusioni per l’intera popolazione (sia essa di uomini, animali, batteri, titoli, etc.). Sembra un procedimento elementare, ebbene lo scopo di questo corso è proprio quello di fornire gli elementi per capire quanto, in effetti, non lo sia. Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della Statistica Descrittiva è quello di fornire ed estrapolare informazioni dai dati in nostro possesso. Utilizziamo a questo scopo delle funzioni dei dati campionari che sono chiamate appunto, statistiche dei dati campionari. Una volta ottenute le informazioni sul fenomeno oggetto di studio, ci si chiede quanto queste informazioni siano attendibili (sembra inevitabile ricordare che l’affidabilità di un dispositivo è la probabilità che funzioni!). Ci sono diverse questioni da affrontare, ad esempio, si deve ricordare che tutte le informazioni ottenute sono il frutto di analisi fatte sullo stesso campione. Vogliamo quindi sapere se considerando un campione diverso, oppure osservando un campione diverso, arriveremmo alle stesse informazioni. Oppure, se il campione osservato rispecchia al meglio le caratteristiche della popolazione, se cioè il campione osservato è quello più probabile. Questo è il ruolo della Statistica Inferenziale. Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle Probabilità. Più avanti nel testo, si è accennato a problemi (semplificati) relativi ai seguenti campi di applicazione della Probabilità: • Matematica applicata: costruire modelli (governati da equazioni a derivate parziali o no) che riducano l’incertezza in ambiti anche molto diversi, dalla Fisica alle Scienze Sociali o dalla Biologia alla Medicina (processi aleatori); • Teoria dei segnali: si studia la variazione nel tempo di una grandezza (o misurazione) cercando proprietà matematiche e statistiche (processi aleatori); • Inferenza Statistica: problemi di stima per parametri di un modello (matematico) che descrive un fenomeno oggetto di studio e che non può essere descritto da v vi modelli puramente deterministici. si vogliono studiare alcune proprietà su pochi unità e trarre conclusioni più generali; • Teoria delle decisioni: metodologia che si applica quando un decisore può scegliere tra varie azioni future il cui esito dipende da fattori esterni che non possono essere previsti esattamente; • Teoria del rischio: modelli matematici per descrivere la vulnerabilità di insolvenza di un assicuratore (o altra compagnia). Si può associare allo studio del problema classico della rovina del giocatore. In particolare, possiamo elencare alcuni esempi: • Astrofisica: studio della radiazione cosmica di fondo,...; • Biologia: inferenza su culture....; • Economia/Marketing: indagini sui nuovi prodotti, ...; • Farmacia: testare un farmaco,...; • Finanza/Assicurazione: problemi relativi ai titoli finanziari,...; • Fisica: diffusione del calore, moti di particelle, .... • Geologia: statistica spaziale, ...; • Informatica: approssimazione di integrali, calcolatori quantistici, ...; • Inquinamento: stima delle concentrazioni di inquinanti,...; • Medicina: studiare gli effetti di malattie o cure su pazienti, ....; Programma e registro delle lezioni. Tratteremo, nei due corsi AT e GEST, gli argomenti divisi come in Tabella 1. Il programma dettagliato va preso dal registro delle lezioni, aggiornato in tempo reale e disponibile sulla pagina web del coso: https://sites.google.com/site/mirkodovidio/didattica-mirko-d-ovidio Gli esercizi di autovalutazione si possono reperire ovunque in rete, si consiglia comunque di consultare la pagina https://sites.google.com/site/aristidesanmartini/ INDICE vii AT AT e GEST Capitolo 1 Capitolo 2 Capitolo 3 Capitolo 4 Capitolo 5 GEST Capitolo 3 (Somme di v.a. + Disuguaglianze) Capitolo 6 Tabella 1: Programma (in generale). In particolare sono consigliati gli ESERCIZI con RISPOSTE dal 1986 al 2001 oppure tutti i compiti dal 2003 con svolgimento. Il lettore interessato può approfondire gli argomenti trattati nei seguenti testi di riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica asintotica [11]; somme notevoli ed integrali [5]; Probabilità [1, 2, 6, 7]; Probabilità e Statistica [8]. Obiettivi del corso. Acquisire competenza e abilità nel trattare: • variabili aleatorie, relazioni, interpretazione e probabilità di eventi; • trasformazioni di variabili aleatorie X 7→ g(X) dove X può essere un vettore, P somme di v.a. Sn = nk=1 g(Xk ), convergenza di n−1 Sn per n → ∞. viii Errata Corrige e Approfondimenti In classe spesso affrontiamo esempi ed esercizi non presenti negli appunti. Sono qui elencati gli approfondimenti, commenti, esercizi trattati in classe e non presenti nelle precedenti versioni. Inoltre sono elencate le correzioni già fatte (in questa versione) di errori presenti in versioni precedenti. Quindi, nella presente versione potete trovare le seguenti differenze con le versioni precedenti: • pag. 11, Svolgimento Esercizio 7 • pag. 12, Esempio 1 • pag 13, Esercizio 9 • pag. 14, Esercizio 11 • Legge delle probabilità totali. ....e A, B, C sono eventi compatibili.... • pag. 38, Osservazione 11 • Eventi complementari • pag. 39, Esempio 11 • pag. 39, Esempio 12 • pag. 40, Proposizione 6 • pag. 50, Figura 3.1 • pag. 60, Osservazione 18 • Capitolo 7, Geometrica • Capitolo 7, Binomiale • Capitolo 7, Ipergeometrica ix x • Capitolo 7, Poisson • Soluzione Esercizio 47. ..... 2 e−xj fXj (xj ) = √ , π • Bibliografia j = 1, 2. Capitolo 1 Osservazione e Probabilità Si consiglia di leggere il Capitolo 1 prima dei capitoli che seguono e soprattutto dopo. 1.1 Statistica descrittiva La statistica è una scienza, una disciplina che ha come scopo lo studio quantitativo e qualitativo di fenomeni (non deterministici). La statistica descrittiva ha lo scopo di fornire una fotografia di una situazione o di un particolare fenomeno osservato. ”Una statistica è una funzione dei dati campionari. ” I dati campionari sono costituiti dalle misurazioni (o osservazioni) fatte sul campione osservato. Il campione osservato è costituito da unità statistiche che sono state opportunamente selezionate da una popolazione. La popolazione rappresenta l’interesse principale ed il motivo per il quale si vuole effettuare una analisi statistica. Si vuole cioè studiare un particolare (o più di uno) fenomeno che coinvolge la popolazione di interesse. La popolazione oggetto di studio può essere costituita da persone, animali, batteri, titoli finanziari, insetti, etc., in ogni caso siamo interessati a studiarne le caratteristiche. Non ci preoccupiamo ora di questioni legate al campione (come viene selezionato, come viene definita la numerosità ottima, etc.), tali argomenti rappresentano parte dei problemi che risolveremo ricorrendo alla statistica inferenziale. Per ora, diremo che il campione è casuale senza dire in che modo sia regolata tale casualità. Una volta osservato il campione, avremo una serie di misurazioni (supponiamo che la caratteristica di interesse ammetta valori numerici, sia quindi di tipo quantitativo1 ). Indichiamo tali misurazioni con il vettore x = (x1 , x2 , . . . , xn ) 1 (1.1) Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative ad esempio. 1 2 che è quindi un punto di Rn . Dalla definizione data sopra di statistica, sembra chiaro che possiamo considerare tutte le funzione con supporto in Rn . Ovviamente, volendo ricavare delle informazioni (riguardanti la popolazione) dal campione, sembra altrettanto chiaro che le funzioni deputate debbono prima di tutto essere informative. La prima informazione utile che possiamo ottenere è la media campionaria n 1X x¯ = xi . n i=1 (1.2) Vogliamo poi capire quanto i dati si discostano dalla media campionaria. Introduciamo allora una distanza (Euclidea) dei dati campionari da tale valore che è la varianza campionaria n 1X 2 s = (xi − x¯)2 . (1.3) n i=1 La varianza campionaria si può scrivere a partire dai momenti campionari di ordine r>0 n 1X (xi )r (1.4) mr = n i=1 dove, per r = 1, si ottiene la media campionaria m1 = x¯. Infatti, s2 = m2 − (m1 )2 (a volte scriveremo mr = x¯r e quindi s2 = x¯2 − (¯ x1 )2 ), il secondo momento meno il quadrato del primo. Supponiamo adesso che nel campione osservato x ci siano un certo numero di valori uguali, diciamo ad esempio che k valori su n siano esattamente uguali. In generale, supponiamo che ki valori sugli n totali siano uguali al generico vi . Allora, si può identificare una distribuzione (successione) di frequenze relative fi = ki /n ricavata dalla distribuzione di frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la cui cardinalità |I| è la dimensione del nuovo vettore v = (v1 , v2 , . . . , v|I| ). In nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro pesi ki , i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci sono valori uguali. Seguendo questa impostazione abbiamo x¯ = |I| X i=1 e |I| X |I| 1X vi ki vi fi = n i=1 |I| 1X s = (vi − x¯) fi = (vi − x¯)2 ki n i=1 i=1 2 (1.5) 2 (1.6) Capitolo 1. Osservazione e Probabilità 3 dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notiamo che tali frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn ) e k = (k1 , k2 , . . . , kn ). Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1) e calcolare media e varianza campionarie. Data una successione finita di valori xk , k = 1, . . . , n si definiscono: n 1X xk n k=1 n X xk f k media aritmetica, media ponderata, k=1 n Pn n Y 1 k=1 xk !1/n xk media armonica, media geometrica, k=1 n 1X (xk )p n k=1 !1/p media di potenza. In base al fenomeno oggetto di studio può essere scelta una diversa statistica di interesse, la media campionaria appena introdotta è solo un esempio. Possiamo essere interessati a studiare il max{x1 , . . . , xn }, il min{x1 , . . . , xn } oppure altre funzioni dei dati campionari. Supponiamo ora che il Rettore della Sapienza ci chieda l’età media degli iscritti al primo anno delle Facoltà di Ingegneria e supponiamo che tale informazione sia da comunicare entro 10 ore. Sappiamo che gli iscritti sono circa 10000 e non abbiamo il tempo di chiedere a tutti gli studenti di comunicare la loro età. La soluzione sembra essere quella di selezionare un campione molto ridotto di studenti, chiedere l’età e comunicare la media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la cosa è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Immaginiamo per comodità che ad ogni studente si possa far corrispondere un numero invece del nome, ci sono 10000 studenti quindi se X è l’età dello studente, allora Xi è per noi l’età dello studente i con i = 1, 2, . . . , 10000. All’ingresso della Facoltà di ingegneria trovo i 5 studenti corrispondenti ai numeri (6, 60, 114, 1002, 8657) 4 registro le loro età e ottengo il campione x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21). La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro che è 1 x¯ = (19 + 20 + 26 + 18 + 21). 5 La seconda domanda che mi pongo riguarda la correttezza di tale informazione e mi chiedo se veramente voglio assumermi la responsabilità di comunicare l’età media appena trovata al Rettore. Le mie insicurezze riguardano due punti: D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio considerare n > 5? Quanti studenti dovrei considerare per ottenere un risultato attendibile, n =? D2 se avessi considerato studenti diversi, la media quanto sarebbe cambiata? In effetti, avrei potuto trovare le età relative ai campioni (X62 , X69 , X124 , X1402 , X9239 ), (X632 , X1989 , X2014 , X4201 , X9719 ) oppure, in generale (Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ). (1.7) La scelta degli studenti da intervistare è del tutto casuale, dipende dagli studenti che trovo in quel momento, in quel posto. In particolare D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a dire, quante medie diverse potevo calcolare?) 1.2 Probabilità Per introdurre il concetto di probabilità cerchiamo di impostare il problema visto sopra da un punto di vista più matematico. Si capisce bene che l’età di una persona può essere considerata come una variabile in un dato problema, in particolare è una variabile quantitativa discreta. Nel nostro caso, dobbiamo aggiungere che si tratta di una variabile aleatoria, non sappiamo cioè quanto vale fino a quando non osserviamo (fino a quando non si realizza la variabile aleatoria). Dobbiamo quindi distinguere tra variabile deterministica e variabile aleatoria. Diciamo che una variabile è deterministica se ”possiamo prevedere il suo valore in Capitolo 1. Osservazione e Probabilità 5 un certo momento” mentre una variabile è aleatoria se non abbiamo nessun controllo sui valori che assume, se cioè ”siamo in grado di prevedere il suo valore in un certo momento solo con una certa probabilità”. Se lancio un dado, non possiamo semplicemente dire ”esce 4” ma possiamo dire P (”esce 4”) = 1 6 cioè la probabilità dell’evento ”lancio il dado ed esce 4” è pari a 1/6. Formalizziamo dicendo che la variabile aleatoria X =”lancio il dado” ha un insieme limitato di realizzazioni che sono ovviamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che P (X = x) = 1 6 per ogni faccia x ∈ Ω. Si poteva quindi scrivere P (X = 4) = P (”esce 4”) = P (”lancio il dado ed esce 4”). Notiamo che P (X ∈ Ω) = P (”lancio il dado ed esce una faccia”) = 1 e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente chiameremo eventi impossibili quegli eventi con probabilità pari a 0. Ci riferiremo agli eventi rari quando le loro probabilità sono prossime a 0. In generale, ci possiamo riferire ad un fenomeno oggetto di studio come ad una variabile aleatoria X, non conosciamo il valore di X fino a quando X non si realizza, cioè fino a quando non osserviamo. Chiamiamo x la realizzazione della variabile aleatoria X. Quindi x è la nostra osservazione, nel caso del lancio del dado, x è una faccia di Ω = {1, 2, 3, 4, 5, 6}. Le probabilità che ci interessano saranno allora P (X = x), P (X ≤ x), P (X < x), P (X ≥ x), P (X > x) (1.8) oppure, se x1 ≤ x2 , P (x1 ≤ X ≤ x2 ). Si noti che se x1 , x2 ∈ R, la (1.8) continua ad avere senso. La variabile aleatoria sarà scelta in base al fenomeno che vogliamo studiare, alcuni esempi possono essere puramente didattici: 6 i) X =”lancio il dado”; ii) X =”estraggo una pallina da un urna”; iii) X =”estraggo k palline con ripetizione”; iv) X =”estraggo k palline in blocco”; altri possono rappresentare delle semplificazioni di modelli molto più complicati e utilizzati nella vita reale: i) X =”altezza”; ii) X =”pressione sistolica”; iii) X =”livello di reddito”; iv) X =”numero di sinistri”; v) X =”misurazioni relative alla radiazione cosmica di fondo”; vi) X =”precipitazioni in una regione”; vii) X =”concentrazione di un inquinante"’. Se Xi =”età della persona i” come nell’esempio sopra, allora possiamo formalizzare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.7). Cioè, ogni elemento di X è un numero naturale. La media campionaria è una quantità deterministica una volta che X si è realizzato, prima che si realizzi X, anche la media aritmetica degli elementi di X è aleatoria, cioè 5 X 1X ¯=1 X Xi j = Xj 5 j=1 5 j∈c 5 dove si è usato il fatto che c5 è un insieme di 5 etichette rappresentanti gli studenti intervistati. Volendo generalizzare ad n qualunque, scriviamo la variabile aleatoria media campionaria, X ¯n = 1 Xj (1.9) X n j∈c n e cn è un insieme di etichette che rappresenta un gruppo di n studenti. Quindi dicia¯ n è la variabile aleatoria ”età media campionaria”. A questo punto potrei mo che X chiedermi D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti insiemi diversi cn di etichette posso costruire? Capitolo 1. Osservazione e Probabilità 7 Spazi di Probabilità uniformi (prime considerazioni) Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che esso è caratterizzato da due oggetti: i) un insieme Ω detto insieme degli eventi (elementari); ii) la probabilità P che possiamo immaginare come una funzione del tipo P : ω → [0, 1] con ω ∈ Ω. Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω sono equiprobabili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6} e P (ω) = 1/6 per ogni ω ∈ Ω. Potremmo anche considerare un urna contenente n palline numerate da 1 a n. Allora, Ω = {1, 2, . . . , n} e P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω (cioè per ogni x = 1, 2, . . . . , n). Notiamo subito che Ω è detto insieme degli eventi elementari perché non contiene tutti gli eventi ai quali posso essere interessato. Continuiamo a riferirci al lancio del dado, le probabilità degli eventi elementari come abbiamo già osservato sono costanti e tutte uguali a 1/6. Potrei chiedermi allora con quale probabilità: 1. esce una faccia con un numero minore di 4 (esce un numero < 4); 2. esce una faccia con un numero minore o uguale a 4 (esce un numero ≤ 4); cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si può utilizzare l’impostazione classica delle probabilità secondo la quale, la probabilità di un evento A si può trovare dal rapporto tra casi favorevoli e casi possibili, P (A) = numero di casi f avorevoli ad A . numero di casi possibili (1.10) Ad esempio, nel lancio di un dado: • P (esce un numero pari) = 3/6; • P (esce un numero < 3) = 2/6; • P (esce un numero ≤ 4) = 4/6. Esercizio 2. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, con reimbussolamento (o con ripetizione), due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 8 3. P (estrarre due palline nere); 4. P (avere estratto una pallina rossa se so che una è nera). Esercizio 3. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, senza reimbussolamento (o senza ripetizione), due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 3. P (estrarre due palline nere). Esercizio 4. Da un urna contenente 4 palline rosse e 6 palline nere, si estraggono, senza reimbussolamento, due palline a caso. Calcolare le seguenti probabilità: 1. P (estrarre una pallina rossa e una nera); 2. P (estrarre due palline rosse); 3. P (estrarre due palline nere). Esercizio 5. Da un mazzo di carte da poker (52 carte) si distribuiscono 5 carte prese a caso. Calcolare: 1. P (asso di picche tra le 5); 2. P (un asso tra le 5); 3. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori). Esercizio 6. Un gruppo di n maschi e m femmine partono per le vacanze. Decidono di trovarsi in stazione la mattina del giorno dopo alle 5:30 e attendere che la biglietteria apra. Quando arrivano in stazione non c’è nessuno, si mettono in fila in ordine di arrivo. Volendo parlare durante l’attesa, si chiedono con quale probabilità i maschi saranno tutti vicini e di conseguenza anche le femmine? Prima di rispondere agli esercizi proposti, introduciamo il calcolo combinatorio che risulta essere un strumento molto potente nel calcolo di probabilità su spazi uniformi. In particolare, si considera l’impostazione classica della probabilità, bisogna distinguere tra casi possibili (la totalità degli eventi che possiamo registrare) e casi favorevoli (i soli eventi relativi alla probabilità di interesse, i casi che contribuiscono al verificarsi dell’evento per cui vogliamo calcolare la probabilità). Nel calcolo combinatorio si studiano le diverse regole secondo le quali insiemi di elementi sono considerati diversi. Tali regole definiscono delle famiglie di insiemi, al loro interno tutti gli insiemi rispettano le stesse regole, su numerosità e ordine ad esempio. Approfondiremo questi aspetti in seguito. Capitolo 1. Osservazione e Probabilità 9 Definizione 1. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità n, ii) che differiscono per ordine (ordinati) formano l’insieme P n delle permutazioni semplici degli n elementi di U . Inoltre, |P n | = n!. Definizione 2. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che non differiscono per ordine (non ordinati) formano l’insieme Cn,k delle combinazioni semplici degli n elementi di U in classi di k. Inoltre, n n! . |Cn,k | = = (n − k)!k! k Sia U = {a, b, c}, allora P 3 = {abc, acb, bac, bca, cab, cba}, C3,1 ={a, b, c}, C3,2 ={ab, ac, bc}, C3,3 ={abc}. Cerchiamo ora di rispondere alla D4 e quindi anche alla D3. Nel calcolare la media campionaria non importa in quale ordine osservo le stesse n persone, posso quindi considerare cn una combinazione semplice di 10000 indici in classi di n e può essere scelto in |C10000,n | modi diversi. Inoltre, −1 1 10000! . P (cn ) = 10000 = (10000 − n)! n! n Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media x¯ = 20. Dobbiamo notare che ¯ n = 20) 6= P (cn ) P (X infatti ci possono essere diversi campioni con la stessa media campionaria (la media delle età di Maria e Alberto può essere uguale alla media delle età di Marta e Simone). ¯ n è quindi ancora aperto, non Il problema di determinare la legge distributiva di X sappiamo cioè scrivere ¯ n = x) P (X per ogni x. (1.11) 10 Svolgimento Esercizio 2. Le palline estratte vengono inserite nuovamente nell’urna e quindi ad ogni estrazione la situazione è esattamente la stessa. Indichiamo con N =”estraggo pallina nera” e R =”estraggo pallina rossa”. Gli eventi di interesse sono RN oppure N R (sono i casi favorevoli). I casi possibili sono RR, RN, N R, N N. La situazione iniziale prevede che (eventi di probabilità uniformi) 5 5 e P (N ) = . 10 10 Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di nuovo la pallina nell’urna. Si ottiene: P (R) = 1. P (RN oppure N R) = 2/4; 2. P (RR) = 1/4; 3. P (N N ) = 1/4; 4. P (R|N ) =?. Nei primi tre punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta la probabilità condizionata solo per sottolineare l’esistenza di un problema diverso. Affronteremo il condizionamento in seguito. Svolgimento Esercizio 3. Dobbiamo considerare un urna con 10 palline dalla quale si estrae una pallina alla volta, senza reimbussolamento. Dopo la prima estrazione la situazione cambia e di conseguenza anche le probabilità di estrarre palline rosse o nere. Alla seconda estrazione, P (R) e P (N ) dipenderanno da quale pallina ho estratto la prima volta. Devo quindi introdurre gli eventi Ri = ”R alla estrazione i-esima” e Ni = ”N alla estrazione i-esima” e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inoltre, in questo caso P (R1 N2 ) = P (R2 N1 ), perché? Daremo la soluzione di questo esercizio in seguito. Svolgimento Esercizio 4. Anche questo esercizio ha il solo scopo di sottolineare alcuni aspetti importanti, daremo la soluzione in seguito. Siamo però in grado di fornire una spiegazione del fatto che P (R1 N2 ) 6= P (R2 N1 ) contrariamente a quanto accadeva nel precedente esercizio. Perché? Capitolo 1. Osservazione e Probabilità 11 Svolgimento Esercizio 5. Svolgimento Esercizio 6. Pensiamo ad una sequenza di numeri, da 1 a n + m. Ad ogni amico associamo un numero. I casi favorevoli sono dati da tutti i modi in cui posso ordinare i primi n numeri (i maschi) e tutti i modi in cui posso ordinare i numeri da n+1 a m (le femmine), si ottiene rispettivamente P n e P m . Quindi i casi favorevoli sono n!m! mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli n+m numeri (amici). In definitiva, applicando l’impostazione classica della probabilità, la P (i maschi saranno tutti vicini e di conseguenza anche le femmine) si ottiene considerando l’ordine di arrivo e calcolando P (due gruppi distinti) = n!m! . (n + m)! Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 . Esercizio 7. (Regola del ”ne fisso uno”) Si distribuiscono a caso 5 carte da un mazzo di 52. Calcolare le probabilità relative agli eventi: 1. ottengo una coppia, 2. ottengo due coppie, 3. ottengo un poker, 4. ottengo un poker di assi, 5. ottengo colore. Svolgimento Esercizio 7. Si può rispondere a tutti i punti considerando un solo caso alla volta, vediamo come. Ricordiamo che le 52 carte sono divise in 13 carte per 4 semi. Consideriamo le 13 carte in corrispondenza con i primi 13 numeri (al numero 1 corrisponde un asso, etc.). 1. Per ottenere una coppia devo avere due carte dello stesso numero. Mi devo chiedere quante coppie posso ottenere? Notiamo che l’evento di interesse non è ”ottengo almeno una coppia”. Fissiamo un numero, ad esempio uno (che equivale a dire, asso). Quante coppie posso formare con 4 uno? Sono |C4,2 |. Quindi, la probabilità di ottenere una coppia di uno (di assi) si ottiene considerando i casi possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle possibili e le restanti 3 carte prese a caso. In quanti modi posso scegliere le restanti 3 carte? 12 In |C50,3 | modi di cui solo |C48,3 | mi interessano? No! Se voglio una coppia, devo considerare 13 4 12 4 4 4 13 4 12 48 1 2 3 1 52 5 1 1 6= 1 2 3 3 52 5 per via delle ripetizioni possibili nelle tre carte rimanenti 2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognuno considero le coppie possibili, poi moltiplico per il numero di combinazioni di classe uno possibili per le restanti carte, 13 4 4 44 13 4 4 11 4 2 2 2 1 52 5 o anche 2 2 2 1 52 5 1 3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi moltiplico per 13 e per le combinazioni relative alla quinta carta, 13 4 48 13 4 12 4 1 4 1 52 5 o anche 1 4 1 1 52 5 4. per fare un poker di assi, devo considerare solo gli assi, quindi 4 48 4 12 4 4 1 52 5 o anche 4 1 1 52 5 5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un seme e ottengo 4 13 1 5 52 5 Esempio 1. Nel lancio di due dadi si deve considerare uno spazio degli eventi elementari dato da Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6} cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di ottenere una sola coppia è costante (spazio uniforme) ed è pari a 1/36 e 36 sono gli elementi della matrice. Si deve osservare che P (ottenere (1, 2)) = P (ottenere (2, 1)) = 1/36 mentre P (ottenere entrambi i numeri 1 e 2) = 2 1 1 = + 36 36 36 Capitolo 1. Osservazione e Probabilità 13 che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il fatto che P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito che P (ottenere (1, 2)) = 1 1 1 = · = P (ottenere 1) · P (ottenere 2) 36 6 6 che introduce il concetto di indipendenza (eventi indipendenti e compatibili) ed il fatto che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può essere visto come lanciare due volte un solo dado. Esercizio 8. (Regola del ”procedo per iterazioni successive”) Due amici arrivano al cancello chiuso di un palazzo e solo Mario (il custode) conosce la chiave del mazzo che apre il cancello. Appena arrivati Mario deve rispondere al telefono e lascia il mazzo di n chiavi all’amico Matteo chiedendogli di aprire. Matteo non sapendo quale sia la chiave giusta, le prova tutte una ad una togliendo ogni volta dal mazzo la chiave che non apre. Con quale probabilità Matteo proverà k chiavi? Svolgimento Esercizio 8. Si considerino gli eventi G =”chiave giusta” e S =”chiave sbagliata”. Allora P (G al tentativo numero 1) =P (G) = 1 n n−1 1 n n−1 n−1n−2 1 P (G al tentativo numero 3) =P (S)P (S)P (G) = n n−1n−2 .... .. P (G al tentativo numero 2) =P (S)P (G) = P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) = 1 n per ogni k ≤ n. Bisogna notare che si è usato il fatto che G ⊥ S (gli eventi G e S sono indipendenti). Questo aspetto risulterà chiaro in seguito. Notiamo inoltre che S = Gc e quindi P (G) + P (S) = P (Ω) = 1 Esercizio 9. Una segretaria riceve 4 buste dove scrive i rispettivi indirizzi e 4 lettere da inserire nelle buste. Risponde al telefono e dimentica quale lettera va associata a quale indirizzo, decide di provare a caso. Calcolare la probabilità che 3 lettere vengano inserite nelle buste giuste e quindi spedite al giusto indirizzo. 14 Svolgimento Esercizio 9. Se 3 lettere sono messe nella busta corretta allora anche la quarta verrà spedita al giusto indirizzo. Se chiamo le buste A, B, C, B e le lettere a, b, c, d, per mettere le lettere nelle buste giuste devo aver ordinato le buste e le lettere allo stesso modo. Quindi, la probabilità cercata è 1/4!. Esercizio 10. Mario è addetto al controllo qualità in una azienda che produce lampadine. Da precedenti controlli si sa che il 5% delle lampadine prodotte sono difettose. 1. Con quale probabilità Mario troverà una lampadina difettosa durante il controllo? 2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lampadine prodotte e poi vengono imballate e sistemate in bancali da 20 scatole. Con quale probabilità Mario troverà una lampadina difettosa in una scatola da 5? Con quale probabilità ne trova due difettose in una scatola da 5? Se controlla tutto il bancale da 20 scatole, con quale probabilità troverà una scatola con almeno una lampadina difettosa? Infine, con quale probabilità troverà più di 5 lampadine difettose nelle 20 confezioni di un bancale? 3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle lampadine sono difettose? Possiamo ancora considerarla un informazione attendibile? Esercizio 11. Una ditta produce due componenti a e b che risultano difettosi rispettivamente per il 3% e 4%. La produzione avviene in reparti diversi e quindi in maniere indipendente. I due componenti vengono poi assemblati e si ottiene il prodotto finale. Calcolare la probabilità che 1. il prodotto finale presenti entrambi i difetti, 2. il prodotto finale sia difettoso (almeno un componente difettoso), 3. sia difettoso a sapendo che il prodotto finale è difettoso, 4. sia difettoso b sapendo che il prodotto finale è difettoso. 1.3 Statistica inferenziale Vogliamo inferire su un particolare parametro della popolazione. Nei problemi a cui vogliamo trovare risposta disporremo di alcune informazioni, ad esempio un campione e vogliamo caratterizzare la popolazione, ad esempio trovando un valore che ben rappresenta un parametro (o i parametri) di tale popolazione. Tale valore è proprio una stima del parametro. Si deve però definire il concetto di stima, per ora diciamo che possiamo disporre dei seguenti concetti legati alla stima, supponiamo che il parametro di interesse sia unidimensionale: Capitolo 1. Osservazione e Probabilità 15 • stima puntuale, vogliamo trovare un valore che rappresenti il valore vero (un numero); • stima intervallare, vogliamo trovare un insieme di valori che contenga con elevata probabilità il valore vero (un intervallo), • test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute (ad esempio se possiamo considerarle attendibili/affidabili). Tratteremo tecniche della statistica inferenziale mirate a risolvere problemi come quelli di seguito elencati. Esercizio 12. Per una particolare marca di abbigliamento, si poteva assumere che il prezzo di vendita di un capo negli passati seguiva una legge normale di media µ = 66 euro (cioè il prezzo in Italia del capo variava attorno a 66 euro seguendo una distribuzione normale). Vengono considerati 10 negozi (presi a caso in tutta Italia) tra i 1000 che trattano il capo in questione e si rileva, per ognuno, il prezzo di vendita di quest’anno. Il vettore delle osservazioni è dato da x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62). Si vuole capire se ci sono state variazioni in termini di prezzo medio. 1. Calcolare una stima del prezzo medio di quest’anno. 2. Calcolare un intervallo che con probabilità pari al 95% contenga il prezzo medio italiano vero (cioè di tutti i 1000 negozi). Dal campione emerge che il prezzo medio campionario è inferiore a quello degli anni passati. 3. Stabilire se si può sostenere che il prezzo sia cambiato (test di ipotesi) e con quale probabilità (fiducia). Esercizio 13. Un pescatore vorrebbe sapere, in un particolare tratto di fiume, quanto tempo deve aspettare in media l’arrivo di un pesce (che forse abboccherà). Sa che un modello utile nello studio del numero di arrivi è basato sulla variabile di Poisson di parametro λ e si chiede se è veramente così, cioè se i pesci arrivano veramente seguendo una legge di Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ in modo da capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60 minuti quanti pesce attraversano il tratto di fiume al minuto e registra le osservazioni riportate nella Tabella 1.1. 1. Verificare se tale campione è rappresentativo e se i dubbi del pescatore sul modello sono fondati (si può usare il modello di Poisson?). 16 numero di transiti in un minuto frequenza 0 1 2 3 4 5 12 14 21 12 4 5 3 1 Tabella 1.1: Transiti dei pesci in 60 minuti 2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un pesce) che sia valido con una probabilità del 95% (che sia al 95% il tempo medio vero che bisogna attendere per l’arrivo di un pesce). Svolgimento Esercizio 13 1.4 Probabilità e Applicazioni La statistica inferenziale è una delle molte applicazione della probabilità. Sono collegate alla statistica inferenziale anche problemi di stima per processi aleatori che sono oggetti più complessi e prevedono, tra le altre cose, una diversa struttura di dipendenza tra le osservazioni. I processi aleatori possono rappresentare fenomeni evolutivi e quindi dipendono dal tempo. Tali processi rappresentano fenomeni fisici, biologici, finanziari e si possono associare a moti aleatori (di particelle o titoli ad esempio) che seguono delle leggi governate da equazioni differenziali. Supponiamo che Google voglia estrapolare delle informazioni dalle sue ricche basi di dati. Le informazioni vengono immagazzinate in matrici di dati (matrici di Rn×m ) e supponiamo che sia importante, per il caso di interesse, trovare i determinanti di tali matrici. La potenza di calcolo delle macchine di Google consente di trovare il determinante di una matrice in due giorni ma gli Ingegneri di Google conoscono un metodo più veloce. Le matrici sono di dimensione n×m con n, m grandissimi, troppo. Consideriamone una, ad esempio la matrice A. Allora, si scelgono due numeri n0 e m0 molto minori di n e m rispettivamente e si decide di calcolare il determinante della sotto-matrice di dimensioni n0 e m0 , ad esempio A0 . Il calcolo del determinate diventa un operazione che impegna le macchine Google solo pochi minuti ma il problema diventa: Capitolo 1. Osservazione e Probabilità 17 Figura 1.1: ...provate con I’m feeling lucky. ”esiste una scelta ottima degli elementi di A in modo da costruire la sotto-matrice A tale per cui P (det(A) = det(A0 )) = max?”. Ovviamente se tale probabilità fosse sufficientemente alta, diciamo non minore del 95%, allora Google risparmierebbe molto tempo e denaro! 0 Sempre Google, come può minimizzare il tempo di ricerca? I vari server in cui si può trovare ciò che si cerca sono collegati da una fitta rete (il web) che possiamo immaginare come una vera e propria rete costituita da archi (collegamenti tra due server). Consideriamo un grafo aleatorio (random graph), cioè una successione di archi (e quindi una successione di server). Ho scelto a caso gli archi e ho stabilito un percorso tra i server in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo un algoritmo di scelta per gli archi tale per cui P ( scelta giusta ) = max. 18 Capitolo 2 Misura e Probabilità Z ? f (x)dx 6= 2.1 Z ? Z f (x)dµ(x) = f (x)µ(dx) Insiemi Operazioni, funzioni, cardinalità Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’insieme dei sottoinsiemi di A. P(A) può essere considerato come un insieme di famiglie di insiemi. Possiamo cioè considerare famiglie di insiemi di P(A), ogni famiglia è costituita da insiemi di P(A) che condividono una certa caratteristica, la caratteristica della famiglia1 . Sia E¯ il complementare di un insieme E. Scriveremo anche E c per indicare il complementare di E. Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi A e B di P(A), si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c . Sia A un insieme di P(A). Si noti che ¯ A = (A ∩ B) ∪ (A ∩ B) per ogni scelta di B in P(A). Definizione 3. Una successione Ek ⊆ P(A) si dice • monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N, 1 Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di numeri pari, un insieme di numeri inferiori ad N fissato etc.. Si possono costruire famiglie più o meno complesse, più o meno grandi. 19 20 • monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N. Definizione 4. Data una successione Ek ⊆ P(A): • si dice limite superiore2 di Ek l’insieme lim sup Ek = lim Ek = k ∞ [ ∞ \ Ek . i=1 k=i • si dice limite inferiore3 di Ek l’insieme lim inf Ek = lim Ek = k ∞ \ ∞ [ Ek . i=1 k=i Osservazione 1. Se Ek è una successione monotona di insiemi di P(A), allora [ Ek se la successione è crescente, lim Ek = k lim Ek = k k∈N \ Ek se la successione è decrescente. k∈N Definizione 5. Sia E ⊆ A. La funzione 1E : A 7→ {0, 1} così definita 1 se x ∈ E 1E (x) = , x∈A 0 altrimenti (2.1) è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta χE ). La funzione caratteristica 1[0,∞) è detta funzione di Haeviside e viene denotata con il simbolo H, cioè H(x) = 1[0,∞) (x). Osservazione 2. La funzione caratteristica 1Q∩[0,1] è detta funzione di Dirichlet. 2 Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore come segue lim sup ak = inf sup ak . k 3 n∈N k≥n Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore come segue lim inf ak = sup inf ak . k 4 n∈N k≥n Con il temine caratteristica preferiamo indicare una trasformata di densità che verrà introdotta in seguito. Chiameremo quindi 1 funzione indicatrice. Capitolo 2. Misura e Probabilità 21 Definiamo la cardinalità di un insieme. Nel definire la cardinalità è importante definire il concetto di insiemi equipotenti, due insiemi A e B sono detti equipotenti se esiste una applicazione biunivoca f : A 7→ B, ad esempio i 7→ ki , che associa ad ogni i ∈ I ⊂ N un elemento ki , definendo così l’insieme {ki }i∈I ∈ KI . Possiamo da I risalire ad un elemento preciso di KI e viceversa. Diamo allora la seguente Definizione 6. (Cardinalità) Si dice cardinalità dell’insieme A (denotata con |A|) la famiglia degli insiemi equipotenti ad A: |A| = {B|∃f : A 7→ B, f biunivoca}. Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre se l’applicazione f è del tipo f : I 7→ KI , biunivoca, segue spontaneamente l’idempotenza con un insieme C ⊆ N, in particolare diciamo che un insieme A è numerabile se |A| ≤ |N|. Diciamo che un insieme A è infinito se esiste un sottoinsieme proprio B ⊆ A, B 6= A tale che |A| = |B| mentre è finito un insieme che non risulti infinito. Tutti gli insiemi finiti sono numerabili, è facile pensare nel caso f : I 7→ KI che esista un unico n ∈ N per cui |A| = |{1, 2, . . . , n}| e scriveremo |A| = n, abbiamo ottenuto quindi che un insieme A è finito se e solo se vale |A| ≤ |N| quindi se è numerabile5 . Si dice invece che un insieme ha la potenza del continuo se risulta |A| = |R|. Definizione 7. (Insieme numerabile) Un insieme A è detto numerabile se esiste una funzione iniettiva f : A 7→ N . Se f è anche una funzione suriettiva (quindi è biunivoca), allora A è chiamato insieme infinito numerabile. Si noti che |{a, b, f, 3, h}| = 5. Famiglie Sia A un insieme, P(A) la famiglia dei sottoinsiemi di A. Definizione 8. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A se 1. {∅} ∈ A; 2. E ∈ A ⇒ E¯ ∈ A; 3. E, F ∈ A ⇒ E ∪ F ∈ A 5 Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è numerabile mentre non lo è l’insieme [0, 1] 22 Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile), nel senso che l’operazione di unione su insiemi di A porta ad un insieme di A, inoltre è numerabile visto che a due a due possono formarsi le unioni di tutti gli elementi di A. Ogni famiglia non vuota A ⊆ P(A) stabile per il passaggio al complementare e per unione finita contiene l’insieme vuoto {∅} e quindi è un’algebra. Definizione 9. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su A se 1. {∅} ∈ A; 2. E ∈ A ⇒ E¯ ∈ A; 3. per ogni successione {Ek } ⊆ A risulta ∞ [ Ek ∈ A. k=1 La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi misurabili. Si noti che una σ-algebra è un’algebra stabile per unioni numerabili ed inoltre vale la seguente relazione tra algebra e σ-algebra. Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equivalenti: 1. A è una σ-algebra; 2. per ogni {En } ⊆ A risulta lim En ∈ A. Definizione 10. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra AF = A ∩ F è detta σ-algebra indotta da A su F . 2.2 Misure positive e di Lebesgue Sia A un insieme, A0 ⊆ P(A) una famiglia tale che {∅} ∈ A0 . Definizione 11. Una applicazione µ : A0 7→ R+ è detta misura positiva (o misura) su A0 se 1. µ({∅}) = 0; Capitolo 2. Misura e Probabilità 23 2. (σ-additività) per ogni successione {Ek ⊆ A0 } di insiemi disgiunti tali che ∞ [ Ek ∈ A0 k=1 risulta µ ∞ [ ! Ek k=1 = ∞ X µ(Ek ). k=1 Osservazione 3. Osserviamo che se A ∈ A implica che A¯ ∈ A, allora A0 = A è una σ-algebra. Definizione 12. Una misura µ si dice finita se prende valori in R+ . Si dice σ-finita se esiste una successione {Ek } ⊆ A0 tale che A= ∞ [ Ek , µ(Ek ) < ∞ ∀k ∈ N. k=1 Osservazione 4. Supponiamo che µ(Ek ) = 1/2k . Allora (si veda sotto, la serie geometrica) µ(A) = ∞ X k=1 µ(Ek ) = ∞ ∞ X X 1 1 1 = − 1 = − 1 = 1. k k 2 2 1 − 1/2 k=0 k=1 Definizione 13. Sia A ⊆ P(A) una σ-algebra, µ : A 7→ R+ una misura. • La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita) lo spazio di misura è detto finito (σ-finito). • Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la misura µ è detta misura di probabilità. Diamo ora alcune proprietà delle misure: Proposizione 3. Sia (A, A, µ) uno spazio di misura. Allora: 1. monotonia: E ⊆ F ⇒ µ(E) ≤ µ(F ); S P 2. additività: µ ( nk=1 Ek ) = nk=1 µ(Ek ); S P∞ 3. subadditività: ∀ {Ek } ⊆ A ⇒ µ ( ∞ k=1 Ek ) < k=1 µ(Ek ); 4. perSogni successione non decrescente {Ek } ⊆ A vale µ( ∞ k=1 Ek ) = limk→∞ µ(Ek ); 24 5. perTogni successione non crescente {Ek } ⊆ A tale che µ(E1 ) < ∞ vale µ( ∞ k=1 Ek ) = limk→∞ µ(Ek ) Proposizione 4. (Misura di Lebesgue) Valgono le seguenti: 1. ogni intervallo limitato Ia,b = (a, b) è misurabile secondo Lebesgue e risulta µ(Ia,b ) = b − a, 2. ogni intervallo non limitato I è misurabile secondo Lebesgue e risulta µ(I) = ∞. Osservazione 5. (Lunghezza di un intervallo) Si consideri la misura di Lebesgue µ, allora dµ = µ(dx) = dx e Z Z µ(dx) = b − a. (2.2) dµ = µ(Ia,b ) = Ia,b Ia,b Esercizio 14. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare: 1. misura di Lebesgue µ(Q) di Q, 2. area di Q. Definire un rettangolo R e calcolare: 1. misura di Lebesgue µ(R) di R, 2. area di R. Osservazione 6. Notiamo che µ([a, b]) = µ({a} ∪ (a, b) ∪ {b}) = µ((a, b)) visto che µ({a}) = µ({b}) = 0. Vale infatti quanto sotto riportato. Proposizione 5. Ogni sottoinsieme numerabile di R è misurabile secondo Lebesgue e ha misura nulla. Definizione 14. (Insiemi di misura nulla) Un insieme N ⊆ A si dice di misura nulla (e scriviamo N ∈ N , dove N è la famiglia degli insiemi di misura nulla) se N ∈ A e µ(N ) = 0. Inoltre un insieme E ∈ A si dice trascurabile se esiste un insieme N ∈ N tale che E ⊆ N. Capitolo 2. Misura e Probabilità 25 Osservazione 7. Se µ è ancora la misura di Lebesgue, sappiamo che µ(0, ∞) = ∞. Se consideriamo una misura diversa, ad esempio dµ = µ(dx) = e−x dx (cioè la misura esponenziale), si ottiene Z Z ∞ e−x dx = 1. µ(0, ∞) = dµ = (0,∞) 0 Esercizio 15. Calcolare µ(−1, ∞) se 1. µ(dx) = 1(−2,2) (x)dx, 2. µ(dx) = x−α−1 1[1,∞) (x)dx, α ∈ (0, 1), 3. µ(dx) = λe−λx 1(0,∞) (x)dx, con λ > 0, 4. µ(dx) = (1 + x2 )−1 1R (x)dx, √ 2 5. µ(dx) = e−x /2 / 2π1R (x)dx. Definizione 15. (Misura che conta) Sia A un insieme. L’applicazione µ] : P(A) 7→ R+ definita come segue |E| = numero di elementi di E, se E è finito ] µ (E) = ∞, altrimenti è una misura di conteggio. Definizione 16. (Misura di Dirac6 ) Sia A un insieme. L’applicazione µδ : R×P(A) 7→ {0, 1} relativa ad E ∈ P(A) definita come segue 1, x ∈ E δ µ (x) = , x∈R 0, altrimenti è una misura di presenza/assenza. 6 Si noti che qui si sta parlando della misura di Dirac e non della delta di Dirac che è una funzione generalizzata indicata con δy (x) = δ(x − y) indicando così che è una funzione di x centrata in y, spesso y = 0 e si dice centrata in zero. La funzione di Dirac vale zero in tutti i punti x 6= y, vale ∞ in x = y R ed è tale per cui B δ(x − y)dx = 1 se y ∈ B con B ⊆ R. Inoltre, in generale Z δ(x − y)f (y)dy = f (x), (prima si è considerata f = 1B ). R 26 Quindi fissato E ∈ P(A), si ha µδ : x ∈ R 7→ {0, 1}. Si poteva scrivere µδE (x) oppure µδ (x, E), preferiamo non mantenere il riferimento ad E per non appesantire la notazione, nel seguito sarà sempre chiaro a quale E ci riferiamo. Notiamo anche che µδ (x, E) = 1E (x) e X dµδ = µδ (dx) = µδ (dx, E) = δy (x)dx. y∈E Si noti che Z ] µ (A) = dµδ , A⊂Z A se E = Z, cioè se dµδ = µδ (dx, Z). Osservazione 8. Giusto per fissare bene le idee. Sia E = Z ed A = {−3, −1, 4}. Allora, Z Z Z Z XZ δ δk (x)dx = δ−3 (x)dx + δ−1 (x)dx + δ4 (x)dx = 3. dµ = A k∈A R R R R Definizione 17. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La restrizione di µ alla σ-algebra indotta AF = A ∩ F è una misura denotata con µF è detta misura indotta da µ su AF . Consideriamo uno spazio di misura (A, A, µ) e diamo la seguente caratterizzazione di ”affermazione valida quasi ovunque”. Notiamo che la famiglia N dipende dalla misura µ, nel senso che un insieme può essere di misura nulla rispetto ad una misura ma non rispetto ad un altra scelta opportunamente. Si può allora scrivere Nµ per sottolineare questo fatto. Inoltre, tala famiglia è chiusa rispetto all’unione numerabile. Diciamo inoltre che una certa affermazione A[f (x)] su una data funzione f : A 7→ R è vera quasi ovunque (o q.o.) rispetto alla misura µ se {x ∈ A tali che A[f (x)] è falsa} ∈ Nµ . Quindi, date due funzioni f : A 7→ [−∞, +∞] e g : A 7→ [−∞, +∞], diremo che • f è finita q.o. se {x ∈ A : f (x) = ±∞)} ∈ N , • f = g q.o. se {x ∈ A : f (x) 6= g(x)} ∈ N , • f : D 7→ [−∞, +∞] è definita q.o. se A \ D ∈ N (dove A \ D = Dc è il complementare di D). Capitolo 2. Misura e Probabilità 27 Di esempi come quelli sopra riportati, come vedremo in seguito, se ne possono fare a piacimento ed il concetto ”affermazione valida q.o.” gioca un ruolo chiave nella teoria delle probabilità. Sostituiremo infatti la dicitura q.o. con q.c. (quasi certamente) se µ = P è una misura di probabilità. In particolare, scriveremo q.o. f = g se e solo se µ({x ∈ A : f (x) 6= g(x)}) = 0 (2.3) ed in maniera analoga negli altri casi (con riferimento alla misura µ, cioè µ-q.o. oppure P -q.c.). Consideriamo le funzioni 0, x ≤ 0 1, x 6= 0 F (x) = e f (x) = . 1, x > 0 0, x = 0 La funzione F è continua q.o. in R rispetto alla misura di Lebesgue. La funzione f ha un punto di discontinuità e possiamo dire che f = 1R q.o. rispetto alla misura di Lebesgue dove la funzione indicatrice (o identità) è continua in R. Infatti, in entrambi i casi µ({x}) = 07 . 2.3 Funzioni misurabili e spazi di Lebesgue Gli spazi di Lebesgue possono intendersi come una classe di equivalenza per funzioni misurabili. Indichiamo con M l’insieme delle funzioni misurabili. Ricordiamo che uno spazio è misurabile se possiamo associare a tale spazio una σ-algebra, allora ogni insieme di tale spazio è misurabile. Definizione 18. Siano (X, A) e (X 0 , A0 ) due spazi misurabili. Una funzione f : X 7→ X 0 è detta misurabile se per ogni insieme E 0 ∈ A0 risulta f −1 (E 0 ) ∈ A. Se cioè f −1 (E 0 ) è misurabile per ogni E 0 ∈ A0 . Definendo allora X 0 = R ∪ {−∞, ∞} ed α ∈ R possiamo scrivere che se {f > α} = {x ∈ X|f (x) > α} = f −1 ((α, ∞]) ∈ A allora f ∈ M. Si potevano anche considerare gli insiemi {f < α}, {f ≤ α}, {f ≥ α} e loro intersezioni, unioni, complementari. Si noti il collegamento con (1.8), le variabili aleatorie sono funzioni misurabili. Un esempio di funzione non misurabile rispetto alla misura µ può essere dato dalla funzione indicatrice f (x) = 1E (x) se E (e quindi 7 Si noti che vale per ogni punto x, non solo in x = 0 come in questo caso. 28 E c ) non è misurabile rispetto a µ. Quindi insiemi non misurabili rispetto ad una certa misura portano a funzioni non misurabili rispetto a quella misura8 . Esercizio 16. Data f (x) = x2 , verificare se {f ≤ α} è misurabile rispetto alle misure in Esercizio 15. Definizione 19. (Spazi di Lebesgue) Sia (X, A, µ) uno spazio di misura. Sia M(X, A) l’insieme delle funzioni misurabili in X. Per ogni p ∈ [1, ∞] sia Lp (X, A, µ) = {f ∈ M(X, A) | kf kp < ∞}, lo spazio di Lebesgue di ordine p, dove Z 1/p p |f | dµ , X kf kp = sup |f |, p ∈ [1, ∞) (2.4) p = ∞. X Indicheremo tale classe di equivalenza semplicemente con Lp . Introduciamo la funzione semplice f : A 7→ R definita da f (x) = ∞ X cn 1An (x) (2.5) n=1 dove 1A (x) = 1(x∈A) . Se An = {n}, allora 1{n} (x) = 1(n=x) è la funzione indicatrice dell’insieme {n} ed in questo caso, la funzione f (k) = ck è quindi una successione in k ∈ N. Se inoltre consideriamo la misura di Dirac relativa ai naturali, dµδ = µδ (dx, N), notiamo che Z X Z X δ f (x)µ (dx) = cy δy (x)dx = cy . R R y∈N y∈N Inoltre, considerato un insieme B ⊂ R, scriviamo Z X Z X δ f (x)µ (dx) = cy δy (x)dx = cy 1B (y) B y∈N B y∈N dove si è usato il fatto che Z δy (x)dx = 1B (y). B 8 Esempi banali ma forse di aiuto: non posso certo misurare la temperatura di un corpo con il metro, non posso neanche misurare le altezze con la bilancia. È importante considerare la dimensione degli oggetti in questione! Capitolo 2. Misura e Probabilità 29 Esercizio 17. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp per qualche p ≥ 1. Definizione 20. Sia (X, A, µ) = (N, P(N), µ] ) dove P(N) è l’insieme dei sottoinsiemi di N, e µ] è la misura di conteggio. Lo spazio Lp (N, P(N), µ] ) viene indicato con lp e per una successione {cn } ∈ lp vale !1/p Z 1/p ∞ X = |cn |p |f |p dµ] < ∞, p ∈ [1, ∞) N k{cn }kp = (2.6) n=1 sup |f (n)| = sup |cn | < ∞, p=∞ N dove si è posto f= N ∞ X cn 1{n} . n=1 Diamo il seguente teorema a scopo puramente illustrativo (ed introduttivo!!). Teorema 1. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy. Allora esiste f ∈ Lp tale che kfn − f kp → 0. Stiamo quindi dicendo in che senso fn → f se n → ∞9 . Sembra utile introdurre alcune questioni legate alle convergenze di funzioni già accennate nel teorema precedente. In particolare, facciamo notare quali tipi di convergenza si possono considerare. Sia (A, A, µ) uno spazio di misura e f : A → B, fn : A → B con n ∈ N due funzioni date, possiamo trovarci nelle seguenti situazioni: ♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in A se ∀x ∈ A ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < (2.7) ♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ si ha |fn (x) − f (x)| < ∀ x ∈ A (2.8) oppure, se kfn − f k∞ = sup |fn (x) − f (x)| → 0. (2.9) x∈A Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta dalla norma k · kp . Dato uno spazio di Banach (X, k · k), si dice base per tale spazio un insieme B ⊂ X, costituito da elementi linearmente indipendenti e tali che lo spazio generato da B sia denso in X (o ogni elemento di X possa scriversi come combinazione lineare di elementi di B). Si dice poi che X è separabile se esiste una base costituita da un numero finito di vettori o al più da una infinità numerabile. 9 30 ♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora fn → f in µ misura (e scriviamo fn → f ) se µ({x ∈ A : |fn (x) − f (x)| ≥ }) → 0 per ogni > 0 se n → ∞. (2.10) ♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se {x ∈ A : lim fn (x) = g(x) e f (x) 6= g(x)} ∈ N n→∞ (2.11) ♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp , f ∈ Lp . Allora fn → f in A se ∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗ dove Z kfn − f kp = si ha kfn − f kp < 1/p |fn (x) − f (x)| µ(dx) . p (2.12) (2.13) A Ci sono interessanti collegamenti tra convergenze, noi affronteremo tali questioni nel caso µ sia una misura di probabilità. Diciamo qualche parola sulla convergenza puntuale (o pointwise), siano fn , f definite in D, se ∀ x ∈ D0 ⊆ D, ∀ > 0, ∃ n∗ = n∗ (x, ) : ∀n > n∗ si ha |fn − f | < diciamo che fn → f pointwise in D0 ed n∗ dipende da x e . Può accadere quindi che per qualche x non posso trovare nessun n∗ che verifichi la condizione di convergenza. Se una successione converge uniformemente, n∗ non dipende dalla scelta di x, fn converge infatti in maniera uniforme. Inoltre, se fn → f ∗ (puntualmente o uniformemente) e se f ∗ = f quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che fn → f (puntualmente o uniformemente) µ-q.o.. Esercizio 18. Si calcoli Z x f (u)du, x∈R −∞ nei due casi 1, x ∈ (0, 1) ∪ (1, 3) f (x) = 0, altrove oppure f (x) = 1, x ∈ (0, 2) ∪ (2, 3) . 0, altrove (2.14) Capitolo 2. Misura e Probabilità 31 Esempio 2. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si vede che fn → 0 per ogni x ∈ R (convergenza puntuale), inoltre kfn − 0k∞ = n1 → 0 per ogni x ∈ R (convergenza uniforme). Esempio 3. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che fn → 0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈R |x| = ∞ (non converge uniformemente). √ √ Esempio 4. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato x, fn → 0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈D |x| = √1n → 0 (converge uniformemente). Esempio 5. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0 (puntualmente) infatti sin nx ∈ [−1, 1] è una funzione limitata. Inoltre, kfn − 0k∞ ≤ n1 → 0 (convergenza uniforme). Esercizio 19. Fornire una rappresentazione caratteristica (elementare) dell’insieme {f > α} se: 1. f (x) = log x, α = 1, 2. f (x) = e−x , α = 0. Esercizio 20. Fornire una rappresentazione caratteristica (elementare) dell’insieme {f ∈ A} se: 1. f (x) = log x, A = (1, 2), 2. f (x) = e−x , A = (1, ∞). Esercizio 21. Si dica se le seguenti funzioni sono continue o misurabili: 1. f (x) = 1(1,3] (x) + 1(4,5) (x); 2. h(x) = sin x; 3. g(x) = sin x + 2 cos x; 4. v(x) = c1 1(−1,0) (x) + c2 1(0,1) (x) con c1 , c2 > 0. Esercizio 22. Studiare la continuità delle seguenti funzioni: f (x) = 1(1,3] (x) + 1(3,5) (x); h(x) = 1(1,3) (x) + 1(3,5) (x); g(x) = 1(1,3) (x) + 1[3,5) (x). 32 Esercizio 23. Si dica se le seguenti successioni convergono pointwise. (Dove?) 1. fn (x) = xn , x ∈ [0, 1]. 2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R. 3. fn (x) = n−2 (nx + x2 ), x ∈ R. Esercizio 24. Studiare la convergenza in misura della successione fn (x) = xn con x ∈ [0, 1]. Esempio 6. Sia fn (x) = nx(1−x2 )n , x ∈ [0, 1]. Si vede subito che fn (0) = fn (1) = 0 e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1, n/an → 0 per n → ∞). Inoltre, n n 1 kfn − 0k∞ = √ 1− 2n + 1 2n + 1 n 2n+1 ! 2n+1 n 1 =√ 1− 2n + 1 2n + 1 dove n lim n→∞ 2n + 1 n→∞ −1/2 n = lim √ e n→∞ 2n + 1 lim kfn − 0k∞ = lim √ n→∞ 1− 1 2n + 1 n 2n+1 ! 2n+1 e quindi kfn − 0k∞ → +∞ (non converge uniformemente). Vogliamo sottolineare che Z Z fn (x)dx 6= lim n→∞ 1 0 1 lim fn (x)dx = 0. 0 n→∞ Infatti, per ogni n, Z 0 1 1 fn (x)dx = . 2 Quindi la convergenza puntuale non è sufficiente per il passaggio al limite sotto il segno di integrale. q Esercizio 25. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R converge puntualmente e uniformemente. Studiare la convergenza di fn0 e confrontarla con f 0 . Capitolo 2. Misura e Probabilità 33 Esempio 7. Consideriamo ancora fn (x) = sin nx . n lim fn0 (x) 6= f 0 (x) = n→∞ Si vede subito che 0 lim fn (x) . n→∞ Basta vedere che fn0 (0) = 1 per ogni n mentre f 0 (x) = 0 per ogni x. Quindi la convergenza uniforme di fn non è sufficiente per il passaggio al limite sotto il segno di derivata. Osservazione 9. Consideriamo gli insiemi A ={x ∈ R : f (x) = 0} ∈ Nµ B ={x ∈ R : f (x) = ∞} ∈ Nµ e l’integrale Z ID (f ) = f (x)µ(dx) D dove, solo per semplicità prendiamo µ(dx) = dx, la misura di Lebesgue. Si deve notare che A e B sono insiemi di misura nulla ma ID (f ) = ID\A (f ) se A ⊆ D, B ∩ D = ∅, ID (f ) = ∞ se B ⊆ D. Osservazione 10. Quanto abbiamo detto si può estendere a spazi Lp (X, A, m) dove dm = ϕdµ (2.15) e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A, scriveremo Z Z f (x)dm(x) = f (x)ϕ(x)dµ(x). A A Non tutte la misure ammettono densità. Alcune disuguaglianze Definizione 21. Una funzione reale, due volte differenziabile f è detta: i) convessa se f 00 (x) ≥ 0 per ogni x, ii) concava se f 00 (x) ≤ 0 per ogni x. 34 Teorema 2. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che µ(Ω) = 1. Sia f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una funzione convessa. Allora10 Z ϕ f dµ Ω Z ≤ (ϕ ◦ f )dµ. (2.16) Ω Diamo inoltre la seguente definizione. Definizione 22. (Esponenti coniugati) Se p e q sono numeri reali positivi tali che p + q = pq oppure 1 1 + = 1, p q allora chiamiamo p e q, coppia di esponenti coniugati. Teorema 3. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lq (µ), allora kf gk1 ≤ kf kp kgkq (quindi f g ∈ L1 (µ)). (2.17) Teorema 4. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lp (µ), allora kf + gkp ≤ kf kp + kgkp (quindi f + g ∈ Lp (µ)). (2.18) Le disuguaglianze appena introdotte valgono anche negli spazi lp = Lp (µ] ) della Definizione 20, non solo negli spazi Lp (µ) della Definizione 19. Valgono quindi anche per successioni. Per p = 1 con µ misura di Lebesgue (solo per comodità) e g = 1 (identicamente uguale alla funzione unità), dalla dis. di Hölder si ottiene Z Z f (x)dx ≤ |f (x)|dx mentre dalla dis. di Minkowski si ottiene Z Z Z |f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx. 10 Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)). Capitolo 2. 2.4 Misura e Probabilità 35 Misure di Probabilità - Assiomi di base della probabilità (assiomi di Kolmogorov) Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi attorno ai quali estendere quanto si è visto sino ad ora. In particolare: 1. Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva A. 2. Ad ogni evento A ∈ A è associato un numero reale non negativo P (A) che viene detto probabilità di A. 3. P (Ω) = 1. 4. A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B). 5. Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e limn→∞ An = {∅}, si ha limn→∞ P (An ) = 0 Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La classe additiva o σ-algebra A è una classe di insiemi non vuota e chiusa (stabile) rispetto alla negazione e all’unione numerabile (la chiusura appena menzionata vuole intendere che tale classe è costituita da elementi, gli insiemi, che possono essere uniti formando un nuovo insieme appartenente alla classe e che preso il complementare di ognuno di essi, della negazione o dell’unione appena ricordata, tale complementare appartiene ancora alla classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e ∪n An ∈ A per ogni successione {An } ∈ A. La misura P è quindi una misura di probabilità, in particolare è una misura del tipo (2.15). Diremo che Ω è l’insieme fondamentale o spazio fondamentale, spazio campionario, insieme degli eventi. In un esperimento o nel lancio di un dado si ottiene uno degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere A =00 si ottiene 100 . Lo spazio degli eventi A o anche algebra degli eventi è l’insieme di tutti gli eventi casuali che si possono ottenere in un certo esperimento. Supponiamo che nel lancio di un dado sia A =“si ottiene un numero pari”= {2, 4, 6} = {2}∪{4}∪{6}, la σ-algebra ¯ Ω} dove A sarebbe allora A = {∅, A, A, A¯ ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5}, quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi di interesse relativamente all’esperimento (sopra si è usata la legge di DE MORGAN o di BOOLE). Sembra utile chiarire un formalismo che in realtà è anche una importante sfumatura teorica, l’evento P ({1, 2, 3}) nel lancio di un dado può essere riscritto P ({1, 2, 3}) = P ({1}∪{2}∪{3}) e rappresenta l’evento P 2 o 3) = P (esce 1)+P (esce 2)+ S(esce 1 oP P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1. 36 Eventi complementari Diciamo che B è il complementare di A e scriviamo B = A¯ oppure B = Ac se A∪B =Ω e A ∩ B = ∅. Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili se E ∩ F = {∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo a Roma” si ottiene E ∩ F = ”mi trovo a Parigi e a Roma” = “evento impossibile”. Definizione 23. Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompatibili, la probabilità dell’unione di tutti gli eventi è uguale alla somma delle probabilità degli eventi. In simboli n n [ X Ai ∩ Aj = {∅} per i 6= j ⇒ P ( Ar ) = P (Ar ). (2.19) r=1 r=1 Esempio 8. Gli eventi E =”mi trovo a Pisa” e F =”vedo la torre Eiffel” sono eventi incompatibili. Esercizio 26. Consideriamo gli eventi E =“piove”, F =“cado scendendo le scale”. Che tipo di eventi sono? Intersezione con un evento certo. Un evento è certo se si verifica con probabilità pari ad 1. Dato un evento certo che indichiamo con Ω (e quindi P (Ω) = 1) è sempre possibile individuare un evento A tale che A∪Ac = Ω. Si vede subito che P (A∩Ac ) = 0, i due eventi sono incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato un evento E ∈ Ω, è estremamente utile ricordare la seguente decomposizione P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )). Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.19) segue che P (E) = P (E ∩ A) + P (E ∩ Ac ). (2.20) Esercizio 27. Si rappresenti graficamente quanto appena detto mediante i digrammi di Eulero-Venn. Eventi compatibili. Diremo che due eventi sono compatibili se non sono incompatibili. Se quindi non si escludono. Prima di proseguire ricordiamo il principio di induzione già introdotto nei corsi precedenti : Sia Ak dipendente da un indice k ∈ N una affermazione vera per k = 1 e supponiamo che sia vera per un certo k = n. Se è vera anche per k = n + 1, allora Ak è vera per ogni k ∈ N. Diamo ora il seguente risultato. Capitolo 2. Misura e Probabilità 37 Teorema 5. (Disuguaglianza di Boole) Per una successione finita o numerabile di eventi {Ar }r=1,...,n si ha n n [ X P ( Ar ) ≤ P (Ar ) r=1 r=1 Dimostrazione. Introduciamo una successione arbitraria di eventi Fr = Ar \ r−1 [ Ak , r = 1, 2, . . . , n k=1 e procediamo per induzione nel dimostrare che n [ Ar = n [ Fr . (2.21) A \ B = A ∩ Bc (2.22) r=1 r=1 Sarà utile ricordare la relazione ¯ è il complementare di B (verificate utilizzando i diagrammi di Venn). dove B c = B Se vede subito che A1 = F1 per costruzione. Supponiamo che (2.21) sia vera per n − 1 e verifichiamo per n. Si ottiene ! n n−1 [ [ Fr = Fr ∪ Fn r=1 = = r=1 n−1 [ r=1 n−1 [ ! ∪ Fn Ar (assunzione) ! ∪ Ar An \ r=1 = = = n−1 [ r=1 n [ ! Ar ∪ An ∩ n−1 [ ! Ak k=1 n−1 [ (definizione) !c ! Ak (dalla (2.22)) k=1 ! Ar ∩Ω r=1 n [ Ar . r=1 Quindi la (2.21) è dimostrata. La scelta della successione Fr non è stata arbitraria. Infatti si può verificare facilmente che gli insieme di tale successione sono a due a due 38 disgiunti (la verifica è lasciata al lettore, si consideri ad esempio F2 ∩ F1 ). Possiamo allora scrivere P( n [ Ar ) =P ( r=1 n [ Fr ) (per quanto appena dimostrato) r=1 = ≤ n X r=1 n X P (Fr ) (per il quarto assioma o per la additività di P ) P (Ar ) r=1 dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo fatto segue ancora dalla definizione della successione Fr . Infatti, si vede subito che P (F1 ) = P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione è conclusa. Osservazione 11. Se Ak ∩ As = ∅ per ogni s 6= k, allora Fk = Ak e P (Fk ) = P (Ak ) per ogni k. Vale il segno di uguale nella dis. di Boole. La legge delle probabilità totali. Siano A e B due eventi compatibili. Allora, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). (si dimostri graficamente). Inoltre, se A,B,C sono eventi compatibili, P (A ∪ B ∪ C) =P (A) + P (B) + P (C) −P (A ∩ B) − P (A ∩ C) − P (B ∩ C) +P (A ∩ B ∩ C) Ovviamente si può procedere con più di tre eventi. Lasciamo questo esercizio al lettore interessato, si noti che un modo di procedere è il metodo grafico (diagrammi di Venn). La legge delle probabilità composte. Siano A e B due eventi. Allora, P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A) dalla quale si ricava anche P (A|B) = P (A ∩ B) P (B) e P (B|A) = P (A ∩ B) . P (A) L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una dipendenza di A da B. Prima di andare a vedere in quanti modi può verificarsi A bisogna distinguere tra i casi possibili di B e capire come il verificarsi di B modifica il verificarsi di A. Capitolo 2. Misura e Probabilità 39 Esempio 9. Sia A ="mi rompo un braccio" un evento, non troppo felice! Sia B ="piove" un secondo evento. Allora A|B può avere un senso, posso cioè rompermi il braccio cadendo e cado perché piove. Forse, col sole non sarei caduto! C’è quindi una probabilità positiva (cioè diversa da zero) per l’evento A|B. Esempio 10. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è nato il 4 luglio". Cosa posso dire? Esempio 11. Dal lancio di due dadi regolari, diciamo D1 e D2 , voglio calcolare la probabilità che sia uscita la faccia 1 sapendo che la somma dei numeri sulle facce è 3. Allora, P ({1}|somma = 3) =P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3) P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3)) = P (D1 + D2 = 3) P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)]) = P (D1 + D2 = 3) P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1)) = P (D1 + D2 = 3) =1. Esempio 12. Seguendo il precedente esercizio, vediamo invece che P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)]) P (D1 + D2 = 4) P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1)) = P (D1 + D2 = 4) 1 2 = · P (D1 + D2 = 4) 36 P ({1}|somma = 4) = dove P (D1 + D2 = 4) = 3 . 36 Si ottiene quindi 2 P ({1}|somma = 4) = . 3 40 Eventi indipendenti. Se gli eventi A e B sono indipendenti, allora P (A ∩ B) = P (A)P (B). Se gli eventi sono indipendenti, come si è visto, A|B = A. Cioè il verificarsi di A dipende solo da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono ¯ A¯ e B, A¯ e B. ¯ indipendenti anche A e B, Esercizio 28. Siano A e B eventi indipendenti. Si dimostri che ¯ = P (A)P (B). ¯ P (A ∩ B) La situazione si complica nel caso di più eventi. Vale il seguente risultato. Proposizione 6. Se gli eventi {Ar }, in numero finito e infinito, sono indipendenti, allora comunque si prendano k di essi Aj1 , Aj2 , . . . , Ajk con k > 1, si ha P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ). (2.23) Osservazione 12. Dobbiamo notare che se gli eventi sono incompatibili, non ha senso il concetto di dipendenza. Osservazione 13. Vogliamo sottolineare che se vale la (2.23), allora non necessariamente gli eventi {Ar } sono indipendenti. Consideriamo due eventi A =”...” e B =”...” Qundi P (A ∩ B) = P (A)P (B) non implica che A e B sono indipendenti. Nel seguito useremo anche la seguente notazione P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An ) (2.24) ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si verifichino tutti. Sembra utile leggere P (A ∩ B) come la probabilità che si verifichi A e B. Diremo invece che P (A ∪ B) è la probabilità che si verifichino A, B o entrambi. In generale P (∪r Ar ) sarà la probabilità che si verifichi almeno uno degli Ar (non escludiamo quindi che se ne possono verificare più di uno). Se gli eventi sono indipendenti, la formula (2.24) si scrive come il prodotto delle singole probabilità altrimenti vale la regola del prodotto P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ). Ovviamente, sotto l’ipotesi di indipendenza si ha che P (An |An−1 , . . . , A2 , A1 ) = P (An ), .. . P (A2 |A1 ) = P (A1 ) e quindi la regola (2.25) vale per eventi qualunque. (2.25) Capitolo 2. Misura e Probabilità 41 Svolgimento Esercizio 11. Indichiamo con A ="a è difettoso" e B ="b è difettoso" gli eventi di interesse. Ovviamente P (A) = 0.03 e P (B) = 0.04. 1. P (A ∩ B) = P (A)P (B), 2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B), 3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B) dove P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A), 4. P (B)/P (A ∪ B). La legge delle probabilità composte a più alternative (formula di Bayes). La formula di Bayes svolge un ruolo molto interessante. Mette in relazione un evento E (che possiamo identificare come un effetto) con altri eventi (che possiamo considerare come le cause). Ci chiediamo quanto uno degli altri eventi intervenga nel determinare E (quindi quale causa partecipa maggiormente nel determinare un effetto). Teorema 6. Dati un evento E ed unSinsieme finito (o numerabile) di eventi incompatibili {Ar }, r = 1, 2, . . . , n, se E ⊂ nr=1 Ar e P (E) 6= 0, si ha P (Ar )P (E|Ar ) , P (Ar |E) = Pn i=1 P (Ai )P (E|Ai ) r = 1, 2, . . . , n. (2.26) Dimostrazione. Per la legge delle probabilità composte possiamo scrivere P (Ar |E) = P (E ∩ Ar ) P (E|Ar )P (Ar ) = . P (E) P (E) Inoltre, E ⊂ ∪r Ar e quindi ! E=E∩ [ Ar r = [ (E ∩ Ar ). r Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono incompatibili. Per la legge delle probabilità totali, otteniamo P (E) = P (∪r (E ∩ Ar )) = n X r=1 La dimostrazione è conclusa. P (E ∩ Ar ) = n X r=1 P (E|Ar )P (Ar ). 42 Svolgimento Esercizio 2 (continuazione). Diamo qui uno svolgimento diverso da quello già visto alla luce delle nuove considerazioni. Se estraggo con reimbussolamento le estrazioni sono indipendenti (le probabilità non cambiano in estrazioni successive). In particolare, P (R) = 5/10 = P (N ) 1. P (RN ∪ N R) = P ((R ∩ N ) ∪ (N ∩ R)) = P (R ∩ N ) + P (N ∩ R) − P (R ∩ N ∩ 5 5 5 N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) = 2 10 = 10 ; 10 2. P (RR) = P (R ∩ R) = P (R)P (R) = 52 ; 102 3. P (N N ) = P (N ∩ N ) = P (N )P (N ) = 4. P (R|N ) = 2.5 P (R∩N ) P (N ) = 52 ; 102 5 . 10 Il concetto di Probabilità e le diverse impostazioni Abbiamo introdotto gli assiomi della probabilità e ci siamo quindi preoccupati di introdurre una impostazione rigorosa. ”La Probabilità è una misura.” Dobbiamo ricordare che si possono dare diverse definizioni di probabilità spesso legate anche a diverse scuole e linee di pensiero. • Impostazione soggettiva. La probabilità di un evento è il prezzo che siamo disposti a pagare in una scommessa per ricevere 1 al verificarsi dell’evento. • Impostazione Bayesiana. La probabilità di un evento dipende da una legge a posteriori ottenuta scegliendo (anche soggettivamente) una legge a priori. è forte quindi il condizionamento a ciò che conosciamo sul fenomeno che ci interessa. Si può definire in questo ambito uno schema che prevede aggiornamenti successivi della priori con la posteriori fino ad uno step definito ottimo in qualche senso. • Impostazione frequentista. Si associa la probabilità di un evento alla frequenza di tale evento, si considera cioè che un evento si possa verificare in relazione ai casi favorevoli a tale evento. Se i casi in questione sono equiprobabili, allora la probabilità si può ottenere dal rapporto tra casi favorevoli e casi possibili. • Impostazione classica. Semplicemente il rapporto tra casi favorevoli e casi possibili (se gli eventi sono equiprobabili). • Impostazione assiomatica. Si basa sugli assiomi di Kolmogorov. Capitolo 2. 2.6 Misura e Probabilità 43 Spazi di Probabilità uniformi Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a spazi uniformi e impostazione classica della Probabilità. Uno spazio di probabilità è detto uniforme se gli eventi possibili sono equiprobabili, cioè tutti di probabilità data e uguale a p. Si pensi al lancio di un dado o di una moneta non truccati. Come si vedrà, p = P (ω) = µ] (casi 1 , possibili) ω∈Ω dove Ω è lo spazio degli eventi (elementari) possibili e X P (A) = P (ωk ) =p · µ] (casi favorevoli all’evento A) k:ωk ∈A = µ] (casi favorevoli all’evento A) µ] (casi possibili) dove A è un elemento della σ−algebra generata da Ω. Il nostro lavoro in questa direzione è quindi solo quello di identificare il numero di casi possibili e favorevoli. A tale scopo diamo alcune definizioni utili. PN Definizione 24. Dato un insieme U = ∪N j=1 Uj di cardinalità |U | = j=1 nj = n dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da nj ripetizioni dello stesso elemento, tutti i sottoinsiemi di U i) di cardinalità n, ii) che differiscono per ordinamento (ordinati), iii) che non differiscono per numero di elementi uguali (con ripetizione) formano l’insieme Pnn1 ,...,nN delle permutazioni con ripetizione. Inoltre, |Pnn1 ,...,nN | = n! . n1 ! n2 ! · · · nN ! Definizione 25. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che differiscono per ordinamento (ordinati), iii) in cui ogni elemento di U può essere preso una sola volta (senza ripetizione) 44 formano l’insieme Dn,k delle disposizioni semplici di n elementi in classe di k. Inoltre, |Dn,k | = n · (n − 1) · · · (n − k + 1) = n! . (n − k)! Definizione 26. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che differiscono per ordinamento (ordinati), iii) in cui ogni elemento di U può essere preso più volte (con ripetizione) 0 delle disposizioni con ripetizione di n elementi in classe di k. formano l’insieme Dn,k Inoltre, 0 |Dn,k | = nk . Definizione 27. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U i) di cardinalità k ≤ n, ii) che non differiscono per ordinamento (non ordinati), iii) in cui ogni elemento di U può essere preso più volte (con ripetizione) 0 formano l’insieme Cn,k delle combinazioni con ripetizione di n elementi in classe di k. Inoltre, n+k−1 0 |Cn,k | = . k Sia U = {a, a, b}, allora 3 P2,1 ={aab, aba, baa}. Sia U = {a, b}, allora D2,2 = {ab, ba}, 0 = {aa, ab, ba, bb}, D2,2 0 C2,2 = {aa, ab, bb} = {aa, ba, bb} Capitolo 2. Misura e Probabilità 45 Svolgimento Esercizio 3 (continuazione). Possiamo considerare le estrazioni in blocco e quindi otteniamo 5 1. P (RN ∪ N R) = 51 51 / 10 = 9; 2 2. P (RR) = 52 50 / 10 ; 2 3. P (N N ) = 50 52 / 10 ; 2 oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità cambiano ad estrazioni successive. Infatti, P (RN ) = P (R alla prima estrazione)P (N alla seconda estrazione) = 5 5 . 10 9 Si ottiene allora 5 5 ; 1. P (RN ∪ N R) = 2 10 9 2. P (RR) = 3. P (N N ) = 5 4 ; 10 9 5 4 . 10 9 Esercizio 29. Da un mazzo di 52 carte Mariello prende tutte le 13 carte di un solo seme scelto a caso e le passa a Mario. Mario distribuisce a Maria le prime n carte del mazzo. Calcolare le seguenti probabilità: a) tutte le carte di Maria sono minori o uguali ad n. b) tutte le carte di Maria sono maggiori di n. c) tutte le carte di Maria sono di cuori. Esercizio 30. Mario e Piero (in questo ordine) estraggono una pallina numerata a testa con reimbussolamento da una scatola contenete i numeri da 1 a 9. Guardano i numeri sulle due palline estratte, chi ha un numero pari vince 5 euro e se si sono estratte due palline con un numero pari non vince nessuno. Si ripete questa operazione due volte. Calcolare le probabilità dei seguenti eventi: 1. nessuno vince; 2. Piero vince 10 euro; 3. entrambi vincono 10 euro; 4. uno dei due vince 10 euro; 5. entrambi vincono 5 euro. 46 Capitolo 3 Variabili Aleatorie 3.1 Definizione di variabile aleatoria - Diamo una definizione formale e introduciamo le variabili aleatorie con un esempio. Sia B lo spazio dei reali B = Rn o degli interi B = Zn e Ω ⊆ A. Definizione 28. Sia X = X(ω) una funzione X : Ω 7→ B, diremo che X è una variabile aleatoria (v.a) definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se cioè (X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A. Possiamo quindi parlare di una v.a. misurabile X(ω) : A 7→ Bn e risulta P (B) = P (X(ω) ∈ B ⊆ B n ) = P (X −1 (B) ∈ Ω0 ⊆ A) = P (Ω0 ) dove B n ⊆ P(Rn ) se X ∈ Zn o B n ⊆ P(Rn ) se X ∈ Zn . Dobbiamo specificare rispetto a quale misura si sta calcolando la probabilità P quando si considera un Boreliano B della σ-algebra B n di Rn (oppure un boreliano B della σ-algebra ”discreta” B n di Zn ) o un insieme Ω0 della σ-algebra A di Ω. Infatti, Z Z P (Ω0 ) = dP = P (dω), Ω0 ∈ A, (3.1) Ω0 Ω0 o equivalentemente Z P (B) = Z dFX = B fX (x)µ(dx), B ∈ Bn . (3.2) B Diremo che FX è associata a P . Si vede subito che FX : B 7→ [0, 1] mentre P : Ω 7→ [0, 1]. Il nostro scopo, in questo capitolo, è quello di caratterizzare la misura µ nel caso 47 48 in cui X assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω) assume valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci interessano tutti gli ω ∈ Ω0 tali che X(ω) ∈ B ⊂ B n , cioè Ω0 ∈ A). Ci troviamo a dover trattare due spazi, (Ω, A, P ) e (Rn , B n , µ). La v.a. X(ω) rappresenta il collegamento tra di loro. Se (il Boreliano B) l’insieme B fosse rappresentato dalle persone alte 1.70 metri (B = {1.70}) ed X fosse la v.a. altezza delle persone di Ω diciamo che la probabilità che una persona sia alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈ Ω0 ) = P (Ω0 ) e quindi dalla µ] (Ω0 )/µ] (Ω) = nX=1.70 /npersone di Ω . In questo caso Ω0 è l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70 metri, Ω0 = {ω ∈ Ω | X(ω) = 1.70} e µ] (Ω0 ) restituisce il numero di tali persone. Si osservi che Ω0 = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70) Ω0 = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞) Ω0 = {ω ∈ Ω | 1.20 < X(ω) ≤ 180]} ⇔ B = (1.20, 1.80]. Diremo quindi che X(ω) =” altezza di ω” se X =”altezza” e ad ω può essere associata una misura di probabilità P (ω). Osservazione 14. Notiamo che P (X ∈ B) = P (ω : X(ω) ∈ B) = P (Ω0 ) Ω0 ⊂ Ω nello spazio (Ω, A, P ) e quindi P (X ∈ B) = FX (B : X −1 (B) ∈ Ω0 ) B ∈ Bn nello spazio (Rn , B n , FX ). Rimane da definire µ introdotta in (3.2). Oggetto chiave del corso sarà la funzione di ripartizione della v.a. X a valori in Rn FX (x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) dove X = (X1 , X2 , . . . , Xn ) è un vettore aleatorio e x = (x1 , x2 , . . . , xn ) ∈ Rn . Diamo la seguente definizione generale. Capitolo 3. Variabili Aleatorie 49 Definizione 29. Una variabile aleatoria (v.a.) reale X è una funzione dallo spazio di probabilità (Ω, A, P ) allo spazio misurabile (Rn , B n , FX ), con la classe B n misurabile, nel senso che le immagini inverse degli insiemi di B n di B appartengono ad A di Ω. Notiamo che N ⊂ Z ⊂ R. Nella definizione precedente si sono introdotte le variabili reali, come vedremo più avanti noi saremo interessati a caratterizzare le variabili continue e discrete. Useremo anche la notazione (ΩX , AX , PX ) per indicare che lo spazio di probabilità (Ω, A, P ) si riferisce alla v.a. X. Vediamo il caso in cui X ha valori in R ed FX (x) = P (X ≤ x) con x ∈ R ovvero X è reale 1-dimensionale. Proprietà della funzione di ripartizione. Risulta utile ricordare le proprietà fondamentali della funzione FX : R 7→ [0, 1], 1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x), x ∈ R; 2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ), x1 < x2 ; 3. P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 ); 4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0; 5. limx→x+0 FX (x) = FX (x0 ) (continuità a destra) cioè xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x) e xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−). Se xn → ∞ (o xn ↑ ∞) allora FX (xn ) → P (X < ∞) = 1. Notiamo che P (X = x) = FX (x) − FX (x−) (3.3) è uguale a zero per tutti i punti x di continuità1 per FX . Nel caso di una v.a. multidimensionale si ottiene lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ), x1 →+∞ 1 lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ), (3.4) x2 →+∞ Se la v.a. è continua si ha FX (x−) = FX (x) mentre nel caso di v.a. discrete, i salti della f.r. determinano P (X = x) > 0. 1.0 50 ● 0.8 ● 0.6 ● 0.4 ● 0.2 ● 0.0 ● 0 1 2 3 4 5 6 7 Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia nel lancio di un dado". La funzione è continua da destra. lim F(X1 ,X2 ) (x1 , x2 ) = 0 = lim F(X1 ,X2 ) (x1 , x2 ), x1 →−∞ x2 →−∞ lim x1 ,x2 →∞ F(X1 ,X2 ) (x1 , x2 ) = 1. (3.5) (3.6) La probabilità è una misura positiva di massa finita (P (Ω) = 1). La funzione di ripartizione è quindi una probabilità (misura di probabilità) e diciamo che dP = f · dµ o P =f ·µ (3.7) dove f è la densità di P rispetto alla misura µ. Per ora vogliamo solo sottolineare (in maniera ingenua) che: • f è una densità continua e µ è la misura di Lebesgue, quindi Z Z Z P (B) = f dµ = fX (x)dx = fX (x)1B (x)dx = P (X ∈ B). B B Capitolo 3. Variabili Aleatorie 51 Notiamo che B ∈ P(R) (o B ∈ P(Rn )) e se B = {x} è un punto, P (B) = 0. • f è una densità discreta e µ è una misura di Dirac, quindi Z X X f dµδ = pk 1(x=xk ) = P (B) = pk 1B (xk ) = P (X ∈ B) B x∈B k e pk = P (X = xk ) è a sua volta una probabilità per ogni k, diremo che la successione {pk }k è una distribuzione di probabilità. Notiamo che B ∈ P(Z) (o B ∈ P(Zn )) se B = {x} è un punto, P (B) = pk se x = xk per un k da definire. Dobbiamo quindi distinguere tra v.a. continue e discrete. In entrambi i casi vale il seguente risultato di continuità. Teorema 7. (Continuità di P ) Sia P una misura di probabilità. Sia {Ak }k∈N ∈ A una successione monotona di eventi, allora lim P (Ak ) = P lim Ak . (3.8) k→∞ k→∞ Inoltre, lim P (Ak ) = P k→∞ lim P (Ak ) = P k→∞ ∞ [ ! Ak , (se la successione è crescente) k=1 ∞ \ ! Ak , (se la successione è decrescente). k=1 Variabili aleatorie continue Diamo innanzitutto le seguenti definizioni. Definizione 30. Una v.a. si dice continua se assume valori continui2 . Definizione 31. Se X è una v.a. continua, definiamo supp(X) il supporto della v.a. X, cioè l’insieme dei valori che può assumere X. 2 Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato supporto o spettro continuo, ha la potenza del continuo. 52 Introduciamo le funzioni continue e vediamo come si legano alle v.a. continue. Definizione 32. Sia f : D 7→ R. Se per ogni successione xn a valori in D per cui lim xn = x n→∞ si ha lim f (xn ) = f (x) (3.9) n→∞ diciamo che f è continua in x. Se la (3.9) vale per ogni x ∈ D, scriviamo f ∈ C, dove C = C(D) è l’insieme delle funzioni continue con supporto in D ⊆ R. Teorema 8. (Teorema fondamentale del calcolo integrale) Sia f una funzione continua nell’intervallo [a, b]. La funzione integrale Z x F (x) = f (u)du (3.10) a è derivabile e vale F 0 (x) = f (x) ∀ x ∈ [a, b]. (3.11) Dimostrazione. Consideriamo la proprietà di additività dell’integrale Z x+h Z f (u)du − F (x + h) − F (x) = x Z x a a x+h f (u)du f (u)du = ed il rapporto incrementale 1 F (x + h) − F (x) = h h Z x+h f (u)du. x Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un ponto xh ∈ [x, x + h] tale che (teorema della media) F (x + h) − F (x) = f (xh ) h e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x) ed ovviamente si ha che F (x + h) − F (x) → F 0 (x). h Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è conclusa. Capitolo 3. Variabili Aleatorie 53 Una funzione derivabile in un punto è continua in quel punto. Non è sempre vero il contrario, si pensi alla funzione modulo f (x) = |x|. Teorema 9. (Formula fondamentale del calcolo integrale) Sia f una funzione che ammette una primitiva F , cioè F 0 (x) = f (x) per ogni x ∈ [a, b]. Se f è integrabile, si ha Z b f (x)dx = F (b) − F (a). (3.12) a La funzione integrale (3.10) vale per f ∈ C nota dalla quale ricaviamo F . In questo caso, in cui f è integrabile (e non nota mentre lo è la F ) possiamo scegliere f = F 0 se l’uguaglianza vale quasi ovunque. Possiamo quindi calcolare la probabilità Z P (X ∈ B) = fX (x)dx B per un Boreliano B se fX è integrabile3 . Si pensi ad esempio alla funzione indicatrice f (x) = 1E (x) o alla funzione di Heaviside H(x) = 1[0,∞) (x) continue nel loro supporto o alle loro combinazioni lineari. Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni assolutamente continue ed è costituito dalle funzioni per cui vale la formula fondamentale del calcolo integrale. Quindi, se F ∈ AC, allora F ∈ C e F 0 = f è integrabile. Notiamo però che se f ∈ C, vale il Teorema fondamentale. Quindi, possiamo definire una f.r. se fX è integrabile ma occorre che sia continua affinché FX sia differenziabile in tutti i punti in cui f è continua4 . Diremo quindi che X è una v.a. continua (o assolutamente continua) se FX è continua (o assolutamente continua). Scriveremo inoltre ”c.” o "a.c." invece di "continua" o ”assolutamente continua” se dal contesto sarà chiaro il riferimento alle v.a.. Proposizione 7. Sia X una v.a. c. o a.s. con FX (x) = P (X ≤ x). Allora, d in tutti i punti in cui è continua, se X è c., FX (x) fX (x) = in tutti i punti in cui esiste, se X è a.c.. dx (3.13) La v.a. X è c. oppure a.c. nel suo supporto. Se f = fX è continua (f ∈ C([a, b])), abbiamo quindi detto che y = FX risolve y 0 = f (dove y ∈ C 1 ([a, b])). Bisogna sottolineare che le soluzioni fornite dal Teorema fondamentale del calcolo integrale sono relative alla teoria dell’integrazione secondo Riemann e quindi al caso in cui Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è integrabile. Dobbiamo notare R che fX > 0 è una condizione necessaria affinché fX sia una legge di densità. Quindi deve essere B fX (x)dx < ∞. 4 Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10, pag. 311]. 3 54 f ∈ C. Noi ci occupiamo anche di funzioni f ∈ L1 per cui y 0 = f quasi ovunque (rispetto alla misura µ che per noi sarà la misura di Lebesgue). Si parla in questo caso di teoria dell’integrazione secondo Lebesgue5 . Una v.a. con valori continui possiede quindi una f.r. che è una funzione integrale, si può rappresentare come integrale di una funzione fX detta (funzione di) densità Z Z P (X ∈ B) = FX (B) = dFX = fX (x)dx B B (dove B è un Boreliano). Affinché una funzione fX sia una densità, sono condizioni necessarie e sufficienti: 1. fX (x) > 0, R∞ 2. −∞ fX (x)dx = 1. Se X è assolutamente continua, a volte diremo semplicemente che X è continua nel senso della Definizione 30. Inoltre, se X è una v.a. c. o a.c. scriveremo X ∼ fX . (3.14) 2 Esercizio 31. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una densità. Esercizio 32. Verificare se f (x) = e−3x , x ≥ 0 è una densità. Esercizio 33. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia una densità. Esercizio 34. Dire se le densità considerate negli esercizi precedenti sono continue o assolutamente continue. Il concetto di funzione di distribuzione può essere esteso al caso delle v.a. multidimensionali (o vettori di v.a.). Nel caso di un vettore 2-dimensionale scriveremo Z Z P (X1 ∈ B1 , X2 ∈ B2 ) = F(X1 ,X2 ) (x1 , x2 ) = fX1 ,X2 (x1 , x2 )dx1 dx2 B1 B2 In generale, X è un vettore di variabili aleatorie di dimensione n se X = (X1 , X2 , . . . , Xn ) dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle formule in (3.4) si ottengono le marginali. Diciamo che, data la f.r. ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn ) 5 Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale (3.2) o per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-Stieltjes. R f dFX Capitolo 3. Variabili Aleatorie 55 si ottiene lim xn →∞ xn−1 →∞ ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xn−2 ) dove ϕ(x1 , . . . , xn−2 ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−2 ≤ xn−2 ) è la marginale di ordine n − 2. In generale, è anche vero che lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ). xj →∞ Si possono definire marginali di ogni ordine k ≤ n partendo da una funzione di ripartizione di ordine n. Infatti anche per k = n si può pensare di avere una marginale rispetto a qualche funzione di ripartizione di ordine m > n. Le densità marginali si ottengono derivando le corrispondenti funzioni di ripartizione che equivale e scrivere, ad esempio nel caso unidimensionale Z fX1 (x1 ) = fX1 ,X2 (x1 , x2 )dx2 supp(X2 ) oppure, se φ(x) = ∂ nϕ (x) = fX1 ,...,Xn (x1 , . . . , xn ), ∂x1 · · · ∂xn allora Z φ(x)dxj . fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj , xj+1 , . . . , xn ) = supp(Xj ) Vale la pena di notare che P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 ) dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè P (X2 ≤ ∞) = 1 o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il Boreliano B = (−∞, x], si ricava che Z x Z x fX (u)du. FX ((−∞, x]) = FX (x) = dFX = −∞ −∞ Inoltre il concetto di densità può essere espresso in termini di probabilità dalla seguente relazione Z x+Mx fX (x)4x ' fX (u)du = P (x < X ≤ x+ M x) = FX (x + 4x) − FX (x) x con P (x < X ≤ x+ M x) = FX0 (x). 4x→0 4x lim 56 Osservazione 15. Osserviamo che per una v.a. assolutamente continua si ha P (X = x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti gli x ∈ / supp(X), per definizione). Basta considerare 4x → 0+ e la continuità di FX . Diamo la seguente definizione. Definizione 33. Sia f ∈ C. • Se g ∈ L1 e |f (x)| ≤ g(x) per ogni x, diciamo che f è dominata da g. • Se per M > 0, si ha |f (x)| ≤ M per ogni x, diciamo che f ∈ Cb dove Cb indica l’insieme delle funzioni continue e limitate (o uniformemente limitate). Abbiamo preferito mantenere il simbolo Cb che sta per continuous and bounded. Possiamo dire che una funzione è limitata se la sua immagine è un insieme limitato. Introduciamo ora la condizione di Lipschitz, per una funzione f , |f (x) − f (y)| ≤ M |x − y| dove M è detta costante di Lipschitz. Una funzione Lipschitziana è una funzione di una variabile reale che ha una crescita limitata, nel senso che il grafico della funzione f è contenuto nella regione delimitata dalle rette di coefficiente angolare +M e −M passanti per un punto opportunamente scelto del grafico della f . La Lipshitzianetà6 è una condizione più forte della continuità7 o della uniforme continuità8 . Indichiamo con Lip l’insieme delle funzioni Lipschitziane. Una funzione derivabile e Lipschitziana ha derivata limitata. Infatti, se f è derivabile nel punto x, allora f (x) − f (y) = f 0 (x). y→x x−y lim Quindi, se f ∈ Lip, |f 0 (x)| = lim y→x |f (x) − f (y)| ≤M |x − y| 6 Una funzione è detta di Lipschitz se esiste una costante M tale che, per ogni x, y, vale la condizione di Lipschitz. 7 Una funzione è detta continua in x se ∀ > 0 ∃ δ = δ(y, ) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < . Questa definizione è ovviamente analoga a quella già data, viene riportata solo per evidenziare il collegamento con le funzioni Lipschitziane. 8 Una funzione f è uniformemente continua se δ dipende solo da , cioè se per ogni x, y si ha ∀ > 0 ∃ δ = δ() > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < . Capitolo 3. Variabili Aleatorie 57 e quindi la derivata è limitata. In particolare, le seguenti affermazioni sono dunque equivalenti: i) f è derivabile e |f 0 | ≤ M , allora f ∈ Lip, ii) f ∈ C 1 , allora f è localmente Lipischitziana. Osserviamo che la ii) significa che f è uniformemente continua in un intervallo, basta considerare δ = /M . 2 Osservazione 16. Sono esempi di funzioni continue in R le funzioni √ f (x) = x e g(x) = sin x. Si noti che f ∈ / Lip mentre g ∈ Lip. Inoltre, f (x) = x è continua in [0, ∞) ma f ∈ / Lip. Osserviamo infine che non vale la doppia implicazione. Infatti, f (x) = |x| è Lipshitziana ma f ∈ / C 1 in R, essendo continua ovunque ma derivabile per x 6= 0. Ricordiamo un risultato utile nei conti. Proposizione 8. Siano ϕ e ψ derivabili, f integrabile. Allora, la funzione integrale Z ϕ(x) f (u)du (3.15) F (x) = ψ(x) ha derivata F 0 (x) = ϕ0 (x) f (ϕ(x)) − ψ 0 (x) f (ψ(x)). (3.16) Una funzione (di una variabile) continua può non essere derivabile mentre una funzione derivabile è continua. Per funzioni di più variabili bisogna introdurre la nozione di funzione differenziabile. Se f è differenziabile, allora ha derivata in ogni direzione. Inoltre, ogni funzione differenziabile in x è continua in x. Teorema 10. Se f ha derivate parziali in un intorno di x e sono continue in x, allora f è differenziabile in x. Segue dalla Definizione 31 che P (X ∈ A) > 0 per ogni insieme A ⊂ supp(X). Si vede subito che per ogni densità fX (e quindi per ogni v.a. X) si ha che supp(X) = supp(fX ) e quindi fX (x) = 0 per ogni x ∈ / supp(X). Infatti, sia X una v.a. ddimensionale e A = R \ supp(X), allora possiamo scrivere, Z Z fX (x)dx = fX (x)dx = P (X ∈ Ω) = 1 Rd supp(X) e Z fX (x)dx = P (X ∈ A) = 0. Rd \supp(X) 58 Esercizio 35. Dire se ( F (x) = x2 sin 0, 1 , x 6= 0 x2 x=0 è differenziabile e verificare che F 0 = f ∈ / L1 (f non è integrabile). Esercizio 36. Si è introdotta la funzione di Heaviside H(x) = 1[0,∞) con x ∈ R. Dire se H è continua a destra o a sinistra. Dire se H è continua in A = (1, 3), B = [1, 3), C = (−1, 0), Ac , B c , C c \ [0, ∞). Esercizio 37. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0. Dire se X è c. oppure a.c. in R. Quanto vale κ? Chi è X? Esercizio 38. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri che FX (x) = P (X ≤ x).]9 Variabili aleatorie discrete Un esempio di v.a. discreta può essere la variabile che restituisce i numeri da 1 a 6 nel lancio di un dado oppure una variabile che può assumere solo i valori 1 e −1. Definizione 34. Una v.a. si dice discreta se assume valori discreti10 . Definizione 35. Se X è una v.a. discreta, definiamo spet(X) lo spettro della v.a. X, cioè l’insieme dei valori che può assumere X. La funzione di ripartizione è scritta a partire dalla seguente probabilità (come vedremo questa non è la scrittura definitiva) X pk , x ∈ spet(X) P (X ≤ x) = k:xk ≤x dove pk = P (X = xk ), xk ∈ spet(X) 0, altrimenti (3.17) e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può assumere. La successione è dunque numerabile (cioè può essere messa in corrispondenza biunivoca con l’insieme dei numeri naturali) e può essere scritta come {xk }k∈IX dove IX ⊆ N 9 Si veda la Definizione 43. Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato spettro o spettro discreto, è un insieme finito o numerabile. 10 Capitolo 3. Variabili Aleatorie 59 è un insieme di indici per la v.a. X. In generale, diremo che una v.a. discreta X può essere caratterizzata dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo X ∼ (xk , pk ), k ∈ IX . (3.18) Quindi la funzione di ripartizione si potrebbe riscrivere considerando X P (X ≤ x) = pk , x ∈ spet(X). k∈IX :xk ≤x Consideriamo la funzione semplice (2.5) e la misura di Dirac associate alla v.a discreta X. Diremo che: • la funzione semplice fX è associata alla v.a. discreta X se X fX (x) = pk 1{xk } (x), k∈Z • la misura di Dirac µδ è associata alla v.a. discreta X se µδ = µδ (x, E) con E = spet(X). Allora, Z P (X ∈ B) = B fX dµδ = X pk µδ (xk , B). (3.19) k∈IX La successione pk , k ∈ IX (e quindi la funzione f ) è detta densità discreta di X. Condizioni necessarie e sufficienti affinché pk sia una densità discreta sono: 1. pk ≥ 0, P 2. k∈IX pk = 1. Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1] sono probabilità. Si noti anche che la definizione (3.17) è stata data per chiarezza ma risulta ridondante. Infatti P (X = xk ) = 0 se xk ∈ / spet(X), si pensi al lancio di un dado, P (esce la faccia con il numero 21) = 0. Osservazione 17. Notiamo che si sta usando un insieme diverso dal supporto di una v.a., lo spettro. Si vuole infatti sottolineare che nel caso delle v.a. discrete si ha a che fare con un insieme, lo spettro, per cui si può avere P (X = x) 6= 0 per qualche x ∈ spet(X). 60 Osservazione 18. Se pk = 1/|Ω| è costante, la (3.19) diventa 1 X δ µ] (B) 1 ] P (X ∈ B) = µ (B) = ] . µ (xk , B) = |Ω| k∈I |Ω| µ (Ω) X Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un evento si calcola usando il metodo classico (si veda la Sezione 2.6). Esercizio 39. Sia {pk }k∈I una densità discreta (I è un insieme di indici e potrà essere I = IX per qualche X). Studiare la convergenza di fn (x) = n X pk 1{xk } (x), x ∈ D, n ∈ N. k=−n Abbiamo accennato al fatto che useremo una scrittura definitiva per la f.r. che completa quella appena data (si veda il Capitolo 7). Come vedremo sotto, se x ∈ / supp(X) (o x ∈ / spet(X)) la f.r. FX (x) può assumere solo il valore 0 oppure 1. Introduciamo le seguente notazione per indicare la probabilità relativa ad un vettore di v.a. discrete, pr,s = P (X1 = xr , X2 = xs ), r ∈ IX1 , s ∈ IX2 (3.20) oppure pr1 ,r2 = P (X1 = xr1 , X2 = xr2 ), r1 ∈ IX1 , r2 ∈ IX2 Segue immediatamente la notazione relativa a vettori di dimensione d > 2. Esercizio 40. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼ P ois(λ), λ > 0 e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .} caratterizza una v.a. Y . Osservazione 19. Spesso il supporto di una v.a. (continua) viene chiamato spettro continuo mentre lo spettro di una v.a. (discreta) viene chiamato spettro discreto. Noi chiameremo supporto e spettro gli insieme in questione per sottolineare i collegamenti con la densità f della misura P ed il fatto che il supp(f ) è costituito dai punti x per cui f (x) 6= 0. In particolare il supporto di una funzione f è dato dalla chiusura di {x ∈ A : f (x) 6= 0}. 3.2 Media e Momenti Si consideri una v.a. continua X con legge di densità fX ed una v.a. discreta Y caratterizzata dalla successione (yk , pk ), k ∈ IY . Definiamo le seguenti medie Z X EX = x fX (x)dx EY = yk p k supp(X) k∈IY Capitolo 3. Variabili Aleatorie 61 Definiamo inoltre i seguenti momenti di ordine r > 0 Z X r xr fX (x)dx EY r = EX = (yk )r pk . supp(X) k∈IY Le medie campionarie introdotte a pagina 3 sono dunque collegate alle medie appena introdotte. In particolare, la media aritmetica è un caso particolare di media ponderata ed entrambe si possono vedere come il valore medio di una variabile aleatoria. Inoltre, siamo in grado di passare a nuove v.a. per il tramite di una funzione g ben definita. In generale, vale la seguente Proposizione 9. Sia g ∈ Cb e non negativa, allora Z X Eg(X) = g(x) fX (x)dx, Eg(Y ) = g(yk ) pk . supp(X) (3.21) k∈IY Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare!). Inoltre, se g ∈ Cb allora g ∗ = −g ∈ Cb . Siano adesso X ed Y due v.a. (continue o discrete). Sono quantità di interesse: la varianza V ar(X) = E(X − µ)2 = M2 − (M1 )2 , (3.22) la covarianza Cov(X, Y ) = E[(X − µX )(Y − µY )] = EXY − EXEY (3.23) Mr = EX r . (3.24) ed i momenti Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il numero µ (non deve creare confusione il fatto che si stia usando lo stesso simbolo µ utilizzato per indicare una misura, infatti dal contesto sarà sempre chiaro a quale oggetto ci stiamo 2 riferendo). Scriveremo anche σX = V ar(X) per indicare la varianza di X o semplice2 mente σ se non ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X) 2 = Cov(X, X). o Mr (Y ). Notiamo inoltre che σX Diamo alcune proprietà della media: i) E1A (X) = P (X ∈ A) ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n, " n # n X X E aj X j = aj EXj (linearità della media) j=1 j=1 62 iii) se X ≥ 0, si ha Z ∞ P (X > x)dx EX = X e EX = 0 P (X > xk ) k∈IX iv) se X ≥ 0 e p > 0, si ha Z ∞ p EX = pxp−1 P (X > x)dx EX = e 0 X p(xk )p−1 P (X > xk ) k∈IX v) se X ≥ 0 e EX = 0, allora P (X = 0) = 1 vi) se X ⊥ Y , allora EXY = EX EY vii) se p e q sono esponenti coniugati, allora 1 1 E|XY | ≤ (E|X|p ) p (E|Y |q ) q Proviamo che vale la relazione (3.22) scritta sopra tra varianza e momenti. Otteniamo 2 σX =E(X − µ)2 (per definizione) =E(X 2 − 2µX + µ2 ) (sviluppando il quadrato) =M2 − 2µM1 + µ2 (per la linearità della media) =M2 − (M1 )2 (per la definizione di momento) Per la varianza vale inoltre la relazione V ar(aX) = a2 V ar(X) (3.25) per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX − E(aX)]2 ). Osserviamo inoltre che (indipendenza lineare) X ⊥ Y ⇒ Cov(X, Y ) = 0. Non è vero il contrario (perché?). Dimostrazione del punto i). Se X ∼ fX , Z Z E1A (X) = 1A (x)fX (x)dx = fX (x)dx = P (X ∈ A). A (3.26) Capitolo 3. Variabili Aleatorie 63 Se invece X ∼ (xk , pk ), k ∈ IX , Z X E1A (X) = 1A (x)fX (x)µδ (dx) = 1A (xk ) pk = P (X ∈ A). k∈IX Esercizio 41. Si dimostri il punto ii). Dimostrazione del punto iii). Integriamo per parti ed otteniamo ∞ Z ∞ Z ∞ d x [1 − FX (x)]dx P (X > x)dx =xP (X > x) − dx 0 0 ∞ 0Z ∞ xfX (x)dx =x(1 − FX (x)) + 0 0 Z ∞ = xfX (x)dx 0 dove si è usata la regola di de l’Hopital ed il fatto che FX (0) = costante, fX (±∞) = 0 (integrabilità della fX ). Esercizio 42. Si dimostri il punto iv). Dimostrazione del punto v). Dal punto precedente si vede che Z ∞ P (X > x)dx = 0 implica P (X > x) = 0 per ogni x. (3.27) EX = 0 Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) solo nel punto x = 0. Dimostrazione del punto vi). Segue dal fatto che f(X,Y ) (x, y) = fX (x) fY (y) per le v.a. continue e analogamente pr,s = pr ps per le v.a. discrete. Dimostrazione del punto vii). Consideriamo prima il caso in cui le variabili siano continue. Osserviamo che Z Z Z E|XY | = |xy|f(X,Y ) (x, y) dxdy = |xy|dµ = kxyk1 supp(X) supp(Y ) 2 che equivale a kf gk1 in L (µ) per le funzioni f (x, y) = x e g(x, y) = y. Inoltre, Z Z Z p p E|X| = |x| f(X,Y ) (x, y) dxdy = |x|p dµ = (kf kp )p supp(X) q q supp(Y ) e E|Y | = (kgkq ) . Si sta quindi considerando una misura µ con densità continua f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato. Se le variabili sono discrete, la disuguaglianza di Hölder continua a valere in lp rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla v.a. discreta (X, Y ). 64 3.3 Alcune disuguaglianze fondamentali Teorema 11. (Dis. di Jensen) Sia g una funzione convessa e X una v.a. con valore atteso finito, allora Eg(X) ≥ g(EX). Dimostrazione. Si deve applicare il Teorema 2. Dalla disuguaglianza appena introdotta e dalla Proposizione 9 si vede che, g ∈ Cb funzione convessa, g(EX) ≤ Eg(X) ≤ M. Teorema 12. (Dis. di Markov) Sia X una v.a. non negativa, allora ∀ > 0 P (X > ) ≤ EX Dimostrazione. Si utilizza la proprietà i) della media. Per ogni > 0 X X 1(,∞) (X) ≤ E P (X > ) = E1(,∞) (X) = E . X La dimostrazione è conclusa. Se X ∼ fX è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disuguaglianza di Markov come come segue. Dimostrazione alternativa. Dalla definizione di media per v.a. continue, scriviamo Z EX = xfX (x)dx supp(X) Z ≥ xfX (x)dx (X è positiva e l’integrale è non decrescente) {x∈supp(X) : x>} Z x = fX (x)dx (moltiplico e divido per ) {x∈supp(X) : x>} Z x ≥ fX (x)dx = P (X > ). {x∈supp(X) : x>} Notiamo che {x ∈ supp(X) : x > } = supp(X) ∩ (, ∞) Teorema 13. (Dis. di Chebyshev) Sia X una v.a., ∀ > 0 P (|X| > ) ≤ E|X|r , r r > 0. Capitolo 3. Variabili Aleatorie 65 Dimostrazione. Per ogni > 0, P (Y > ) = E1(,∞) (Y ) dove Y = |X| è una v.a. non negativa. Si applica allora la disuguaglianza di Markov moltiplicando e dividendo per Y r . Otteniamo r r Y Y E 1(,∞) (Y ) ≤ E r . r Y La dimostrazione è conclusa. Dimostrazione alternativa. Consideriamo X ∼ fX . Otteniamo Z r E|X| = |x|r fX (x)dx (definizione) Zsupp(X) Z r |x| fX (x)dx + |x|r fX (x)dx = {x∈supp(X):|x|>} Z{x∈supp(X):|x|≤} |x|r fX (x)dx (somma di quantità positive) ≥ {x∈supp(X):|x|>} Z |x|r r fX (x)dx = r {x∈supp(X):|x|>} ≥ P (|X| > ) (sto integrando sulle x : |x| > ⇒ |x|/ > 1). Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora, X X |xk |r pk ≥ E|X|r = k∈IX |xk |r pk . k∈IX : |xk |> Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la dimostrazione. Ricordiamo alcuni risultati sulle somme di v.a. senza dare le dimostrazioni. Teorema 14. (Dis. di Lévy) P max Sk ≥ β ≤ 2P (Sn ≥ β). 1≤k≤n Teorema 15. (Dis. di Doob) P max Xk ≥ β 1≤k≤n dove Xn+ = max{0, Xn } e β > 0. ≤ EXn+ β 66 Teorema 16. (Prima dis. di Kolmogorov) V ar Sn P max |Sk | ≥ β ≤ . 1≤k≤n β2 Teorema 17. (Seconda dis. di Kolmogorov) (β + 2a)2 . P max |Sk − ESk | ≥ β ≥ 1 − 1≤k≤n V ar Sn Teorema 18. (Dis. di Marshall) P max Sk ≥ β ≤ 1≤k≤n 3.4 3.4.1 β2 V ar Sn . + V ar Sn Relazioni tra variabili aleatorie Eventi di misura nulla Se vale µ(A) = 0 diciamo che A ha misura µ nulla, cioè A è un insieme trascurabile rispetto alla misura µ. Se P ha densità f rispetto a µ, cioè dP = f · dµ ed A è trascurabile rispetto a µ allora sarà anche di misura nulla rispetto a P , cioè P (A) = 011 . Si consideri una v.a. X ∼ U nif (−c, c) con c > 0, la cui densità è quindi fX (x) = 1 1 (x) (si veda sotto per la v.a. Uniforme). Vediamo che P (X ∈ A) è la misura 2c [−c,c] di Lebesgue dell’insieme A, infatti se A ⊂ [−c, c], Z 1 1 1[−c,c] (x)dx = µ(A). (3.28) P (X ∈ A) = 2c A 2c Sia adesso Y ∼ fY una v.a. continua con supp(Y ) ⊂ supp(X). Notiamo che Y è assolutamente continua rispetto ad X, o meglio Z P (Y ∈ A) = fY (y)dy A è assolutamente continua rispetto alla misura di Lebesgue. In particolare, dato un insieme A ∈ supp(Y ) ⊆ supp(X), allora P (X ∈ A) = 0 implica P (Y ∈ A) = 0. Si può sempre definire una v.a. Uniforme con supporto contenente un intorno di x di probabilità nulla, quindi tale intorno sarà di probabilità nulla per ogni ogni v.a. continua. 11 Si dice che P è assolutamente continua rispetto a µ e si scrive P µ. Capitolo 3. 3.4.2 Variabili Aleatorie 67 Probabilità congiunte e condizionate Variabili identicamente distribuite. Diciamo che due o più variabili sono identicamente distribuite e scriveremo ”i.d.” se hanno la stessa legge di densità12 (discreta o continua). Inoltre se due o più variabili i.d. sono anche indipendenti scriveremo ”i.i.d.”. Indipendenza. È importante sottolineare un aspetto fondamentale nel calcolo delle Probabilità al quale si è appena accennato. Diamo la seguente definizione. Definizione 36. Siano X e Y due v.a. definite sullo stesso spazio di probabilità. Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y se P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B n . (3.29) Due eventi A1 , A2 relativi alla v.a. X sono indipendenti se (X ∈ A1 ) ⊥ (X ∈ A2 ). Si noti che si sta parlando della stessa v.a. X. Studiare il verificarsi di A1 significa quindi studiare (X ∈ A1 ) e così anche per A2 . Si deve notare che ci sono diverse misure di dipendenza. Osserviamo i grafici in Figura 3.2, si vede che i punti in (a) sono distribuiti in maniera casuale; i punti in (b) sono distribuiti in maniera casuale intorno ad una retta (detta trend); i punti in (c) sono distribuiti in maniera casuale attorno ad una parabola (un trend diverso dal precedente); i punti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una normale. Le realizzazioni sono quindi indipendenti ma essendo legate da un trend sottostante, tranne nel caso (a), si possono identificare diverse strutture di dipendenza dei dati. I grafici si sono ottenuti utilizzando R ed eseguendo il codice: >e=rnorm(500) >x=seq(0.01, 5, 0.01) >par(mfrow=c(2,2)) >plot(e, pch=16, axes=F, xlab="(a)", ylab=" ") >plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ") >plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ") >plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ") Si noti che rnorm() restituisce un vettore (di dimensione 500) di numeri con distribuzione N (0, 1). Tale funzione è un esempio di generatore di numeri casuali. Esercizio 43. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si noti che tali punti rappresentano un errore Gaussiano e corrisponde alla nuvola di punti 0+e. Perché tale osservazione non è banale? (Si faccia il confronto con il grafico (b)!!). 12 Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere sempre la misura di Lebesgue per le v.a. continue (o assolutamente continue) e la misura di Dirac per le v.a. discrete. 68 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ●● ●● ●●● ● ●● ●● ●● ● ● ●●● ● ●● ● ● ● ●● ● ● ● ●●●●●●● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ●● ● ●● ● ● ● ●● ●●●● ● ● ● ● ●● ●● ●● ●● ● ●● ● ●● ● ● ●●●● ● ● ●● ● ● ● ● ●●●● ● ● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ●● ● ●●● ● ●●●●●● ●● ●● ●● ● ●●●● ● ● ●● ●●● ● ● ●●●● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ●●●● ● ● ●●● ●● ● ●● ● ● ●● ● ● ● ●● ● ●●●● ● ●● ●● ●● ● ● ● ● ●● ● ●● ● ●● ●● ●● ● ● ●● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ●●● ●● ●● ● ● ●●● ●●●●●●●● ● ●●● ● ● ● ● ● ●● ●● ● ● ●●● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ●● ●● ●● ● ●●●● ● ●● ● ●● ●●● ●● ●●● ● ●● ●●● ● ● ● ● ● ● ● ●● ●● ●●●● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ●● ● ● ●● ● ● ● ● ●● ● ●●●● ●● ●●● ●● ●●● ●● ●● ● ● ● ● ●●●● ● ●●● ●● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●●● ● ●● ●●● ● ●● ● ● ● ●● ● ●● ● ●●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ● ●● ●● ●●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ● ● ● ●● ● ● ●●● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ● ●● ●● ●●● ● ● ● ●● ●● ●●●● ● ● ●● ● ● ● ●●●● ●●● ● ● ●●●●● ●● ● ● ●●●● ● ● ● ● ●●● ● ●●●●●●● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● (a) (b) ●● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●●●● ●● ● ●● ● ● ●●●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●●● ●●● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●● ● ●● ●● ●●● ●●● ● ●● ● ● ● ●●● ●●●● ●● ● ●● ●●● ● ●●● ● ●● ●● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ●● ●●● ● ● ● ● ● (c) (d) ● ● ● ● ● ● ● ● ● ● ● Figura 3.2: Diverse strutture di dipendenza. Capitolo 3. Variabili Aleatorie 69 Densità e funzioni di ripartizione. Dalla Proposizione 6, scriviamo P (A1 , A2 , . . . , An ) = n Y P (Aj ) j=1 se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj ) per ogni j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la f.r. FX (x) =FX (x1 , . . . , xn ) =P (X1 ≤ x1 , . . . , Xn ≤ xn ) n Y = P (Xj ≤ xj ) = j=1 n Y FXj (xj ). j=1 Dalla relazione precedente si ricava che, se X ∼ fX , ∂n FX (x1 , . . . , xn ) ∂x1 · · · ∂xn n Y = fXj (xj ). fX (x1 , . . . , xn ) = j=1 Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente distribuite13 ), allora pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) = n Y prj . j=1 Si vede subito, dalla legge delle probabilità composte che P (X = xr |X = xs ) = pr|s = pr,s . ps (3.30) Consideriamo ancora v.a. continue (e quindi integrali). La probabilità condizionata può essere riscritta come segue, sfruttando formalmente la legge delle probabilità composte, Z Z P (Y ∈ A|X ∈ B) = P (Y ∈ dy|X ∈ dx) A 13 B Si considera il caso in cui sono identicamente distribuite solo per semplicità di notazione ma si potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj . 70 Z Z = ZA ZB = P (Y ∈ dy, X ∈ dx) P (X ∈ dx) dFY |X (x, y) ZA ZB A B = fY |X (x, y)dxdy. In particolare, si ottiene che fY |X (x, y) = fX,Y (x, y) fX (x) (3.31) è la densità doppia della v.a. Y |X. Si poteva considerare subito la legge delle probabilità totali ed ottenere P (Y ∈ A, X ∈ B) P (X ∈ B) Z P (Y ∈ dy, X ∈ B) = P (X ∈ B) ZA P (Y ∈ dy, X ∈ B) dy = P (X ∈ B) dy A P (Y ∈ A|X ∈ B) = dove P (Y ∈ dy, X ∈ B) 1 ∂ = FY |X (y, B) dy P (X ∈ B) ∂y Z ∂2 FY |X (y, x)dx. = B ∂y∂x Si ottiene ancora che ∂2 fX,Y (x, y) FY |X (y, x) = = fY |X (x, y). ∂y∂x fX (x) Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y) è una densità (doppia) condizionata. Nel caso di dimensioni n > 2 parleremo di densità n-dimensionale (congiunta o condizionata). Per semplicità continuiamo a riferirci alle densità 2-dimensionali fX,Y (x, y). Bisogna notare che la continuità di una funzione di due variabili, diciamo f (x, y), non deve essere confusa con la continuità separata . Una funzione f (x, y) si dice separatamente continua se per ogni y fissato, la funzione φ : x 7→ f (x, y) è continua solo in x e se per ogni x fissato, la funzione ψ : y 7→ f (x, y) è continua solo in y. Se f è continua Capitolo 3. Variabili Aleatorie 71 in un punto allora anche φ,ψ sono separatamente continue in quel punto. Non è vero il contrario come si può vedere dalla funzione ( xy , (x, y) 6= (0, 0) + y2 0, (x, y) = (0, 0). x2 f (x, y) = Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 ) e quindi sulle rette x = t e y = t. La verifica della continuità separata è lasciata al lettore. Inoltre, verificare che f è derivabile. Se una funzione è derivabile e le derivate sono continue in un punto, allora tale funzione è differenziabile in quel punto; se una funzione è differenziabile in un punto, allora è continua in quel punto. Esercizio 44. Sia √ p x y , (x, y) 6= (0, 0) f (x, y) = x2 + y 2 0, (x, y) = (0, 0). Provare che f non è differenziabile. Dire se è continua. Esercizio 45. Calcolare: 1. x ; 2 (x,y)→(∞,∞) x + y 2 lim 2. 3x2 + 2y 2 ; (x,y)→(0,0) (x2 + y 2 )2 lim 3. x−y . + y 2 + 1) lim (x,y)→(0,0) log(x2 ν−1 Esercizio 46. Sia fX (x1 , x2 ) = λ xΓ(ν) e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0, λ > 0 la legge di densità del vettore X = (X1 , X2 ). 1. Dire se X1 ⊥ X2 . 2. Scrivere la marginale fX1 . 3. Scrivere la marginale fX2 . 4. Scrivere la f.r. FX2 . 2 2 Esercizio 47. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con x1 , x2 ∈ R del vettore X = (X1 , X2 ): 1. determinare κ, 2. scrivere le marginali fXj (xj ), j = 1, 2. 72 Mancanza di memoria. di indipendenza Diciamo che una v.a. non ha memoria se vale la relazione P (X > a + b|X > a) = P (X > b) (3.32) per a, b > 0. Per la legge delle probabilità composte si vede subito che deve verificarsi P (X > a + b, X > a) P (X > a + b) = = P (X > b) P (X > a) P (X > a) dove la prima uguaglianza è sempre soddisfatta essendo vero che (X > a + b) implica (X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂ {ω : X(ω) > a+b}. La mancanza di memoria è una proprietà molto importante, implica che il comportamento di un certo fenomeno (e quindi della v.a. che lo rappresenta) non dipende dal comportamento passato. Il condizionamento non aggiunge e non toglie informazione. Esercizio 48. Verificare la proprietà (3.32) per le seguenti v.a. : 1. X ∼ Exp(λ) con λ > 4, 2. X ∼ Gamma(λ, 1) con λ > 0, 3. X ∼ N (0, σ 2 ). Correlazione. La correlazione è una dipendenza lineare misurata dalla covarianza. Se due v.a. X e Y hanno covarianza nulla diciamo che sono incorrelate (o non sono correlate). Stiamo dicendo che non è possibile identificare una relazione lineare tra le due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b (o X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere nulla per una pura combinazione numerica (come ad esempio 12 = 3 · 4 o 12 = 2 · 6) e quindi non implica che le v.a. siano indipendenti, possiamo solo dire che tra le due v.a. non c’è dipendenza lineare. Quindi, riassumiamo dicendo che X ⊥ Y ⇒ Cov(X, Y ) = 0, Cov(X, Y ) = 0 6⇒ X ⊥ Y. 3.4.3 Trasformazioni di v.a. Diamo prima i seguenti risultati senza dimostrarli. Teorema 19. Sia X una v.a. 1-dimensionale e g : R 7→ R una funzione misurabile, allora Y = g(X) è una variabile aleatoria. Capitolo 3. Variabili Aleatorie 73 Teorema 20. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 7→ R misurabile, continua e derivabile. Allora g(X1 , X2 ) = Z è una variabile aleatoria. Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo identificare le loro funzioni di ripartizione FY e FZ . Osservazione 20. Sia Z = g(X1 , X2 ) come nel Teorema 20. Notiamo che il valore medio può essere scritto a partire dalla FZ o dalla FX , cioè EZ = Eg(X1 , X2 ). Se le v.a. sono continue posso considerare Z EZ = z dFZ (z) supp(Z) oppure Z Z Eg(X1 , X2 ) = g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ). supp(X1 ) supp(X2 ) Analogamente nel caso discreto. Ricordiamo anche che le derivate della funzione g e della sua inversa h = g −1 sono legate dalla seguente formula 1 h0 (g) = 0 (3.33) g (h) (verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi x = h(y)) h0 (g(x)) = 1 g 0 (x) e h0 (y) = 1 . g 0 (h(y)) Teorema 21. Sia g una funzione misurabile, invertibile e derivabile con inversa h = g −1 . Sia X una v.a. con legge di densità fX nota. La densità della v.a. Y = g(X) è data da fY (y) = |h0 (y)| fX (h(y)), y ∈ supp(g(X)) = g(supp(X)) (3.34) Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 19, quindi possiamo calcolare la f.r. FY . Inoltre, Z Z fY (y)dy = |h(y)| fX (h(y))dy supp(Y ) g(supp(X)) Z = fX (z)dz = 1 ponendo y = g(z). supp(X) 74 Se X ∼ fX allora la composizione di funzioni continue da una funzione continua ed Y = g(X) è una v.a. continua. Per trovare la fY si deve quindi derivare la f.r. FY . Se g è crescente, allora h = g −1 è crescente e h0 > 0. Otteniamo, FY (y) =P (g(X) < y) =P (X < h(y)) Z h(y) fX (x)dx ⇒ fY (y) = h0 (y)fX (h(y)) ≥ 0. = −∞ Se g è decrescente, allora la sua inversa è decrescente. In particolare, h0 < 0 e quindi FY (y) =P (g(X) < y) =P (X > h(y)) Z ∞ = fX (x)dx ⇒ fY (y) = −h0 (y)fX (h(y)) ≥ 0. h(y) Per quanto sopra, la dimostrazione è conclusa. Teorema 22. Sia g una funzione misurabile, invertibile e derivabile con inversa h = g −1 . Sia X una v.a. con distribuzione di probabilità (xk , pk ), k ∈ IX nota. La distribuzione di probabilità della v.a. Y = g(X) è data da P (Y = yk ) = |h0 (yk )| P (X = h(yk )), y ∈ supp(g(X)) = g(supp(X)). (3.35) Esercizio 49. Dimostrare la (3.35). Osservazione 21. Supponiamo che in uno studio medico sia importante misurare il livello Y di una certa sostanza e che tale misurazione sia estremamente complessa. Si sa però che tra Y ed il peso di un paziente esiste la relazione Y = g(X) dove X è il peso ed è quindi facilmente reperibile. Il medico aspetta che arrivi un paziente e subito misura il peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casualmente, quindi per il medico il peso di ogni paziente è aleatorio fino alla misurazione. Di conseguenza, è aleatorio il livello Y . Alcuni esempi: • modello lineare, g(X) = aX + b con a, b ∈ R • potenza di v.a., g(X) = X α con α ∈ R • somma di v.a., g(X1 , X2 ) = X1 + X2 • rapporto di v.a., g(X1 , X2 ) = X1 /X2 Capitolo 3. Variabili Aleatorie 75 • funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 ) • etc. Esercizio 50. Sia X ∼ fX una v.a., scrivere la legge di densità di Y = X 2 . Esercizio 51. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X + 1. Esercizio 52. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a. indipendenti, scrivere la legge di densità di Z = X/Y . Esercizio 53. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 . Esercizio 54. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia ( x , x, y ∈ R \ {0} x+y g(x, y) = 0, (x, y) = (0, 0) e Z = g(X1 , X2 ). Determinare: 1. supp(Z). 2. fZ (z), z ∈ supp(Z). 3. supp(fZ ). Esercizio 55. Sia ( g(x, y) = xy , x, y ∈ R \ {0} + y2 . 0, (x, y) = (0, 0) x2 Determinare il supporto della v.a. Z = g(X, Y ) se X ⊥ Y e 1. X, Y ∼ Exp(λ), λ > 2; 2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0; 3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1); 76 4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0; 5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1. Esercizio 56. Determinare gli insiemi di definizione delle funzioni: 1. f (x, y) = x(x2 − y 2 )−1 , 2. f (x, y) = (y log x)y−x , √ 3. f (x, y) = (|x| − x − y)y , 4. f (x, y) = e1/y (x2 − y 2 )−1/2 , √ 5. f (x, y) = y − log x. Esercizio 57. Siano X e Y due v.a. indipendenti con densità 2 fX (x) = 2xλe−λx 1(0,∞) (x), 2 fY (y) = 2yλe−λy 1(0,∞) (y), λ > 0. Sia Z = g(X, Y ) dove ( g(x, y) = x , x, y ∈ R \ {0} − y2 . 0, (x, y) = (0, 0) x2 1. Determinare Eg(X, Y ). 2. Determinare fZ . 3. Determinare EZ. Esercizio 58. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due v.a. indipendenti. Determinare: 1. la legge di densità della v.a. Z= p Y − log X, 2. supp(Z). Esercizio 59. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a), a > 0. 1. determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità. Si consideri la v.a. X con legge fX = f appena trovata. √ 2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X); 3. Scrivere la legge di densità della v.a. Z = (a − X)−1 . Capitolo 3. 3.4.4 Variabili Aleatorie 77 Somme di variabili aleatorie È utile nelle applicazioni saper trattare la somma di v.a. o somme parziali del tipo Sn = n X Xk , n ∈ N. (3.36) k=1 Come vedremo, il modo migliore per trattare tali oggetti prevede un utilizzo abbastanza elementare delle funzioni caratteristiche associate alle v.a. coinvolte nella somma. Un modello poco più complicato si ottiene considerando la combinazione lineare Zn = n X ak X k , n∈N (3.37) k=1 dove compaiono i coefficienti ak che possono essere scelti anche senza restrizioni. Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1 con α ∈ R. Come vedremo, sarà interessante capire a quale v.a. tende Zn se n → ∞. Nelle applicazioni, n → ∞ significa n molto grande e corrisponde all’aumento di numerosità campionaria o di informazioni disponibili. Inoltre, molto spesso n grande si traduce in n > 1000, n > 100 o n > 30 nel senso che raggiunti tali valori si ottiene una buona approssimazione del problema oggetto di studio. Le informazioni disponibili sono già sufficienti ad ottenere una analisi accurata. Consideriamo la somma di due v.a. indipendenti X,Y . Vogliamo trovare la legge di densità (continua, discreta e mista) della v.a. Z = X + Y . Esempio 13. Siano X ∼ fX , Y ∼ fY due v.a unidimensionali tali che X ⊥ Y . Studiare la v.a. Z = X + Y . Lo studio di Z passa per tre punti essenziali, si deve caratterizzare 1. il supporto supp(Z) (visto che X e Y sono c., ci aspettiamo che Z sia c.), 2. la f.r. FZ (z), z ∈ supp(Z) (e quindi resta definita la densità fZ ), 3. la densità fZ = FZ0 ; riconoscere Z se fZ è notevole. Il primo punto sembra facile, bisogna ovviamente considerare supp(X) e supp(Y ) e vedere la somma dei minimi e dei massimi valori per entrambe le v.a. X e Y . Vediamo il secondo punto, per ogni z ∈ supp(X + Y ), si deve considerare la probabilità P (Z ≤ z) =P (X + Y ≤ z) = P (X ≤ z − Y ) = P (Y ≤ z − X), ricordando che si hanno informazioni su X e Y (o sulla v.a. doppia (X, Y )) e non su Z. Chiamiamo D = supp(X) × supp(Y ) il supporto della v.a. doppia (X, Y ), se 78 X ≥ 0 e Y ≥ 0 ovviamente D è il primo quadrante nel piano cartesiano. Scegliamo di considerare, tanto non cambia il risultato, P (Y ≤ z − X), allora nel piano cartesiano dobbiamo disegnare la retta Y = z − X dove X e Y variano nel loro supporto e z ∈ supp(X + Y ) deve essere fissato. Al crescere di z la retta Y = z − X (o X + Y = z) si allontana dall’origine degli assi. Noi siamo interessati a tutti quei punti che si trovano sotto la retta, cioè alla porzione di piano Az = {(x, y) ∈ R2 : x + y ≤ z} = {(x, y) ∈ R2 : y ≤ z − x}. Infatti stiamo cercando P (X+Y ≤ z) = P (Y ≤ z−X). L’insieme Az deve dipendere da z, perché si è detto che preventivamente bisogna fissare z, in realtà z va fissato in base alle diverse figure che si possono ottenere da D ∩ Az al variare di z ∈ supp(Z). Sia D = ∪N i=1 Di dove gli insiemi Di sono scelti in modo che Di ∩ Az per i = 1, . . . , N siano figure geometriche (piane, in questo caso) diverse. Allora, 0, z∈ / supp(X + Y ), (X, Y ) ∈ D0 P (D1 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D1 P (D2 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D2 FZ (z) = P (Z ≤ z) = .. . P (DN ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ DN 1, z∈ / supp(X + Y ), (X, Y ) ∈ DN +1 dove P (Di ∩ Az ) = P ((X, Y ) ∈ Di ∩ Az ) per ogni i = 1, 2, . . . , N e D0 , DN +1 sono rispettivamente, l’evento impossibile e l’evento certo per la v.a. doppia (X, Y ). Il terzo punto è lasciato al lettore e dipenderà dal caso oggetto di studio. Osservazione 22. Per v.a. discrete e miste si procede esattamente allo stesso modo. Esercizio 60. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che X ⊥ Y . Studiare la v.a. Z = X + Y . Esercizio 61. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso µ = λ. Teorema 23. (Convoluzione per densità continue) Siano X ∼ fX e Y ∼ fY due v.a. note. Allora, X + Y = Z ∼ fZ con densità Z fZ (z) = SX Z fY (z − x)fX (x)dx = fX (z − y)fY (y)dy, SY z ∈ supp(Z) (3.38) Capitolo 3. Variabili Aleatorie 79 dove SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)} e SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)} Teorema 24. (Convoluzione per densità discrete) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ (ys , ps ), s ∈ IY due v.a. note. Allora, X + Y = Z ∼ (zk , pk ), k ∈ IZ con pk = P (Z = zk ) = X P (Y = zk − xi ) pi = i∈If X X P (X = zk − ys ) ps (3.39) s∈If Y e P (Z ≤ zk ) = X P (Y ≤ zk − xi ) pi = i∈If X X P (X ≤ zk − ys ) ps (3.40) s∈If Y dove If X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)} e If Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}. Teorema 25. (Convoluzione per densità miste) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ fY due v.a. note. Allora, X + Y = Z ∼ fZ con FZ (z) = X FY (z − xi ) pi (3.41) fY (z − xi ) pi (3.42) i∈If X e fZ (z) = X i∈If X dove If X = {i ∈ IX : z − xi ∈ spet(Y ), z ∈ supp(Z)}. 80 Definizione 37. Si dice famiglia di densità di probabilità F = F(θ) di parametro θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆ Rd . Esempio 14. La densità discreta pk = famiglia di densità λk −λ e k! = f (k; λ) al variare di λ definisce la F(λ) = {f (k; λ), λ ∈ (0, ∞)} . √ 2 2 Esempio 15. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈ R × (0, ∞) definisce la famiglia F(µ, σ 2 ) = f (x; µ, σ 2 ), µ ∈ R, σ 2 > 0 . Definizione 38. Una famiglia F di densità di probabilità è chiusa rispetto alla somma se prese due densità in quella famiglia, la loro convoluzione appartiene ancora ad F. Esercizio 62. Dimostrare che la famiglia di densità di Poisson è chiusa rispetto alla somma. Esercizio 63. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili indipendenti: a) calcolare la legge di densità della somma Z = X + Y , b) calcolare la funzione di ripartizione della variabile W = λZ, c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0. Esercizio 64. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due v.a. indipendenti. Studiare la v.a. Z = X + Y . Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazione del vettore X le cui componenti sono Bernoulliane indipendenti. Sappiamo che sommando tali componenti otteniamo una Binomiale, siamo quindi interessati alla v.a. Sn = n X Xi ∼ Bin(n, p) n ∈ N, p ∈ [0, 1]. (3.43) i=1 Osserviamo che • Se n è grande e p è molto piccola possiamo approssimare la binomiale Bin(n, p) con la legge degli eventi rari o di Poisson di parametro λ = np. Quando p è Capitolo 3. Variabili Aleatorie 81 molto grande vale la stessa approssimazione se consideriamo che 1 − p = q è molto piccola. Infatti, se Xn ∼ Bin(n, p) con p = λ/n, allora n−k n! λk λ P (Xn = k) = 1− k!(n − k)! nk n −k n λ λ n(n − 1)(n − 2) · · · (n − k + 1) λk 1− 1− = . k! n n nk Per n → ∞, n −k λ λ −λ 1− → e , 1− → 1 n n n(n − 1)(n − 2) · · · (n − k + 1) → 1 nk e quindi si ottiene lim P (Xn = k) = n→∞ λk −λ e , k! k = 0, 1, 2, . . . . Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una N (λ, λ). • Se n è grande e p ' q ' 0.5, approssimiamo la binomiale Bin(n, p) con la normale N (np, npq). In ultima analisi quindi la Bin(n, p) può essere approssimata al crescere di n da una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np oppure σ 2 = npq se p è molto piccola oppure se p ' q rispettivamente. Passeggiate aleatorie (random walk). Consideriamo una successione Xk di v.a. Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) = {−1, 1} per ogni k ∈ N. In particolare, si ha che p, xk = +1 P (Xk = xk ) = ∀ k. q, xk = −1 La somma parziale Sn può essere vista come una passeggiata aleatoria, cioè come un movimento aleatorio (di una particella, di un animale, di una persona) che dipende da spostamenti in avanti (+1) e spostamenti in dietro (−1). La posizione raggiunta ad un certo istante dipende dal numero di spostamenti in avanti e in dietro. Provate a disegnare i punti (n, Sn ) per qualche n partendo da una realizzazione del vettore X = (X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo che il salto |Xk | = 1 può non essere unitario, si consideri ad esempio una successione di v.a. con spet(Xk ) = {−c, +c} e c > 0. 82 3.4.5 Somme aleatorie di variabili aleatorie Consideriamo la somma parziale SN = N X Xk , n∈N (3.44) k=1 dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk possono essere discrete o continue mentre supporremo sempre che N sia una v.a. discreta. Inoltre, considereremo sempre N ⊥ Xk per ogni k. Se le Xk sono i.i.d, notiamo che d X1 + X 2 + . . . + XN = X {z. . . + X} | +X + N volte dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità delle Xk (per ogni k). Da questa uguaglianza in legge ricaviamo l’identità di Wald ESN = EN X = EN EX. 3.4.6 Tabella di contingenza Siano X e Y due v.a. discrete. In generale è sempre possibile associare alla v.a. doppia (X, Y ) una distribuzione doppia (la congiunta) pr,s definita sopra. Scriviamo X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due distribuzioni di probabilità. Per distinguere quindi le marginali della v.a. doppia. Supponiamo inoltre che entrambe le v.a. possano assumere solo tre valori per semplicità. La corrispondente tabella di contingenza (tabella a doppia entrata) è data da x1 x2 x3 y1 p1,1 p2,1 p3,1 p·,1 = q1 y2 p1,2 p2,2 p3,2 p·,2 = q2 y3 p1,3 p2,3 p3,3 p·,3 = q3 p1,· = p1 p2,· = p2 p3,· = p3 1 dove le marginali si possono ottenere sommando sulle colonne o sulle righe pk,· = 3 X s=1 pk,s e p·,s = 3 X pk,s . k=1 Siano ora X e Y due v.a. indipendenti. Allora la tabella di contingenza nel caso di indipendenza prende la forma Capitolo 3. Variabili Aleatorie x1 x2 x3 y1 p1 q 1 p2 q 1 p3 q 1 p·,1 = q1 83 y2 p1 q2 p2 q2 p3 q2 p·,2 = q2 y3 p1 q3 p2 q3 p3 q3 p·,3 = q3 p1,· = p1 p2,· = p2 p3,· = p3 1 Si capisce subito che entrambe le tabelle possono essere scritte in termini matriciali, in particolare possiamo associare una matrice n × m (o quadrata) alla prima tabella, ad esempio A ed una matrice delle stesse dimensioni alla seconda tabella, ad esempio B. La dimensione delle matrici dipende ovviamente dalle v.a. X e Y e quindi dai loro insiemi di indici IX e IY . Avremo le marginali pk,· = m X pk,s p·,s = e s=1 n X pk,s k=1 e le matrici A = {pk,s } 1≤k≤n e B = {pk qs } 1≤k≤n . 1≤s≤m 1≤s≤m Supponiamo ora di volere una ricostruzione della matrice A a partire da una matrice osservata che possiamo chiamare F. Vogliamo quindi che F rappresenti una situazione osservata. Si sono osservate le realizzazioni della v.a. doppia (X, Y ) su un campione (di persone, animali, batteri, alberi, etc.) di numerosità N e si sono registrate le osservazioni dalle quali si sono ricavate le frequenze fk,s , quindi F = {fk,s } 1≤k≤n . 1≤s≤m Notiamo che le frequenze (relative) fk,s si sono ottenute considerando le frequenze assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s = Nk,s /N ed Nk,s rappresenta il numero di elementi del campione (numero di persone, animali, batteri, alberi, etc.) per le quali si è osservata la realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo anche scrivere F= 1 N N dove N = {Nk,s } 1≤k≤n . 1≤s≤m Seguendo un approccio frequentista potremmo dire che al crescere di N (numerosità del campione) si arriverebbe a scrivere 1 N→A N 84 cioè le frequenze diventano probabilità. Diciamo infatti che A e B sono matrici teoriche (o che rappresentano situazioni teoriche) mentre F è una matrice osservata. Sembra ovvio che quanto più F è ”simile” alla matrice B, tanto più le v.a. osservate si possono considerare indipendenti. Introduciamo allora un indice di dipendenza, d(F, B) = n X m X (fk,s − pk qs )2 (3.45) k=1 s=1 che restituisce una misura quadratica della distanza tra le matrici F e B. Come si vede subito, 0 ≤ d(F, B) ≤ nm e quanto più si avvicina a 0 tanto più possiamo dire che la situazione osservata rappresenta meglio un ipotesi di indipendenza tra le variabili X e Y della popolazione (di persone, animali, batteri, alberi, etc.). Esercizio 65. Data la matrice 3 8 1 2 A= 1 1 4 calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 . Cosa possiamo dire? Il χ-quadrato. Una v.a. molto importante in statistica è data dalla somma parziale 2 χ (n) = n X Xk2 k=1 dove Xk ∼ N (µ, σ 2 ) e n assume qui il significato di gradi di libertà. La somma (v.a. varianza campionaria corretta) n 1 X ¯ 2 S = (Xk − X) n − 1 k=1 2 si distribuisce in accordo con una χ-quadrato, in particolare S2 ∼ σ2 2 χ (n − 1). n−1 I gradi di libertà sono n − 1 perché si può identificare una combinazione lineare nella ¯ per cui una v.a. può essere scritta in funzione delle n − 1 rimanenti. somma Xk − X Capitolo 3. 3.4.7 Variabili Aleatorie 85 Variabili aleatorie ordinate Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da X = (X1 , X2 , . . . , Xn ), x = (x1 , x2 , . . . , xn ). In generale possiamo ottenere una realizzazione in n! modi diversi, cioè possiamo ordinare le n realizzazione in n! modi diversi. Possiamo poi considerare le realizzazioni uguali e quindi i modi diversi in cui ordinare le n realizzazioni sono dati dalle permutazioni con ripetizioni, ad esempio se x1 si ripete k1 volte e k2 osservazioni sono modi diversi di ordinare il vettore uguali ad x2 , allora si possono considerare k1n! !k2 ! delle realizzazioni. Qui siamo interessati ad un solo ordinamento, dalla realizzazione minima a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate ed il vettore diventa (X(1) , X(2) , . . . , X(n) ) dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto i-esimo del campione x una volta ordinato dalla realizzazione minima alla massima. Quindi X(1) = min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }. Cerchiamo la densità del massimo. Proposizione 10. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la v.a. ordinata di posto n. Allora, FY (y) = [FX (y)]n , y ∈ supp(X). (3.46) Dimostrazione. Y = max {Xj } 1≤j≤n quindi supp(Y ) = supp(X). P (Y ≤ y) =P ( max {Xj } ≤ y) 1≤j≤n ma se il massimo non supera il livello y, allora nessuna v.a. lo supera P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) = n Y P (Xj ≤ y) j=1 dove si è usato il fatto che le v.a. sono indipendenti. Considerando che Xj ∼ X, cioè sono identicamente distribuite, si ottiene P (Y ≤ y) = n Y j=1 ed otteniamo il risultato cercato. P (X ≤ y) = [P (X ≤ y)]n 86 Cerchiamo ora la densità del minimo di n v.a. i.i.d.. Proposizione 11. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la v.a. ordinata di posto 1. Allora FY (y) = 1 − [1 − FX (y)]n , y ∈ supp(X). (3.47) Dimostrazione. Notiamo che FY (y) = P ( min {Xj } ≤ y) 1≤j≤n non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo allora sulla probabilità P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y) 1≤j≤n = n Y (tutte sono maggiori se lo è il minimo) P (Xj > y) (sono indipendenti) P (X > y) (sono identicamente distribuite) j=1 = n Y j=1 =[1 − FX (y)]n (per la definizione di FX ). Quindi si ottiene l’enunciato. In generale, diamo il seguente risultato senza dimostrazione. Proposizione 12. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la v.a. ordinata di posto j. Allora n X n FY (y) = [FX (y)]k [1 − FX (y)]n−k . (3.48) k k=j Esercizio 66. Da precedenti studi, una società associa la legge distributiva dei tempi medi di utilizzo di suoi alcuni macchinari alla legge esponenziale, Exp(λ) con λ ∈ (2, 3). Inoltre, misurando gli utilizzi di tali macchinari in unità di tempo, si chiede: 1. con quale probabilità la durata minima sia maggiore di 8 unità di tempo, 2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una stima per λ? Capitolo 3. Variabili Aleatorie 87 Esercizio 67. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1). Studiare la v.a. Zn = min1≤k≤n {Xk } , max1≤k≤n {Xk } n ∈ N. Esercizio 68. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e Exp(λ), λ > 0. Studiare la v.a. Zn = max {Xk } − min {Xk }, 1≤k≤n 1≤k≤n n ∈ N. Esercizio 69. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z2 . 3.4.8 Successioni monotone di variabili aleatorie Consideriamo una successione di v.a. in cui l’ordinamento è dato, cioè la successione {Xk }k∈I con I ⊆ N, può essere: • monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . ., • monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . .. Sia K` con ` ∈ R la v.a. per cui è vera la relazione P (K` ≤ k) =P (Xk ≥ `) (se {Xk } è non-decrescente), P (K` ≤ k) =P (Xk ≤ `) (se {Xk } è non-crescente). Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la variabile allo studio. Allora, la v.a. K` può essere vista come un tempo ovvero come il tempo di attesa per il raggiungimento del livello ` della successione Xk . Ad esempio, se la successione è non-crescente, l’evento (K` ≥ k) indica che la successione Xk raggiunge il livello ` ad un istante successivo (non precisato) a k. Aspettare k realizzazioni non bastano per raggiungere (dal basso) il livello `. Analogamente, se la successione è non-crescente, (K` ≥ k) indica che k realizzazioni non sono sufficienti per raggiungere (dall’alto) il livello `. Inoltre, se le v.a. Xk sono continue allora ` ∈ supp(Xk ); se le v.a. sono discrete, allora ` ∈ spet(Xk ). Esempio 16. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista come la somma di k v.a. di Poisson indipendenti di parametro λ > 0 (chiusura rispetto alla somma). Ovviamente Xk è non-decrescente, allora vogliamo trovare la distribuzione K` del numero di addendi necessari per superare il livello `. Si ha che P (K` ≤ k) =P (Xk ≥ `) 88 = ∞ X P (Xk = x) x=` =e −λk ∞ X (λk)x x! x=` =(λk)` e−λk ∞ X (λk)x . (x + `)! x=0 La densità discreta di una Poisson somma ad uno su N e allora P (K` ≤ k) =e −λk ∞ X (λk)x x! x=` =1 − e −λk −λk −e ∞ X (λk)x x=0 x! +1 `−1 X (λk)x x! x=0 (che è 1 − P (Xk < `)). Notiamo che 1 ` − 1 (` − x − 1)! = x! x (` − 1)! dove (si veda la funzione Gamma) Z (` − x − 1)! = Γ(` − x) = ∞ u`−x−1 e−u du, x ≥ 0. 0 Allora, possiamo scrivere `−1 X (λk)x x=0 x! `−1 1 X `−1 = Γ(` − x) (λk)x Γ(`) x=0 x =[ per la linearità e la positività degli addendi14 ] ! Z ∞ `−1 x X ` − 1 (λk) 1 du = u`−1 e−u x Γ(`) 0 x u x=0 =[ per il binomio di Newton ] `−1 Z ∞ 1 λk `−1 −u = u e 1+ du Γ(`) 0 u Z ∞ 1 = e−u (u + λk)`−1 du Γ(`) 0 =[ pongo y = u + λk ] Capitolo 3. Variabili Aleatorie eλk = Γ(`) 89 Z ∞ y `−1 e−y dy. λk Riorganizzando i conti, si ottiene Z ∞ Z λk 1 1 `−1 −y P (K` ≤ k) = 1 − y e dy = y `−1 e−y dy, Γ(`) λk Γ(`) 0 k ∈ N. Esercizio 70. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo), allora K` è una v.a. continua. In maniera alternativa si dimostri che K` ∼ Gamma(1, `). [Suggerimento: si consideri FK0 ` (t) dove FK` (t) = e−λt ∞ X (λt)x x=` x! ed il fatto che si ottiene una serie telescopica]. Osservazione 23. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt) definisce il processo (aleatorio) di Poisson. Osservazione 24. Le somme parziali Sn con n ∈ N di v.a. non-negative sono successioni non-decrescenti. Esercizio 71. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione di v.a. i.i.d. P e sia Sk = kj=1 Xj con k ∈ N la loro somma parziale. Trovare la f.r. della v.a. K` , cioè del minimo numero k di v.a. Bernoulliane necessarie per raggiungere il livello `. [Suggerimento: si ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente per cui P (Sk ≥ `) = P (K` ≤ k)]. Esercizio 72. Nel precedente Esercizio 71, si scriva P (Sk = k). Esempio 17. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0. Si vuole studiare la v.a. K` . Subito possiamo dire che ` ∈ supp(Sk ), infatti la somma di v.a. continue è una v.a. continua, in questo caso in particolare ` ∈ (0, ∞). Allora, P (K` ≤ k) =P (Sk ≥ `) =P (Gamma(λ, k) ≥ `) Z ∞ λk = uk−1 e−λu du. Γ(k) ` Esercizio 73. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk con k ∈ N la corrispondente successione delle somme parziali. Studiare la v.a. (tempo di attesa) K` nei seguenti casi: 90 1. Xj = |Y | dove Y ∼ N (0, 1), 2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0, 3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2), 4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3), per ogni j ∈ N. 3.4.9 Simulazione, generatori di numeri casuali Nelle tecniche di generazione (di numeri casuali) supporremo sempre di poter generare un vettore uniforme (cioè un vettore di realizzazioni indipendenti di una variabile aleatoria Uniforme in un certo intervallo, possiamo scegliere un intervallo che più si adatta alla nostre esigenze). È possibile generare numeri aleatori uniformi seguendo ben noti algoritmi oppure si possono utilizzare delle funzioni implementate in tutti i software esistenti. Dalla generazioni di numeri casuali uniformi si possono ottenere numeri casuali che seguono altre distribuzioni di frequenza (o di probabilità). Proposizione 13. Sia g una funzione continua e differenziabile (monotona non decrescente) ed U ∼ U nif (a, b). Allora, la v.a. X = g −1 (U ) (3.49) ha legge di densità fX (x) = g 0 (x), g −1 (a) ≤ x ≤ g −1 (b) 0, altrimenti. (3.50) Dimostrazione. Per il Teorema 21, si ha che fX (x) = |g 0 (x)|fU (g(x)) = 1 0 g (x)1(a,b) (g(x)), b−a x∈R (3.51) con g non decrescente, quindi g 0 ≥ 0. Segue l’enunciato. Esercizio 74. Se il vettore X è stato ottenuto generando n valori U nif (0, 1), come ottengo il vettore Y con distribuzione U nif (0, a), a > 0? Esercizio 75. Se g(x) = 1 − e−λx con x ≥ 0, determinare la distribuzione di X = g −1 (U ) e dire quali numeri aleatori posso generare. Esercizio 76. Scrivere un algoritmo che restituisca un vettore di realizzazioni N (0, 1). Capitolo 3. Variabili Aleatorie 91 Esempio 18. Per generare una numero aleatorio in C si possono usare le chiamate void srand(unsigned seed); int rand(void); di stdlib.h e quindi il codice seguente: #include <stdio.h> #include <stdlib.h> #include <time.h> double simul(int a) { double x; int n; srand(time(0)); n = rand(); x = a*((double)n)/RAND_MAX; /* printf("Il numero estratto è %lf\n", x); return x; } */ La funzione restituisce (stampa a video) un numero aleatorio in (0, a) proveniente da una legge Uniforme. Ogni numero ha uguale probabilità di "essere estratto" dalla funzione rand. 3.5 Serie numeriche e di funzioni Si è accennato sopra alle somme parziali di v.a., come vedremo tali somme sono legate alle somme parziali di elementi di una successione numerica. Sembra quindi opportuno ricordare alcuni concetti base riguardanti le serie numeriche. Serie numeriche Sia {ak }k∈Z una successione (numerica) di valori in A. Si definisce serie numerica la somma X ak per qualche insieme di indici IK . (3.52) k∈IK Ricordiamo che ∞ X k=1 k α < ∞ per α < −1 (serie armonica). (3.53) 92 Serie telescopiche. Un esempio classico è dato dalla serie di Mengoli ∞ X k=1 1 . k(k + 1) Una serie di addendo generico ak è detta telescopica se ak = ±(bk − bk+1 ), se cioè ci si può ricondurre a due somme in cui gli addendi si elidono a k successivi. Nel caso della serie di Mengoli si ha che ∞ X k=1 ∞ X 1 = k(k + 1) k=1 1 1 − k k+1 =1− 1 1 1 + − + . . . = 1. 2 2 3 Serie di funzioni Sia {fk }k∈Z una successione di funzioni. Definiamo la somma parziale X fk (x). k∈IK Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso |IK | = n). In particolare, affrontiamo i problemi già accennati in Esempio 6 ed Esempio 7. Proposizione 14. Valgono le seguenti: i) (passaggio al limite sotto il segno di integrale) se fk è continua in [a, b] e fk (x) → f (x) uniformemente, allora b Z b Z fk (x)dx → f (x)dx a (3.54) a ii) (integrazione per serie) se fk è continua in [a, b] e n X fk (x) → f (x) uniformemente, k=1 allora Z b f (x)dx = a ∞ Z X k=1 a b fk (x)dx (3.55) Capitolo 3. Variabili Aleatorie 93 iii) (derivazione per serie) se fk è derivabile in [a, b] e se n X fk (x) → f (x) e k=1 n X fk0 (x) → g(x) uniformemente k=1 allora, f 0 (x) = g(x) in [a, b]. (3.56) Ricordiamo i seguenti sviluppi in serie f (x + z) = n X xk d k f k=0 k! dxk (z) + Rn (x + z) (serie di Taylor in z) oppure scriviamo f (x) = n X (x − z)k dk f dxk k! k=0 (z) + Rn (x) (serie di Taylor in z) dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al caso in cui lim x→z Rn (x) =0 (x − z)n (cioè Rn (x) = o((x − z)n ) per x → z). (3.57) Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente buona, ricordiamo anche il seguente sviluppo f (x) = ∞ X xk dk f k=0 k! dxk (0) (serie di Maclaurin - di Taylor in 0). Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine superiore a (x − z)n (resto di Peano), vale quindi (3.57). Se f è derivabile n + 1 volte in [a, b] con derivata f (n+1) continua, allora possiamo scrivere il resto come segue Z x (x − y)n (n+1) Rn (x) = f (y) dy, ∀ x ∈ [a, b]. (3.58) n! z Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]), |Rn (x)| ≤ γn+1 |x − z|n+1 , (n + 1)! γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}. (3.59) Esercizio 77. Ricavare la formula del binomio di Newton espandendo in serie di Maclaurin la funzione f (x) = (1 + x)n . 94 Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione numerica. Si ottiene la serie di potenze X ak xk (3.60) k∈IK per la quale è utile ricordare che ∞ X k ak x + k=0 ∞ X k bk x = ∞ X k=0 ck x k dove c k = ak + b k (banale!) k=0 e ∞ X ! ak x k ∞ X k=0 ! bk x k = k=0 ∞ X ck x k dove ck = k X as bk−s (moltiplicazione). s=0 k=0 Osservazione 25. Si noti che tali risultati valgono per serie numeriche, basta porre x = 1. Inoltre, ricordiamo che n X xk = k=0 1 − xn+1 1−x per |x| < 1 (serie geometrica). Alcuni limiti notevoli: x k fk (x) = 1 + → ex k n X xk k=0 n X k=1 → ex se n → ∞. ∞ kxk → k=1 n X k! per x ∈ R se k → ∞ xk → x 1−x d X k x dx k=1 per |x| < 1 se n → ∞ per |x| < 1 se n → ∞ (verificare!!) (3.61) Capitolo 3. Variabili Aleatorie 95 Esercizio 78. Calcolare 1 E 1−X nei seguenti casi 1. X è una v.a. con momenti Mr (X) = r−α e α > 1, 2. X è una v.a. con momenti Mr (X) = 1/4r , 3. X è una v.a. con momenti Mr (X) = r−1/3 . 3.6 Trasformate di densità Funzione caratteristica Sappiamo trovare la soluzione per una equazione del tipo x2 + 1 = 0? Introduciamo a tale scopo il numero complesso z = a + ib ed il suo coniugato ∗ z = a − ib dove a = <(z) è la parte reale di z e b = =(z) è la parte immaginaria di z, i è il numero immaginario per cui i2 = −1. Parte reale e parte immaginaria di un numero complesso variano in R. Il valore assoluto o modulo di un numero complesso |z| è dato dalla seguente relazione |z|2 = z z ∗ = a2 + b2 . (3.62) Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale complesso z = eix = cos x+i sin x, z ∗ = e−ix = cos x−i sin x (formule di Eulero). (3.63) Si vede subito che |e±ix | = 1 (verificate!). Sia X una v.a. con legge di densità fX e Z iξX φX (ξ) = Ee = eiξx fX (x)dx = F[fX ](ξ). (3.64) supp(X) Definizione 39. La funzione a valori complessi φX : R 7→ C è la funzione caratteristica della variabile aleatoria X (o associata alla v.a. X). Definizione 40. La funzione F[fX ](ξ) : R 7→ C è la trasformata di Fourier della funzione fX (o associata alla funzione fX ). 96 Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo X φX (ξ) = EeiξX = eiξxk pk = F[{pk }](ξ) k∈IX che è in linea con le (3.21) ed è la funzione caratteristica per v.a. discrete. In generale, la trasformata di Fourier di una funzione f : A → R è definita da Z F[f ](ξ) = eiξx f (x)dx A mentre F[{pk }](ξ) è una trasformata di Fourier discreta. Proposizione 15. Valgono le seguenti proprietà : 1. φX (0) = 1, 2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata), 3. φX è uniformemente continua, P 4. se Y = nj=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipendenti e aj ∈ R per ogni j, allora n Y φY (ξ) = φXj (aj ξ). j=1 Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.64) si vede subito che: 1. segue immediatamente considerando P (X ∈ supp(X)) = 1, 2. dalle proprietà del modulo, si ottiene Z iξx |φX (ξ)| = e fX (x)dx = EeiξX supp(X) Z ≤ |eiξx fX (x)|dx supp(X) Z = |eiξx |fX (x)dx = E eiξX supp(X) =1 infatti fX ≥ 0 è una legge di densità e |eiξx | = cos2 ξx + sin2 ξx = 1. Capitolo 3. Variabili Aleatorie 97 3. si deve considerare |φX (ξ + h) − φX (ξ)| =EeiξX+ihX − EeiξX =E eiξX+ihX − eiξX linearità della media ≤EeiξX+ihX − eiξX dis. di Hölder =E eiξX · eihX − 1 =EeihX − 1 si è usato cos2 ξX + sin2 ξX = 1 =Mh che non dipende da ξ e quindi |φX (ξ + h) − φX (ξ)| ≤ Mh . Si deve notare che qui con il simbolo Mh si sta indicando una costante15 . Volendo fornire una rappresentazione esplicita, si ha q Mh =E (cos hX − 1)2 + sin2 hX √ =E 2 − 2 cos hX =2E| sin(hX/2)| ≤ 2 dove si sono usate formule ben note di trigonometria ed il fatto che sin x è una funzione limitata. Potevamo anche considerare la dis. di Minkowski, |eihX − 1| ≤ |eihX | + |1| ≤ 1 + 1. 4. in questo caso dobbiamo considerare iξ Ee Pn j=1 aj Xj =E n Y eiξaj Xj j=1 = n Y Eeiξaj Xj per l’indipendenza delle v.a. eiξaj Xj j=1 = n Y φXj (aj ξ) per definizione. j=1 15 Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento di ordine r indicato con il simbolo Mr . 98 Proposizione 16. Se X ha momento di ordine n+1 finito, cioè Mn+1 (X) < ∞, allora n n+1 X (iξ)r ≤ |ξ| φX (ξ) − M (X) (3.65) r (n + 1)! Mn+1 (|X|) r! r=0 Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla (3.59) che γn+1 = 1 e |x|n+1 . |Rn (ix)| = |Rn (x)| ≤ (n + 1)! Quindi si ha che ! n n r r X X (iξ) (iξ) r φX (ξ) − =E eiξX − M (X) X r r! r! r=0 r=0 n r iξX X (iξ) r ≤Ee − X r! r=0 =E|Rn (X)| e la dimostrazione è conclusa. Da quanto visto possiamo enunciare i seguenti risultati. Teorema 26. Se per ogni ξ, |ξ|r Mr (|X|) = 0, r→∞ r! lim (3.66) allora φX (ξ) = ∞ X (iξ)r r=0 r! Mr (X). (3.67) Lemma 1. Se X ha momento assoluto di ordine n finito, cioè Mn (|X|) < ∞, allora (n) φX (0) = Mn (X). in Diamo inoltre il seguente risultato senza dimostrarlo. Teorema 27. Se φX ∈ L1 (R), allora X ∼ fX e 1. fX è uniformemente continua, 2. vale (3.13) per ogni x, (3.68) Capitolo 3. Variabili Aleatorie 99 3. fX (x) = F −1 [φX ](x) dove F −1 1 [φX ](x) = 2π Z e−iξx φX (ξ)dξ R è la trasformata inversa di Fourier. Dal teorema precedente arriviamo alla proposizione che segue (si veda anche la formula (3.3)). Proposizione 17. Se φX ∈ L1 (R), allora non ci sono punti di massa positiva (di probabilità positiva). Vale a dire P (X = x) = 0 per ogni x. Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha kfX k∞ ≤ kφX k1 ). Si possono ottenere molte informazioni interessanti dallo studio della funzione caratteristica che non intendiamo approfondire ora. Ricordiamo però che le code della funzione caratteristica danno informazioni sulla regolarità della densità (sulla continuità) mentre le code della densità danno informazioni sulla regolarità (continuità) della funzione caratteristica. In particolare, code che decadono esponenzialmente determinano derivabilità di ogni ordine. Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni ordine uguali ma non necessariamente condividono la stessa legge di densità. Infatti stessa densità significa stessa funzione caratteristica (perché la trasformata di Fourier è un isomorfismo) ma queste possono non esistere in termini di momenti, deve essere verificata per φX e φY la condizione (3.66). Quindi le v.a. hanno momenti uguali di ogni ordine ma la funzione caratteristica non può essere scritta come in (3.67). Ricordiamo anche che due v.a. possono avere la stessa densità ma essere diverse. Cioè possono avere marginali di ordine k diverse. Esercizio 79. Sia X una v.a. tale che Γ(r + 1) r r! r a 1(r pari) = r a 1(r pari) , EX r = (r/2)! Γ( 2 + 1) a > 0, r > 0. Scrivere la funzione caratteristica di X. Funzione generatrice dei momenti La funzione generatrice dei momenti è definita dalla media EeξX con ξ ∈ R. Seguendo argomenti analoghi a quanto detto sopra per la funzione caratteristica si arrivano a determinare interessanti proprietà se tale media esiste. Il problema principale è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti ma definiremo la funzione generatrice dei momenti, per ξ ≥ 0, come segue Z −ξX ψX (ξ) = Ee = e−ξx fX (x)dx = L[fX ](ξ). (3.69) supp(X) 100 dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se X ≥ 0, ψX esiste sempre. In particolare, si ottiene: 1. ψX (0) = 1, (n) 2. (−1)n ψX (0) = Mn (X), 3. se per ogni ξ, ξk Mk (X) = 0 k→∞ k! lim allora " −ξX ψX (ξ) = Ee =E ∞ X (−ξX)k k=0 # k! = ∞ X (−ξ)k k=0 k! Mk (X). (3.70) Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo X Ee−ξX = e−ξxk pk k∈IX che è ancora in linea con le (3.21). Funzione dei momenti generalizzati Sia X ≥ 0 con densità fX . Definiamo la trasformata Z ∞ η−1 ϕX (η) = EX = xη−1 fX (x)dx = M[fX ](η) 0 dove M[fX ](η) è la trasformata di Mellin di fX . Funzione generatrice delle probabilità Sia X una v.a., allora GX (u) = EuX , |u| < 1 è detta funzione generatrice delle probabilità di X. Osservazione 26. Ogni variabile è identificata in maniera univoca dalla sua trasformata. Capitolo 3. Variabili Aleatorie 101 Esercizio 80. Una fabbrica produce sensori laser che escono da due linee di produzione, diciamo linea A e linea B. Dalla linea A escono il 30% dei prodotti. Si riscontra che la percentuale di pezzi difettosi nelle due linee è pari al 15% e 12% rispettivamente. Calcolare: 1. P (un sensore scelto a caso sia difettoso), 2. P (il sensore difettoso e scelto a caso provenga dalla linea A). I sensori vengono confezionati in scatole da 10 pezzi della stessa linea. Viene ispezionata una scatola a caso e k sensori risultano difettosi (si noti che k ≤ 10). Calcolare: 3. P (la scatola proviene dalla linea A), 4. P (la scatola proviene dalla linea B) 2 Esercizio 81. Si consideri la funzione f (x) = κ e−θx con x ∈ R. 1. Determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità. Si consideri la v.a. X con legge di densità fX = f appena trovata. 2. Chi è X? 3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di densità della v.a. Y = |X|2 . 4. Si consideri la successione di v.a. i.i.d. Yj ∼ Y . Scrivere la legge di densità di Pn Z = j=1 Yj . Esercizio 82. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che E[Xj ]k = 1 1(k=2) , n k ≥ 1, 1. determinare la funzione caratteristica di Xj , 2. determinare la funzione caratteristica di Zn = Pn j=1 Xj , 3. determinare la legge di densità della v.a. Z∞ e dire che tipo di convergenza si ottiene. 102 3.7 3.7.1 Convergenza di variabili aleatorie Definizioni di convergenza Sia Xn , n = 1, 2, . . . una successione di v.a. e sia fXn la successione delle leggi di densità delle Xn . Sia X una v.a. tale che Xn → X quando n → ∞. Dobbiamo caratterizzare il senso della convergenza. Si deve quindi dire in che senso Xn → X. Definizione 41. Xn → X in distribuzione e scriviamo d Xn → X (3.71) se P (Xn ≤ x) → P (X ≤ x) se n → ∞ (3.72) per ogni punto x in cui la funzione limite x 7→ P (X ≤ x) è continua. Se vale la (3.72) possiamo dire che Xn converge ad X in distribuzione (in distribution), in legge (in law), debolmente (weakly). Notiamo che la definizione appena data è in realtà il teorema di Helly-Bray e che la convergenza in distribuzione non riguarda direttamente la v.a. X ma la sua distribuzione di probabilità o appunto, la funzione di ripartizione (si veda ad esempio l’Esercizio 18). Il lemma che segue ci fornisce definizioni equivalenti di convergenza debole. Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono affermazioni equivalenti: d i) Xn → X, ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb , iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈ Lipb , iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che P (X ∈ ∂B) = 0 dove ∂B è la frontiera di B. Osservazione 27. Consideriamo un intervallo della retta dei reali. La frontiera di [a, b] è costituita dall’insieme {a, b}. Sia X ∼ fX , allora sappiamo che P è assolutamente continua rispetto alla misura di Lebesgue e la misura di Lebesgue di ∂[a, b] = {a, b} = {a} ∪ {b} è zero. Dire che una v.a. converge in legge equivale a dire che la sua densità (funzione di ripartizione) converge debolmente, cioè se Xn → X in distribuzione, allora Eg(Xn ) → R Eg(X) dove g = 1B è la funzione indicatrice (infatti Eg(Xn ) = g dFXn ). Se g Capitolo 3. Variabili Aleatorie 103 è una funzione semplice, per la linearità dell’integrale, continua a valere la convergenza debole. Se g è una funzione misurabile non negativa, continua a valere per la convergenza monotona16 e per linearità, continua a valere per una arbitraria funzione misurabile. d Osservazione 28. Se Xn → X non è detto che EXn → EX. Infatti la funzione g(x) = x non è limitata. Definizione 42. Xn → X in probabilità e scriviamo P Xn → X (3.73) se ∀ > 0 lim P (|Xn − X| > ) = lim P (ω : |Xn (ω) − X(ω)| > ) = 0 n→∞ n→∞ oppure ∀ > 0 lim P (|Xn − X| ≤ ) = lim P (ω : |Xn (ω) − X(ω)| ≤ ) = 1. n→∞ n→∞ La convergenza in probabilità richiede che asintoticamente l’insieme {ω : |Xn (ω)− X(ω)| > } diventi un insieme trascurabile, cioè di misura P nulla (si considera una distanza). La convergenza in probabilità implica la convergenza in distribuzione, non è sempre vero il contrario. In particolare, la convergenza in distribuzione implica la convergenza in probabilità solo se il limite X è una v.a. degenere. Definizione 43. Una v.a. X si dice degenere se è identicamente uguale ad una costante quasi certamente (q.c.), cioè se P (X = costante) = 1. Definizione 44. Xn → X in media r-esima e scriviamo M Xn →r X (3.74) se E|Xn − X|r → 0, r > 0, 16 se n → ∞. Sia {fn }n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ). Se fn → f puntualmente, allora f è misurabile (f ∈ L1 ) e Z Z lim fn (x)dµ(x) = f (x)dµ(x). n→∞ Ω Ω 104 Dalla disuguaglianza di Chebyshev P (|Xn − X| > ) ≤ E|Xn − X|r r si vede subito che la convergenza in media r-esima implica la convergenza in probabilità. Osserviamo inoltre che, per r pari (si veda la formula del binomio di Newton), r r X X r r r k r−k |Xn − X| = ak [Xn ] [X] = ak [X]k [Xn ]r−k k k k=0 k=0 dove ak = (−1)k (per r dispari basta considerare il corrispondente ak che tenga conto del modulo). Quindi si ottiene convergenza in media r-esima se esistono i momenti 1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo semplicemente di convergenza in media. Osservazione 29. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una successione. Notiamo che Z b 1 r |fn (x) − f (x)|r dx → 0 se n → ∞ (3.75) E|fn (X) − f (X)| = b−a a collega la convergenza in media r-sima con la convergenza nello spazio di Lebesgue Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza in Lp si può formalizzare come segue, sia Xn ∈ Lp per ogni n, X ∈ Lp e p ≥ 1, diciamo che Lp Xn → X se lim kXn − Xkp = 0 n→∞ Definizione 45. Xn → X con probabilità 1 (o quasi certamente) e scriviamo q.c. Xn → X se P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1. n→∞ n→∞ q.c. Notiamo che Xn → X significa P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0 n→∞ n→∞ (3.76) Capitolo 3. Variabili Aleatorie 105 oppure P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1. n→∞ n→∞ Si vede subito che la convergenza quasi certa è più forte della convergenza in probabilità. La convergenza q.c. implica quindi una convergenza puntuale (pointwise) in ω, cioè Xn (ω) → X(ω) a meno di un insieme N ⊂ Ω di misura nulla, P (N ) = 0 e quindi trascurabile. Inoltre la convergenza q.c. implica la convergenza in probabilità (Lemma di Fatou). La convergenza quasi certa (almost sure) è anche detta convergenza quasi ovunque (almost everywhere), con probabilità uno (with probability one), in senso forte (strongly). Raramente ci si riferisce alla convergenza certa (o ovunque) in cui si ha convergenza quasi certa (quasi ovunque) a meno di insiemi di misura nulla. Esempio 19. La funzione fn (x) = xn converge punto per punto a 0 in [0, 1) ma non uniformemente. La convergenza non è puntuale in [0, 1]. Inoltre, converge q.o. in [0, 1] a 0 rispetto alla misura di Lebesgue, visto che µ({1}) = 0 se µ è la misura di Lebesgue. Esempio 20. Il limite puntuale di una successione di funzioni continue può essere una funzione discontinua solo se la convergenza non è uniforme. Si consideri fn (x) = (cos πx)2n . Esercizio 83. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = max {Xk }, 1≤k≤n n ∈ N. Esercizio 84. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = X n , n ∈ N. Esercizio 85. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a. Zn = (−X)n , n ∈ N. Esercizio 86. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza della successione di v.a. Zn = X + P 1 Y, n n ∈ N. q.c. Proposizione 18. Se Xn → X, allora esiste una sotto-successione tale che Xnk → X. 106 Definizione 46. (Convergenza quasi completa) Diciamo che Xn → X quasi completamente se X ∀ > 0, P (ω : |Xn (ω) − X(ω)| > ) < ∞, k > 0. (3.77) n>k Si ha quindi convergenza quasi completa se fissato (piccolo a piacere), la somma (3.77) è finita indipendentemente da quale k scelgo (grande a piacere). Se Xn converge quasi completamente allora converge quasi certamente, cioè converge così velocemente da assicurare la convergenza q.c. (Lemma di Borel-Cantelli). Definizione 47. (Convergenza stabile) Sia Xn una successione di v.a. definite in d (Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in G (G-stably in distribution) se E[Zf (Xn )] → E[Zf (X)] per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata e Gmisurabile. Osservazione 30. Per la convergenza in media o in probabilità dobbiamo conoscere le congiunte delle v.a. interessate mentre per la convergenza in distribuzione basta conoscere la marginale di ordine k se si studia la convergenza di una successione Xn ∈ R k . Teorema 28. Sia g : Rn 7→ Rm una funzione continua in ogni punto x ∈ D per cui si ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)). Valgono le seguenti : d d P P q.c. q.c. i) Xn → X, implica g(Xn ) → g(X), ii) Xn → X, implica g(Xn ) → g(X), iii) Xn → X, implica g(Xn ) → g(X). Osservazione 31. Notiamo che per una funzione g di Lipschitz, g ∈ Lip, vale la seguente P P • Xn → X, implica g(Xn ) → g(X). Si vede che g ∈ Lip implica che Ag ⊂ A, dove Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < } A ={ω ∈ Ω : |Xn (ω) − X(ω)| < } M Capitolo 3. Variabili Aleatorie 107 e quindi P (|g(Xn ) − g(X)| < ) ≤ P (|Xn − X| < ) → 1 se n → ∞ M P perché vale Xn → X. Teorema 29. Siano {Xn }n , X e {Yn }n v.a., allora q.c. P P d i) Xn → X implica Xn → X, ii) Xn → X implica Xn → X, P d iii) Xn → c se e solo se Xn → c dove c è una costante, d P d iv) Xn → X e |Xn − Yn | → 0 implica Yn → X. Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una costante. Se d Xn → X d e Yn → c, allora d i) Xn + Yn → X + c; d ii) Yn Xn → cX; d iii) Yn−1 Xn → c−1 X se c 6= 0. Teorema 30. (Teorema di continuità di Lévy) Siano {Xn }n e X v.a. in Rd . Allora d i) Xn → X se e solo se φXn (ξ) = Eeiξ TX n → Eeiξ TX = φX (ξ), ∀ ξ ∈ Rd se n → ∞ (3.78) ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e φ(ξ) è continua d in zero, allora φ = φX è la funzione caratteristica di X e Xn → X. Teorema 31. (Scheffé)17 Se {fn }n∈N è una successione di densità di probabilità con supporto in D ⊂ Rd tali per cui lim fn (x) = f (x) n→∞ 17 q.o. in D, Attribuiamo il risultato a Sheffé perché è una sua formulazione ma ricordiamo, come anche lui ha fatto, che si poteva ottenere come caso particolare di risultati noti più generali. 108 allora una condizione sufficiente affinché Z Z lim fn (x)dx = f (x)dx n→∞ B B per ogni Boreliano B è che f sia una densità di probabilità. Il teorema autorizza il passaggio al limite sotto il segno di integrale. Proposizione 19. Sono equivalenti i seguenti limiti: i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E), ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E), iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 30. Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). Infatti, se vale i), dalla 3.13 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema 31. Le implicazioni con la iii) sono ovvie. I seguenti esercizi sono estremamente istruttivi. Esercizio 87. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N. Una v.a. unidimensionale U nif ([0, `]) avrà densità 1/` dove ` è la lunghezza del supporto. Sembra ovvio che se ` → ∞ la densità tende a zero, tutti i punti hanno eguale probabilità di essere considerati ed è nulla. Allo stesso tempo però la f.r. può non essere nulla come nel precedente esercizio. Quindi l’operazione di passaggio al limite sotto il segno di integrale può condurre a situazioni da analizzare con cura. Esercizio 88. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove fXn (x) = 2n2 x1(0,1/n) (x), x ∈ R. Divergenza di variabili aleatorie. Ci siamo sempre interessati alla convergenza in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N , diamo una definizione di divergenza. Definizione 48. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞] diverge q.c. se ∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1. Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗ in poi se e solo se Xn → ±∞ quasi certamente. Capitolo 3. 3.7.2 Variabili Aleatorie 109 Teoremi limite Studiamo il limite della v.a. somma parziale Sn = n X Xj (3.79) j=1 e della v.a. media campionaria n X 1 ¯n = 1 X Xj = S n . n j=1 n (3.80) dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportunamente. Teorema 32. (Legge debole dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ per ogni j. Allora P ¯n → X µ se n → ∞. (3.81) Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di Chebyshev, 2 ¯ ¯ ¯ n − µ| > ) ≤ E|Xn − µ| = V ar(Xn ) P (|X 2 2 ¯ n = µ. La varianza di X ¯ n si calcola come segue dato che E X n 1 X 1 ¯ V ar(Xn ) = 2 V ar(Xj ) = σ 2 n j=1 n dato che le Xj sono i.i.d., segue dunque che ¯ n − µ| > ) ≤ P (|X σ2 →0 n 2 se n → ∞. Dalla definizione di convergenza in probabilità segue l’enunciato. Teorema 33. (Legge forte dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ per ogni j. Allora ¯ n q.c. X →µ se n → ∞. (3.82) 110 Teorema 34. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di v.a. i.i.d. con EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora, Sn − nµ d √ → N (0, 1) σ n se n → ∞ (3.83) e ¯ − EX ¯n d X pn → N (0, 1) ¯n) V ar(X ¯ n = µ e V ar(X ¯ n ) = σ 2 /n. dove E X se n → ∞ (3.84) Esercizio 89. Sia X ∼ U nif (0, 1) ed α > 1. Studiare la convergenza della v.a. Yn = (n(1 − X n ))1/α . Esercizio 90. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n). Studiare la convergenza della v.a. Yn = max0≤k≤n {Xk }. Esercizio 91. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ e varianza σ 2 per ogni k. Studiare la convergenza della successione Yn = n X (Xk − µ) k=1 3.7.3 σ n ∈ N. , Metodi Monte Carlo Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j = 1, 2, . . ., sotto le condizioni della legge dei grandi numeri sappiamo che Z n 1X P Xj → µ = EX = xfX (x)dx se n → ∞. n j=1 supp(X) Inoltre, se Xn → X in probabilità, vale P g(Xn ) → g(X) per ogni funzione continua e limitata g. Otteniamo allora n 1X P g(Xj ) → Eg(X) = n j=1 Z g(x)fX (x)dx. supp(X) Se X ∼ U nif (a, b), allora n 1X 1 P g(Xj ) → n j=1 b−a Z b g(x)dx. a Capitolo 3. Variabili Aleatorie 111 Possiamo quindi considerare una successione {Xj }j∈N con componenti i.i.d e ognuna convergente ad una v.a. Uniforme; di questa prendere solo una realizzazione finita, data del vettore X = (X1 , X2 , . . . , Xn ) per n sufficientemente grande; passare quindi alla v.a. media campionaria Y¯n relativa al vettore Y = (g(X1 ), g(X2 ), . . . , g(Xn )). La v.a. Y¯n torna utile nel calcolare un integrale di g numericamente complicato (di elevata complessità computazionale ad esempio). Le convergenze di cui si sta parlando si ottengono per n → ∞ ma in realtà si ottengono buone approssimazioni per n sufficientemente grande (a volte può essere sufficiente n = 100, 1000 etc.). La funzione somma in C: #include <stdio.h> #include <stdlib.h> double sum(double v[]) { int i; int s; s=0; for(i=1; i<length(v)+1; i++) { s=s+v[i]; } return s; } Definiamo inoltre la seguente funzione #include <stdio.h> /* altre librerie se necessario */ #include <stdlib.h> double dist(double v) { double val; 112 ...... /* il codice */ return val; } che restituisce un valore secondo la trasformazione della Proposizione 13. Il Metodo Monte Carlo (MMC in breve) in C: #include <stdio.h> #include <stdlib.h> void MMC(void) { double v[500]; double V[500]; int i; for(i=1; i<=500; i++) { v[i]=simul(1); v[i]=dist(v[i]); /* qui cambiamo distribuzione al vettore v che era uniforme */ } /* supponiamo di inserire qui il codice che restitutisce il vettore V=g(v) */ printf("il valore dell’integrale è %lf\n", sum(V)/500); } dove sum(V)/500 restituisce la media campionaria (avendo simulato V che può essere visto come una realizzazione di un vettore aleatorio). Esercizio 92. Si verifichi che il codice non restituisce errori. Esempio 21. Si vuole trovare la successione di v.a. {Xj }j∈N tale da approssimare con il MMC l’integrale Z 2 g(x)e−x dx. (3.85) R Si vede subito che √ X n π g(Xj ) n j=1 è la v.a. media campionaria cercata. dove Xj ∼ N (0, 2) (3.86) Capitolo 3. Variabili Aleatorie 113 Ci riferiremo al problema appena affrontato come al problema MC. Quindi, seguendo il precedente Esempio 21 diremo che la caratterizzazione (3.86) di una v.a. media campionaria è soluzione MC per l’integrale (3.85), cioè (3.86) è soluzione del problema MC per l’integrale (3.85). Se la funzione g non è specificata, allora la soluzione del problema MC sarà data dalla caratterizzazione del tipo (3.86) ed una forma esplicita per la funzione g. Esempio 22. Trovare una soluzione MC per l’integrale Z ∞ xα e−x dx, α, β > 0. β 0 Si ottiene n βX α X n j=1 j Xj ∼ Exp(1) e quindi g(x) = βxα . Esercizio 93. Trovare una soluzione MC per i seguenti integrali: R 2 1. R x3 e−x dx, R∞ 2 2. 0 x3 e−x dx, R 3. R (1 + x2 )−1/2 dx Stima per intervalli. Dal teorema del limite centrale sappiamo che, per n → ∞, Pn 1 d j=1 g(Xj ) − Eg(X) √ p Zn = n n → N (0, 1) V ar(g(X)) ed è quindi possibile identificare un intervallo di confidenza18 del tipo σ σ Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √ n n dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α. n→∞ n→∞ Il percentile zα∗ può essere individuato dalla tavola dei percentili in Tabella 7.1. 18 Si veda il Capitolo 5. 114 3.8 Processi aleatori I processi aleatori si possono classificare per spazio e tempo. Una realizzazione del processo Xt rappresenta un osservazione al tempo t di un fenomeno che può essere continuo o discreto, in relazione a questo diciamo che il processo a valori in uno spazio continuo o discreto (o semplicemente Xt è a spazio continuo o discreto). Il tempo t può essere continuo ma se pensiamo che le osservazioni siano possibili solo a tempi discreti, allora possiamo caratterizzare Xt dicendo che può essere a tempo continuo o discreto. Spazio discreto e tempo continuo Per ora non ci interessano. Spazio continuo e tempo continuo La soluzione del problema di Cauchy ∂ 2u ∂u (x, t) = (x, t), ∂t ∂x2 u(x, 0) = g(x) x ∈ R, t > 0 (3.87) si può scrivere come (supponiamo g ∈ Cb ) w2 e− 4t g(x + w) √ dw = u(x, t) = Eg(x + Bt ) = 4πt R Z Z (w−x)2 4t e− g(w) √ R 4πt dw dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità Z P (Bt ∈ A) = A w2 e− 4t √ dw. 4πt (3.88) Il moto Browniano è un processo aleatorio ”elementare” (volendo semplificare) nel senso che rappresenta la base di partenza nello studio di processi aleatori molto più generali e guidati dalle Stochastic differential equations o dalle più complicate Stochastic partial differential equations (il lettore interessato è invitato a fare una ricerca in rete, ad esempio utilizzando Google!). Il moto Browniano rappresenta il movimento di una particella, la diffusione del calore, l’andamento di un oggetto finanziario e molto altro ed è associato alla equazione (3.87). È quindi di interesse in Fisica, Economia, Finanza e tutte le scienze applicate. Al variare del tempo, rappresenta un fenomeno di evoluzione governato dalla equazione del calore. La (3.88) può quindi essere letta Capitolo 3. Variabili Aleatorie 115 come la probabilità che al tempo t una particella (o altro) si trovi in A (o occupi una delle posizioni contenute nell’insieme A, un punto di A). La soluzione del problema di Cauchy ∂u ∂ 2u (x, t) = (x, t), ∂t ∂x2 u(x, 0) = g(x) x ∈ D, t > 0 (3.89) si può scrivere come u(x, t) = E[g(x + Bt ), t < τD ], x ∈ D, t > 0 (3.90) dove τD = inf{s ≥ 0 : Bs ∈ / D} è il primo istante in cui il moto Browniano Bs esce da D. Si noti come oggetti aleatori possano essere utilizzati per fornire interessanti spunti nello studio delle equazioni a derivate parziali e quindi nei vari modelli (o fenomeni) collegati. Esercizio 94. Sia u(x, t) la soluzione di (3.87). Scrivere il problema associato a v(x, t) = u(x, 2t). Esempio 23. La Figura 3.4 da un idea di traiettoria del moto Browniano, mentre nella Figura 3.3 si è rappresentata una realizzazione di un vettore (sempre di dimensione 300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300. È stata ottenuta considerando >rnorm(n, media, varianza) di R che genera un vettore con componenti Xi ∼ N (0, ti ), i = 1, 2, . . . , 300. Il moto Browniano Bi è stato ottenuto dalle v.a. Xj ∼ N (0, 1) dove Bi = i X Xj , i = 1, 2. . . . , 300. j=1 Si è considerata la funzione di R >cumsum(vector) che restituisce un vettore la cui componente i-esima è data dalla somma delle prime i componenti. Esercizio 95. Scrivere una soluzione MC per l’integrale Z 2 f (y)e−ay dy, f ∈ Cb (R), a > 0. R 200 0 −400 −200 rnorm(300, 0, c(1:300)) 400 600 116 0 50 100 150 200 250 300 Index −5 −10 −15 cumsum(rnorm(300, 0, 1)) 0 Figura 3.3: Collezione di Xi ∼ N (0, ti ). 0 50 100 150 200 250 300 Index Figura 3.4: Esempio di traiettoria di un moto Browniano. Capitolo 3. Variabili Aleatorie 117 Spazio discreto e tempo discreto Per ora non ci interessano. Spazio continuo e tempo discreto Si supponga di dover analizzare delle osservazioni che dipendono dal tempo, che sono state osservate non allo stesso istante ma in un arco di tempo. Supponiamo che tali osservazioni siano state effettuate nei tempi t = (t1 , t2 , . . . tn ) dove ovviamente 0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate, nel senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo. Noi però conosciamo di tale fenomeno solo quello che abbiamo osservato. Possiamo allora pensare che le osservazioni fatte siano realizzazioni di uno stesso oggetto aleatorio ad istanti dati dal vettore t. In particolare tale oggetto è un processo aleatorio, diciamo Xt indicizzato da t ∈ t e la collezione di dati {Xt , t ∈ t} è una serie storica. Il processo è a tempo discreto e le equazioni governanti sono discrete. Processi multi-parametro Sia {Xz , z ∈ Rn } con n > 1 un processo a valori reali. Il processo è indicizzato dalla variabile z ∈ Rn che gioca il ruolo di multi-parametro. La realizzazione di X può dipendere dai parametri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio. Se z ∈ R2 , possiamo considerare il processo come un campo aleatorio sul piano, se z ∈ R3 pensiamo ad un campo nello spazio etc., in ogni caso rappresenta un oggetto molto utile nello studio di fenomeni ambientali (statistica ambientale/statistica spaziale). 118 Capitolo 4 Gli universi campionari 4.1 Popolazioni finite Supponiamo d’ora in avanti che la popolazione allo studio sia in corrispondenza biunivoca con un insieme delle etichette P = {1, 2, . . . , i, . . . , N } e che possiamo dunque riferirci alla unità i − esima della popolazione considerando la etichetta i − esima di tale insieme, diremo anche che l’insieme P rappresenta la popolazione allo studio. Ogni campione c di dimensione n sarà allora esprimibile con cs = {ki1 , ki2 , . . . , kij , . . . , kin } ed s = {i1 , i2 , . . . , ij , . . . , in } dove si è osservata la caratteristica k per ognuna delle n unità i di P appartenente al sottoinsieme s ∈ Sn e Sn rappresenta l’insieme dei campioni di dimensione n che è possibile costruire a partire dalle unità (etichette) di P, Sn è detto universo campionario. Introduciamo la notazione seguente P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le probabilità del primo e secondo ordine rispettivamente, cioè le probabilità che in s sia compresa l’etichetta i o siano comprese entrambe le etichette i, j. Inoltre, X P (cs ) = 1. s∈Sn 119 120 Introduciamo anche la variabile indicatrice δ(i, s) = 1(i∈s) = 1, i ∈ s 0, altrimenti e la media E A [g], che è la media di g(x) per tutti i valori x ∈ A (data una opportuna funzione g del campione). è il caso di notare che (media sullo spazio campionario) X X E Sn [δ(i, s)] = δ(i, s)P (cs ) = δ(i, s)P (i ∈ s) = P (δ(i, s) = 1) = πi s∈Sn s∈Sn che è la probabilità di considerare proprio l’unità i-esima e E Sn [δ 2 (i, s)] = E Sn [δ(i, s)]. Se invece si considera (media sulle etichette o sulla popolazione) E P [δ(i, s)] = N 1 X ν(s) ν(cs ) n = = δ(i, s) = N i=1 N N N dove ν(·) è l’ampiezza effettiva di s o di cs . Le probabilità di inclusione del secondo ordine sono date da E Sn [δ(i, s)δ(j, s)] = πi,j . Definiamo disegno campionario la coppia (Sn , P (·)) ed introduciamo la funzione di riduzione r(s) del campione s, in particolare s? = r(s) è il campione ottenuto da s privandolo della ripetizione e dell’ordine sulle unità campionarie. Per un campionamento non ordinato senza ripetizione sarà allora s? = s ed in generale δ(i, s) = δ(i, r(s)) quindi presi s ∈ S e s? ∈ S ? si ha P (δ(i, s) = 1) = P (δ(i, s? ) = 1). Universi dei campioni con ripetizione Universo Bernoulliano È l’universo dei campioni ordinati, con ripetizione e a probabilità costanti caratterizzato da: 1 P (cs ) = n , N 1 πi =1 − (1 − )n , N 1 2 πi,j =1 − 2(1 − )n + (1 − )n . N N Capitolo 4. Gli universi campionari 121 Distribuzione della n-upla (x1 , x2 , . . . , xn ): f (x1 , x2 , . . . , xn ) = n Y f (X = xi ) i=1 e µ ˆX = x¯ Distribuzione della variabile P 2 σX n σx2¯ = xi : La legge distributiva è N f (k) = P k Qn−k n e quindi la legge binomiale, si ha σk2 = nP Q, E[k] = nP PQ . n σp2 = E[p] = P Distribuzione della r-upla (n1 , n2 , . . . , nr ): f (n1 , n2 , . . . , nr ) = Qr r Y n! i=1 ni ! Pini i=1 Osserviamo che considerata la variabile 2 χ = n X (npi − nPi )2 nPi i=1 =n n X (pi − Pi )2 i=1 Pi = n possiamo scrivere 1 f (n1 , n2 , . . . , nr ) ∝ exp − χ2 . 2 Osservazione 32. Introduciamo una variante dell’universo Bernoulliano. Prescindendo dalla permutazione sulle etichette si ottiene: P (cs ) = , n , N +n−1 N −1 (N − 2)(N − 1) =1 − 2 + . N + n − 1 (N + n − 2)(N + n − 1) πi = πi,j 1 N +n−1 n 122 Universi dei campioni senza ripetizione Si considerano qui gli universi campionari che differiscono solo per l’ordine delle unità, in sostanza quindi dalle permutazioni n! delle unità campionarie. Universo esaustivo È l’universo dei campioni ordinati, senza ripetizione e a probabilità costanti caratterizzato da: 1 , n! P (cs ) = N n n , N n(n − 1) = . N (N − 1) πi = πi,j Universo in blocco È l’universo dei campioni non ordinati, senza ripetizione e a probabilità costanti caratterizzato da: 1 P (cs ) = N n , n , N n(n − 1) = . N (N − 1) πi = πi,j Osserviamo che N −1 n−1 N n πi = X s∈S s3i P (s) = N −2 n−2 N n e X πi,j = s∈S s3i,j P (s) = . Distribuzione della n-upla (x1 , x2 , . . . , xn ). Le stime valgono per entrambi gli universi campionari visto che si distinguono solo per l’ordine. Otteniamo µ ˆX = x¯ ⇒ E[¯ x ] = µX σ ˆx2¯ = 2 N −n σX n N −1 Capitolo 4. Gli universi campionari 123 n Sx2 1X N n−1 2 = (xi − x¯)2 ⇒ E[Sx2 ] = σX n i=1 N −1 n n s2x N −1 1 X 2 = (xi − x¯)2 ⇒ E[s2x ] = σX N n − 1 i=1 n 1X h x¯r = x ⇒ E[¯ xh ] = µ X r n i=1 i N −n1 (µX 2r − µ2X r ). N −1n r Si sta usando la notazione Y = X e quindi µY = EY . σx2¯r = P Distribuzione della variabile xi . Dobbiamo distinguere tra i due casi in cui X è una variabile quantitativa oppure dicotomica, nel primo caso parliamo quindi della distribuzione dei totali T , mentre nel secondo della distribuzione della variabile k. Iniziamo dalla descrizione della variabile k. La v.a. X può assumere solo i valori 0 oppure 1, i campioni sono senza ripetizione e possiamo prescindere dall’ordine visto che dipende solo dalla permutazione n!, otteniamo quindi la legge ipergeometrica a due modalità N2 N1 f (k) = k n−k N n dove, al denominatore, abbiamo le combinazioni di N = N1 + N2 elementi in classi di n in cui k sono presi tra N1 di essi e n − k tra N2 , ad esempio N1 sono gli X = 1 ed N2 sono gli X = 0. Allora E[k] = nP σk2 = N −n nP Q N −1 σp2 = N − n PQ . N −1 n ed ovviamente per p = k/n E[p] = P Si poteva scrivere f (k) = f (k, n − k) = f (n1 , n0 ) e p1 = k n1 = . n n 124 Distribuzione della r-upla (n1 , n2 , . . . , nr ). diventa La legge ipergeometrica ad r modalità Qr N i i=1 ni N n f (n1 , n2 , . . . , nr ) = con pi = ni /n, allora E[ni ] = nPi σn2 i = N −n nPi Qi N −1 E[pi ] = Pi σp2i = Nn Pi Qi . N −1 n e Osserviamo che 4.2 1 χ2 f (n1 , n2 , . . . , nr ) ∝ exp − . 2 (1 − Nn ) Popolazioni virtuali Semplificando molto, diremo solo che ad una popolazione potrà sempre essere associata una legge di probabilità. Tale legge sarà una legge di densità. Diremo quindi che una popolazione P è rappresentata dalla v.a. X, alternativamente diremo che X è la popolazione oggetto di studio. Se X è la popolazione oggetto di studio, allora ogni realizzazione delle v.a. X è legata alla f.r. FX e quindi alla sua legge di densità fX . In questo caso, cioè quando X è continua, parleremo di popolazione continua. Noi ci occuperemo solo di popolazioni virtuali per pura comodità di trattazione, nelle applicazioni invece si è condotti a considerare tale popolazioni perché non sempre si è in grado di identificare tutti gli elementi di una popolazione oggetto di studio. Funzione di verosimiglianza Sia X la popolazione oggetto di studio ed x un campione osservato. Si definisce funzione di verosimiglianza la funzione L(θ; x) = L(θ; x1 , . . . , xn ) = n Y fX (xi ; θ). (4.1) i=1 Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione di x (di parametro θ) mentre nel definire la funzione di verosimiglianza si definisce una funzione di θ in cui i dati campionari svolgono il ruolo di parametri (infatti sono dati, una volta osservato il campione). A questo punto la variabile di interesse è θ. Dobbiamo inoltre Capitolo 4. Gli universi campionari 125 osservare che si è introdotta implicitamente la condizione di indipendenza nelle realizzazioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può fattorizzare come segue fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) = n Y fXi (xi ) i=1 solo se le componenti di X sono indipendenti a due a due. Si assume quindi che le osservazioni fatte siano realizzazioni indipendenti della stessa variabile. Si noti inoltre che nella formula (4.1) si è assunto anche che la v.a. fossero identicamente distribuite, cioè Xi ∼ X per ogni i = 1, 2, . . . , n. Vogliamo introdurre una notazione compatibile con una trattazione unificata di funzione di verosimiglianza e quindi trattare allo stesso modo variabili continue e discrete. Si è già introdotta la scrittura dP = f · dµ (4.2) dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo Z Z P (X ∈ B) = f · dµ = 1B f · dµ = per il Boreliano B ∈ B B dove f è detta densità di P e µ è la misura rispetto alla quale si sta calcolando la probabilità P (quindi f è la densità di P rispetto alla misura µ). Caratterizzare X, significa anche caratterizzare µ e di conseguenza f . Se X è una variabile continua, allora µ è la misura di Lebesgue e f = fX è una densità continua o integrabile. Se invece X è una v.a. discreta, allora f sarà una densità discreta e µ dovrà essere tale da associare massa di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X) che si trovano anche in B. Scriveremo, come già introdotto nei capitoli precedenti, Lebesgue, se X ∼ fX e quindi è continua dµ = Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX e quindi è discreta e di conseguenza Z 1B (x) fX (x)dx, supp(X) X P (X ∈ B) = 1B (xk ) pk , se X è continua, se X è discreta. . k∈IK La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) = P (X = xk ) = pk se X è continua o discreta. Se le pk dipendono da un parametro θ, scriviamo f (xk ; θ) = pk . Si consideri ad esempio X ∼ P ois(λ), allora f (xk ; θ) = f (k; λ) = e−λ λk . k! 126 Se la v.a. allo studio è una Gaussiana, allora x2 k e− 2σ2 f (xk , θ) = f (xk ; µ, σ 2 ) = √ 2πσ 2 dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media teorica della variabile X (non la misura di cui sopra). Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo studio ed un campione x di dimensione n, che n Y fXj (xj ) se X è continua, n Y j=1 L(θ; x) = f (xi ; θ) = n Y i=1 pk se X è discreta. k=1 Osservazione 33. Indipendentemente dal fatto che X sia continua o discreta (e quindi che la densità sia continua, integrabile o discreta) si deve notare che L(θ; x) è una funzione continua e derivabile in θ. Capitolo 5 Inferenza statistica 5.1 Stima parametrica - Il problema di stima parametrica puntuale è quello di stimare un parametro incognito θ ∈ Rm della legge distributiva di una popolazione X legata al campione, potremmo anche essere interessati non alla stima di θ ma di una sua funzione τ (θ) oppure ad una stima intervallare di θ o τ (θ). Diciamo statistica una funzione g dei dati campionari come ad esempio g(x) = n X xi g(x) = i=1 n X x2i , i=1 dato il campione empirico x. Il campione x è una realizzazione del vettore aleatorio X ∈ Rn che rappresenta la popolazione oggetto di studio. La legge di X, diciamo fX (x; θ), dipende da un parametro θ. Si chiama stimatore di un parametro θ ∈ Rm una statistica θˆ opportunamente individuata e funzione dei dati campionari θˆ = g(x1 , x2 , . . . , xn ) dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’universo campiocθ ∈ Rm costituito dai valori dello stimatore θˆ nario, al variare di x in U resta definito U ottenuti per i diversi campioni x ∈ U . In particolare, sia g : Rn 7→ Rm , allora ˆ θˆ = g(x), x ∈ U ⊆ Rn } cθ ={θ; U con m ≥ 1. Dato lo stimatore θˆ = g(x) dove x è una realizzazione del vettore aleatorio ˆ = g(X)1 . Nel seguito X, allora sembra immediata la definizione di v.a. stimatore Θ Pn ˆ = X n è la v.a. media campionaria. Così per altre g corrispondenti Se g(x) = n1 i=1 xi allora Θ ad altre v.a. definite nei capitoli precedenti. 1 127 128 scriveremo anche Z X g(x) dFX (x) = E[g(X)] E [g] = (5.1) supp(X) (come già definito, si è solo introdotto il simbolo E X ) e X E U [g] = g(x) f req{x ∈ U } (5.2) x∈U che equivale a scrivere cθ U Z E [g] = ˆ = E[Θ]. ˆ θˆ dFΘˆ (θ) (5.3) cθ U cθ , allora E A [g] sarà la media di tutti i valori che θˆ = g(x) assume al Quindi se A ∈ U variare di θˆ ∈ A o equivalentemente al variare di x ∈ g −1 (A). Si noti che ˆ ˆ = θ) (X = x) ≡ (Θ (i due eventi sono equivalenti) e allora ˆ = E[g(X)]. E[Θ] 5.1.1 Proprietà desiderabili di uno stimatore Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima e che sia nota la forma distributiva di X nella popolazione2 . Dato che θˆ è scritto in funzione di c ˆ g, la (5.3) si può anche scrivere come E Uθ [θ] ed ovviamente intendiamo la media di ˆ c tutti i valori θ di Uθ . ˆ si dice corretto se vale Correttezza. Uno stimatore Θ c ˆ E Uθ [θ] =θ ˆ =θ o equivalentemente E[Θ] mentre si dice distorto nel caso ˆ − θ 6= 0 Dn = E[Θ] 2 Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche sulle quali osservare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci si poteva anche riferire alla popolazione X visto che esiste un isomorfismo che collega ogni sottoclasse delle unità statistiche aventi stessa caratteristica Xi ad una densità di tale sottoclasse. Capitolo 5. Inferenza statistica 129 ˆ ed n in pedice indica la numerosità dove Dn è detta distorsione dello stimatore Θ campionaria di x. La distorsione Dn può essere tale per cui lim Dn = 0 n→∞ ˆ è asintoticamente corretto. e allora diciamo che Θ Esercizio 96. Verificare se la v.a. varianza campionaria n 1X ¯ 2 (Xk − X) n k=1 è uno stimatore corretto. Esercizio 97. Si consideri n 1 X ¯ 2. (Xk − X) S = n − 1 k=1 2 Verificare se è uno stimatore corretto. Esercizio 98. Verificare che lo stimatore (v.a.) media campionaria è uno stimatore corretto. Consistenza. Ipotizziamo ora che alla simulazione i-esima si sia osservato un campione xi ∈ Rn di dimensione campionaria n e si abbia la stima θˆi di θ ∈ R inoltre supponiamo di aver effettuato un numero I di simulazioni ovviamente rispettando la natura campionaria di xi . Considerando cioè che l’universo campionario U 3 sia lo stesso in ognuna delle I simulazioni e sia quindi la stessa anche la legge fX (x; θ) della popolazione X oggetto di studio (pensiamo ad esempio alle simulazioni fatte partendo dalla stessa legge distributiva in cui θ = µ, media della popolazione). Otteniamo così un insieme cθ (I, n) = {θˆi ; θˆi = g(xi ), xi ∈ U, i = 1, 2, . . . , I} U ˆ uno stimaindicizzato rispetto ad n per via della numerosità campionaria di xi . Sia Θ tore corretto, diciamo che è consistente se per piccolo a piacere si ha cθ (I, n) : |θˆi − θ| < } = 1 lim f req{θˆi ∈ U n→∞ 3 In realtà in situazioni come questa l’universo campionario è effettivamente lo stesso mentre ogni simulazione va pensata come una estrazione di un diverso campione da uno stesso contenitore U . In linea teorica quindi simulando campioni all’infinito si potrebbe ricreare lo stesso U e di fatto procedendo ad un numero opportunamente grande di simulazioni possiamo costruire un ottimo banco di prova per le proprietà desiderabili di uno stimatore. 130 ˆ al valore postulando in questo modo la convergenza in probabilità dello stimatore Θ vero θ e affermando che uno stimatore consistente aumenta in stabilità all’aumentare della numerosità campionaria. ˆ uno stimatore corretto o asintoticamente corretto, allora condiTeorema 35. Sia Θ ˆ sia consistente4 è che zione sufficiente affinché Θ 2 lim σΘ ˆ = 0. n→∞ Esercizio 99. Dimostrare che lo stimatore media campionaria è consistente. Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa ed efficienza assoluta. Dati due stimatori corretti si dice efficiente (in senso relativo) quello dei due ˆ1 e Θ ˆ 2 corretti, se vale con varianza minima. Siano allora Θ 2 2 σΘ ˆ 1 ≤ σΘ ˆ2 ˆ 1 è efficiente rispetto a Θ ˆ 2 . Dato uno stimatore corretto Θ ˆ e si dice diciamo che Θ efficiente (in senso assoluto) se è lo stimatore di varianza minima nella classe degli ˆ e, Θ ˆ ∈ Cθ e sia Cθ la classe degli stimatori stimatori corretti del parametro θ. Siano Θ corretti di θ, allora 2 2 ˆ ∈ Cθ . ∀Θ σΘ ˆ e ≤ σΘ ˆ Teorema 36. (Disuguaglianza di Cramer-Rao) Considerato un campione x ∈ Rn estratto da una popolazione con funzione di densità fX (x; θ) e θ ∈ Θ, se valgono: i) il campo di definizione5 della v.a. X non dipende da θ, ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e seconda rispetto a θ, ˆ è uno stimatore corretto di θ ( cioè Θ ˆ ∈ Cθ ), iii) Θ allora si ha ˆ − θ]2 = σ 2ˆ ≥ E[Θ Θ E 1 d log L 2 . dθ Esercizio 100. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipendenti. Si ˆea vogliono trovare le stime λ ˆ di λ e di a. Scrivere il campo di definizione di entrambe le v.a. e dire se vale il punto i) del teorema precedente. 4 5 ˆ = θ, otteniamo E[Θ ˆ − θ0 + θ0 − θ]2 = σ 2 + Dn2 . Considerato θ0 il valore vero ( da stimare ) e E[Θ] ˆ Θ Si intende lo spettro o il supporto a seconda della natura della v.a. X. Capitolo 5. Inferenza statistica 131 Il teorema ci consente quindi di individuare l’estremo inferiore della varianza di 2 uno stimatore appartenente alla classe Cθ e se tale estremo coincide con σΘ ˆ ? allora ? ˆ Θ è più efficiente (in senso assoluto) se esiste, può capitare cioè che non esista uno stimatore con varianza uguale all’estremo indicato dalla disuguaglianza di Cramer-Rao mentre se esiste è unico. Sembra utile ricordare inoltre che dalla relazione L(θ; x1 , . . . , xn ) = n Y fX (xi ; θ) i=1 e dalla v.a. L(θ; X) = n Y fX (Xi ; θ) i=1 (dove le Xi sono i.i.d.) seguono le quantità 2 2 U d log fX U d log L = nE E dθ dθ che è detta informazione di Fisher espressa dal campione mentre 2 U d log fX E dθ è detta informazione di Fisher espressa da X (quindi dalla popolazione). Inoltre, " #2 ˆ cθ d log fX (θ; θ) U E dθ è l’informazione di Fisher espressa dallo stimatore. Vale la seguente rappresentazione che lega momenti e derivate 2 2 d log L(θ; X) d log L(θ; X) I(θ) = E = −E dθ dθ2 e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta informazione di Fisher (attesa). Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ ed una statistica g ? : Rn 7→ Rm . Si vuole stimare il parametro θ, può essere anche m ≥ 1 ma non m > n. Supponiamo che al fine di ottenere una stima di θ costituisca la stessa informazione considerare il campione x o il valore assunto da g ? (x), allora g ? è detta statistica sufficiente per θ. Quanto abbiamo appena detto ci consente di 132 passare da Rn ad Rm trattando quindi con dimensioni minori o addirittura scalari (cioè m = 1) rappresentando così una prima utilità espressa da tali statistiche. Un ulteriore definizione di statistica sufficiente è dovuta al seguente teorema di fattorizzazione di Neyman. Teorema 37. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con densità fX (x; θ), θ ∈ Θ, date due funzioni non negative γ : U 7→ R e ϕ : Θ × G? 7→ R, una statistica sufficiente g ? : Rn 7→ G∗ ⊆ Rm , allora la verosimiglianza può scriversi L(θ; x) = γ(x) · ϕ(θ, g ? (x)). La funzione di verosimiglianza può essere quindi ricostruita a meno di un fattore inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·) e che a parità del valore g0? = g ? (x0 ) per qualche x0 ∈ U della statistica sufficiente si ottiene equivalenza in verosimiglianza. Quindi, diversi campioni x0 producono lo stesso g0∗ . Di fatto vale il ragionamento inverso, se la verosimiglianza può decomporsi come sopra allora resta definita una statistica sufficiente g ? . Come tutte le statistiche campionarie le statistiche sufficienti effettuano una classificazione per livelli dei campioni di U a partire da tutti i campioni x ∈ Ugi? tali per cui g ? (x) = gi∗ e i = 1, 2, . . . , I ( può essere anche I = 1 ), individuando così I insiemi di livello in ognuno dei quali si può avere o meno equivalenza in verosimiglianza ( verosimiglianza proporzionale per i campioni appartenenti allo stesso insieme di livello e per livello si intende appunto il livello della verosimiglianza ). La sufficienza comporta che dato gi? (e quindi tutto un insieme di livello Ugi? ) la distribuzione delle n-ple x ∈ Ugi? è indipendente da θ e si ottiene fX (x; θ|gi? ) = γ(x), ∀ x ∈ Ugi? che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}. Sembra logico pensare quindi che il passaggio da Ugi? ad U sia definito in termini di verosimiglianza dalla fattorizzazione di Neyman-Pearson. Basta ricordare che fX (x; θ) = L(θ; x). Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che γ(xa ) ϕ(θ, g ? (xa )) L(θ; xa ) γ(xa )/γ(xb ), g ? (xa ) = g ? (xb ) = = c(xa , xb ), g ? (xa ) 6= g ? (xb ) L(θ; xb ) γ(xb ) ϕ(θ, g ? (xb )) (5.4) dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la partizione su U indotta da una statistica sufficiente g ? è tale per cui campioni appartenenti allo stesso Capitolo 5. Inferenza statistica 133 insieme di livello (xa , xb ∈ Ugi? ) sono equivalenti in verosimiglianza. Non è in generale vero il contrario visto che può verificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g ? non sia minimale, come vedremo! Osserviamo che log L(θ; x) = log γ(x) + log ϕ(θ; g ? (x)) per cui si ottiene d log ϕ(θ; g ? (x)) d log L(θ; x) = dθ dθ e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica g ? sufficiente per θ è equivalente a quella espressa dal campione x. Teorema 38. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ) con θ ∈ Θ la densità per X. Se g ? : U ⊆ Rn 7→ G? è una statistica sufficiente per θ e g uno stimatore corretto di θ, che non dipende da θ, allora per ? g ?? (g0? ) = E U |g0 [g|g ? = g0? ] valgono le seguenti : ? i) E G [g ?? (g0? )] = θ , (sempre ricordando che g0? è funzione di (x1 , . . . , xn ) ) ? ii) V arG [g ?? (g0? )] ≤ V arUθ [g] c ? e possiamo riferirci a g ?? (g0? ) = E U |g0 [g|g ? = g0? ] come allo stimatore migliorato. ˆ Per ricollegarci al formalismo già usato consideriamo il caso in cui lo stimatore Θ ˆ = g ? (x1 , x2 , . . . , xn ), si ha U cθ = G? . sia una statistica sufficiente per θ, quindi se Θ Indichiamo con Ug0? = U |g0? = {x ∈ Rn t.c. g ? (x) = g0? } un insieme di livello per la statistica sufficiente g ? . Vediamo allora che le proprietà dello stimatore migliorato sono ottenute come media su tutti gli insiemi di livello delle medie in ogni insieme di livello6 . Sembra utile chiarire quanto esposto per le applicazioni pratiche, osservato il campione x0 ∈ Rn e considerato uno stimatore migliorato g ? ? di θ otteniamo θˆ = g ?? (g0? ) che è funzione dei dati campionari attraverso g0? = g ? (x0 ). Si effettua la media tra i campioni di U che determinano un certo valore g0? della statistica sufficiente g ? (per i campioni che appartengono quindi a quell’insieme di livello) ed otteniamo lo stimatore migliorato, il condizionamento rappresenta qui una regola di inclusione per i campioni di U , inclusione in U |g0? . Le proprietà vanno verificate per ogni insieme di livello (quindi possiamo condizionare per ogni g0? ∈ G? al fine di individuare tutte le partizioni U |g0? e quindi tutti i valori per g ?? ) o meglio per tutti i campioni di U . 6 134 Esempio 24. Quanto visto vale anche per le popolazioni (virtuali) discrete. Dato un campione x ∈ Rn estratto da una popolazione Bernoulliana X con densità (discreta) fX (xi ; θ) = θxi (1 − θ)1−xi , xi ∈ {0, 1}, θ ∈ (0, 1) e lo stimatore non distorto g(x) = xP 1 (o g(x) = xi per qualche i = 1, 2, . . . che è lo ? stesso) di θ con la statistica g (x) = ni=1 xi sufficiente per θ, lo stimatore migliorato è " n # X g ?? (x) = E ?? [g|g ? (x)] = E {0,1} g| xi = k . i=1 Si ottiene P P n X ! P P (x1 = 0, ni=1 xi = k) n−k Pn = , x1 = 0| xi = k = P ( i=1 xi = k) n i=1 ! P n X P (x1 = 1, ni=1 xi = k) k Pn = , x1 = 1| xi = k = P ( i=1 xi = k) n i=1 " n # X k g ?? (x) = E ?? g| xi = k = , n i=1 e θ(1 − θ) n ?? quindi g è uno stimatore corretto di varianza minima rispetto a g. σg2 = θ(1 − θ), σg2?? = Statistiche sufficienti minimali. Si dice minimale la statistica sufficiente che produce la partizione con il minor numero di insiemi rispetto a tutte le altre statistiche sufficienti per lo stesso parametro. Per tali statistiche si possono osservare alcune particolarità di natura funzionale: 1. una statistica sufficiente h? è minimale se dati due campioni questi sono equivalenti in verosimiglianza se e solo se presentano lo stesso valore, in altri termini se si considera una statistica sufficiente minimale insiemi di livello diversi producono funzioni di verosimiglianza sostanzialmente diverse e dalla 5.4 scriviamo c(xa , xb ) 6= γ(xa )/γ(xb ), 2. la caratteristica di dar luogo ad una partizione perfettamente coincidente con quella dei campioni equivalenti in verosimiglianza, ci dice che ciascun insieme della partizione associata ad una statistica sufficiente è necessariamente compresa interamente in un insieme della partizione indotta da una statistica sufficiente Capitolo 5. Inferenza statistica 135 minimale. In sostanza allora possiamo dire che la statistica sufficiente minimale è funzione di quella statistica sufficiente, 3. se esistono due statistiche sufficienti minimali queste condurrebbero alla stessa partizione di U quindi si potrebbe individuare una relazione biunivoca tra le due statistiche. Diciamo allora che a meno di una relazione biunivoca la statistica sufficiente minimale è unica. Completezza. Teorema di Lehmann-Scheffé. Una statistica (o stimatore) θˆ = h(·) ˆ θ) e cioè se è tale per cui data una è completa se è completa la legge distributiva f (θ, ˆ di θ, ˆ indipendente da θ, l’uguaglianza qualsiasi funzione reale g(θ) ˆ = E[g(Θ)] Z ˆ (θ; ˆ θ)dθˆ = 0 g(θ)f cθ U ˆ = 0 per ogni θ, quindi se g(·) è una implica necessariamente che sia sempre g(θ) funzione nulla ovunque. Possiamo allora ricondurci anche allo studio della legge f (·) ed in realtà ci potremmo riferire anche a particolari famiglie di distribuzioni complete, ad esempio se f (·) è normale, sapendo che qualunque sia g(·) si avrà E[g] = 0 ⇔ g = 0 ovunque. Teorema 39. Sia x un campione estratto da una popolazione con densità f (X; θ) e come al solito θ ∈ Θ, se h?,c è una statistica sufficiente e completa per θ e se h = g(h?,c ) è uno stimatore corretto di θ, allora h è unico ed ha varianza non superiore a quella di ogni altro stimatore. Ancillarità. Teorema di Basu. Una statistica la cui distribuzione non dipende dal parametro θ di interesse è chiamata statistica ancillare. In sostanza quindi tale statistica non fornisce informazioni su θ, resta comunque interessante il loro utilizzo nella pratica, considerando ad esempio il condizionamento parziale. Teorema 40. Se hm,c è una statistica completa e sufficiente minimale, allora hm,c è indipendente da ogni statistica ancillare. Si può così provare l’indipendenza di due statistiche senza dover passare per le rispettive distribuzioni e quindi quella congiunta, resta però impegnativo (almeno a volte) dover dimostrare la completezza. 136 In Breve. Possiamo sintetizzare quanto appena detto come segue: i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della varianza di uno stimatore corretto che non necessariamente esiste, se non esiste tale estremo non può essere raggiunto e lo stimatore corretto di varianza minima per il parametro di interesse ha varianza maggiore dell’estremo trovato, ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimatore funzione di una statistica sufficiente che è corretto e di varianza minima. In particolare, preso ˆ ed una statistica sufficiente g ∗ , allora lo stimatore Θ ˆ ∗ = Θ|g ˆ ∗ uno stimatore Θ è detto stimatore migliorato ed ha varianza minore o uguale della varianza dello ˆ (detto originale o di partenza). stimatore Θ iii) Inoltre, ricordiamo che θ : il parametro da stimare, θb : lo stimatore per θ, b : la v.a. stimatore per θ, Θ x : campione osservato (denotato anche xoss ), realizzazione di X, X : v.a. (in particolare, un vettore di n v.a.), dove x = (x1 , x2 , . . . , xn ) e X = (X1 , X2 , . . . , Xn ), θb = g(x) b = g(X), e Θ g è una statistica. 5.1.2 Metodi di stima Stima di massima verosimiglianza. Lo stimatore di massima verosimiglianza θˆM V è tale per cui L(θˆM V ) = max. Deve quindi soddisfare le condizioni d L(θ; x) =0 dθ θ=θˆM V d2 L(θ; x) <0 dθ2 ˆ θ=θM V dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere massimizzata rispetto a θ e dato il campione osservato. Risulta: Capitolo 5. Inferenza statistica 137 1. (invarianza degli stimatori MV) Sia θˆM V lo stimatore di massima verosimiglianza di θ, se ψ è una funzione che ammette la funzione inversa lo stimatore di ˆ = ψ(θˆM V ), massima verosimiglianza di λ = ψ(θ) è dato da λ 2. Se esiste per θ una statistica sufficiente h? , allora uno stimatore di massima verosimiglianza di θ se esiste, è funzione di h? e θˆM V = g(h? ), ˆ allora è anche stimatore di 3. Se esiste per θ uno stimatore corretto ed efficiente θ, ˆ ˆ massima verosimiglianza, θ = θM V , 4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per ogni x e θ ∈ Ω esiste ed è continua e limitata la derivata terza di fX (x; θ), lo stimatore di massima verosimiglianza è asintoticamente corretto e consistente e ha distribuzione asintotica di tipo normale ˆ ∼ N (θ, 1/I(θ)). Θ Inoltre ˆ 1/I(θ; ˆ x)) L(Θ; x) ∼ N (θ, ˆ x) è l’informazione di Fisher osservata. All’aumentare della numerodove I(θ; ˆ M V ha varianza sempre più vicina al limite di Cramèr-Rao ed sità campionaria Θ è corretto. Esercizio 101. Sia X una popolazione N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione osservato. Determinare lo stimatore MV per la media della popolazione. Esercizio 102. Sia X una popolazione N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione osservato. Determinare lo stimatore MV per la varianza della popolazione. Esercizio 103. Dire se la v.a. varianza campionaria trovata nel precedente esercizio è uno stimatore corretto per la varianza della popolazione. Esercizio 104. Sia P una popolazione in cui il fenomeno oggetto di studio X segue una legge distributive uniforme, X ∼ U nif (0, θ) con θ > 0. Scrivere la funzione di log-verosimiglianza. Stima per intervalli. Supponiamo che si voglia ottenere la stima θˆ di un parametro θ da una osservazione campionaria, diciamo dal campione x ∈ Rn . Si possono costruire degli intervalli per θˆ se si conosce la legge distributiva fΘˆ (·) di tale stimatore. Dalla relazione Z θ1 ˆ ≤ θ1 ) = P (θ0 ≤ Θ f ˆ (u)du = 1 − α Θ θ0 138 standardizzando secondo una trasformazione G(·), si ricava ˆ P G(θ0 ) ≤ G(Θ) ≤ G(θ1 ) = 1 − α dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ) ˆ (·) che una volta calcolati o individuati (ad esempio attraverso le tavole dei percentili) consentono di scrivere ˆ ≤ G−1 (g1−α/2 ) = 1 − α. P G−1 (gα/2 ) ≤ Θ ˆ =X ¯ n è la v.a. media campionaria ed X ∼ N (µ, σ 2 ) con varianza σ 2 Se ad esempio Θ nota, allora ¯ √ ¯ n ) = Xn − µ n ∼ N (0, 1) G(X σ e dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili della normale) scriveremo −1 −1 −1 −1 ˆ ˆ P G (g1−α/2 ) ≤ Θ ≤ G (gα/2 ) = P G (−1.96) ≤ Θ ≤ G (1.96) = 0, 95. Se invece θˆ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene (n − 1)s2 ∼ χ2(n) G(S ) = 2 σ 2 dove S 2 è la v.a. varianza campionaria corretta n S2 = 1 X (Xi − µ)2 . n − 1 i=1 Inoltre G(S 2 ) ∼ χ2(n−1) se µ non è nota e la v.a. varianza campionaria diventa n 1 X ¯ n )2 . S = (Xi − X n − 1 i=1 2 Numerosità ottima del campione. Ricorriamo ancora alla trasformazione G vista sopra e supponiamo che sia G(·; n), sottolineando cioè la dipendenza da n. Una simile trasformata non è certo difficile da trovare poiché standardizzando è facile ricorrere a grandezze che dipendono dalla numerosità campionaria n. Possiamo scegliere un θ0 Capitolo 5. Inferenza statistica 139 per cui G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto ad n troveremo n = f −1 (g1−α/2 ; θ0 , . . .). Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , supponiamo σ 2 nota, standardizziamo ed otteniamo G(¯ x; n, σ) = x¯ − µ √ n ∼ N (0, 1) σ per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un certo livello 1 − α ed un errore e = x¯ − µ che G(e; n, σ) = f (n) = z1−α/2 ed ancora, calcolando la funzione inversa n= 2 z1−α/2 σ e2 (dove considererò la parte intera se voglio che n ∈ N) si è ottenuta la numerosità ottima per cui al livello 1 − α possiamo ottenere un intervallo di stima per µ di ampiezza 2e. Osserviamo che e = x¯ −µ può essere scelto piccolo a piacere, tale valore dipenderà dal grado di accostamento che vogliamo ottenere essendo incognita la media µ della popolazione. Come si è già osservato, il valore n trovato non è intero, infatti si deve considerare il più piccolo n tra quelli che soddisfano alla condizione richiesta. In altre parole, cerchiamo il più piccolo n per il quale n≥ 2 σ z1−α/2 e2 che corrisponde alla parte intera superiore n= 2 σ z1−α/2 e2 . Esercizio 105. Sia P la popolazione oggetto di studio, il fenomeno oggetto di studio è ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo stimare la media µ del fenomeno X della popolazione. In particolare, si vuole trovare la numerosità campionaria n del campione x ∈ Rn tale per cui, con probabilità pari al 95%, si commette un errore minore di una quantità nella stima di µ. Trovare il minimo n. Osservazione 34. Trovare il minimo n nel precedente esercizio significa anche trovare ¯ n − µ| < nel 95% dei casi, cioè pensando di considerare il più piccolo n per cui |X 100 campioni, 95 di questi restituiscono una stima che non si discosta più di dal valore vero µ (P (|b µ − µ| < ) = 95%). 140 Stima dei minimi quadrati. Supponiamo di osservare la variabile dipendente Y e le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popolazione ed otteniamo un campione di numerosità n (ossia n unità statistiche) della forma {(yi , xi ); yi ∈ R, xi ∈ Rk , i = 1, 2, . . . , n}. Ipotizzando una relazione lineare tra le variabili potremmo scrivere k X yi = aj xi,j j=1 ed in termini matriciali Y = Xa dove X è una matrice n × k ed ovviamente Y ∈ Rn . Se in generale esiste tra la variabile dipendente e le variabili esplicative una relazione del tipo Y = f (X; a) + dato il campione (y, x) troviamo i valori yˆ = f (x; a ˆ) in modo che n X (yi − yˆi )2 = min, i=0 in particolare cerchiamo il vettore a ˆ ∈ Rk tale che per ei = yi − yˆi si possa scrivere n X e2i = min i=1 ed ei rappresenta l’errore che si commette approssimando gli yi con la relazione f (x; a ˆ), diverso quindi dal significato di che rappresenta una v.a. qualunque (di media nulla) e quindi il grado di incertezza o di imprecisione inevitabile nella realtà fattuale ( è interessante per il confronto con la verosimiglianza il caso in cui ∼ N (µ, σ 2 ) ). è il caso di notare che il metodo dei MQ prescinde dalla conoscenza delle forme distributive mentre si dovrà conoscere o identificare la relazione f (·; a) o meglio la dipendenza funzionale tra i dati. Il metodo dei MQ trova la sua piú naturale applicazione nelle relazioni f (·; a) che siano lineari o linearizzabili quindi nei modelli lineari. Stima dei momenti. Il metodo dei momenti conduce a stimatori consistenti ed è il piú semplice metodo di stima, consiste nello stimare caratteristiche della popolazione a partire dalle relazioni teoriche tra i momenti e supponendole valide anche per i momenti campionari. Indichiamo un momento di ordine r con Z Mr = xr fX (x; θ)dx, U Capitolo 5. Inferenza statistica 141 2 è di immediata comprensione il fatto che la relazione teorica σX = M2 − M12 porti, dato un campione x ∈ Rn , a stimare la quantità !2 n n X X 1 1 2 x2 − xi σ ˆX = m2 − m21 = n i=1 i n i=1 P oppure µ ˆX = m1 = n1 ni=1 xi ottenute appunto dai momenti campionari m1 e m2 in questo caso del primo e del secondo ordine rispettivamente. In generale quindi si dovranno conoscere le relazioni teoriche tra i momenti che non prescindono sempre dalla legge distributiva come invece accade nel caso sopra illustrato. Se si devono stimare k parametri della popolazione, diciamo θ ∈ Rk sarà possibile impostare un sistema di k equazioni del tipo Mr = mr , r = 1, 2, . . . , k dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si trova θˆ ∈ Rk . Indichiamo lo stimatore dei momenti con il simbolo θbM . Osservazione 35. Si osservi che si sta impostando un sistema di k equazioni in k incognite. Esercizio 106. Determinare lo stimatore dei momenti per il parametro θ = (µ, σ 2 )t da una popolazione X ∼ N (µ, σ 2 ). Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una legge di probabilità iniziali π(θ) per il parametro θ ∈ Θ ed osservato il campione x ∈ Rn , possiamo calcolare la legge delle probabilità a posteriori π(θ|x) = c L(θ; x) π(θ) dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e Z −1 c = L(θ; x) π(θ)dθ. Θ Sembra allora ovvio, dato x ottenere una stima θˆ di θ dalla Z Θ ˆ θ = h(x) = E [θ|x] = θ π(θ|x) dθ. Θ Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le π(θ|xi ) per successivi campioni xi , o anche successivi x1 ) un certo numero di volte e giungere a nuove stime Bayesiane di θ. 142 5.2 5.2.1 Verifica delle ipotesi statistiche Test parametrici Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore incognito θ mentre chiameremo ipotesi funzionali quelle relative ad una forma f (x; θ), θ ∈ Θ, ci occuperemo delle ipotesi funzionali nel paragrafo che segue. Un ipotesi si dice semplice se specifica completamente la f (x; θ) altrimenti si dice composta. Un ipotesi che consideri un solo parametro θ può essere semplice se è della forma θ = θ0 , può essere unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤, può essere bilaterale se è del tipo θ 6= θ0 . Possiamo dire formalizzando il problema che un test di ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un insieme che può essere costituito da un solo elemento, caso in cui l’ipotesi si dice semplice oppure può essere costituito da più elementi, il caso delle ipotesi composte. Il test di ipotesi è strutturato in modo da testare una certa congettura, solitamente l’ipotesi detta alternativa ed indicata con H1 mentre si descrive la situazione di base con l’ipotesi detta appunto di base o nulla H0 . In linea di principio quindi si avrà a che fare con un test del tipo H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 , un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popolazione X con densità fX (x; θ), verrà scelta una opportuna funzione dei dati campionari che potrà essere una funzione test o uno stimatore, indichiamo tale funzione con g(x) e si potrà individuare una distribuzione per g(X) a partire dalla densità fX (·|H0 ) e quindi valida se θ ∈ Θ0 (o equivalentemente se è vera l’ipotesi di base) ed una distribuzione per g(X) a partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa). Si devono introdurre gli errori di prima specie: la decisione di rifiutare l’ipotesi nulla quando questa è vera, di seconda specie: la decisione di rifiutare l’ipotesi alternativa quando questa è vera. Si deve notare che si stanno considerando gli oggetti Y = g(X) e y = g(x). Indichiamo rispettivamente con Z α= fg(X) (g(x)|H0 )dg, θˆ = g(x) R|H0 e Z β= fg(X) (g(x)|H1 )dg, A|H1 θˆ = g(x) Capitolo 5. Inferenza statistica 143 le probabilità di commettere un errore di prima specie e di seconda specie rispettivamente. Risulta anche P (g(X) ∈ R|H0 ) = P (R|H0 ) = α e P (g(X) ∈ A|H1 ) = P (A|H1 ) = β dove R|H0 è la regione di rifiuto sotto l’ipotesi di base ed A|H1 è la regione di accettazione sotto l’ipotesi alternativa. La funzione h(x) è qui presentata nella notazione piú usuale per uno stimatore del parametro θ piuttosto che per una funzione test, ovviamente sempre funzione dei dati campionari, θˆ = h(x), il valore θ? in questo caso delinea le regioni di accettazione e di rifiuto sotto entrambe le ipotesi. Sono importanti anche le probabilità P (A|H0 ) = 1 − α detta livello di fiducia, mentre α è detta livello di significatività e la probabilità P (R|H1 ) = 1 − β detta potenza del test. Il test migliore si ottiene rendendo piccole le probabilità di ottenere un errore (quindi α e β), di norma si fissa α essendo strutturato il test in modo da rendere preferibile mantenere l’ipotesi di base7 e si cerca di massimizzare la potenza del test ovvero la probabilità di non commettere errori di seconda specie (la situazione ottimale può essere ottenuta fissando entrambe le probabilità degli errori piccole a piacere o secondo le necessità del caso). Se le ipotesi sono composte si avranno diversi valori di tali probabilità e fissata α avremo una funzione di potenza da massimizzare. Ipotesi di base semplici Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma H0 : θ = θ0 H1 : θ = θ1 , θ0 < θ1 se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo voler verificare due stime campionarie, la media θ = µ oppure la varianza θ = σ 2 . 7 Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso appunto dall’ipotesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come è proposto risulta il piú affidabile, sarà certamente meno auspicabile commettere un errore di seconda specie perché evidentemente comporterebbe ammodernamenti nel meccanismo di produzione e quindi delle spese che non rappresenterebbero un buon investimento. 144 Ipotesi sulla media, θ = µ. Il test assume la forma H0 : µ = µ0 H1 : µ = µ1 , µ0 < µ1 P ¯ ∼ N (µ, σ2 ), quindi x¯ è sappiamo che µ ˆ = x¯, quindi h(x) = n1 ni=1 xi ed inoltre X n ¯ = h(X). Conosciamo la fX¯ (·) ed una realizzazione della v.a. media campionaria X in particolare le distribuzioni ¯ 0 ∼ N (µ0 , σ 2 /n), X|H ¯ 1 ∼ N (µ1 , σ 2 /n) X|H 2 condizionate alle ipotesi da verificare. Si è comunque supposto che σP fosse noto, n 1 2 altrimenti bisogna ricorrere ad una stima campionaria corretta, s = n−1 i=1 (xi −¯ x)2 e si ottiene ¯ 0 ∼ N (µ0 , s2 /n), ¯ 1 ∼ N (µ1 , s2 /n). X|H X|H Note le distribuzioni diciamo che x¯oss è la stima ottenuta (osservata) dal campione, x¯oss = h(x), dobbiamo verificare se tale valore cade nella regione di accettazione o di rifiuto dell’ipotesi di base. Al fine di individuare tali regioni fissiamo il livello di significatività α (ad esempio α = 0.05) e standardizziamo le distribuzioni viste sopra relativamente alla sola ipotesi nulla e al caso in sui σ 2 sia noto oppure no, si ottiene rispettivamente ¯ − µ0 ¯ − µ0 X X √ ∼ N (0, 1), √ ∼ t(n−1) σ/ n s/ n ed ancora, preso α ed x¯oss σ x¯? = µ0 + z1−α √ n oppure s x¯? = µ0 + t(n−1), 1−α √ n ed A = (−∞, x¯? ), R = (¯ x? , ∞) quindi x¯oss < x¯? ⇒ acettiamo H0 x¯oss > x¯? ⇒ rifiutiamo H0 . Conclusioni simili si otterrebbero calcolando i percentili osservati x¯oss − µ0 √ = zoss , σ/ n x¯oss − µ0 √ = t(n−1),oss s/ n e successivamente le probabilità osservate αoss = 1 − FN (zoss ) oppure αoss = 1 − FT (t(n−1),oss ) Capitolo 5. Inferenza statistica 145 ovviamente αoss < α ⇒ al 1 − αoss % rifiutiamo H0 αoss > α ⇒ accettiamo H0 . Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si sarebbe ovviamente giunti a regioni differenti ponendo H1 : θ < θ0 o H1 : θ > θ0 o ancora H1 : θ 6= θ0 ma sempre seguendo la stessa procedura infatti questo è un test uniformemente più potente8 . La funzione di potenza nel caso H1 : θ > θ0 è data da ¯ > x¯oss |H1 ) P (X mentre se H1 : θ < θ0 è data da ¯ < x¯oss |H1 ). P (X ¯ ∈ W |H1 ). Verifica P (X Ipotesi sulla varianza, θ = σ 2 . Supponendo µ nota il test assume la forma H0 : σ 2 = σ02 H1 : σ 2 = σ12 sappiamo che la varianza campionaria e la varianza campionaria corretta9 sono rispettivamente date da n 1X (xi − x¯)2 S = n i=1 2 n e 1 X s = (xi − x¯)2 n − 1 i=1 2 mentre una stima corretta di σ 2 è σ ˆ 2 = s2 , inoltre sotto l’ipotesi nulla si ha nS 2 (n − 1)s2 = ∼ χ2(n−1) σ02 σ02 8 Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a. X è completamente specificata da un solo parametro, l’ipotesi alternativa H1 è invece composta e sia individuata da ogni ipotesi semplice H1 ∈ H1 , si dice uniformemente più potente se per ogni ipotesi H1 ∈ H1 non variano le regioni di accettazione e di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test non sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi alternativa è parametrica bilaterale. 2 Pn Pn 9 L’espressione i=1 xiσ−ξ ∼ χ2(v) è giustificata dal fatto che i=1 Ui2 ∼ χ2(n) dove le Ui sono normali standardizzate, dobbiamo però precisare che v = n nel caso ξ = µ ovvero è nota, se Pn invece ξ = x ¯ = n1 i=1 xi , funzione dei dati campionari, allora v = n − 1 perché non si ha più una combinazione lineare dei dati indipendente. 146 quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile χ2oss , dalle tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come sopra, fissato il livello di significatività αoss > α oppure χ2oss < χ2α ⇒ accetto H0 . Si sono introdotti i valori osservati x¯oss e s2oss , in realtà entrambi sono delle stime campionarie quindi usando una notazione più coerente si sarebbe scritto xˆ¯ e sˆ2 . Il test ottimo. La procedura di Neyman-Pearson. La procedura di N-P consente di individuare, fissato α, quel test per cui è massima la potenza 1 − β, quindi individua le regioni di accettazione e di rifiuto di quei test detti piú potenti. In termini più o meno pratici il problema può essere cosí rappresentato, sia U = {xi }i=1,...,N l’universo campionario di interesse, il test sia del tipo H0 : θ = θ0 H1 : θ = θ1 ovviamente θˆ = h(xi ) e vogliamo costruire un test più potente di dimensione α (o fissato α). Le probabilità dei campioni siano espresse da P (xi |H0 ) e P (xi |H1 ) rispet(xi |H1 ) , allora la regione tivamente in H0 o H1 e si definisca il rapporto Λ(xi ) = PP (x i |H0 ) di rifiuto sotto l’ipotesi nulla sarà costruita prendendo quei campioni di rapporto Λ(·) massimo e via via inferiore fino ad ottenete un insieme Iα di campioni per cui si abbia X X P (xi |H0 ) ' α ed ovviamente P (xi |H1 ) = 1 − β xi ∈Iα xi ∈Iα quindi fissato α inseriamo campioni in Iα fino ad ottenere un valore prossimo o uguale ad α e troviamo la potenza 1 − β, vale α ≤ 1 − β , inoltre il test è coerente nel senso che la potenza del test relativa ad un campione di n unità è non superiore, fissato α, a quella di un campione di n + 1 unità . La procedura operativa si basa sul fatto che il lemma di N-P (in letteratura indicato anche come tale oltre che come procedura) dice che il test piú potente è quello che si basa sulla regione di rifiuto W = Iα nella quale per ogni n-upla campionaria è massimo il rapporto delle verosimiglianze Λ(xi ) = L(θ1 ; xi ) ≥ Cα L(θ0 ; xi ) dove ovviamente, per il test dato sopra, P (xi |Hj ) = L(θj ; xi ) e Cα = max Λ(xi ). xi ∈U \Iα Bisogna fare delle precisazioni, la procedura garantisce l’esistenza del test ottimo ma può capitare che la regione W non sia unica inoltre Λ(·) è un rapporto di verosimiglianze e se esiste una statistica sufficiente per θ, tale rapporto può scriversi come funzione della statistica sufficiente evitando di considerare ulteriormente le n-ple campionarie. Capitolo 5. Inferenza statistica 147 Nota Bene. In linea di principio si tende sempre a considerare vera l’ipotesi di base ma ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito che spinge quindi al test, in sostanza, è quello di poter considerare un’alternativa all’ipotesi di base essendo però quest’ultima sempre preferita. Seguendo queste considerazioni si sceglie α sempre più piccolo se si vuole rendere difficile commettere un errore di prima specie, in questo modo se le risultanze campionarie conducessero al rifiuto dell’ipotesi nulla, ”nulla” si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve necessariamente essere rifiutata. Sullo stesso principio ci si basa quando si sceglie la regione di potenza minima tra quelle ottime (o con massima potenza), si vuole rendere meno agevole il rifiuto dell’ipotesi di base. Ipotesi di base composte Lo scenario è rappresentato, nel semplice caso discreto, da una collezione di ipotesi semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 , sembra quindi difficile dover mantenere la porzione α per ognuna delle H0 ∈ H0 , si ricerca allora per ogni H1 ∈ H1 l’insieme delle regioni ottime (di potenza massima) per ogni H0 ∈ H0 e tra le |H0 | × |H1 | regioni (con |A| si è indicata la cardinalità dell’insieme A) si sceglie la regione di rifiuto W 10 di potenza minima. 5.2.2 Test non parametrici Tratteremo test su P o sulla sua densità f . In particolare, vogliamo confrontare la distribuzione di probabilità teorica di una certa variabile con la distribuzione di frequenze (e quindi osservate). Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX una successione di frequenze osservate per il fenomeno oggetto di studio. Vogliamo vedere quanto X descriva bene tale fenomeno. Una misura della distanza tra le distribuzioni è data da χ2oss = X (fk − pk )2 pk k∈I X che può essere vista come una realizzazione della v.a. χ2 (|IX |−1), cioè una χ-quadrato con |IX | − 1 gradi di libertà. Il test ci permette di individuare un p-value e quindi una regione di rifiuto/accettazione per l’ipotesi nulla H0 : χ2 = 0 10 (stesse distribuzioni) (5.5) Nel caso di ipotesi composte se tale regione non cambia al variare di H1 ∈ H1 si tratta di una regione W che determina un test uniformemente piú potente. 148 che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di studio. Se χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo individuare una soglia (il p-value) al di sotto della quale si possa ancora accettare (con un certo livello di significatività) l’ipotesi H0 . È stata già introdotta la tabella di contingenza, in quel caso si voleva studiare la dipendenza di due variabili osservate. Se si considera χ2oss = X (fk,s − pk,s )2 pk,s (k,s)∈I con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi H0 : χ2 = 0 (variabili indipendenti). (5.6) Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui X e Y (e quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈ I = IX × IY ) rappresentano due caratteristiche di tale fenomeno. Allora l’ipotesi nulla da verificare è se le due caratteristiche sono indipendenti o meno. Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con i = 1, 2, . . . , n. Definiamo la funzione di ripartizione empirica n 1X 1(−∞,x] (Xi ). Fn (x) = n k=1 Il test prevede l’utilizzo della distanza Dn = kFn − FX k∞ = sup |Fn (x) − FX (x)|. x q.c. Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte dei grandi numeri. In maniera analoga a quanto accade per la v.a. media campionaria, si ha che q.c. Fn (x) → E1(−∞,x] (X) = FX (x), x ∈ R. Inoltre, fissato x, notiamo che EFn (x) = FX (x), e V ar(Fn (x)) = 1 FX (x) (1 − FX (x)) n ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale si ottiene che √ d Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) . Capitolo 5. 5.3 Inferenza statistica 149 Stima in presenza di parametri di disturbo Ci troviamo nel caso in cui oggetto di stima è il parametro λ = g(θ) e g(·) non ammette la funzione inversa oppure nel caso in cui θ = (λ, µ) e µ è un parametro di disturbo per l’inferenza su λ. Il problema quindi nasce quando si ha un esperimento del tipo e = {X , Pθ , θ ∈ Θ} in cui, poniamoci nel caso piú comune, θ = (λ, µ) ed oggetto di interesse è il parametro ( di interesse ) λ, allora se possiamo individuare una funzione h(·) per cui µ = h(λ) allora possiamo anche scrivere θ = (λ, h(λ)) ed ottenere nella formalizzazione quello che si dice ”eliminazione del parametro di disturbo”, altrimenti possiamo comunque scegliere h(·) liberamente e con lo stesso obbiettivo, quello dell’eliminazione di µ, nel seguito consideriamo due varianti di h, h1 ed h2 allo stesso scopo. Diamo allora la seguente Definizione 49. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri complementari se si ha una corrispondenza biunivoca tra gli insiemi Θ e Θ0 = {(λ, µ) : λ = h1 (θ), µ = h2 (θ), θ ∈ Θ}. Potremmo anche scrivere Θ0 = Λθ × Mθ , θ ∈ Θ in cui ovviamente Λθ = {λ : λ = h1 (θ)} e Mθ = {µ : µ = h2 (θ)}. Inoltre Definizione 50. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri a variazione indipendente se si ha una corrispondenza biunivoca tra gli insiemi Θ e Θ0 = Λ × M dove Λ = {λ : λ = h1 (θ), θ ∈ Θ} e M = {µ : µ = h2 (θ), θ ∈ Θ}. L-indipendenza Diamo la seguente Definizione 51. Dato l’esperimento e, i parametri complementari λ e µ si dicono L-indipendenti se esistono due funzioni l1 ed l2 tali che, per ogni x ∈ X sia l(λ, µ; x) = l1 (λ; x)l2 (µ; x). Si presenta quindi come una caratteristica strettamente legata alla verosimiglianza ( Lik-indipendenza ) ed è piuttosto estrema, si può verificare sostanzialmente nel caso si considerino due esperimenti distinti o nel caso i parametri si riferiscano ad aspetti essenzialmente differenti. 150 Profilo della verosimiglianza Dato l’esperimento e, tale procedura consiste essenzialmente nel calcolare, fissato x ∈ X , la verosimiglianza lmax per ogni λ ∈ Λ massimizzando ogni volta rispetto a µ ∈ M , la soluzione sarà ovviamente data da λ per cui lmax è massima. Scriviamo ˆ x) = sup{lmax (λ)} l(λ; λ∈Λ dove lmax (λ) = max{l(λ, µ; x)}, µ∈M λ ∈ Λ. Esperimenti marginali Abbiamo un esperimento marginale quando si considera come risultato dell’esperimento non x0 ∈ X ma h0 = h(x0 ) ∈ H. Definizione 52. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆ Rm con 1 ≤ m ≤ n, allora si chiama esperimento marginale basato su h l’esperimento eh = {H, Pθh , θ ∈ Θ} dove Pθh è la legge di probabilità indotta su H da Pθ e la funzione di verosimiglianza associata a (eh , h0 ) è detta verosimiglianza marginale. La verosimiglianza e la verosimiglianza marginale sono in generale diverse a meno che h non sia sufficiente per θ, la marginalizzazione allora comporta in generale una perdita di informazione. La statistica h ha qui il compito di generare una verosimiglianza ( quella marginale ) che dipende dal solo parametro di interesse, caso in cui si dice che h è orientata a λ ( λ = g(θ) ad esempio ). Esperimenti condizionati Definizione 53. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆ Rm , si chiama esperimento condizionato ad h l’esperimento aleatorio eh = {X , Pθ,h , θ ∈ Θ} dove Pθ,h è la legge di probabilità su X calcolata per θ fissato e condizionatamente al valore h0 = h(x0 ). La funzione di verosimiglianza sarà detta verosimiglianza condizionata. Capitolo 5. 5.4 Inferenza statistica 151 Inferenza su particolari parametri Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di stima, si adotterà sempre la regola αoss ≷ α dove αoss come sappiamo è dato dal percentile calcolato in base ai risultati campionari ed α è il livello di significatività dato al test di ipotesi, considereremo qui solo la individuazione dell’ αoss e della distribuzione della v.a. in questione quindi si parlerà della sola ipotesi di base lasciando al lettore la costruzione vera e propria del test anche in relazione alla ipotesi alternativa. Dove non specificato si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo: 1. H0 : µ = µ0 e σ 2 nota µ ˆ = x¯ ¯ ∼ N (µ, σ 2 /n) X √ ¯ X−µ 0 n ∼ N (0, 1) sotto H0 σ x ¯oss −µ0 √ n = zαoss σ 2. H0 : µ = µ0 e σ 2 non è nota µ ˆ = x¯ ¯ ∼ N (µ, σ 2 /n) X σ ˆ 2 = s2 , varianza campionaria corretta (n−1)s2 σ2 ∼ χ2(n−1) √ ¯ X−µ 0 n ∼ t(n−1) s x ¯oss −µ0 √ n = t(n−1), oss s Per entrambe le situazioni viste sopra possiamo generalizzare alla normale se la numerosità del campione e grande, otteniamo che zα < t(n),α e per n sempre maggiore t(n),α → zα (o meglio t(n) → N (0, 1) per n → ∞) quindi passare alla normale equivale a restringere la regione di accettazione del test se n non è sufficientemente grande. 3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 , entrambe supposte normali e due campioni x1 e x2 osservati per cui X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 ) µ ˆ1 = x¯1 e µ ˆ2 = x¯2 √ ¯ X1 −µ1 n1 ∼ N (0, 1) e σ1 ¯ 2 −µ2 √ X n2 σ2 ∼ N (0, 1) 152 0.0 0.1 0.2 0.3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −3 −2 −1 0 1 2 3 Figura 5.1: La densità in grassetto è di Student mentre l’altra è normale. √ ¯ ¯ X1 −X2 σ12 /n1 +σ22 /n2 ∼ N (0, 1) sotto H0 x ¯1, oss −¯ x2, oss √ = zoss 2 2 σ1 /n1 +σ2 /n2 4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le due varianze possono considerarsi uguali oppure no. Supponiamo che σ12 = σ22 = σ 2 allora σ ˆ2 = (n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2 e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando F(n1 −1), (n2 −1) = (n1 − 1)s21 (n2 − 1)σ 2 s21 = (n1 − 1)σ 2 (n2 − 1)s22 s22 che è una Fisher-Snedecor. Supposte allora uguali otteniamo √X¯1 −X¯2 σ ˆ 1/n1 +1/n2 x ¯1, oss −¯ x2, oss √ σ ˆ 1/n1 +1/n2 ∼ t(n1 +n2 −2) = t(n1 +n2 −2), oss Se invece le varianza delle due popolazioni non possono considerarsi uguali sorgono non pochi problemi, la distribuzione della variabile che si verrebbe a considerare è ¯ −X ¯2 X q 12 s1 s22 + n1 n2 che è detta di Behrens-Fisher. Capitolo 5. Inferenza statistica 153 Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta di un ipotesi alternativa composta comporta le valutazioni operative che ora andiamo a vedere. Si è sempre arrivati a considerare una v.a. standardizzata, diciamo Q con una sua distribuzione, si è inoltre individuato un percentile in base al quale discriminare in relazione all ’ipotesi nulla, diciamo qα al livello di significatività α. Essendo l’ipotesi nulla semplice e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simmetrica la distribuzione in esame (o a valori tutti positivi dei percentili) ci avvaliamo di un percentile di riferimento, quello modale che indichiamo con qM (ovviamente se la distribuzione fosse discreta si avrebbe Q(qM ) = max). Diciamo che in generale si avranno le seguenti situazioni a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per cui 1 − Q(qα ) = α, b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui Q(qα ) = α, c) H1 : θ 6= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e q2, α/2 > qM tale che Q(q1, α/2 ) = α/2 e 1 − Q(q2, α/2 ) = α/2 quindi, ovviamente, Q(q2, α/2 ) − Q(q1, α/2 ) = 1 − α e rappresenta l’area sottesa alla curva di probabilità relativa alla regione di accettazione. Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo Q|H0 , il caso in cui Q|H1 dovrà essere considerato al fine di investigare sulla potenza del test. Esercizio 107. Dato il campione x ∈ Rn con x¯ = 4/5 e n = 30, verificare l’ipotesi che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di significatività α = 0.05. Esercizio 108. Dato il campione x ∈ Rn con x¯ = 3/5 e n = 30, verificare l’ipotesi che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di significatività α = 0.05. 5.5 Logiche inferenziali Il principio della verosimiglianza La funzione di verosimiglianza nasce dal presupposto che un evento verificatosi può considerarsi l’evento con la probabilità maggiore di verificarsi ed infatti massimizziamo tale funzione. Il principio di base quindi è sviluppato attorno alla realizzazione o all’evento realizzato, al risultato della prova o come diremo nel capitolo che segue al risultato dell’esperimento 154 Definizione 54. Principio della verosimiglianza. Siano dati due esperimenti e0 ed e00 in cui l’ipotesi vera sia la stessa. Se per due risultati x0 e x00 le corrispondenti funzioni di verosimiglianza l0 e l00 soddisfano la condizione di equivalenza l0 (θ) = c · l00 (θ) θ∈Θ dove c può dipendere dai risultati campionari ma non da θ, allora gli esperimenti (e0 , x0 ) ed (e00 , x00 ) forniscono la stessa informazione riguardo alle ipotesi. In altre parole le due funzioni di verosimiglianza sono equivalenti (equivalenza in verosimiglianza) per il parametro θ. Il principio del campionamento ripetuto Il principio del campionamento ripetuto si pone in modo diverso da quello della verosimiglianza in quanto il risultato ottenuto assume qui importanza solo dopo che si siano considerati tutti i risultati possibili o meglio la procedura statistica che meglio si adatta a tali risultati. Per procedura intendiamo ad esempio una statistica e per miglior adattamento ai dati intendiamo, ad esempio, miglior prestazioni della statistica: Definizione 55. Principio del campionamento ripetuto. Le procedure statistiche devono essere valutate per il loro comportamento in ripetizioni ipotetiche dell’esperimento che si suppongono eseguite sempre nelle stesse condizioni. Nei problemi di stima parametrica diciamo quindi che il risultato campionario si rende utile non appena si sappia individuare nello scenario d’analisi una statistica che sia non distorta e di varianza minima, potremmo poi desiderare ancora delle altre proprietà. Esercizio 109. 1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione proveniente da una popolazione P (supposta) Esponenziale di parametro λ. Determinare lo stimaˆ M con il metodo dei momenti e λ ˆ M V di massima verosimiglianza. tore λ 2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. Determinare la numerosità campionaria n per cui stimando la media si commette un errore ¯ − µ| < ) > 86%. minore con probabilità P (|X Esercizio 110. Sia P una popolazione in cui il fenomeno oggetto di studio X ha densità normale di media µX e varianza σ 2 = 1. Si supponga inoltre di conoscere la relazione Y = aX in cui a > 0 ed Y è una seconda variabile di interesse. Dato il campione x = (x1 , . . . , xn ) Capitolo 5. Inferenza statistica 155 a) si trovi una stima di massima verosimiglianza per la media µY di Y b) si trovi una stima della media µY di Y con il metodo dei momenti c) si trovi il minimo n tale per cui con probabilità maggiore del 95% si commette un errore minore di nella stima della media di Y (si consideri |Y¯ − µY | < ). Esercizio 111. 1. Sia x = (1, 4, −1, 5, 2, −2, −3, 9) un campione proveniente da una popolazione P (supposta) di Poisson di parametro λ. Determinare lo stimaˆ M con il metodo dei momenti. tore λ 2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge f (xi ; θ, λ) = κ θxi e−λxi 1(0,∞) (xi ), 0 < θ < eλ , λ > 0, – determinare κ, – determinare lo stimatore θˆM V di MV per θ se λ = log √ θ. i = 1, 2, . . . 156 Capitolo 6 I modelli lineari 6.1 Il modello lineare generale Il modello lineare o qualunque modello linearizzabile assume la forma matriciale Y = Xβ + dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i vettori Y, ∈ Rn e il secondo è costituito da componenti aleatorie, β ∈ Rk+1 è il vettore dei coefficienti da stimare, le assunzioni di base che si fanno sono 1. E[] = 0, 2. Σ = E[t ] = σ2 In dette anche ipotesi interne e determinano appunto il modello lineare generale (MLG). Tale modello prende il nome di modello lineare normale se in aggiunta a tali ipotesi si assume ∼ M N (0, Σ ). Bisogna notare che in generale tra le Y e le X (qui intendiamo X = {X1 , X2 , . . .} variabili osservate) si ipotizza una relazione del tipo Y = f (X) + in cui è comunque un termine residuale aleatorio mentre la forma della f (·) dipenderà dalla natura delle X, sia per quanto riguarda la linearizzabilità che la trasformazione necessaria nel caso si passi da variabili a mutabili (vedi modelli anova ad esempio). In breve si otterrà E[Y|X] = f (X) = Aβ dove A è una matrice strutturale del modello e β è ancora un vettore dei coefficienti, entrambi saranno individuati diversamente nei tre casi in cui 157 158 • le X sono tutte quantitative ⇒ si ha un modello di regressione, • le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza, • le X sono in parte quantitative ed in parte qualitative ⇒ si ha un modello di analisi della covarianza e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’analisi è quello di studiare la dipendenza tra la variabile dipendente Y e le variabili esplicative X. 6.2 Stima dei parametri Stima dei minimi quadrati Il modello da identificare è il MLG (a rango pieno, detto così per questioni chiarite sotto) quindi senza assunzioni sulla forma distributiva di , le stime sono date da ˆ = Xβˆ Y e l’idea è quella di minimizzare la forma quadratica ˆ = (Y − Xβ) ˆ t (Y − Xβ) ˆ = et e. M Q(β) La soluzione è data da dal vettore βˆ = (Xt X)−1 Xt Y. Teorema 41. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra specificate per v.a. qualunque si ha che βˆ è l’unica stima lineare non distorta di β di varianza minima nella classe degli stimatori lineari non distorti. Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere det(Xt X) 6= 0, deve essere cioè rango(Xt X) = k+1 (rango pieno). Una tale condizione è verificata se non ci sono colonne di X correlate tra loro (per cui quindi r2 ' 1) cosa che risulta anche scomoda sul piano logico visto che una forte correlazione tra due variabili indurrebbe ad escludere dal modello una di esse (essendo di pari informazione) stando però di fatto molto attenti agli effetti finali. La stima della varianza di è data dalla formula σ ˆ2 = et e 1 ˆ t (Y − Xβ) ˆ = (Y − Xβ) . n−k−1 n−k−1 Elenchiamo alcune proprietà: 1. gli stimatori dei MQ βˆ e σ ˆ2 sono corretti, Capitolo 6. I modelli lineari 159 2. lo stimatore dei MQ βˆ ha varianza uniformemente minima nella classe degli stimatori lineari di β, 3. la varianza dello stimatore è σβ2ˆ = σ 2 (Xt X)−1 , 4. si ha il vettore dei residui e = [In − X(Xt X)−1 Xt ] ed inoltre - E[e] = 0 - E[et e] = σ 2 (n − k − 1) 5. si ha σ 2 = σY2 = σ2 . Stima di massima verosimiglianza Sappiamo che gli stimatori di massima verosimiglianza possono non essere corretti o unici comunque risultano legati attraverso la sufficienza a molte proprietà importanti tanto da poter dire che se esiste uno stimatore corretto ed efficiente, allora è di massima verosimiglianza. Resta poi aperta la questione riguardante la forma distributiva dei dati (o meglio degli errori) dalla quale non si può prescindere nella verosimiglianza come invece avviene nei minimi quadrati, in generale le due stime coincidono ma assumendo che gli errori si distribuiscano normalmente otteniamo che le stime dei minimi quadrati non saranno piú non distorti di varianza minima (corretti ed efficienti) nella classe degli stimatori (corretti) lineari ma nella classe di tutte le stime possibili. Notiamo che lo stimatore di massima verosimiglianza σ ˜2 = 1 ˆ t (Y − Xβ) ˆ (Y − Xβ) n non è corretto mentre lo è β˜ che coincide con lo stimatore dei MQ ( β˜ = βˆ ), scriviamo allora n σ ˜2 σ ˆ2 = n−k−1 e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i seguenti fatti: 1. βˆ e σ ˆ2 sono corretti, 2. βˆ e σ ˆ2 sono congiuntamente sufficienti per β e σ2 quindi sono di varianza uniformemente minima nella classe degli stimatori di β e σ2 , 3. βˆ ∼ M N (β, σ2 (Xt X)−1 ), 4. (n−k−1)ˆ σ2 σ2 ∼ χ2(n−k−1) , 5. βˆ e σ ˆ2 sono stocasticamente indipendenti. 160 Ricordiamo che parleremo di modello lineare normale nel caso la forma distributiva di sia nota e Normale mentre parleremo di modello lineare generale quando non si fanno assunzioni sulla forma distributiva della tranne quelle fatte nel teorema di Gauss-Markov. 6.3 Il caso di una variabile esplicativa Sia osservato un campione del tipo (y, x) con y, x ∈ Rn , il modello lineare (detto modello lineare semplice) sia yi = β0 + β1 xi + i con i ∼ N (0, σ2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono date da βˆ0 = y¯ − βˆ1 x¯, σ bXY βˆ1 = 2 , σ bX e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono corretti. Si ottiene poi P 2 xi 2 2 σβ0 = σ P n (xi − x¯)2 σ2 . σβ21 = P n (xi − x¯)2 Esercizio 112. Dimostrare che βb = (βb0 , βb1 ) è uno stimatore MQ . Uno stimatore corretto della varianza σ2 è dato da P (yi − yˆi )2 2 σ ˆ = n−2 ed infine, ricordando che i ∼ N (0, σ2 ), si ha βˆ0 ∼ N (β0 , σβ20 ) βˆ1 ∼ N (β1 , σβ21 ) (n − 2)ˆ σ2 ∼ χ2(n−2) σ2 se σ2 è nota quindi possiamo dire che la standardizzazione dei coefficienti porta alla distribuzione N (0, 1) altrimenti si ha βˆ0 − β0 ∼ t(n−2) σ ˆ β0 Capitolo 6. I modelli lineari 161 βˆ1 − β0 ∼ t(n−2) . σ ˆ β0 Tornando alla formulazione matriciale scriviamo σβ2ˆ = σ2 (Xt X)−1 βˆj ∼ N (βj , σ2 [(Xt X−1 )]j+1,j+1 ) La devianza totale campionaria (DT) può essere così decomposta n X i=1 2 (yi − y¯) = n X 2 (ˆ yi − y¯) + i=1 n X (yi − yˆi )2 i=1 i cui addendi a secondo membro corrispondono rispettivamente alla DR (devianza di regressione) e alla DE (devianza dell’errore), quindi DT = DR + DE ed è possibile esplicitare una misura della bontà di adattamento del modello attraverso il coefficiente di determinazione così definito R2 = DR DE =1− . DT DT Si vede subito che: 1. 0 ≤ R2 ≤ 1, 2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione, 3. R2 = 0: non vi è relazione lineare tra x e y, 4. tanto più R2 → 1, tanto più l’accostamento è migliore, 5. R2 è il quadrato del coefficiente di Bravais-Pearson. 6.4 Modelli lineari generalizzati Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈ Rn , allora il modello postula l’uguaglianza E[Yi |Xi ] = µi 162 ed in generale µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione lineare interveniamo su µi attraverso la riparametrizzazione indotta da una funzione link g(·) che ammette la funzione inversa g(µi ) = xti β e µi = g −1 (xti β), al variare di tale funzione otterremo modelli diversi, lineari generalizzati. Alcuni esempi sono dati dalle seguenti funzioni: 1. funzione identità: g(µi ) = µi , E[Yi |Xi ] = xti β ed è il caso del modello lineare generale, 2. funzione logit: g(µi ) = logit(µi ), E[Yi |Xi ] = exp{xti β} 1 + exp{xti β} dove la funzione link è data da logit(µi ) = ln µi 1 − µi ed è il caso del modello logistico lineare, 3. funzione logaritmo: g(µi ) = ln(µi ), E[Yi |Xi ] = exp{xti β} ed otteniamo un modello loglineare. Il modello logistico lineare A differenza del modello lineare classico nel quale si studia la dipendenza di una variabile quantitativa da un insieme di variabili quantitative e/o qualitative, il modello logistico lineare costituisce uno strumento utile per lo studio della dipendenza tra una variabile qualitativa e un insieme di variabili quantitative e/o qualitative. La variabile dipendente non è più quantitativa ma qualitativa, può essere dicotomica o no. Assumiamo che la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed in particolare dato il campione x di dimensione n si ha P (Y = 1|X = x) = π(x) Capitolo 6. I modelli lineari 163 mentre il rapporto odds è dato da odds(x) = P (Y = 1|X = x) π(x) = . P (Y = 0|X = x)) 1 − π(x) Considerata la probabilità π(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ) 1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ) si ottiene odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ), il modello logit, ossia il logaritmo dell’odds, diventa allora una funzione lineare logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk e possiamo dire che βj rappresenta l’influenza della variabile Xj finalizzato ad ottenere Y = 1. è evidente ora che se P (Y = y) = θy (1 − θ)1−y ( quindi se Y è Bernoulliana ) si ha E[Y ] = θ e se Y = {Y1 , . . . , Yn } e θ = {θ1 , . . . , θn } si ha P (Y|θ) = n Y θiYi (1 − θi )1−Yi i=1 e molto importante V ar(Yi ) = θi (1 − θi ) quindi non si possono fare le assunzioni di omoschedasticità. La riparametrizzazione che adottiamo è la seguente E[Yi ] = θi = π(xi ), i = 1, . . . , n e θi logit(θi ) = ln 1 − θi = logit(xi ) π(xi ) = ln 1 − π(xi ) = β0 + β1 xi1 + β2 xi2 + . . . + βk xik = xti β 164 Capitolo 7 Distribuzioni di probabilità elementari 7.1 Variabili discrete - Uniforme. Sia X ∼ U nif ({1, 2, . . . , n}) con n ∈ N. La distribuzione di probabilità della v.a. X è 1 pk = P (X = k) = , k ∈ IX = {1, 2, . . . , n}. (7.1) n Si vede subito che 1. pk ≥ 0, Pn 1 n 2. k=1 n = n . La funzione di ripartizione è data da 0, x < 1 X x pk = , x ∈ [1, n] FX (x) = n {k≥1 : k≤x} 1, x ≥ n Esercizio 113. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥ Y . Calcolare la f.r. FZ della v.a. Z = X + Y . Esercizio 114. Calcolare la funzione caratteristica di X. Zipf. Se X ∼ Zipf , si definisce la successione pk = P (X = k) = C k α+1 , k≥1 detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente legata alla funzione Zeta di Riemann. 165 166 Esercizio 115. Determinare C. Esercizio 116. Determinare P (X > 4). Esercizio 117. Calcolare la funzione caratteristica di X. Geometrica. Sia X ∼ Geo(p) con p ∈ [0, 1]. La distribuzione delle probabilità di X è data da pk = P (X = k) = (1 − p)k−1 p, k ∈ IX = {1, 2, . . .} = N. La v.a. X rappresenta la probabilità di avere il primo successo esattamente all kesima prova, cioè dopo k − 1 insuccessi (con prove indipendenti). Ogni insuccesso ha probabilità (1 − p) di verificarsi. Se indichiamo con S il successo, P (S) = p e ¯ = 1 − p. Allora, ovviamente P (S) ¯ ¯ · · · ∩ S¯ ∩S (X = k) ="primo successo alla k-esima prova" = S | ∩S∩ {z } k−1 volte ed essendo le prove indipendenti, ¯ · · · P (S) ¯ ·P (S) = P (S) ¯ k−1 · P (S) = (1 − p)k−1 p. P (X = k) = P (S) | {z } k−1 volte Possiamo quindi associare alla distribuzione di probabilità Geometrica la v.a. X = "istante di primo successo" se P (S) = p oppure la v.a. X = "istante di primo insuccesso" ¯ = p. se P (S) Verifichiamo che pk sia effettivamente una distribuzione di probabilità. Dobbiamo verificare 1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1, 2. X pk =p k≥1 =p ∞ X k=1 ∞ X (1 − p)k−1 (1 − p)s (si è posto s = k − 1) s=0 =p 1 =1 1 − (1 − p) (somma notevole di una serie geometrica). Capitolo 7. Distribuzioni di probabilità elementari 167 Si vede che EX =p =p ∞ X k=1 ∞ X k=1 =p kq k−1 d k q dq ∞ d X k q dq k=1 d =p dq d =p dq ∞ X (q = 1 − p) (derivazione per serie) ! qk − 1 k=0 1 1 −1 = . 1−q p Esercizio 118. Calcolare V ar(X) se X ∼ Geo(p) definita sopra. La funzione di ripartizione è data da X FX (x) = 0, x < 1 pk , x ≥ 1 {k≥1 : k≤x} Esercizio 119. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipendenti. Caratterizzare Z = X1 + X2 . Esercizio 120. Calcolare la funzione caratteristica di X. Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ ∈ [0, 1] una v.a. di Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli è data da P (X = x) = θx (1 − θ)1−x , x ∈ {0, 1}. Notiamo che X è dicotomica, può assumere solo due valori con probabilità P (X = 1) = θ e P (X = 0) = 1 − θ. Quindi, se scegliamo IX = {1, 2} potremmo scrivere x1 = 0 e x2 = 1 con le rispettive probabilità. Otteniamo EX = θ, 2 σX = M2 − M12 = θ(1 − θ). Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernulliane indipendenti, diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza delle v.a.) P (X1 = x1 , . . . , Xn = xn ) = θ Pn i=1 xi Pn (1 − θ)n− i=1 xi 168 e se volessimo che esattamente k tra di loro rappresentino un successo (Xi = 1) n X n P Xi = k = P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n k i=1 ovvero, per le probabilità totali, basta che si osservi uno degli n n! = k k!(n − k)! campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente con probabilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a. K= n X Xi ∼ Bin(n, θ) i=1 che è una Binomiale di parametri n e θ dove le Xi ∼ Ber(θ) sono indipendenti (le Xi sono i.i.d.). Otteniamo EK = n X E[Xi ] = nθ, V ar(K) = i=1 n X 2 σX = nθ(1 − θ) i i=1 ed ovviamente per ogni Xi vale Xi ∼ Bin(1, θ). Si può considerare una v.a. Q costruita a partire da Q = EQ = EK = θ = q, n V ar(Q) = K n e per cui 1 2 θ(1 − θ) q(1 − q) σk = = . 2 n n n Se K rappresenta il numero di successi in n prove indipendenti, allora Q rappresenta la frequenza dei successi (ed è una v.a.). Concludiamo ricordando che se X ∼ Bin(n, p) con p ∈ [0, 1] e n ∈ N, allora n k pk = P (X = k) = p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n} (7.2) k e la distribuzione Binomiale può essere associata alla v.a. X = "numero di successi in n prove " Si vede subito che 1. pk ≥ 0, Pn 2. k=0 pk = 1. se P (Successo) = p. Capitolo 7. Distribuzioni di probabilità elementari 169 Per verificare la somma ad uno si è usata una somma notevole, la formula del binomio di Newton n X n k n−k a b = (a + b)n . k k=0 La funzione di ripartizione è data da 0, x < 0 X pk , 0 ≤ x ≤ n FX (x) = 0≤k≤n : k≤x 1, x ≥ n Esercizio 121. Dimostrare che la Binomiale è chiusa rispetto alla somma. Cioè, se X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼ Bin(n + m, p). Esercizio 122. Calcolare la funzione caratteristica di X. Multinomiale. Sia X ∼ M N om({pi }) dove le pi , i = 1, 2, . . . , n sono probabilità. Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni i = 1, 2, . . . , n, si ha 0, xi < 0 per qualche i Pn N! FX (x) = px1 1 · · · pxnn , i=1 xi = N x ! · · · xn ! 1 1, x ≥ N per ogni i i La Multinomiale generalizza la Binomiale (potremmo dire che una Binomiale a più alternative) e l’evento che si vuole considerare prevede la realizzazione di xi volte la caratteristica i-esima per ottenere N caratteristiche totali su n prove totali. Nello schema Binomiale si avevano k e n − k realizzazioni delle caratteristiche "successo" ed "insuccesso" su un totale di n prove. Si pensi ad un vettore V = (](X1 ), ](X2 ), . . . , ](Xn )) in cui le variabili Xi sono i.i.d. dove ](Xi ) ="il numero di volte che si è verificato Xi " e la v.a Xi si verifica con probabilità pi . L’evento (](Xi ) = xi ) = "Xi si verifica xi volte" ha probabilità pxi i di verificarsi (oppure P (](Xi ) = k) = pki ). La probabilità di ottenere la n-upla x = (x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto P (V = x) = n Y i=1 pxi i . 170 Di tutte le n-upla che si possono ottenere, vogliamo tenere solo quelle per cui N . Allora la v.a. X si può ottenere considerando Pn i=1 xi = P (X = x) = P (V = x, |V | = N ) dove |V | = Pn i=1 ](Xi ) = Pn i=1 xi . In quanti modi si può ottenere |V | = N ? In N! = |PxN1 ,...,xn | x1 ! · · · xn ! modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi mantenendo però lo stesso numero di ripetizioni per ogni caratteristica xi . Ogni permutazione ha la stessa probabilità di realizzarsi e quindi n P (X = x) = P (V = (x1 , . . . , xn ), |V | = N ) = Y N! pxi = FX (x). x1 ! · · · xn ! i=1 i Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi N ! x1 x2 P (X = x) = p p = x1 !x2 ! 1 2 N x1 p (1 − p1 )N −x1 = P (V1 = x1 , V2 = N − x1 ) x1 1 con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ). Ipergeometrica. Sia X ∼ Iperg(N, M ), allora N M n m N +M n+m pn,m = = K k N −K n−k N n = pk Esercizio 123. Determinare spet(X). La v.a. Ipergeometrica viene utilizzata negli schemi di campionamento (o scelta) in blocco, dove cioè non è previsto il reimbussolamento (schema senza ripetizione). Inoltre, rappresenta la probabilità di estrarre da un urna in cui sono inseriti oggetti divisi in gruppi (due in questo caso, n nel caso delle Ipergeometrica a n alternative). Se in un scatola ci sono K palline rosse e N −K palline nere per un totale di N palline, allora estraendo n palline a caso, P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk . Capitolo 7. Distribuzioni di probabilità elementari 171 Poisson. Sia X ∼ P ois(λ) con λ > 0. Allora λk −λ pk = P (X = k) = e , k! k ∈ IX = N ∪ {0}. Verifichiamo che sia una distribuzione di probabilità: 1. pk ≥ 0, 2. X pk =e−λ k≥0 ∞ X λk k=0 k! =1 (espansione di Maclaurin) Si ottiene EX = X xk p k k≥0 =e −λ ∞ X λk (k − 1)! k=1 ∞ X −λ =λe k=1 =λe−λ (per k = 0 il primo addendo è nullo) λk−1 (k − 1)! ∞ X λs s=0 s! =λ (espansione in serie della funzione esponenziale). e V ar(X) = EX 2 − (EX)2 = λ. Infatti, 2 EX = e −λ ∞ X k=0 k 2λ k k! =e −λ ∞ X ∞ X λk−1+1 λs+1 k (s + 1) = e−λ = λEX + λ. (k − 1)! s! s=0 k=1 La funzione di ripartizione è data da FX (x) = X k≥0 : k≤x 0, x < 0 pk , x ≥ 0 172 Esercizio 124. Dimostrare che una v.a. di Poisson è chiusa rispetto alla somma, che vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 ) e X2 ∼ P ois(λ2 ). Esercizio 125. Calcolare la funzione caratteristica di X. La v.a. di Poisson viene anche detta legge degli eventi rari perché, fissato λ, si ha la convergenza in legge Bin(n, λ/n) → P ois(λ) per n→∞ partendo quindi da successi legati alla probabilità p = λ/n che decresce al crescere delle prove. 7.2 Variabili continue - Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per le quali possiamo calcolare la corrispondente legge di densità fX . Uniforme. Sia X ∼ U nif (a, b) con a < b ed a, b ∈ R. Allora fX (x) = 1 1[a,b] (x). b−a Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di Lebesgue dell’insieme (a, x] ⊂ (0, 1). EX = 1 b 2 − a2 a+b = b−a 2 2 che è la media aritmetica di a e b, V ar(X) =? x≤a 0, (x − a)/(b − a), a ≤ x ≤ b . FX (x) = 1, x≥b Esercizio 126. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z = X + Y . Esercizio 127. Una v.a. Uniforme è continua o assolutamente continua? Esercizio 128. Calcolare la funzione caratteristica di X. Capitolo 7. Distribuzioni di probabilità elementari 173 Esponenziale. Sia X ∼ Exp(λ) con λ > 0. Allora fX (x) = λe−λx 1[0,∞) (x). EX = 1 λ V ar(X) = FX (x) = 1 λ2 0, x≤0 −λ x 1−e , x≥0 λ > 0. Esercizio 129. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y . Calcolare fZ dove Z = X + Y . Esercizio 130. Calcolare la funzione caratteristica di X. Gamma. Sia X ∼ Gamma(λ, ν) con parametri λ, ν > 0. Allora λν ν−1 −λx x e 1[0,∞) (x) Γ(ν) fX (x) = dove ∞ Z uz−1 e−u du, Γ(z) = z>0 0 è la funzione Gamma. Si ottiene che EX = ν λ V ar(X) = FX (x) = ν λ2 0, x≤0 Γ(x, λ, ν), x > 0 dove Z Γ(x, λ, ν) = 0 è la Gamma incompleta. x λν ν−1 −λu u e du Γ(ν) (7.3) 174 Esercizio 131. Dimostrare che la Gamma è chiusa rispetto alla somma. Esercizio 132. Calcolare la funzione caratteristica di X. Diamo alcune proprietà molto importanti della funzione Gamma: • (la formula di duplicazione) per m ∈ N, z > 0, si ha che m Y m−1 1 k−1 = (2π) 2 m 2 −mz Γ(mz). Γ z+ m k=1 (7.4) • (la formula di riflessione) per z > 0, si ha che Γ(z)Γ(1 − z) = π . sin πz (7.5) • (la funzione fattoriale) per z ∈ N, si ha che Γ(z) = (z − 1)!. (7.6) Per m = 2, si ottiene √ 1 4π Γ(z)Γ z + = z Γ(2z). 2 4 Inoltre, dalle proprietà del fattoriale, Γ(1) = Γ(2) = 1. Esercizio 133. Dimostrare che Γ(z) = (z − 1)! se z ∈ N. Cauchy. Se X ∼ Cauchy, fX (x) = 1 , π(1 + x2 ) x ∈ R. EX =∞ FX (x) = 1 1 + arctan(x), 2 π x ∈ R. Esercizio 134. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞). Esercizio 135. Quale trasformata associamo ai momenti della Cauchy e per quali valori è definita? Capitolo 7. Distribuzioni di probabilità elementari 175 Normale e Normale standard (Gaussiana). Sia X ∼ N (µ, σ 2 ) con µ ∈ R e σ 2 > 0. Allora (x−µ)2 1 fX (x) = √ e− 2σ2 , x ∈ R 2πσ 2 EX =µ V ar(X) =σ 2 1 x−µ FX (x) = √ Φ √ , 2σ 2 2σ 2 x∈R dove x Z Φ(x) = −∞ x 2 e−u √ du, x≤0 −u2 e −∞ Z π √ du = x −u2 π e 1 + √ du, x ≥ 0 2 π 0 Z è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta Normale standard. Se X ∼ N (0, 1) e Y = aX + b, si ottiene Y ∼ N (b, a2 ). Inoltre, se X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per ogni i, allora ! X X X a+ bi X i ∼ N a + bi µ i , b2i σi2 . i i i Esercizio 136. Calcolare la funzione caratteristica di X. Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di v.a. Gaussiane (non necessariamente indipendenti!!), allora X è detta v.a. Normale (o v.a. Gaussiana) multidimensionale. La densità di X è la densità multidimensionale 1 1 −1 T fX (x) = p exp − (x − µ)Σ (x − µ) 2 (2π)n |Σ| dove x = (x1 , . . . , xn ) ∈ R, µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore (x − µ) trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la matrice inversa di σ1,1 σ1,2 . . . σ1,n σ2,1 σ2,2 . . . σ2,n Σ = .. .. .. .. = {σi,j } con 1 ≤ i, j ≤ n. . . . . σn,1 σn,2 . . . σn,n 176 La matrice Σ è detta matrice di varianze e covarianze (o semplicemente, delle covarianze) di X e σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi la diagonale di Σ è costituita dalle varianze degli elementi del vettore X. Ovviamente se le componenti sono indipendenti si ottiene Σ = diag{σi,i }1≤i≤n mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per ogni i, Σ = σ2I dove I è la matrice identità. Weibull. Sia X ∼ W eibull(λ, n) con parametri λ > 0 e n ∈ N. Allora fX (x) = λn xn−1 e−λx 1[0,∞) (x) (n − 1)! che è quindi una Gamma con ν = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ) sono v.a. P n). Inoltre,P per quanto appena detto, la indipendenti, allora ni=1 Xi ∼ W eibull(λ, P n Weibull è chiusa rispetto alla somma, infatti i=1 Xi + m j=1 Xj ∼ W eibull(λ, n + m). Beta. Sia X ∼ Beta(α, γ) con parametri α, γ > 0. Allora fX (x) = 1 xα−1 (1 − x)γ−1 1[0,1] (x) B(α, γ) Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero) sono detti gradi di libertà. Allora ν ν −1 ν x fX (x) = 2 2 Γ x 2 −1 e− 2 x ≥ 0, ν > 0 2 e si ha: EX = ν e V ar(X) = 2ν, P se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora ni=1 Ni2 ∼ χ2 (n), P P se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora ni=1 Xi ∼ χ2 ( ni=1 νi ), se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1 X1 +X2 se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora X1 /ν1 X2 /ν2 ∼ Beta(ν1 /2, ν2 /2), ∼ F (ν1 , ν2 ). Capitolo 7. Distribuzioni di probabilità elementari 177 T di Student. La variabile prende il nome da Gosset, ingegnere presso Guinnes che si firmava come Student. Se X ∼ T , fX (x) = 1 B 1 ν , 2 2 √ 1 ν 1− x2 ν ν+1 2 x ∈ R, ν > 0 che è simmetrica e tende alla normale al crescere di n, si ha: √ se Z ∼ N (0, 1) e G ∼ Gamma ν2 , ν2 sono indipendenti, allora Z/ G ∼ T (ν), T 2 ∼ F (1, ν), T (1) = Cauchy(0, 1). La variabile F. La variabile di Fisher-Snedecor ha legge di densità µ ν µ x 2 −1 µ2 ν 2 fX (x) = µ+ν , B µ2 , ν2 (µx + ν) 2 x ≥ 0, µ, ν > 0 Quartile, decile, centile Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R sappiamo che P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli disgiunti Dj tali che D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si definiscono quartili, quei valori per cui α = 1/4 ed in particolare Dj = [dj , dj+1 ), j = 0, 1, 2, 3 dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui α = 1/10 e Dj = [dj , dj+1 ), j = 0, 1, . . . , 9 dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei valori per cui α = 1/100 e Dj = [dj , dj+1 ), j = 0, 1, . . . , 99 dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i quantili di ordine α = 1/n. Il quantile di ordine 1/2 è la mediana. 178 Tabella 7.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1). z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 0.00 0.50000 0.53983 0.57926 0.61791 0.65542 0.69146 0.72575 0.75804 0.78814 0.81594 0.84134 0.86433 0.88493 0.90320 0.91924 0.93319 0.94520 0.95543 0.96407 0.97128 0.97725 0.98214 0.98610 0.98928 0.99180 0.99379 0.99534 0.99653 0.99744 0.99813 0.99865 0.99903 0.99931 0.99952 0.99966 0.99977 0.99984 0.99989 0.99993 0.99995 0.01 0.50399 0.54380 0.58317 0.62172 0.65910 0.69497 0.72907 0.76115 0.79103 0.81859 0.84375 0.86650 0.88686 0.90490 0.92073 0.93448 0.94630 0.95637 0.96485 0.97193 0.97778 0.98257 0.98645 0.98956 0.99202 0.99396 0.99547 0.99664 0.99752 0.99819 0.99869 0.99906 0.99934 0.99953 0.99968 0.99978 0.99985 0.99990 0.99993 0.99995 0.02 0.50798 0.54776 0.58706 0.62552 0.66276 0.69847 0.73237 0.76424 0.79389 0.82121 0.84614 0.86864 0.88877 0.90658 0.92220 0.93574 0.94738 0.95728 0.96562 0.97257 0.97831 0.98300 0.98679 0.98983 0.99224 0.99413 0.99560 0.99674 0.99760 0.99825 0.99874 0.99910 0.99936 0.99955 0.99969 0.99978 0.99985 0.99990 0.99993 0.99996 0.03 0.51197 0.55172 0.59095 0.62930 0.66640 0.70194 0.73565 0.76730 0.79673 0.82381 0.84849 0.87076 0.89065 0.90824 0.92364 0.93699 0.94845 0.95818 0.96638 0.97320 0.97882 0.98341 0.98713 0.99010 0.99245 0.99430 0.99573 0.99683 0.99767 0.99831 0.99878 0.99913 0.99938 0.99957 0.99970 0.99979 0.99986 0.99990 0.99994 0.99996 0.04 0.51595 0.55567 0.59483 0.63307 0.67003 0.70540 0.73891 0.77035 0.79955 0.82639 0.85083 0.87286 0.89251 0.90988 0.92507 0.93822 0.94950 0.95907 0.96712 0.97381 0.97932 0.98382 0.98745 0.99036 0.99266 0.99446 0.99585 0.99693 0.99774 0.99836 0.99882 0.99916 0.99940 0.99958 0.99971 0.99980 0.99986 0.99991 0.99994 0.99996 0.05 0.51994 0.55962 0.59871 0.63683 0.67364 0.70884 0.74215 0.77337 0.80234 0.82894 0.85314 0.87493 0.89435 0.91149 0.92647 0.93943 0.95053 0.95994 0.96784 0.97441 0.97982 0.98422 0.98778 0.99061 0.99286 0.99461 0.99598 0.99702 0.99781 0.99841 0.99886 0.99918 0.99942 0.99960 0.99972 0.99981 0.99987 0.99991 0.99994 0.99996 0.06 0.52392 0.56356 0.60257 0.64058 0.67724 0.71226 0.74537 0.77637 0.80511 0.83147 0.85543 0.87698 0.89617 0.91308 0.92785 0.94062 0.95154 0.96080 0.96856 0.97500 0.98030 0.98461 0.98809 0.99086 0.99305 0.99477 0.99609 0.99711 0.99788 0.99846 0.99889 0.99921 0.99944 0.99961 0.99973 0.99981 0.99987 0.99992 0.99994 0.99996 0.07 0.52790 0.56749 0.60642 0.64431 0.68082 0.71566 0.74857 0.77935 0.80785 0.83398 0.85769 0.87900 0.89796 0.91466 0.92922 0.94179 0.95254 0.96164 0.96926 0.97558 0.98077 0.98500 0.98840 0.99111 0.99324 0.99492 0.99621 0.99720 0.99795 0.99851 0.99893 0.99924 0.99946 0.99962 0.99974 0.99982 0.99988 0.99992 0.99995 0.99996 0.08 0.53188 0.57142 0.61026 0.64803 0.68439 0.71904 0.75175 0.78230 0.81057 0.83646 0.85993 0.88100 0.89973 0.91621 0.93056 0.94295 0.95352 0.96246 0.96995 0.97615 0.98124 0.98537 0.98870 0.99134 0.99343 0.99506 0.99632 0.99728 0.99801 0.99856 0.99896 0.99926 0.99948 0.99964 0.99975 0.99983 0.99988 0.99992 0.99995 0.99997 0.09 0.53586 0.57535 0.61409 0.65173 0.68793 0.72240 0.75490 0.78524 0.81327 0.83891 0.86214 0.88298 0.90147 0.91774 0.93189 0.94408 0.95449 0.96327 0.97062 0.97670 0.98169 0.98574 0.98899 0.99158 0.99361 0.99520 0.99643 0.99736 0.99807 0.99861 0.99900 0.99929 0.99950 0.99965 0.99976 0.99983 0.99989 0.99992 0.99995 0.99997 Come si legge una tavola? Se voglio calcolare z tale P (Z ≤ z) = Φ(z) = 0.95 devo cercare 0.9500 nella tavola, mi accorgo che non c’è ma posso considerare il valore più vicino che è 0.95053. Tale valore corrisponde alla riga 1.6 e alla colonna 0.05. Allora, z = 1.6 + 0.05 = 1.65 è il valore cercato. Appendice A Alcune somme notevoli n X c=c+ k=0 n X k= k=0 n X 2 k = k=0 n X n X k=0 n(n + 1) 2 k= k2 = k=1 3 k = n X c = c(n + 1) (banale!) k=1 k=1 n X n X (somma dei primi n numeri) n(n + 1)(2n + 1) 6 3 k = k=1 n X n(n + 1) 2 (somma dei primi n quadrati) 2 (somma dei primi n cubi) (2k − 1) = n2 (verificare!) k=1 n X n k=0 k = 2n ∞ X 1 =e k! k=0 (verificare!) (verificare!) 179 180 ∞ X (−1)k k=0 k! ∞ X k=1 n X xk = k=m n X k=1 !2 xk = 1 e (verificare!) k =1 (k + 1)! xm − xn−1 1−x n X k=1 = xk n X s=1 xs = (verificare!) n X k=1 x2k + X 0≤k≤n 0≤s≤n k6=s xk xs Appendice B Svolgimenti Svolgimento Esercizio 12. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) ricaviamo media x¯ = e varianza σ ¯ 2 =. La stima puntuale del prezzo medio è la media campionaria. Non interviene la varianza campionaria che invece risulta essere un informazione importante. Per tale motivo cerchiamo una stima intervallare e rispondiamo al secondo punto. Supponiamo che X ="prezzo" si distribuisce come una normale di media µ e varianza σ 2 , le stime trovate sono µ ˆ = x¯ e σ ˆ2 = σ ¯ 2 quindi la variabile standardizzata Z= X −µ σ per cui si ha X = µ + σZ ci consente di definire gli estremi di interesse per l’intervallo che stiamo cercando. La variabile Z è la normale standard, le quantità zα codificati nelle tavole dei percentili della Z secondo la relazione P (z α2 < Z ≤ z1− α2 ) = 1 − α ci consentono di trovare x1 , x2 tale che P (x1 < X ≤ x2 ) = 1 − α dalle relazioni x1 = x¯ + σ ¯ z α2 e x2 = x¯ + σ ¯ z1− α2 . (B.1) Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i percentili che ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica e centrata in zero. Si osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ). Soluzione Esercizio 29. a) P (tutte minori o uguali ad n) = n!(13 − n)! 1 = 13 , 13! n 181 n = 1, 2, . . . , 13 182 b) 13−n n 13 n P (tutte maggiori di n) = n ≤ 13 − n , (B.2) e P (tutte maggiori di n) = 0, n > 13 − n (B.3) c) P (tutte di cuori) = 1 4 Soluzione Esercizio 30. 1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4 2. (5/9)2 · (4/9)2 3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅} 4. 2 · [(5/9)2 · (4/9)2 ] − 2 · 0 5. 2 · (5/9)2 · (4/5)2 Soluzione Esercizio 45. 1. Passando alle coordinate polari si ha che lim z→∞ x2 x ρ cos θ = lim = 0 uniformemente 2 ρ→∞ +y ρ2 cioè per ogni angolo θ. Quindi il limite è 0. 2. Passando alle coordinate polari e considerando che la funzione è positiva si trova che diverge positivamente (verificare!!). Inoltre, si poteva osservare che 3x2 + 2y 2 = (x2 + y 2 )2 2 3 xy2 + 2 x2 y2 +2+ y2 x2 1 x2 e quindi 3x2 + 2y 2 5 1 = lim = +∞. 2 2 2 x→0 4 x2 (x,y)→(0,0) (x + y ) lim Capitolo B. Svolgimenti 183 3. Si può passare alle coordinate polari, vedere che si ottiene una forma indeterminata (ma non uniformemente e questo già è sufficiente) e quindi usare la regola di de l’Hôpital per vedere che il limite diverge ma non per tutti i valori di θ (non per θ = π/4). Oppure si può vedere cosa succede sulle rette, basta considerare y = mx per ottenere x2 (1 + m2 )(1 − m) + (1 − m) =∞ x→0 2x(1 + m2 ) lim ma non uniformemente (cioè, non per m = 1). Il limite non esiste, la funzione in (0, 0) non ammette limite. 2 2 2 2 Soluzione Esercizio 47. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere la normale multidimensionale. Quindi κ = 1/π e 2 e−xj fXj (xj ) = √ , π j = 1, 2. Soluzione Esercizio 59. 1. κ = θ/aθ e θ > 0 2. si ottiene V ∈ (0, log(1 + a)1/2 ) e v<0 0, θ 2v FV (v) = 1 − 1 + 1−ea , 0 ≤ v ≤ log(1 + a)1/2 1, v > log(1 + a)1/2 3. θ 1 fZ (z) = θ 2 a z θ−1 1 a− 1(1/a,∞) (z) z Soluzione Esercizio 60. Si vede subito che supp(Z) = (0, +∞). Passiamo al secondo punto dell’ Esempio 13: si vede che D = (0, +∞) × (0, +∞) = D1 , non occorre costruire una partizione di D che identifichi diverse forme geometriche per D1 ∩ Az , z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre un triangolo. Si noti che Az è costituito da tutti i punti (x, y) del piano tali che x + y ≤ z, cioè anche dai punti con x e y negativi. Invece, D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0 (si ricordi che z > 0). Si ottiene la f.r. z≤0 0, P (T ), z ∈ (0, ∞) FZ (z) = 1, z = ∞ (in questo caso non va considerato) 184 dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 = (0, z), T3 = (z, 0). L’evento certo, non va considerato perché, in casi come questo, può essere ricondotto a P (T ) con z → ∞. Si costruisca il grafico e si verifichi quanto appena detto. Dal grafico se vede che Z z Z z−x dx dyfX (x)fY (y)dxdy P (T ) = P ((X, Y ) ∈ T ) = 0 0 e quindi Z z P (T ) = dxλe−λx 1 − e−µ(z−x) dx 0 =1 − e−λz − λ e−µz − e−λz = P (Z ≤ z). λ−µ Si ottiene la densità fZ (z) = λe−λz − 0, λ λe−λz − µe−µz , z ∈ (0, ∞), λ−µ z∈ / (0, ∞). Soluzione Esercizio 63. Si disegni il grafico. a) P (Z < z) =P (X + Y < z) = P (Y < z − X) Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre 0 < X < 1 se X + Y = z > 1. Quindi si ottiene 0, z≤0 R R z−x z dx 0 λe−λy dy = z − e−λz (eλz − 1)/λ, z ∈ (0, 1] P (Z < z) = 0 R 1 R z−x −λy dx 0 λe dy = 1 − e−λz (eλ − 1)/λ, z > 1 0 La legge di densità è quindi 1 − e−λz , z ∈ (0, 1] e−λz (eλ − 1), z > 1 fZ (z) = 0, altrove Capitolo B. Svolgimenti 185 b) FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ). c) La somma di due esponenziali di parametro λ è una gamma di parametri (2, λ), quindi fZ (z) = λ2 ze−λz 1(0,∞) (z) Svolgimento Esercizio 72. Si deve considerare che la somma di k Bernoulliane indipendenti di parametro p è una Bin(k, p). Svolgimento Esercizio 79. Dallo sviluppo in serie della funzione caratteristica e dal fatto che X X X = + r r pari r dispari si vede che (ponendo r = 2k con k ∈ N, cioè r pari) ∞ ∞ X (iξ)r r=0 X (−ξ 2 a)k r! r 2 a 1(r pari) = = e−aξ = φX (ξ). r! (r/2)! k! k=0 Svolgimento Esercizio 80. 1. Sia D =”il sensore è difettoso”. Si ha che P (A) = 0.3 P (B) = 1 − P (A) = 0.7 P (D|A) = 0.15 P (D|B) = 0.12 Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle probabilità totali e composta si ottiene P (D) = P (D∩(A∪B)) = P ((D∩A)∪(D∩B)) = P (D|A)P (A) + P (D|B)P (B) 2. Si utilizza la formula di Bayes P (A|D) = P (D|A)P (A) P (D|A)P (A) = P (D|A)P (A) + P (D|B)P (B) P (D) 3. e 4. I sensori sono difettosi in maniera indipendente quindi P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi) 186 10 k = p (1 − pA )10−k k A dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso modo si considera Bin(10, pB ) dove pB = P (D|B) per calcolare P (k su 10|B). Quindi si usa la formula di Bayes e si ottiene P (A|k su 10) = P (k su 10|A)P (A) P (T ) P (B|k su 10) = P (k su 10|B)P (B) P (T ) dove P (T ) = P (k su 10|A)P (A) + P (k su 10|B)P (B) = P (k su 10). Svolgimento Esercizio 81. 1. Si vede che f > 0 se κ > 0. Inoltre Z 1= f (x)dx R r 1 se θ = 2 ≥ 0 2σ κ= θ ≥0 π Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞). 2. X ∼ N (0, 1/2θ) 3. Volendo fissare due valori (per semplificare i conti) si può scegliere θ = 1 e di √ conseguenza κ = 1/ π. Si ottiene e−y y 1/2−1 −y fY (y) = √ = e , yπ Γ(1/2) y≥0 che è una Gamma(1/2, 1). 4. Z ∼ Gamma(n/2, 1), quindi fZ (z) = z n/2−1 −z e , Γ(n/2) Svolgimento Esercizio 82. Si deve sfruttare iξX Ee = ∞ X (iξ)k k=0 per una v.a. X e i2 = −1. Allora si ha che 1. φXj (ξ) = 1 − ξ2 2n k! EX k z≥0 Capitolo B. Svolgimenti 2. φZn (ξ) = 1 − ξ2 2n 187 n ξ2 3. φZ∞ (ξ) = e− 2 e quindi x2 e− 2 fZ∞ (x) = √ , 2π x ∈ R. Soluzione Esercizio 84. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X = 1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω))n → 0 e si ha convergenza q.c. puntuale in Ω. Si conclude che Zn → 0. Soluzione Esercizio 85. Come nel precedente Esercizio 84 X ∈ (0, 1) q.c., cioè q.c. P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0. Soluzione Esercizio 86. Un occhio allenato vede subito non conviene considerare altre forme più deboli di convergenza, si può verificare la convergenza quasi certa. In particolare, Y ∈ D è una v.a. finita e ∀ ω ∈ Ω Zn (ω) = X(ω) + 1 Y (ω) → X(ω) n q.c. (convergenza puntuale in Ω) e quindi Zn → X. Soluzione Esercizio 87. Si vede subito che fXn → 0 uniformemente mentre la f.r. x < −n 0, x+n FXn (x) = , x ∈ [−n, +n) 2n 1, x≥n converge a FX (x) = converge in R1 . 1 2 per ogni x ∈ R (puntualmente). Diciamo allora che Xn non Soluzione Esercizio 88. f.r. Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e la x<0 0, 2 2 n x , x ∈ [0, n1 ) FXn (x) = 1, x ≥ n1 1 Potremmo dire però che Xn diverge con probabilità 1 (q.c.) ad X ”degenere” ed in particolare P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove R∗ = R ∪ {−∞} ∪ {+∞} è l’estensione di R (il completamento dei reali). 188 converge a FX (x) = 0, x < 0 1, x ≥ 0. Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità. Soluzione Esercizio 93. 1. 0, 2. Bisogna osservare che l’integrale si riduce a MC è data da 1 2 R∞ 0 ye−y dy e quindi la soluzione n 1 X Xj , 2n j=1 3. Si vede che R √ 1 dx 1+x2 = R Xj ∼ Exp(1), √ 1+x2 dx 1+x2 e quindi la soluzione MC è n π Xq 1 + Xj2 , n j=1 Xj ∼ Cauchy. Soluzione esercizio 96. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè sono n copie di una stessa variabile X che rappresenta la popolazione di interesse. La v.a. varianza campionaria è data dalla somma n n X 1X ¯ 2 =1 ¯ − µ) + (X ¯ − µ)2 (Xk − µ + µ − X) (Xk − µ)2 − 2(Xk − µ)(X n k=1 n k=1 n 1X ¯ − µ)2 . = (Xk − µ)2 − (X n k=1 Passando al valor medio si vede che # " n n 1X 1X 2 (Xk − µ) = E(Xk − µ)2 E n k=1 n k=1 (linearità della media) n = 1X V ar(Xk ) n k=1 2 =σX (le v.a. sono identicamente distribuite) Capitolo B. Svolgimenti 189 e 2 ¯ − µ)2 = V ar(X) ¯ = σX . E(X n Infatti, n 1 X 2 1 X 2 ¯ X = 2 Xk Xs Xk + 2 n k=1 n 0≤k,s≤n k6=s 2 ¯ 2 = σ 2 /n. dove EXk2 = σX per ogni k e Cov(Xk , Xs ) = 0 per ogni k 6= s. Quindi E X X Si ottiene che " n # 1X 2 ¯ 2 = n − 1 σX E (Xk − X) n k=1 n e lo stimatore non è corretto. Si vede però che è asintoticamente corretto. Soluzione esercizio 97. Dal precedente Esercizio 96 si vede che " n # X n 1 ¯ 2 = σ2 ES 2 = E (Xk − X) X n−1 n k=1 quindi lo stimatore è corretto. Svolgimento Esercizio 98. La v.a. media campionaria n X ¯n = 1 Xk X n k=1 n X ¯n = 1 ha media E X EXk n k=1 per la linearità della media. Le variabili Xk , per ogni k, sono supposte essere copie (indipendenti, ma in questo caso non importa) di una v.a. X che descrive una certa popolazione oggetto di studio. Quindi, se Xk ∼ X per ogni k (sono i.d.), allora EXk = EX per ogni k. sia µ = EX la media vera della popolazione. Otteniamo che ¯ (o X ¯ n ) è la v.a. stimatore per µ e E X ¯ = µ. µ b = x¯ è lo stimatore per il parametro µ, X ¯ è corretto. Lo stimatore X ¯ è uno stimatore corretto, Svolgimento Esercizio 99. Si è già visto che la v.a. X calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno al suo valore centrale (cioè, il valore medio) è data da 2 2 2 ¯ ¯2 σX ¯ = E(X − µ) = E X − µ 190 dove (per la linearità della media ed il quadrato di una somma, Appendice A) ¯2 = EX n n 1 XX E[Xk Xs ]. n2 k=1 s=1 A questo punto è importante ricordare che le osservazioni sono realizzazione di v.a. supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e quindi di covarianza nulla. Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si ottiene ¯2 = EX n n n 2 1 X 2 1 XX 2 n2 2 σX 2 = σ 1 + µ + µ2 . σ + µ = (s=k) n2 k=1 s=1 Xk n2 k=1 X n2 n La varianza cercata è 2 σX ¯ = 2 σX n cioè la varianza teorica (finita) della popolazione caratterizzata dalla v.a. X diviso la numerosità campionaria n. Come al solito, volendo sottolineare la dipendenza da n ¯ n invece di X. ¯ Si vede subito che scriviamo X 2 σX ¯n = 2 σX → 0 quando n → ∞. n Svolgimento Esercizio 101. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti (sono i.i.d.). La realizzazione di X è il campione x. La densità della v.a. multidimensionale X, essendo le componenti i.i.d., è data dal prodotto n Y 1 Pn 2 e− 2σ2 k=1 (xk −µ) p fX (x) = fXk (xk ) = (2πσ 2 )n k=1 dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a noi interessa, in questo caso, sottolineare il fatto che dipende da µ. La funzione di verosimiglianza è data dalla relazione L(µ; x) = fX (x; µ) ed il suo logaritmo restituisce la funzione n n 1 X log L(µ; x) = − log(2πσ 2 ) − 2 (xk − µ)2 . 2 2σ k=1 Si ottiene µ bM V = x¯. Capitolo B. Svolgimenti 191 Svolgimento Esercizio 102. Dalla log-verosimiglianza calcolata nel precedente esercizio n n 1 X 2 log L(µ; x) = − log(2πσ ) − 2 (xk − µ)2 2 2σ k=1 si ottiene subito che n 2 σ bM V = 1X (xk − µ)2 , n k=1 la varianza campionaria è stimatore di MV per la varianza della popolazione. Svolgimento Esercizio 103. Si veda il precedente Esercizio 96. Svolgimento Esercizio 104. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ) per ogni j (variabili i.i.d.) si ha che fX (x) = n Y 1 θ j=1 1[0,θ] (xj ) con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si ottiene come al solito dalla relazione L(θ; x) = fX (x; θ) e quindi n 1 Y 1[x ,∞) (θ) L(θ; x) = n θ j=1 j ed ovviamente log L(θ; x) = −n log θ + n X log 1[xj ,∞ (θ). j=1 Svolgimento Esercizio 105. Si deve considerare ¯ |X − µ| √ ¯ P |X − µ| ≤ = P ≤ = P |N (0, 1)| ≤ n . σX¯ σX¯ σ Osservando che P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95 ⇔ z = z0.975 , 192 cioè 1.96 è il percentile z0.975 della tavola in Tabella 7.1 (si noti che 0.975 = 0.95 + 0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo a questo punto sfruttare l’identità √ oppure n ≥ (1.96σ/)2 . n = 1.96 ⇒ n = (1.96σ/)2 σ 2 Ovviamente, nella relazione2 n ≥ (1.96σ/) sceglierò il più piccolo n, cioè la parte intera superiore (1.96σ/) . Svolgimento Esercizio 106. incognite µ, σ 2 (θ ∈ R2 ), Si deve impostare un sistema di due equazioni nelle due EX =¯ x 2 EX =¯ x2 dal quale si ottiene, µ b = x¯ e σ b2 = x¯2 − (¯ x) 2 . Lo stimatore dei momenti è quindo dato dal vettore θbM = (b µ, σ b2 )t . Svolgimento Esercizio 107. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e quindi H1 : µ 6= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva della X. Ci interessa solo H0 . In particolare, per la v.a. media campionaria sotto l’ipotesi nulla si ¯ n |H0 ∼ N (1, 1/n) con n = 30, quindi ha che X P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95 dove la v.a. (standardizzata) in questione è Z|H0 = ¯n − 1 X √ ∼ N (0, 1) 1/ n si ottiene dai percentili a = z0.025 = −1.96 e b = z0.975 = 1.96 ottenuti dalla Tabella 7.1. Dal campione osservato si ha che −1.96 < x¯ − 1 1√ √ = 30 < 1.96 5 1/ 30 e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade nella regione di accettazione per H0 : µ = 1. Possiamo accettare, al 95% (o al livello di significatività α = 0.05), l’ipotesi che X ∼ N (1, 1). Capitolo B. Svolgimenti 193 Svolgimento Esercizio 108. Riprendiamo quanto visto nell’Esercizio 107. In questo caso si deve considerare un valore zoss diverso e per quale zoss = x¯ − 1 2√ √ = 30 > 1.96 5 1/ 30 e si conclude che il valore stimato standardizzato sotto H0 cade nella regione di rifiuto per H0 . Non possiamo accettare l’ipotesi nulla. Svolgimento Esercizio 109. ˆ M = 1/¯ ˆ M V . Infatti, il sistema di una sola equazione da risolvere è 1. λ x=λ EX = x¯ mentre lo stimatore di massima verosimiglianza si calcola dalla L(λ; x) = λn e−λn¯x e log L(λ; x) = −λn¯ x + n log λ 2. si deve osservare che ¯ − µ| ≤ ) = P (− ≤ |X ¯ − µ| ≤ ) P (|X ¯ ∼ N (µ, 1/n) quindi dove X √ √ √ ¯ − µ| ≤ n) ¯ − µ| ≤ ) =P (− n ≤ n|X P (− ≤ |X √ √ =P (− n ≤ Z < n) dove Z ∼ N (0, 1) e dalle tavole si vede che P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48. √ Quindi n > 1.48 e n > (1.48/)2 . Soluzione Esercizio 110. a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 ) quindi la stima per µY è la media campionaria del vettore y = ax = (ax1 , . . . , axn ). Ovvero µ bX = y¯ = a¯ x essendo x¯ uno stimatore di massima verosimiglianza per µX . 194 b) Con il metodo dei momenti otteniamo y¯ = EY = aEX = aµX e x¯ = EX = µX quindi µ bX = x¯ ⇒ µ bY = a¯ x c) Si deve calcolare la probabilità P (|Y¯ − µY | < ) ≥ 0.95. Quindi ¯ √ |Y − µX | √ √ √ P n< n =P − n < N (0, 1) < n = 0.95 a a a a dove P (N (0, 1) < z) ≥ 0.975 z ≥ 1.96 per ed otteniamo √ n ≥ 1.96 a ⇒ n≥ a 2 1.96 . Svolgimento Esercizio 111. ˆ = x¯ = 1 Pn xi = conti 1. λ i=1 n 2. κ = λ−log θ > 0, basta osservare che θx = ex log θ . Inoltre θˆM V = exp(−2/¯ x) ∈ (0, 1) Svolgimento Esercizio 112. Sia y = (y1 , . . . , yn )t il vettore da stimare e yb = xβb una stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità (y − yb)2 = b 2 rispetto al vettore βb = (βb0 , βb1 ), ovvero βb tale che Q(β) b = min dove (y − xβ) b = Q(β) n X i=1 (yi − βb0 − βb1 xi )2 . Capitolo B. Svolgimenti 195 Si arriva al sistema 1 dQ = y¯ − βb1 x¯ − βb0 = 0 2n dβb0 n 1X 1 dQ = − xi yi − βb1 x¯2 − βb0 x¯ = 0 2n dβb1 n i=1 − che è un sistema di due equazioni in due incognite. La soluzione è unica ed è quella cercata. Infatti dalla prima equazione si ricava subito βb0 . Sostituendo nella seconda ed 2 2 osservando che x¯2 − x¯2 = σ bX (è la varianza campionaria, cioè una stima di σX ) e che P b ¯y¯ = σ bXY (una stima della covarianza σXY ), si ricava β1 . Si verifica poi i xi y i − x che il punto trovato è effettivamente un punto di minimo per Q. 196 Bibliografia [1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011. [2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000. [3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994. [4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996. [5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and products. Academic Press, Elsevier Inc., 2007. [6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle nozioni fondamentali alle applicazioni. Carocci editore, 2009. [7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione. [8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze. Apogeo, ultima versione. [9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987. [10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997. [11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University Press., 2006. 197 Indice analitico approssimazioni di v.a., 80 binomio di Newton, 169 decile, 177 dipendenza, 82 disposizioni con ripetizione, 44 semplici, 44 disuguaglianza di Boole, 36 di Chebyshev, 65 di Doob, 66 di Hölder, 34 di Jensen, 34 di Kolmogorov, 66 di Lévy, 65 di Markov, 64 di Marshal, 66 di Minkowski, 34 divergenza di v.a., 108 calcolo combinatorio, 43 campione grande, approssimazioni, 80 numerosità ottima, 138 centile, 177 combinazioni con ripetizione, 44 semplici, 9 continuità di funzioni, 52 separata, 70 convergenza in Lp , 30, 104 in distribuzione, in legge, debole, 102 eventi in media, 103 compatibili, 36 in misura, 30 complementari, 36 in probabilità, in misura, 103 incompatibili, 36 pointwise, 29 indipendenti, 40 puntuale, 29 quasi certa, forte, 104 formula quasi completa, 105 di Bayes, 41 quasi ovunque, q.o., 30 di duplicazione, 174 stabile, 106 di riflessione, 174 uniforme, 29 funzione convergenze, 29 caratteristica, 95 convoluzione, 77 continua, 52 correlazione, 72 convessa, 33 covarianza, 60 dei momenti generalizzati, 100 198 INDICE ANALITICO di Lipschitz (o Lipshitziana), 56 di verosimiglianza, 124, 136 Gamma, 173, 174 generatrice dei momenti, 99 generatrice delle probabilità, 100 limitata, 56 uniformemente limitata, 56 identità di Wald, 82 legge debole dei grandi numeri, 109 delle pr. composte a più alternative, 41 delle probabilità composte, 38 delle probabilità totali, 38 forte dei grandi numeri, 109 limite centrale, 109 limiti notevoli, 94 mancanza di memoria, 72 media, 60 media campionaria, 2 memoria, 72 metodo dei minimi quadrati, 140 dei momenti, 140 di massima verosimiglianza, 136 Monte Carlo, 110 misura di conteggio, 25 di Dirac, 26 di Lebesgue, 24 momenti, 60 numeri casuali generatori, 90 passeggiata aleatoria, 81 199 percentile, 177 permutazioni con ripetizione, 43 semplici, 9 popolazione finita, 119 virtuale, 124 problema MMC, 113 quantile, 177 quartile, 177 random walk, 81 regola del ne fisso uno, 11 procedo per iterazioni successive, 13 serie armonica, 91 di funzioni, 92 di Maclaurin, 93 di potenze, 94 di Taylor, 93 geometrica, 94 numerica, 91 telescopica, 92 simulazione, 90 soluzione MMC, 113 somme aleatorie, 82 di v.a., 77 spettro, 58–60 statistica descrittiva, 1 funzione, 1 inferenziale, 14, 127 stima dei minimi quadrati, 140 dei momenti, 140 di Bayes, 141 di massima verosimiglianza, 136 200 per intervalli, 137 successioni monotone di v.a., 87 supporto, 51, 53, 59, 60 tabella di contingenza, 82 tempi di attesa, 87 test del χ2 , 147 di Kolmogorov-Smirnov, 148 variabile χ-quadrato, 84 Bernoulli, 167 Beta, 176 Binomiale, 167 Cauchy, 174 Chi-quadrato, 176 degenere, 103 di Fisher-Snedecor, 177 di Poisson, 171 di Student, 177 Esponenziale, 173 Gamma, 173 Geometrica, 166 Ipergeometrica, 170 media campionaria, 6 Multinomiale, 169 Normale, 175 Normale Multidimensionale, 175 Uniforme, 172 varianza campionaria corretta, 84 Weibull, 176 Zipf, 165 variabili i.i.d., 67 indipendenti, 67 ordinate, 85, 87 varianza, 60 varianza campionaria, 2 campionaria corretta, 84 INDICE ANALITICO Finito di stampare (ultima modifica) il 4 marzo 2015 utilizzando LATEX 2ε 201
© Copyright 2024 ExpyDoc