Appunti di Probabilità e Statistica BOZZA

Appunti di Probabilità e Statistica
a.a. 2014/2015
BOZZA
2
Riuscire a controllare l’incertezza può significare riuscire a ridurla
The things one feels absolutely certain about are never true (Oscar Wilde)
c
Copyright 2014
Mirko D’Ovidio
Appunti rilasciati per il solo uso non commerciale.
1.5 (testing) 4 marzo 2015.
Gli Appunti:
i) sono stati scritti utilizzando LATEX su Linux - Debian (software free);
ii) sono una raccolta di materiale per i corsi di Probabilità e Statistica ancora in
versione preliminare, pertanto sarà cosa estremamente gradita la comunicazione di
chiunque volesse segnalare errori di stampa o di concetto (materiale gratuito).
Il materiale riportato in queste note è stato selezionato in modo da garantire una
trattazione (spero) ben organizzata di argomenti che comunque non si deve
considerare esaustiva ma dovrebbe avere lo scopo di aiutare e supportare nello studio
della probabilità e della statistica. Gli appunti vanno quindi intesi come una lettura da
affiancare ad un libro di testo, più completo e dettagliato, da concordare in maniera
diversa nei due corsi di ”Calcolo delle Probabilità” e ”Probabilità e Statistica”.
Alcuni concetti sono trattati in maniera più approfondita, possono risultare quindi
troppo avanzati. Lo scopo di queste note è quello di fornire un aiuto nella
comprensione della teoria di base ma anche quello di stimolare gli interessi di alcuni
verso teorie più avanzate.
- : il simbolo indica gli argomenti importanti. Il resto degli appunti è necessario per
la comprensione di tali argomenti (prerequisiti o applicazioni).
Indice
1
2
3
Osservazione e Probabilità
1.1 Statistica descrittiva . . . .
1.2 Probabilità . . . . . . . . .
1.3 Statistica inferenziale . . .
1.4 Probabilità e Applicazioni
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Misura e Probabilità
2.1 Insiemi . . . . . . . . . . . . . . . . . . . . . .
2.2 Misure positive e di Lebesgue . . . . . . . . . .
2.3 Funzioni misurabili e spazi di Lebesgue . . . . .
2.4 Misure di Probabilità - . . . . . . . . . . . . . .
2.5 Il concetto di Probabilità e le diverse impostazioni
2.6 Spazi di Probabilità uniformi . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
Variabili Aleatorie
3.1 Definizione di variabile aleatoria - . . . . . . . .
3.2 Media e Momenti . . . . . . . . . . . . . . . . . .
3.3 Alcune disuguaglianze fondamentali . . . . . . . .
3.4 Relazioni tra variabili aleatorie - . . . . . . . . .
3.4.1 Eventi di misura nulla . . . . . . . . . . .
3.4.2 Probabilità congiunte e condizionate . . . .
3.4.3 Trasformazioni di v.a. . . . . . . . . . . .
3.4.4 Somme di variabili aleatorie . . . . . . . .
3.4.5 Somme aleatorie di variabili aleatorie . . .
3.4.6 Tabella di contingenza . . . . . . . . . . .
3.4.7 Variabili aleatorie ordinate . . . . . . . . .
3.4.8 Successioni monotone di variabili aleatorie
3.4.9 Simulazione, generatori di numeri casuali .
3.5 Serie numeriche e di funzioni . . . . . . . . . . . .
3.6 Trasformate di densità . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
14
16
.
.
.
.
.
.
19
19
22
27
35
42
43
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
60
64
66
66
67
72
77
82
82
85
87
90
91
95
iv
3.7
3.8
Convergenza di variabili aleatorie 3.7.1 Definizioni di convergenza .
3.7.2 Teoremi limite . . . . . . .
3.7.3 Metodi Monte Carlo . . . .
Processi aleatori . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
102
102
109
110
114
4
Gli universi campionari
119
4.1 Popolazioni finite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.2 Popolazioni virtuali . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5
Inferenza statistica
5.1 Stima parametrica - . . . . . . . . . . . . .
5.1.1 Proprietà desiderabili di uno stimatore
5.1.2 Metodi di stima . . . . . . . . . . . .
5.2 Verifica delle ipotesi statistiche - . . . . . .
5.2.1 Test parametrici . . . . . . . . . . . .
5.2.2 Test non parametrici . . . . . . . . .
5.3 Stima in presenza di parametri di disturbo . .
5.4 Inferenza su particolari parametri . . . . . . .
5.5 Logiche inferenziali . . . . . . . . . . . . . .
6
7
I modelli lineari
6.1 Il modello lineare generale . . . .
6.2 Stima dei parametri . . . . . . . .
6.3 Il caso di una variabile esplicativa
6.4 Modelli lineari generalizzati . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
128
136
142
142
147
149
151
153
.
.
.
.
157
157
158
160
161
Distribuzioni di probabilità elementari
165
7.1 Variabili discrete - . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.2 Variabili continue - . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A Alcune somme notevoli
179
B Svolgimenti
181
Bibliografia
196
Introduzione
Nelle scienze applicate si procede sempre allo stesso modo, si osserva, si elabora, si
traggono conclusioni. Si raccolgono dati da un campione e si traggono conclusioni
per l’intera popolazione (sia essa di uomini, animali, batteri, titoli, etc.). Sembra un
procedimento elementare, ebbene lo scopo di questo corso è proprio quello di fornire
gli elementi per capire quanto, in effetti, non lo sia.
Quando osserviamo un fenomeno, registriamo dei dati. Lo scopo della Statistica
Descrittiva è quello di fornire ed estrapolare informazioni dai dati in nostro possesso. Utilizziamo a questo scopo delle funzioni dei dati campionari che sono chiamate
appunto, statistiche dei dati campionari.
Una volta ottenute le informazioni sul fenomeno oggetto di studio, ci si chiede
quanto queste informazioni siano attendibili (sembra inevitabile ricordare che l’affidabilità di un dispositivo è la probabilità che funzioni!). Ci sono diverse questioni da
affrontare, ad esempio, si deve ricordare che tutte le informazioni ottenute sono il frutto di analisi fatte sullo stesso campione. Vogliamo quindi sapere se considerando un
campione diverso, oppure osservando un campione diverso, arriveremmo alle stesse
informazioni. Oppure, se il campione osservato rispecchia al meglio le caratteristiche
della popolazione, se cioè il campione osservato è quello più probabile. Questo è il
ruolo della Statistica Inferenziale.
Alla base delle tecniche inferenziali e non solo, troviamo il calcolo delle Probabilità. Più avanti nel testo, si è accennato a problemi (semplificati) relativi ai seguenti
campi di applicazione della Probabilità:
• Matematica applicata: costruire modelli (governati da equazioni a derivate parziali o no) che riducano l’incertezza in ambiti anche molto diversi, dalla Fisica
alle Scienze Sociali o dalla Biologia alla Medicina (processi aleatori);
• Teoria dei segnali: si studia la variazione nel tempo di una grandezza (o misurazione) cercando proprietà matematiche e statistiche (processi aleatori);
• Inferenza Statistica: problemi di stima per parametri di un modello (matematico)
che descrive un fenomeno oggetto di studio e che non può essere descritto da
v
vi
modelli puramente deterministici. si vogliono studiare alcune proprietà su pochi
unità e trarre conclusioni più generali;
• Teoria delle decisioni: metodologia che si applica quando un decisore può scegliere tra varie azioni future il cui esito dipende da fattori esterni che non possono
essere previsti esattamente;
• Teoria del rischio: modelli matematici per descrivere la vulnerabilità di insolvenza di un assicuratore (o altra compagnia). Si può associare allo studio del
problema classico della rovina del giocatore.
In particolare, possiamo elencare alcuni esempi:
• Astrofisica: studio della radiazione cosmica di fondo,...;
• Biologia: inferenza su culture....;
• Economia/Marketing: indagini sui nuovi prodotti, ...;
• Farmacia: testare un farmaco,...;
• Finanza/Assicurazione: problemi relativi ai titoli finanziari,...;
• Fisica: diffusione del calore, moti di particelle, ....
• Geologia: statistica spaziale, ...;
• Informatica: approssimazione di integrali, calcolatori quantistici, ...;
• Inquinamento: stima delle concentrazioni di inquinanti,...;
• Medicina: studiare gli effetti di malattie o cure su pazienti, ....;
Programma e registro delle lezioni. Tratteremo, nei due corsi AT e GEST, gli argomenti divisi come in Tabella 1. Il programma dettagliato va preso dal registro delle
lezioni, aggiornato in tempo reale e disponibile sulla pagina web del coso:
https://sites.google.com/site/mirkodovidio/didattica-mirko-d-ovidio
Gli esercizi di autovalutazione si possono reperire ovunque in rete, si consiglia comunque di consultare la pagina
https://sites.google.com/site/aristidesanmartini/
INDICE
vii
AT
AT e GEST
Capitolo 1
Capitolo 2
Capitolo 3
Capitolo 4
Capitolo 5
GEST
Capitolo 3
(Somme di v.a. + Disuguaglianze)
Capitolo 6
Tabella 1: Programma (in generale).
In particolare sono consigliati gli ESERCIZI con RISPOSTE dal 1986 al 2001 oppure tutti i compiti dal 2003 con svolgimento.
Il lettore interessato può approfondire gli argomenti trattati nei seguenti testi di
riferimento: teoria della misura e analisi [10, 9, 4, 3]; statistica asintotica [11]; somme
notevoli ed integrali [5]; Probabilità [1, 2, 6, 7]; Probabilità e Statistica [8].
Obiettivi del corso. Acquisire competenza e abilità nel trattare:
• variabili aleatorie, relazioni, interpretazione e probabilità di eventi;
• trasformazioni di variabili
aleatorie X 7→ g(X) dove X può essere un vettore,
P
somme di v.a. Sn = nk=1 g(Xk ), convergenza di n−1 Sn per n → ∞.
viii
Errata Corrige e Approfondimenti
In classe spesso affrontiamo esempi ed esercizi non presenti negli appunti.
Sono qui elencati gli approfondimenti, commenti, esercizi trattati in classe e non
presenti nelle precedenti versioni. Inoltre sono elencate le correzioni già fatte (in
questa versione) di errori presenti in versioni precedenti.
Quindi, nella presente versione potete trovare le seguenti differenze con le versioni
precedenti:
• pag. 11, Svolgimento Esercizio 7
• pag. 12, Esempio 1
• pag 13, Esercizio 9
• pag. 14, Esercizio 11
• Legge delle probabilità totali. ....e A, B, C sono eventi compatibili....
• pag. 38, Osservazione 11
• Eventi complementari
• pag. 39, Esempio 11
• pag. 39, Esempio 12
• pag. 40, Proposizione 6
• pag. 50, Figura 3.1
• pag. 60, Osservazione 18
• Capitolo 7, Geometrica
• Capitolo 7, Binomiale
• Capitolo 7, Ipergeometrica
ix
x
• Capitolo 7, Poisson
• Soluzione Esercizio 47. .....
2
e−xj
fXj (xj ) = √ ,
π
• Bibliografia
j = 1, 2.
Capitolo 1
Osservazione e Probabilità
Si consiglia di leggere il Capitolo 1 prima dei capitoli che seguono e soprattutto dopo.
1.1
Statistica descrittiva
La statistica è una scienza, una disciplina che ha come scopo lo studio quantitativo
e qualitativo di fenomeni (non deterministici). La statistica descrittiva ha lo scopo di
fornire una fotografia di una situazione o di un particolare fenomeno osservato.
”Una statistica è una funzione dei dati campionari. ”
I dati campionari sono costituiti dalle misurazioni (o osservazioni) fatte sul campione
osservato. Il campione osservato è costituito da unità statistiche che sono state opportunamente selezionate da una popolazione. La popolazione rappresenta l’interesse
principale ed il motivo per il quale si vuole effettuare una analisi statistica. Si vuole
cioè studiare un particolare (o più di uno) fenomeno che coinvolge la popolazione di
interesse. La popolazione oggetto di studio può essere costituita da persone, animali,
batteri, titoli finanziari, insetti, etc., in ogni caso siamo interessati a studiarne le caratteristiche. Non ci preoccupiamo ora di questioni legate al campione (come viene
selezionato, come viene definita la numerosità ottima, etc.), tali argomenti rappresentano parte dei problemi che risolveremo ricorrendo alla statistica inferenziale. Per ora,
diremo che il campione è casuale senza dire in che modo sia regolata tale casualità.
Una volta osservato il campione, avremo una serie di misurazioni (supponiamo che
la caratteristica di interesse ammetta valori numerici, sia quindi di tipo quantitativo1 ).
Indichiamo tali misurazioni con il vettore
x = (x1 , x2 , . . . , xn )
1
(1.1)
Non ci preoccuperemo quasi mai di introdurre variabili di tipo diverso, qualitative ad esempio.
1
2
che è quindi un punto di Rn . Dalla definizione data sopra di statistica, sembra chiaro
che possiamo considerare tutte le funzione con supporto in Rn . Ovviamente, volendo
ricavare delle informazioni (riguardanti la popolazione) dal campione, sembra altrettanto chiaro che le funzioni deputate debbono prima di tutto essere informative. La
prima informazione utile che possiamo ottenere è la media campionaria
n
1X
x¯ =
xi .
n i=1
(1.2)
Vogliamo poi capire quanto i dati si discostano dalla media campionaria. Introduciamo
allora una distanza (Euclidea) dei dati campionari da tale valore che è la varianza
campionaria
n
1X
2
s =
(xi − x¯)2 .
(1.3)
n i=1
La varianza campionaria si può scrivere a partire dai momenti campionari di ordine
r>0
n
1X
(xi )r
(1.4)
mr =
n i=1
dove, per r = 1, si ottiene la media campionaria m1 = x¯. Infatti, s2 = m2 − (m1 )2
(a volte scriveremo mr = x¯r e quindi s2 = x¯2 − (¯
x1 )2 ), il secondo momento meno il
quadrato del primo.
Supponiamo adesso che nel campione osservato x ci siano un certo numero di valori uguali, diciamo ad esempio che k valori su n siano esattamente uguali. In generale,
supponiamo che ki valori sugli n totali siano uguali al generico vi . Allora, si può identificare una distribuzione (successione) di frequenze relative fi = ki /n ricavata dalla
distribuzione di frequenze assolute ki ed i ∈ I dove I è un nuovo insieme di indici la
cui cardinalità |I| è la dimensione del nuovo vettore
v = (v1 , v2 , . . . , v|I| ).
In nuovo vettore è costituito da tutti i valori diversi di x, presi con i loro pesi ki ,
i = 1, 2, . . . , |I| ≤ n. Ovviamente, se |I| = n allora v = x, non ci sono valori uguali.
Seguendo questa impostazione abbiamo
x¯ =
|I|
X
i=1
e
|I|
X
|I|
1X
vi ki
vi fi =
n i=1
|I|
1X
s =
(vi − x¯) fi =
(vi − x¯)2 ki
n i=1
i=1
2
(1.5)
2
(1.6)
Capitolo 1.
Osservazione e Probabilità
3
dove fi e ki sono le frequenze relative e assolute introdotto sopra. Notiamo che tali
frequenze si possono scrivere come vettori, f = (f1 , f2 , . . . , fn ) e k = (k1 , k2 , . . . , kn ).
Esercizio 1. Trovare i vettori v, k, f relativi al campione osservato
x = (2, 2, 3, 4, 2, 4, 3, 2, 5, 1, 1)
e calcolare media e varianza campionarie.
Data una successione finita di valori xk , k = 1, . . . , n si definiscono:
n
1X
xk
n k=1
n
X
xk f k
media aritmetica,
media ponderata,
k=1
n
Pn
n
Y
1
k=1 xk
!1/n
xk
media armonica,
media geometrica,
k=1
n
1X
(xk )p
n k=1
!1/p
media di potenza.
In base al fenomeno oggetto di studio può essere scelta una diversa statistica di
interesse, la media campionaria appena introdotta è solo un esempio. Possiamo essere
interessati a studiare il max{x1 , . . . , xn }, il min{x1 , . . . , xn } oppure altre funzioni dei
dati campionari.
Supponiamo ora che il Rettore della Sapienza ci chieda l’età media degli iscritti
al primo anno delle Facoltà di Ingegneria e supponiamo che tale informazione sia da
comunicare entro 10 ore. Sappiamo che gli iscritti sono circa 10000 e non abbiamo il
tempo di chiedere a tutti gli studenti di comunicare la loro età. La soluzione sembra
essere quella di selezionare un campione molto ridotto di studenti, chiedere l’età e
comunicare la media al Rettore. Diciamo che si sceglie di intervistare 5 studenti, la
cosa è presto fatta, si può reperire l’età di 5 studenti in pochi minuti. Immaginiamo per
comodità che ad ogni studente si possa far corrispondere un numero invece del nome,
ci sono 10000 studenti quindi se X è l’età dello studente, allora Xi è per noi l’età dello
studente i con i = 1, 2, . . . , 10000. All’ingresso della Facoltà di ingegneria trovo i 5
studenti corrispondenti ai numeri
(6, 60, 114, 1002, 8657)
4
registro le loro età e ottengo il campione
x = (X6 = 19, X60 = 20, X114 = 26, X1002 = 18, X8657 = 21).
La prima domanda che mi pongo riguarda l’età media, la calcolo e scopro che è
1
x¯ = (19 + 20 + 26 + 18 + 21).
5
La seconda domanda che mi pongo riguarda la correttezza di tale informazione e mi
chiedo se veramente voglio assumermi la responsabilità di comunicare l’età media
appena trovata al Rettore. Le mie insicurezze riguardano due punti:
D1 n = 5 studenti è un campione rappresentativo o sarebbe meglio considerare
n > 5? Quanti studenti dovrei considerare per ottenere un risultato attendibile,
n =?
D2 se avessi considerato studenti diversi, la media quanto sarebbe cambiata?
In effetti, avrei potuto trovare le età relative ai campioni
(X62 , X69 , X124 , X1402 , X9239 ),
(X632 , X1989 , X2014 , X4201 , X9719 )
oppure, in generale
(Xi1 , Xi2 , Xi3 , Xi4 , Xi5 ).
(1.7)
La scelta degli studenti da intervistare è del tutto casuale, dipende dagli studenti che
trovo in quel momento, in quel posto. In particolare
D3 quanti gruppi diversi di 5 studenti potevo trovare? (che equivale a dire, quante
medie diverse potevo calcolare?)
1.2
Probabilità
Per introdurre il concetto di probabilità cerchiamo di impostare il problema visto sopra
da un punto di vista più matematico.
Si capisce bene che l’età di una persona può essere considerata come una variabile
in un dato problema, in particolare è una variabile quantitativa discreta. Nel nostro
caso, dobbiamo aggiungere che si tratta di una variabile aleatoria, non sappiamo cioè
quanto vale fino a quando non osserviamo (fino a quando non si realizza la variabile
aleatoria). Dobbiamo quindi distinguere tra variabile deterministica e variabile aleatoria. Diciamo che una variabile è deterministica se ”possiamo prevedere il suo valore in
Capitolo 1.
Osservazione e Probabilità
5
un certo momento” mentre una variabile è aleatoria se non abbiamo nessun controllo
sui valori che assume, se cioè ”siamo in grado di prevedere il suo valore in un certo
momento solo con una certa probabilità”.
Se lancio un dado, non possiamo semplicemente dire
”esce 4”
ma possiamo dire
P (”esce 4”) =
1
6
cioè la probabilità dell’evento ”lancio il dado ed esce 4” è pari a 1/6. Formalizziamo dicendo che la variabile aleatoria X =”lancio il dado” ha un insieme limitato di
realizzazioni che sono ovviamente Ω = {1, 2, 3, 4, 5, 6}, allora si vede subito che
P (X = x) =
1
6
per ogni faccia x ∈ Ω. Si poteva quindi scrivere
P (X = 4) = P (”esce 4”) = P (”lancio il dado ed esce 4”).
Notiamo che
P (X ∈ Ω) = P (”lancio il dado ed esce una faccia”) = 1
e gli eventi di probabilità pari a 1 si dicono eventi certi. Analogamente chiameremo
eventi impossibili quegli eventi con probabilità pari a 0. Ci riferiremo agli eventi rari
quando le loro probabilità sono prossime a 0.
In generale, ci possiamo riferire ad un fenomeno oggetto di studio come ad una
variabile aleatoria X, non conosciamo il valore di X fino a quando X non si realizza,
cioè fino a quando non osserviamo. Chiamiamo x la realizzazione della variabile aleatoria X. Quindi x è la nostra osservazione, nel caso del lancio del dado, x è una faccia
di Ω = {1, 2, 3, 4, 5, 6}. Le probabilità che ci interessano saranno allora
P (X = x),
P (X ≤ x),
P (X < x),
P (X ≥ x),
P (X > x) (1.8)
oppure, se x1 ≤ x2 ,
P (x1 ≤ X ≤ x2 ).
Si noti che se x1 , x2 ∈ R, la (1.8) continua ad avere senso.
La variabile aleatoria sarà scelta in base al fenomeno che vogliamo studiare, alcuni
esempi possono essere puramente didattici:
6
i) X =”lancio il dado”;
ii) X =”estraggo una pallina da un urna”;
iii) X =”estraggo k palline con ripetizione”;
iv) X =”estraggo k palline in blocco”;
altri possono rappresentare delle semplificazioni di modelli molto più complicati e
utilizzati nella vita reale:
i) X =”altezza”;
ii) X =”pressione sistolica”;
iii) X =”livello di reddito”;
iv) X =”numero di sinistri”;
v) X =”misurazioni relative alla radiazione cosmica di fondo”;
vi) X =”precipitazioni in una regione”;
vii) X =”concentrazione di un inquinante"’.
Se Xi =”età della persona i” come nell’esempio sopra, allora possiamo formalizzare come segue. Chiamiamo X ∈ Nn con n = 5 il vettore (1.7). Cioè, ogni elemento
di X è un numero naturale. La media campionaria è una quantità deterministica una
volta che X si è realizzato, prima che si realizzi X, anche la media aritmetica degli
elementi di X è aleatoria, cioè
5
X
1X
¯=1
X
Xi j =
Xj
5 j=1
5 j∈c
5
dove si è usato il fatto che c5 è un insieme di 5 etichette rappresentanti gli studenti
intervistati. Volendo generalizzare ad n qualunque, scriviamo la variabile aleatoria
media campionaria,
X
¯n = 1
Xj
(1.9)
X
n j∈c
n
e cn è un insieme di etichette che rappresenta un gruppo di n studenti. Quindi dicia¯ n è la variabile aleatoria ”età media campionaria”. A questo punto potrei
mo che X
chiedermi
D4 quanti gruppi diversi di n studenti posso trovare? Cioè quanti insiemi diversi cn
di etichette posso costruire?
Capitolo 1.
Osservazione e Probabilità
7
Spazi di Probabilità uniformi (prime considerazioni)
Non definiamo qui uno spazio di probabilità ma ci limitiamo a dire che esso è caratterizzato da due oggetti:
i) un insieme Ω detto insieme degli eventi (elementari);
ii) la probabilità P che possiamo immaginare come una funzione del tipo P : ω →
[0, 1] con ω ∈ Ω.
Diremo che uno spazio di probabilità è uniforme se gli eventi ω di Ω sono equiprobabili. Si pensi al lancio di un dado: Ω = {1, 2, 3, 4, 5, 6} e P (ω) = 1/6 per ogni ω ∈ Ω.
Potremmo anche considerare un urna contenente n palline numerate da 1 a n. Allora,
Ω = {1, 2, . . . , n} e P (estrarre la pallina numero x) = P (ω) = 1/n per ogni ω ∈ Ω
(cioè per ogni x = 1, 2, . . . . , n).
Notiamo subito che Ω è detto insieme degli eventi elementari perché non contiene
tutti gli eventi ai quali posso essere interessato. Continuiamo a riferirci al lancio del
dado, le probabilità degli eventi elementari come abbiamo già osservato sono costanti
e tutte uguali a 1/6. Potrei chiedermi allora con quale probabilità:
1. esce una faccia con un numero minore di 4 (esce un numero < 4);
2. esce una faccia con un numero minore o uguale a 4 (esce un numero ≤ 4);
cioè del tipo (1.8). Quando si considerano spazi di probabilità uniformi si può utilizzare l’impostazione classica delle probabilità secondo la quale, la probabilità di un
evento A si può trovare dal rapporto tra casi favorevoli e casi possibili,
P (A) =
numero di casi f avorevoli ad A
.
numero di casi possibili
(1.10)
Ad esempio, nel lancio di un dado:
• P (esce un numero pari) = 3/6;
• P (esce un numero < 3) = 2/6;
• P (esce un numero ≤ 4) = 4/6.
Esercizio 2. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono,
con reimbussolamento (o con ripetizione), due palline a caso. Calcolare le seguenti
probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
8
3. P (estrarre due palline nere);
4. P (avere estratto una pallina rossa se so che una è nera).
Esercizio 3. Da un urna contenente 5 palline rosse e 5 palline nere, si estraggono, senza reimbussolamento (o senza ripetizione), due palline a caso. Calcolare le
seguenti probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere).
Esercizio 4. Da un urna contenente 4 palline rosse e 6 palline nere, si estraggono,
senza reimbussolamento, due palline a caso. Calcolare le seguenti probabilità:
1. P (estrarre una pallina rossa e una nera);
2. P (estrarre due palline rosse);
3. P (estrarre due palline nere).
Esercizio 5. Da un mazzo di carte da poker (52 carte) si distribuiscono 5 carte prese
a caso. Calcolare:
1. P (asso di picche tra le 5);
2. P (un asso tra le 5);
3. P (asso di picche, 2 di quadri, 7 di cuori, 2 di f iori, 8 di cuori).
Esercizio 6. Un gruppo di n maschi e m femmine partono per le vacanze. Decidono di
trovarsi in stazione la mattina del giorno dopo alle 5:30 e attendere che la biglietteria
apra. Quando arrivano in stazione non c’è nessuno, si mettono in fila in ordine di
arrivo. Volendo parlare durante l’attesa, si chiedono con quale probabilità i maschi
saranno tutti vicini e di conseguenza anche le femmine?
Prima di rispondere agli esercizi proposti, introduciamo il calcolo combinatorio
che risulta essere un strumento molto potente nel calcolo di probabilità su spazi uniformi. In particolare, si considera l’impostazione classica della probabilità, bisogna
distinguere tra casi possibili (la totalità degli eventi che possiamo registrare) e casi favorevoli (i soli eventi relativi alla probabilità di interesse, i casi che contribuiscono al
verificarsi dell’evento per cui vogliamo calcolare la probabilità).
Nel calcolo combinatorio si studiano le diverse regole secondo le quali insiemi di
elementi sono considerati diversi. Tali regole definiscono delle famiglie di insiemi,
al loro interno tutti gli insiemi rispettano le stesse regole, su numerosità e ordine ad
esempio. Approfondiremo questi aspetti in seguito.
Capitolo 1.
Osservazione e Probabilità
9
Definizione 1. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordine (ordinati)
formano l’insieme P n delle permutazioni semplici degli n elementi di U . Inoltre,
|P n | = n!.
Definizione 2. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che non differiscono per ordine (non ordinati)
formano l’insieme Cn,k delle combinazioni semplici degli n elementi di U in classi di k.
Inoltre,
n
n!
.
|Cn,k | =
=
(n − k)!k!
k
Sia U = {a, b, c}, allora
P 3 = {abc, acb, bac, bca, cab, cba},
C3,1 ={a, b, c},
C3,2 ={ab, ac, bc},
C3,3 ={abc}.
Cerchiamo ora di rispondere alla D4 e quindi anche alla D3. Nel calcolare la media
campionaria non importa in quale ordine osservo le stesse n persone, posso quindi
considerare cn una combinazione semplice di 10000 indici in classi di n e può essere
scelto in |C10000,n | modi diversi. Inoltre,
−1
1
10000!
.
P (cn ) = 10000 =
(10000 − n)! n!
n
Supponiamo ora che dal campione relativo a cn si sia ottenuta l’età media x¯ = 20.
Dobbiamo notare che
¯ n = 20) 6= P (cn )
P (X
infatti ci possono essere diversi campioni con la stessa media campionaria (la media
delle età di Maria e Alberto può essere uguale alla media delle età di Marta e Simone).
¯ n è quindi ancora aperto, non
Il problema di determinare la legge distributiva di X
sappiamo cioè scrivere
¯ n = x)
P (X
per ogni x.
(1.11)
10
Svolgimento Esercizio 2. Le palline estratte vengono inserite nuovamente nell’urna e quindi ad ogni estrazione la situazione è esattamente la stessa. Indichiamo con
N =”estraggo pallina nera” e R =”estraggo pallina rossa”. Gli eventi di interesse
sono RN oppure N R (sono i casi favorevoli). I casi possibili sono
RR, RN, N R, N N.
La situazione iniziale prevede che (eventi di probabilità uniformi)
5
5
e P (N ) = .
10
10
Alla seconda estrazione non cambia nulla perché ogni volta inseriamo di nuovo la
pallina nell’urna. Si ottiene:
P (R) =
1. P (RN oppure N R) = 2/4;
2. P (RR) = 1/4;
3. P (N N ) = 1/4;
4. P (R|N ) =?.
Nei primi tre punti si è utilizzata la (1.10) mentre nell’ultimo punto si è introdotta
la probabilità condizionata solo per sottolineare l’esistenza di un problema diverso.
Affronteremo il condizionamento in seguito.
Svolgimento Esercizio 3. Dobbiamo considerare un urna con 10 palline dalla quale
si estrae una pallina alla volta, senza reimbussolamento. Dopo la prima estrazione
la situazione cambia e di conseguenza anche le probabilità di estrarre palline rosse o
nere. Alla seconda estrazione, P (R) e P (N ) dipenderanno da quale pallina ho estratto
la prima volta. Devo quindi introdurre gli eventi
Ri = ”R alla estrazione i-esima”
e
Ni = ”N alla estrazione i-esima”
e calcolare P (R1 N2 ) = P (N2 |R1 )P (R1 ). Inoltre, in questo caso P (R1 N2 ) = P (R2 N1 ),
perché? Daremo la soluzione di questo esercizio in seguito.
Svolgimento Esercizio 4. Anche questo esercizio ha il solo scopo di sottolineare alcuni aspetti importanti, daremo la soluzione in seguito. Siamo però in grado di fornire
una spiegazione del fatto che P (R1 N2 ) 6= P (R2 N1 ) contrariamente a quanto accadeva
nel precedente esercizio. Perché?
Capitolo 1.
Osservazione e Probabilità
11
Svolgimento Esercizio 5.
Svolgimento Esercizio 6. Pensiamo ad una sequenza di numeri, da 1 a n + m. Ad
ogni amico associamo un numero. I casi favorevoli sono dati da tutti i modi in cui
posso ordinare i primi n numeri (i maschi) e tutti i modi in cui posso ordinare i numeri
da n+1 a m (le femmine), si ottiene rispettivamente P n e P m . Quindi i casi favorevoli
sono n!m! mentre i casi possibili sono dati da tutti i modi in cui posso ordinare gli n+m
numeri (amici). In definitiva, applicando l’impostazione classica della probabilità, la
P (i maschi saranno tutti vicini e di conseguenza anche le femmine)
si ottiene considerando l’ordine di arrivo e calcolando
P (due gruppi distinti) =
n!m!
.
(n + m)!
Si noti che P (due gruppi distinti) = |Cn+m,m |−1 = |Cn+m,n |−1 .
Esercizio 7. (Regola del ”ne fisso uno”) Si distribuiscono a caso 5 carte da un mazzo
di 52. Calcolare le probabilità relative agli eventi:
1. ottengo una coppia,
2. ottengo due coppie,
3. ottengo un poker,
4. ottengo un poker di assi,
5. ottengo colore.
Svolgimento Esercizio 7. Si può rispondere a tutti i punti considerando un solo caso
alla volta, vediamo come. Ricordiamo che le 52 carte sono divise in 13 carte per 4
semi. Consideriamo le 13 carte in corrispondenza con i primi 13 numeri (al numero 1
corrisponde un asso, etc.).
1. Per ottenere una coppia devo avere due carte dello stesso numero. Mi devo
chiedere quante coppie posso ottenere? Notiamo che l’evento di interesse non è
”ottengo almeno una coppia”. Fissiamo un numero, ad esempio uno (che equivale a dire, asso). Quante coppie posso formare con 4 uno? Sono |C4,2 |. Quindi,
la probabilità di ottenere una coppia di uno (di assi) si ottiene considerando i
casi possibili |C52,5 | e i casi favorevoli dati da una coppia tra quelle possibili e le
restanti 3 carte prese a caso. In quanti modi posso scegliere le restanti 3 carte?
12
In |C50,3 | modi di cui solo |C48,3 | mi interessano? No! Se voglio una coppia, devo
considerare
13 4 12 4 4 4
13 4 12 48
1
2
3
1
52
5
1
1
6=
1
2
3
3
52
5
per via delle ripetizioni possibili nelle tre carte rimanenti
2. posso scegliere 2 numeri su 13 in |C13,2 |. Ne fisso due e per ognuno considero
le coppie possibili, poi moltiplico per il numero di combinazioni di classe uno
possibili per le restanti carte,
13 4 4 44
13 4 4 11 4
2
2
2
1
52
5
o anche
2
2
2
1
52
5
1
3. posso fare un poker con ognuno dei 13 numeri. Ne fisso uno e poi moltiplico per
13 e per le combinazioni relative alla quinta carta,
13 4 48
13 4 12 4
1
4
1
52
5
o anche
1
4
1
1
52
5
4. per fare un poker di assi, devo considerare solo gli assi, quindi
4 48
4 12 4
4
1
52
5
o anche
4
1
1
52
5
5. si ottiene un colore con 5 carte dello stesso seme. Allora fisso un seme e ottengo
4 13
1
5
52
5
Esempio 1. Nel lancio di due dadi si deve considerare uno spazio degli eventi elementari dato da
Ω = {ωi,j = (i, j) : 1 ≤ i, j ≤ 6}
cioè gli elementi ai,j = (i, j) di una matrice 6 × 6. La probabilità di ottenere una
sola coppia è costante (spazio uniforme) ed è pari a 1/36 e 36 sono gli elementi della
matrice. Si deve osservare che P (ottenere (1, 2)) = P (ottenere (2, 1)) = 1/36 mentre
P (ottenere entrambi i numeri 1 e 2) =
2
1
1
=
+
36
36 36
Capitolo 1.
Osservazione e Probabilità
13
che introduce il concetto di eventi incompatibili (insiemi disgiunti) ed il fatto che
P (A ∪ B) = P (A) + P (B) se A ∩ B = ∅. Inoltre, si vede subito che
P (ottenere (1, 2)) =
1 1
1
= · = P (ottenere 1) · P (ottenere 2)
36
6 6
che introduce il concetto di indipendenza (eventi indipendenti e compatibili) ed il fatto
che P (A ∩ B) = P (A) · P (B). Lanciare due dadi può essere visto come lanciare due
volte un solo dado.
Esercizio 8. (Regola del ”procedo per iterazioni successive”) Due amici arrivano al
cancello chiuso di un palazzo e solo Mario (il custode) conosce la chiave del mazzo
che apre il cancello. Appena arrivati Mario deve rispondere al telefono e lascia il
mazzo di n chiavi all’amico Matteo chiedendogli di aprire. Matteo non sapendo quale
sia la chiave giusta, le prova tutte una ad una togliendo ogni volta dal mazzo la chiave
che non apre. Con quale probabilità Matteo proverà k chiavi?
Svolgimento Esercizio 8. Si considerino gli eventi G =”chiave giusta” e S =”chiave
sbagliata”. Allora
P (G al tentativo numero 1) =P (G) =
1
n
n−1 1
n n−1
n−1n−2 1
P (G al tentativo numero 3) =P (S)P (S)P (G) =
n n−1n−2
....
..
P (G al tentativo numero 2) =P (S)P (G) =
P (G al tentativo numero k) =P (S)P (S) · · · P (S)P (G) =
1
n
per ogni k ≤ n.
Bisogna notare che si è usato il fatto che G ⊥ S (gli eventi G e S sono indipendenti).
Questo aspetto risulterà chiaro in seguito. Notiamo inoltre che S = Gc e quindi
P (G) + P (S) = P (Ω) = 1
Esercizio 9. Una segretaria riceve 4 buste dove scrive i rispettivi indirizzi e 4 lettere
da inserire nelle buste. Risponde al telefono e dimentica quale lettera va associata
a quale indirizzo, decide di provare a caso. Calcolare la probabilità che 3 lettere
vengano inserite nelle buste giuste e quindi spedite al giusto indirizzo.
14
Svolgimento Esercizio 9. Se 3 lettere sono messe nella busta corretta allora anche
la quarta verrà spedita al giusto indirizzo. Se chiamo le buste A, B, C, B e le lettere
a, b, c, d, per mettere le lettere nelle buste giuste devo aver ordinato le buste e le lettere
allo stesso modo. Quindi, la probabilità cercata è 1/4!.
Esercizio 10. Mario è addetto al controllo qualità in una azienda che produce lampadine. Da precedenti controlli si sa che il 5% delle lampadine prodotte sono difettose.
1. Con quale probabilità Mario troverà una lampadina difettosa durante il controllo?
2. Le lampadine vengono confezionate in scatole da 5 ogni 100 lampadine prodotte
e poi vengono imballate e sistemate in bancali da 20 scatole. Con quale probabilità Mario troverà una lampadina difettosa in una scatola da 5? Con quale
probabilità ne trova due difettose in una scatola da 5? Se controlla tutto il bancale da 20 scatole, con quale probabilità troverà una scatola con almeno una
lampadina difettosa? Infine, con quale probabilità troverà più di 5 lampadine
difettose nelle 20 confezioni di un bancale?
3. Nei precedenti controlli, come si è arrivati a dire che il 5% delle lampadine sono
difettose? Possiamo ancora considerarla un informazione attendibile?
Esercizio 11. Una ditta produce due componenti a e b che risultano difettosi rispettivamente per il 3% e 4%. La produzione avviene in reparti diversi e quindi in maniere
indipendente. I due componenti vengono poi assemblati e si ottiene il prodotto finale.
Calcolare la probabilità che
1. il prodotto finale presenti entrambi i difetti,
2. il prodotto finale sia difettoso (almeno un componente difettoso),
3. sia difettoso a sapendo che il prodotto finale è difettoso,
4. sia difettoso b sapendo che il prodotto finale è difettoso.
1.3
Statistica inferenziale
Vogliamo inferire su un particolare parametro della popolazione. Nei problemi a cui
vogliamo trovare risposta disporremo di alcune informazioni, ad esempio un campione e vogliamo caratterizzare la popolazione, ad esempio trovando un valore che ben
rappresenta un parametro (o i parametri) di tale popolazione. Tale valore è proprio una
stima del parametro. Si deve però definire il concetto di stima, per ora diciamo che
possiamo disporre dei seguenti concetti legati alla stima, supponiamo che il parametro
di interesse sia unidimensionale:
Capitolo 1.
Osservazione e Probabilità
15
• stima puntuale, vogliamo trovare un valore che rappresenti il valore vero (un
numero);
• stima intervallare, vogliamo trovare un insieme di valori che contenga con elevata probabilità il valore vero (un intervallo),
• test di ipotesi, vogliamo verificare delle ipotesi sulle stime ottenute (ad esempio
se possiamo considerarle attendibili/affidabili).
Tratteremo tecniche della statistica inferenziale mirate a risolvere problemi come
quelli di seguito elencati.
Esercizio 12. Per una particolare marca di abbigliamento, si poteva assumere che il
prezzo di vendita di un capo negli passati seguiva una legge normale di media µ =
66 euro (cioè il prezzo in Italia del capo variava attorno a 66 euro seguendo una
distribuzione normale). Vengono considerati 10 negozi (presi a caso in tutta Italia) tra
i 1000 che trattano il capo in questione e si rileva, per ognuno, il prezzo di vendita di
quest’anno. Il vettore delle osservazioni è dato da
x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62).
Si vuole capire se ci sono state variazioni in termini di prezzo medio.
1. Calcolare una stima del prezzo medio di quest’anno.
2. Calcolare un intervallo che con probabilità pari al 95% contenga il prezzo
medio italiano vero (cioè di tutti i 1000 negozi).
Dal campione emerge che il prezzo medio campionario è inferiore a quello degli anni
passati.
3. Stabilire se si può sostenere che il prezzo sia cambiato (test di ipotesi) e con
quale probabilità (fiducia).
Esercizio 13. Un pescatore vorrebbe sapere, in un particolare tratto di fiume, quanto
tempo deve aspettare in media l’arrivo di un pesce (che forse abboccherà). Sa che
un modello utile nello studio del numero di arrivi è basato sulla variabile di Poisson
di parametro λ e si chiede se è veramente così, cioè se i pesci arrivano veramente
seguendo una legge di Poisson. Inoltre, se così fosse, vorrebbe sapere quanto vale λ
in modo da capire quanti pesci aspettarsi in un intervallo di tempo. Osserva in 60
minuti quanti pesce attraversano il tratto di fiume al minuto e registra le osservazioni
riportate nella Tabella 1.1.
1. Verificare se tale campione è rappresentativo e se i dubbi del pescatore sul
modello sono fondati (si può usare il modello di Poisson?).
16
numero di transiti in un minuto frequenza
0
1
2
3
4
5
12
14
21
12
4
5
3
1
Tabella 1.1: Transiti dei pesci in 60 minuti
2. Calcolare un intervallo per il tempo medio di attesa (arrivo di un pesce) che
sia valido con una probabilità del 95% (che sia al 95% il tempo medio vero che
bisogna attendere per l’arrivo di un pesce).
Svolgimento Esercizio 13
1.4
Probabilità e Applicazioni
La statistica inferenziale è una delle molte applicazione della probabilità. Sono collegate alla statistica inferenziale anche problemi di stima per processi aleatori che sono
oggetti più complessi e prevedono, tra le altre cose, una diversa struttura di dipendenza tra le osservazioni. I processi aleatori possono rappresentare fenomeni evolutivi e
quindi dipendono dal tempo. Tali processi rappresentano fenomeni fisici, biologici,
finanziari e si possono associare a moti aleatori (di particelle o titoli ad esempio) che
seguono delle leggi governate da equazioni differenziali.
Supponiamo che Google voglia estrapolare delle informazioni dalle sue ricche basi
di dati. Le informazioni vengono immagazzinate in matrici di dati (matrici di Rn×m )
e supponiamo che sia importante, per il caso di interesse, trovare i determinanti di
tali matrici. La potenza di calcolo delle macchine di Google consente di trovare il
determinante di una matrice in due giorni ma gli Ingegneri di Google conoscono un
metodo più veloce. Le matrici sono di dimensione n×m con n, m grandissimi, troppo.
Consideriamone una, ad esempio la matrice A. Allora, si scelgono due numeri n0 e
m0 molto minori di n e m rispettivamente e si decide di calcolare il determinante della
sotto-matrice di dimensioni n0 e m0 , ad esempio A0 . Il calcolo del determinate diventa
un operazione che impegna le macchine Google solo pochi minuti ma il problema
diventa:
Capitolo 1.
Osservazione e Probabilità
17
Figura 1.1: ...provate con I’m feeling lucky.
”esiste una scelta ottima degli elementi di A in modo da costruire la sotto-matrice
A tale per cui P (det(A) = det(A0 )) = max?”.
Ovviamente se tale probabilità fosse sufficientemente alta, diciamo non minore del
95%, allora Google risparmierebbe molto tempo e denaro!
0
Sempre Google, come può minimizzare il tempo di ricerca? I vari server in cui
si può trovare ciò che si cerca sono collegati da una fitta rete (il web) che possiamo
immaginare come una vera e propria rete costituita da archi (collegamenti tra due server). Consideriamo un grafo aleatorio (random graph), cioè una successione di archi (e
quindi una successione di server). Ho scelto a caso gli archi e ho stabilito un percorso
tra i server in cui cercare ..... ” I am feeling lucky"!! La cosa ha successo se organizzo
un algoritmo di scelta per gli archi tale per cui
P ( scelta giusta ) = max.
18
Capitolo 2
Misura e Probabilità
Z
?
f (x)dx 6=
2.1
Z
?
Z
f (x)dµ(x) =
f (x)µ(dx)
Insiemi
Operazioni, funzioni, cardinalità
Sia A un insieme (ad esempio, N, Z, R, . . . ). Denotiamo con P(A) l’insieme dei sottoinsiemi di A. P(A) può essere considerato come un insieme di famiglie di insiemi.
Possiamo cioè considerare famiglie di insiemi di P(A), ogni famiglia è costituita da
insiemi di P(A) che condividono una certa caratteristica, la caratteristica della famiglia1 . Sia E¯ il complementare di un insieme E. Scriveremo anche E c per indicare il
complementare di E.
Proposizione 1. (Formule di Boole o di De Morgan) Dati due insiemi A e B di P(A),
si ha che A ∪ B = Ac ∩ B c e (duale) A ∩ B = Ac ∪ B c .
Sia A un insieme di P(A). Si noti che
¯
A = (A ∩ B) ∪ (A ∩ B)
per ogni scelta di B in P(A).
Definizione 3. Una successione Ek ⊆ P(A) si dice
• monotona non decrescente se Ek ⊆ Ek+1 per ogni k ∈ N,
1
Si pensi ad A = N, i numeri interi positivi. Possiamo considerare un insieme di numeri pari, un
insieme di numeri inferiori ad N fissato etc.. Si possono costruire famiglie più o meno complesse, più
o meno grandi.
19
20
• monotona non crescente se Ek+1 ⊆ Ek per ogni k ∈ N.
Definizione 4. Data una successione Ek ⊆ P(A):
• si dice limite superiore2 di Ek l’insieme
lim sup Ek = lim Ek =
k
∞ [
∞
\
Ek .
i=1 k=i
• si dice limite inferiore3 di Ek l’insieme
lim inf Ek = lim Ek =
k
∞ \
∞
[
Ek .
i=1 k=i
Osservazione 1. Se Ek è una successione monotona di insiemi di P(A), allora
[
Ek se la successione è crescente,
lim Ek =
k
lim Ek =
k
k∈N
\
Ek
se la successione è decrescente.
k∈N
Definizione 5. Sia E ⊆ A. La funzione 1E : A 7→ {0, 1} così definita
1 se x ∈ E
1E (x) =
,
x∈A
0 altrimenti
(2.1)
è detta funzione caratteristica4 o indicatrice dell’insieme E (anche scritta χE ). La
funzione caratteristica 1[0,∞) è detta funzione di Haeviside e viene denotata con il
simbolo H, cioè H(x) = 1[0,∞) (x).
Osservazione 2. La funzione caratteristica 1Q∩[0,1] è detta funzione di Dirichlet.
2
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite superiore come segue
lim sup ak = inf sup ak .
k
3
n∈N k≥n
Sia ak , k = 1, 2, . . . una successione di numeri reali, si definisce il limite inferiore come segue
lim inf ak = sup inf ak .
k
4
n∈N k≥n
Con il temine caratteristica preferiamo indicare una trasformata di densità che verrà introdotta in
seguito. Chiameremo quindi 1 funzione indicatrice.
Capitolo 2.
Misura e Probabilità
21
Definiamo la cardinalità di un insieme. Nel definire la cardinalità è importante
definire il concetto di insiemi equipotenti, due insiemi A e B sono detti equipotenti se
esiste una applicazione biunivoca f : A 7→ B, ad esempio i 7→ ki , che associa ad ogni
i ∈ I ⊂ N un elemento ki , definendo così l’insieme {ki }i∈I ∈ KI . Possiamo da I
risalire ad un elemento preciso di KI e viceversa. Diamo allora la seguente
Definizione 6. (Cardinalità) Si dice cardinalità dell’insieme A (denotata con |A|) la
famiglia degli insiemi equipotenti ad A:
|A| = {B|∃f : A 7→ B, f biunivoca}.
Segue ovviamente che |A| = |B| se A e B sono equipotenti inoltre se l’applicazione
f è del tipo f : I 7→ KI , biunivoca, segue spontaneamente l’idempotenza con un
insieme C ⊆ N, in particolare diciamo che un insieme A è numerabile se |A| ≤ |N|.
Diciamo che un insieme A è infinito se esiste un sottoinsieme proprio B ⊆ A, B 6= A
tale che |A| = |B| mentre è finito un insieme che non risulti infinito. Tutti gli insiemi
finiti sono numerabili, è facile pensare nel caso f : I 7→ KI che esista un unico n ∈ N
per cui |A| = |{1, 2, . . . , n}| e scriveremo |A| = n, abbiamo ottenuto quindi che un
insieme A è finito se e solo se vale |A| ≤ |N| quindi se è numerabile5 . Si dice invece
che un insieme ha la potenza del continuo se risulta |A| = |R|.
Definizione 7. (Insieme numerabile) Un insieme A è detto numerabile se esiste una
funzione iniettiva f : A 7→ N . Se f è anche una funzione suriettiva (quindi è
biunivoca), allora A è chiamato insieme infinito numerabile.
Si noti che |{a, b, f, 3, h}| = 5.
Famiglie
Sia A un insieme, P(A) la famiglia dei sottoinsiemi di A.
Definizione 8. (Algebre) Una famiglia A ⊆ P(A) è detta algebra su A se
1. {∅} ∈ A;
2. E ∈ A ⇒ E¯ ∈ A;
3. E, F ∈ A ⇒ E ∪ F ∈ A
5
Vale la pena di notare che l’insieme dei razionali Q = {p/q|p ∈ Z, q ∈ N} è numerabile mentre
non lo è l’insieme [0, 1]
22
Quindi ogni algebra è stabile rispetto alla unione finita (o numerabile), nel senso
che l’operazione di unione su insiemi di A porta ad un insieme di A, inoltre è numerabile visto che a due a due possono formarsi le unioni di tutti gli elementi di A. Ogni
famiglia non vuota A ⊆ P(A) stabile per il passaggio al complementare e per unione
finita contiene l’insieme vuoto {∅} e quindi è un’algebra.
Definizione 9. (σ-algebre) Una famiglia A ⊆ P(A) è detta σ-algebra su A se
1. {∅} ∈ A;
2. E ∈ A ⇒ E¯ ∈ A;
3. per ogni successione {Ek } ⊆ A risulta
∞
[
Ek ∈ A.
k=1
La coppia (A, A) è detta spazio misurabile e gli elementi di A sono insiemi misurabili.
Si noti che una σ-algebra è un’algebra stabile per unioni numerabili ed inoltre vale
la seguente relazione tra algebra e σ-algebra.
Proposizione 2. Sia A un’algebra. Le affermazioni seguenti sono equivalenti:
1. A è una σ-algebra;
2. per ogni {En } ⊆ A risulta lim En ∈ A.
Definizione 10. Sia (A, A) uno spazio misurabile ed F ⊂ A. La σ-algebra AF =
A ∩ F è detta σ-algebra indotta da A su F .
2.2
Misure positive e di Lebesgue
Sia A un insieme, A0 ⊆ P(A) una famiglia tale che {∅} ∈ A0 .
Definizione 11. Una applicazione µ : A0 7→ R+ è detta misura positiva (o misura) su
A0 se
1. µ({∅}) = 0;
Capitolo 2.
Misura e Probabilità
23
2. (σ-additività) per ogni successione {Ek ⊆ A0 } di insiemi disgiunti tali che
∞
[
Ek ∈ A0
k=1
risulta
µ
∞
[
!
Ek
k=1
=
∞
X
µ(Ek ).
k=1
Osservazione 3. Osserviamo che se A ∈ A implica che A¯ ∈ A, allora A0 = A è una
σ-algebra.
Definizione 12. Una misura µ si dice finita se prende valori in R+ . Si dice σ-finita se
esiste una successione {Ek } ⊆ A0 tale che
A=
∞
[
Ek ,
µ(Ek ) < ∞
∀k ∈ N.
k=1
Osservazione 4. Supponiamo che µ(Ek ) = 1/2k . Allora (si veda sotto, la serie
geometrica)
µ(A) =
∞
X
k=1
µ(Ek ) =
∞
∞
X
X
1
1
1
=
−
1
=
− 1 = 1.
k
k
2
2
1
−
1/2
k=0
k=1
Definizione 13. Sia A ⊆ P(A) una σ-algebra, µ : A 7→ R+ una misura.
• La terna (A, A, µ) è detta spazio di misura. Se µ è finita (σ-finita) lo spazio di
misura è detto finito (σ-finito).
• Se µ(A) = 1 lo spazio (A, A, µ) è detto spazio di probabilità e la misura µ è
detta misura di probabilità.
Diamo ora alcune proprietà delle misure:
Proposizione 3. Sia (A, A, µ) uno spazio di misura. Allora:
1. monotonia: E ⊆ F ⇒ µ(E) ≤ µ(F );
S
P
2. additività: µ ( nk=1 Ek ) = nk=1 µ(Ek );
S
P∞
3. subadditività: ∀ {Ek } ⊆ A ⇒ µ ( ∞
k=1 Ek ) <
k=1 µ(Ek );
4. perSogni successione non decrescente {Ek } ⊆ A vale
µ( ∞
k=1 Ek ) = limk→∞ µ(Ek );
24
5. perTogni successione non crescente {Ek } ⊆ A tale che µ(E1 ) < ∞ vale
µ( ∞
k=1 Ek ) = limk→∞ µ(Ek )
Proposizione 4. (Misura di Lebesgue) Valgono le seguenti:
1. ogni intervallo limitato Ia,b = (a, b) è misurabile secondo Lebesgue e risulta
µ(Ia,b ) = b − a,
2. ogni intervallo non limitato I è misurabile secondo Lebesgue e risulta
µ(I) = ∞.
Osservazione 5. (Lunghezza di un intervallo) Si consideri la misura di Lebesgue µ,
allora dµ = µ(dx) = dx e
Z
Z
µ(dx) = b − a.
(2.2)
dµ =
µ(Ia,b ) =
Ia,b
Ia,b
Esercizio 14. Sia Q il quadrato {(0, 0), (1, 0), (1, 1), (0, 1)}. Calcolare:
1. misura di Lebesgue µ(Q) di Q,
2. area di Q.
Definire un rettangolo R e calcolare:
1. misura di Lebesgue µ(R) di R,
2. area di R.
Osservazione 6. Notiamo che µ([a, b]) = µ({a} ∪ (a, b) ∪ {b}) = µ((a, b)) visto che
µ({a}) = µ({b}) = 0. Vale infatti quanto sotto riportato.
Proposizione 5. Ogni sottoinsieme numerabile di R è misurabile secondo Lebesgue e
ha misura nulla.
Definizione 14. (Insiemi di misura nulla) Un insieme N ⊆ A si dice di misura nulla
(e scriviamo N ∈ N , dove N è la famiglia degli insiemi di misura nulla) se N ∈ A e
µ(N ) = 0.
Inoltre un insieme E ∈ A si dice trascurabile se esiste un insieme N ∈ N tale che
E ⊆ N.
Capitolo 2.
Misura e Probabilità
25
Osservazione 7. Se µ è ancora la misura di Lebesgue, sappiamo che µ(0, ∞) = ∞.
Se consideriamo una misura diversa, ad esempio dµ = µ(dx) = e−x dx (cioè la misura
esponenziale), si ottiene
Z
Z ∞
e−x dx = 1.
µ(0, ∞) =
dµ =
(0,∞)
0
Esercizio 15. Calcolare µ(−1, ∞) se
1. µ(dx) = 1(−2,2) (x)dx,
2. µ(dx) = x−α−1 1[1,∞) (x)dx, α ∈ (0, 1),
3. µ(dx) = λe−λx 1(0,∞) (x)dx, con λ > 0,
4. µ(dx) = (1 + x2 )−1 1R (x)dx,
√
2
5. µ(dx) = e−x /2 / 2π1R (x)dx.
Definizione 15. (Misura che conta) Sia A un insieme. L’applicazione µ] : P(A) 7→
R+ definita come segue
|E| = numero di elementi di E, se E è finito
]
µ (E) =
∞,
altrimenti
è una misura di conteggio.
Definizione 16. (Misura di Dirac6 ) Sia A un insieme. L’applicazione µδ : R×P(A) 7→
{0, 1} relativa ad E ∈ P(A) definita come segue
1, x ∈ E
δ
µ (x) =
,
x∈R
0, altrimenti
è una misura di presenza/assenza.
6
Si noti che qui si sta parlando della misura di Dirac e non della delta di Dirac che è una funzione
generalizzata indicata con δy (x) = δ(x − y) indicando così che è una funzione di x centrata in y, spesso
y = 0 e si dice centrata
in zero. La funzione di Dirac vale zero in tutti i punti x 6= y, vale ∞ in x = y
R
ed è tale per cui B δ(x − y)dx = 1 se y ∈ B con B ⊆ R. Inoltre, in generale
Z
δ(x − y)f (y)dy = f (x), (prima si è considerata f = 1B ).
R
26
Quindi fissato E ∈ P(A), si ha µδ : x ∈ R 7→ {0, 1}. Si poteva scrivere µδE (x)
oppure µδ (x, E), preferiamo non mantenere il riferimento ad E per non appesantire la
notazione, nel seguito sarà sempre chiaro a quale E ci riferiamo. Notiamo anche che
µδ (x, E) = 1E (x) e
X
dµδ = µδ (dx) = µδ (dx, E) =
δy (x)dx.
y∈E
Si noti che
Z
]
µ (A) =
dµδ ,
A⊂Z
A
se E = Z, cioè se dµδ = µδ (dx, Z).
Osservazione 8. Giusto per fissare bene le idee. Sia E = Z ed A = {−3, −1, 4}.
Allora,
Z
Z
Z
Z
XZ
δ
δk (x)dx =
δ−3 (x)dx + δ−1 (x)dx + δ4 (x)dx = 3.
dµ =
A
k∈A
R
R
R
R
Definizione 17. Sia (A, A, µ) uno spazio di misura ed F ⊂ A. La restrizione di µ alla
σ-algebra indotta AF = A ∩ F è una misura denotata con µF è detta misura indotta
da µ su AF .
Consideriamo uno spazio di misura (A, A, µ) e diamo la seguente caratterizzazione
di ”affermazione valida quasi ovunque”. Notiamo che la famiglia N dipende dalla
misura µ, nel senso che un insieme può essere di misura nulla rispetto ad una misura
ma non rispetto ad un altra scelta opportunamente. Si può allora scrivere Nµ per
sottolineare questo fatto. Inoltre, tala famiglia è chiusa rispetto all’unione numerabile.
Diciamo inoltre che una certa affermazione A[f (x)] su una data funzione f : A 7→
R è vera quasi ovunque (o q.o.) rispetto alla misura µ se
{x ∈ A tali che A[f (x)] è falsa} ∈ Nµ .
Quindi, date due funzioni f : A 7→ [−∞, +∞] e g : A 7→ [−∞, +∞], diremo che
• f è finita q.o. se {x ∈ A : f (x) = ±∞)} ∈ N ,
• f = g q.o. se {x ∈ A : f (x) 6= g(x)} ∈ N ,
• f : D 7→ [−∞, +∞] è definita q.o. se A \ D ∈ N (dove A \ D = Dc è il
complementare di D).
Capitolo 2.
Misura e Probabilità
27
Di esempi come quelli sopra riportati, come vedremo in seguito, se ne possono fare a
piacimento ed il concetto ”affermazione valida q.o.” gioca un ruolo chiave nella teoria
delle probabilità. Sostituiremo infatti la dicitura q.o. con q.c. (quasi certamente) se
µ = P è una misura di probabilità. In particolare, scriveremo
q.o.
f = g
se e solo se µ({x ∈ A : f (x) 6= g(x)}) = 0
(2.3)
ed in maniera analoga negli altri casi (con riferimento alla misura µ, cioè µ-q.o. oppure
P -q.c.). Consideriamo le funzioni
0, x ≤ 0
1, x 6= 0
F (x) =
e f (x) =
.
1, x > 0
0, x = 0
La funzione F è continua q.o. in R rispetto alla misura di Lebesgue. La funzione f
ha un punto di discontinuità e possiamo dire che f = 1R q.o. rispetto alla misura di
Lebesgue dove la funzione indicatrice (o identità) è continua in R. Infatti, in entrambi
i casi µ({x}) = 07 .
2.3
Funzioni misurabili e spazi di Lebesgue
Gli spazi di Lebesgue possono intendersi come una classe di equivalenza per funzioni
misurabili. Indichiamo con M l’insieme delle funzioni misurabili. Ricordiamo che
uno spazio è misurabile se possiamo associare a tale spazio una σ-algebra, allora ogni
insieme di tale spazio è misurabile.
Definizione 18. Siano (X, A) e (X 0 , A0 ) due spazi misurabili. Una funzione f : X 7→
X 0 è detta misurabile se per ogni insieme E 0 ∈ A0 risulta f −1 (E 0 ) ∈ A. Se cioè
f −1 (E 0 ) è misurabile per ogni E 0 ∈ A0 .
Definendo allora X 0 = R ∪ {−∞, ∞} ed α ∈ R possiamo scrivere che se
{f > α} = {x ∈ X|f (x) > α} = f −1 ((α, ∞]) ∈ A
allora f ∈ M. Si potevano anche considerare gli insiemi
{f < α},
{f ≤ α},
{f ≥ α}
e loro intersezioni, unioni, complementari. Si noti il collegamento con (1.8), le variabili aleatorie sono funzioni misurabili. Un esempio di funzione non misurabile rispetto
alla misura µ può essere dato dalla funzione indicatrice f (x) = 1E (x) se E (e quindi
7
Si noti che vale per ogni punto x, non solo in x = 0 come in questo caso.
28
E c ) non è misurabile rispetto a µ. Quindi insiemi non misurabili rispetto ad una certa
misura portano a funzioni non misurabili rispetto a quella misura8 .
Esercizio 16. Data f (x) = x2 , verificare se {f ≤ α} è misurabile rispetto alle misure
in Esercizio 15.
Definizione 19. (Spazi di Lebesgue) Sia (X, A, µ) uno spazio di misura. Sia M(X, A)
l’insieme delle funzioni misurabili in X. Per ogni p ∈ [1, ∞] sia
Lp (X, A, µ) = {f ∈ M(X, A) | kf kp < ∞},
lo spazio di Lebesgue di ordine p, dove
 Z
1/p


p

|f | dµ
,
X
kf kp =


sup |f |,

p ∈ [1, ∞)
(2.4)
p = ∞.
X
Indicheremo tale classe di equivalenza semplicemente con Lp .
Introduciamo la funzione semplice f : A 7→ R definita da
f (x) =
∞
X
cn 1An (x)
(2.5)
n=1
dove 1A (x) = 1(x∈A) . Se An = {n}, allora 1{n} (x) = 1(n=x) è la funzione indicatrice
dell’insieme {n} ed in questo caso, la funzione f (k) = ck è quindi una successione
in k ∈ N. Se inoltre consideriamo la misura di Dirac relativa ai naturali, dµδ =
µδ (dx, N), notiamo che
Z
X Z
X
δ
f (x)µ (dx) =
cy δy (x)dx =
cy .
R
R
y∈N
y∈N
Inoltre, considerato un insieme B ⊂ R, scriviamo
Z
X Z
X
δ
f (x)µ (dx) =
cy
δy (x)dx =
cy 1B (y)
B
y∈N
B
y∈N
dove si è usato il fatto che
Z
δy (x)dx = 1B (y).
B
8
Esempi banali ma forse di aiuto: non posso certo misurare la temperatura di un corpo con il metro,
non posso neanche misurare le altezze con la bilancia. È importante considerare la dimensione degli
oggetti in questione!
Capitolo 2.
Misura e Probabilità
29
Esercizio 17. Dire se la funzione f (x) = x−1 1[1,∞) (x), x ∈ R è di Lp per qualche
p ≥ 1.
Definizione 20. Sia (X, A, µ) = (N, P(N), µ] ) dove P(N) è l’insieme dei sottoinsiemi
di N, e µ] è la misura di conteggio. Lo spazio Lp (N, P(N), µ] ) viene indicato con lp e
per una successione {cn } ∈ lp vale

!1/p
Z
1/p
∞

X



=
|cn |p
|f |p dµ]
< ∞,
p ∈ [1, ∞)
N
k{cn }kp =
(2.6)
n=1



sup |f (n)| = sup |cn | < ∞,
p=∞

N
dove si è posto
f=
N
∞
X
cn 1{n} .
n=1
Diamo il seguente teorema a scopo puramente illustrativo (ed introduttivo!!).
Teorema 1. Sia p ∈ [1, ∞], {fn } ⊆ Lp una successione di Cauchy. Allora esiste
f ∈ Lp tale che
kfn − f kp → 0.
Stiamo quindi dicendo in che senso fn → f se n → ∞9 . Sembra utile introdurre
alcune questioni legate alle convergenze di funzioni già accennate nel teorema precedente. In particolare, facciamo notare quali tipi di convergenza si possono considerare.
Sia (A, A, µ) uno spazio di misura e f : A → B, fn : A → B con n ∈ N due funzioni
date, possiamo trovarci nelle seguenti situazioni:
♣ (conv. semplice o puntuale ) sia B = (−∞, +∞), allora fn → f in A se
∀x ∈ A
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
si ha
|fn (x) − f (x)| < (2.7)
♣ (conv. uniforme) sia B = (−∞, +∞), allora fn → f in A se
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
si ha
|fn (x) − f (x)| < ∀ x ∈ A (2.8)
oppure, se
kfn − f k∞ = sup |fn (x) − f (x)| → 0.
(2.9)
x∈A
Possiamo dimostrare che Lp è uno spazio di Banach rispetto alla metrica indotta dalla norma k · kp .
Dato uno spazio di Banach (X, k · k), si dice base per tale spazio un insieme B ⊂ X, costituito da
elementi linearmente indipendenti e tali che lo spazio generato da B sia denso in X (o ogni elemento di
X possa scriversi come combinazione lineare di elementi di B). Si dice poi che X è separabile se esiste
una base costituita da un numero finito di vettori o al più da una infinità numerabile.
9
30
♠ (conv. in misura) siano fn , f ∈ M(A, A) finite q.o., n ∈ N. Allora fn → f in
µ
misura (e scriviamo fn → f ) se
µ({x ∈ A : |fn (x) − f (x)| ≥ }) → 0 per ogni > 0 se n → ∞.
(2.10)
♠ (conv. quasi ovunque) sia B = [−∞, +∞], allora fn → f in A se
{x ∈ A : lim fn (x) = g(x) e f (x) 6= g(x)} ∈ N
n→∞
(2.11)
♠ (conv. in Lp ) sia B = [−∞, +∞], Lp = Lp (A, A, µ) e {fn } ∈ Lp , f ∈ Lp .
Allora fn → f in A se
∀ > 0, ∃ n∗ ∈ N : ∀ n > n∗
dove
Z
kfn − f kp =
si ha kfn − f kp < 1/p
|fn (x) − f (x)| µ(dx)
.
p
(2.12)
(2.13)
A
Ci sono interessanti collegamenti tra convergenze, noi affronteremo tali questioni
nel caso µ sia una misura di probabilità. Diciamo qualche parola sulla convergenza
puntuale (o pointwise), siano fn , f definite in D, se
∀ x ∈ D0 ⊆ D, ∀ > 0, ∃ n∗ = n∗ (x, ) : ∀n > n∗
si ha
|fn − f | < diciamo che fn → f pointwise in D0 ed n∗ dipende da x e . Può accadere quindi
che per qualche x non posso trovare nessun n∗ che verifichi la condizione di convergenza. Se una successione converge uniformemente, n∗ non dipende dalla scelta di x,
fn converge infatti in maniera uniforme. Inoltre, se fn → f ∗ (puntualmente o uniformemente) e se f ∗ = f quasi ovunque rispetto ad una misura µ (µ-q.o) diciamo che
fn → f (puntualmente o uniformemente) µ-q.o..
Esercizio 18. Si calcoli
Z
x
f (u)du,
x∈R
−∞
nei due casi
1, x ∈ (0, 1) ∪ (1, 3)
f (x) =
0, altrove
oppure
f (x) =
1, x ∈ (0, 2) ∪ (2, 3)
.
0, altrove
(2.14)
Capitolo 2.
Misura e Probabilità
31
Esempio 2. Consideriamo la funzione fn (x) = n1 per ogni x ∈ R. Si vede che fn → 0
per ogni x ∈ R (convergenza puntuale), inoltre kfn − 0k∞ = n1 → 0 per ogni x ∈ R
(convergenza uniforme).
Esempio 3. Studiamo fn (x) = nx , x ∈ R. Fissato x, si vede subito che fn →
0 (convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈R |x| = ∞ (non converge
uniformemente).
√
√
Esempio 4. Studiamo fn (x) = nx , x ∈ D = [− n, + n]. Fissato x, fn → 0
(convergenza puntuale) mentre kfn − 0k∞ = n1 supx∈D |x| = √1n → 0 (converge
uniformemente).
Esempio 5. Sia ora fn (x) = sinxnx , x ∈ R. Si ottiene fn → 0 (puntualmente) infatti
sin nx ∈ [−1, 1] è una funzione limitata. Inoltre, kfn − 0k∞ ≤ n1 → 0 (convergenza
uniforme).
Esercizio 19. Fornire una rappresentazione caratteristica (elementare) dell’insieme
{f > α} se:
1. f (x) = log x, α = 1,
2. f (x) = e−x , α = 0.
Esercizio 20. Fornire una rappresentazione caratteristica (elementare) dell’insieme
{f ∈ A} se:
1. f (x) = log x, A = (1, 2),
2. f (x) = e−x , A = (1, ∞).
Esercizio 21. Si dica se le seguenti funzioni sono continue o misurabili:
1. f (x) = 1(1,3] (x) + 1(4,5) (x);
2. h(x) = sin x;
3. g(x) = sin x + 2 cos x;
4. v(x) = c1 1(−1,0) (x) + c2 1(0,1) (x) con c1 , c2 > 0.
Esercizio 22. Studiare la continuità delle seguenti funzioni:
f (x) = 1(1,3] (x) + 1(3,5) (x);
h(x) = 1(1,3) (x) + 1(3,5) (x);
g(x) = 1(1,3) (x) + 1[3,5) (x).
32
Esercizio 23. Si dica se le seguenti successioni convergono pointwise. (Dove?)
1. fn (x) = xn , x ∈ [0, 1].
2. fn (x) = (n + 1)−1/2 sin(nx + 3), x ∈ R.
3. fn (x) = n−2 (nx + x2 ), x ∈ R.
Esercizio 24. Studiare la convergenza in misura della successione fn (x) = xn con
x ∈ [0, 1].
Esempio 6. Sia fn (x) = nx(1−x2 )n , x ∈ [0, 1]. Si vede subito che fn (0) = fn (1) = 0
e fn → 0 per ogni x ∈ (0, 1) (infatti, se a > 1, n/an → 0 per n → ∞). Inoltre,
n
n
1
kfn − 0k∞ = √
1−
2n + 1
2n + 1
n
2n+1 ! 2n+1
n
1
=√
1−
2n + 1
2n + 1
dove

n
 lim
n→∞
2n + 1 n→∞
−1/2 n
= lim √
e
n→∞
2n + 1
lim kfn − 0k∞ = lim √
n→∞
1−
1
2n + 1
n
2n+1 ! 2n+1


e quindi kfn − 0k∞ → +∞ (non converge uniformemente). Vogliamo sottolineare che
Z
Z
fn (x)dx 6=
lim
n→∞
1
0
1
lim fn (x)dx = 0.
0 n→∞
Infatti, per ogni n,
Z
0
1
1
fn (x)dx = .
2
Quindi la convergenza puntuale non è sufficiente per il passaggio al limite sotto il
segno di integrale.
q
Esercizio 25. Dimostrare che la funzione fn (x) = x2 + n1 , x ∈ R converge puntualmente e uniformemente. Studiare la convergenza di fn0 e confrontarla con f 0 .
Capitolo 2.
Misura e Probabilità
33
Esempio 7. Consideriamo ancora fn (x) =
sin nx
.
n
lim fn0 (x) 6= f 0 (x) =
n→∞
Si vede subito che
0
lim fn (x) .
n→∞
Basta vedere che fn0 (0) = 1 per ogni n mentre f 0 (x) = 0 per ogni x. Quindi la
convergenza uniforme di fn non è sufficiente per il passaggio al limite sotto il segno di
derivata.
Osservazione 9. Consideriamo gli insiemi
A ={x ∈ R : f (x) = 0} ∈ Nµ
B ={x ∈ R : f (x) = ∞} ∈ Nµ
e l’integrale
Z
ID (f ) =
f (x)µ(dx)
D
dove, solo per semplicità prendiamo µ(dx) = dx, la misura di Lebesgue. Si deve
notare che A e B sono insiemi di misura nulla ma
ID (f ) = ID\A (f ) se A ⊆ D, B ∩ D = ∅,
ID (f ) = ∞ se B ⊆ D.
Osservazione 10. Quanto abbiamo detto si può estendere a spazi Lp (X, A, m) dove
dm = ϕdµ
(2.15)
e m è detta misura con densità ϕ rispetto alla misura µ. Dato A ∈ A, scriveremo
Z
Z
f (x)dm(x) =
f (x)ϕ(x)dµ(x).
A
A
Non tutte la misure ammettono densità.
Alcune disuguaglianze
Definizione 21. Una funzione reale, due volte differenziabile f è detta:
i) convessa se f 00 (x) ≥ 0 per ogni x,
ii) concava se f 00 (x) ≤ 0 per ogni x.
34
Teorema 2. (Dis. di Jensen) Sia µ una misura positiva su Ω tale che µ(Ω) = 1. Sia
f ∈ L1 (Ω) tale che a < f (x) < b per ogni x ∈ Ω e ϕ una funzione convessa. Allora10
Z
ϕ
f dµ
Ω
Z
≤
(ϕ ◦ f )dµ.
(2.16)
Ω
Diamo inoltre la seguente definizione.
Definizione 22. (Esponenti coniugati) Se p e q sono numeri reali positivi tali che
p + q = pq
oppure
1 1
+ = 1,
p q
allora chiamiamo p e q, coppia di esponenti coniugati.
Teorema 3. (Dis. di Hölder) Siano p e q esponenti coniugati e 1 ≤ p ≤ ∞. Se
f ∈ Lp (µ) e se g ∈ Lq (µ), allora
kf gk1 ≤ kf kp kgkq
(quindi f g ∈ L1 (µ)).
(2.17)
Teorema 4. (Dis. di Minkowski) Sia 1 ≤ p ≤ ∞. Se f ∈ Lp (µ) e se g ∈ Lp (µ), allora
kf + gkp ≤ kf kp + kgkp
(quindi f + g ∈ Lp (µ)).
(2.18)
Le disuguaglianze appena introdotte valgono anche negli spazi lp = Lp (µ] ) della
Definizione 20, non solo negli spazi Lp (µ) della Definizione 19. Valgono quindi anche
per successioni. Per p = 1 con µ misura di Lebesgue (solo per comodità) e g = 1
(identicamente uguale alla funzione unità), dalla dis. di Hölder si ottiene
Z
Z
f (x)dx ≤ |f (x)|dx
mentre dalla dis. di Minkowski si ottiene
Z
Z
Z
|f (x) − g(x)|dx ≤ |f (x)|dx + |g(x)|dx.
10
Ricordiamo che ϕ ◦ f è la composizione di ϕ e f , cioè ϕ(f (x)).
Capitolo 2.
2.4
Misura e Probabilità
35
Misure di Probabilità -
Assiomi di base della probabilità (assiomi di Kolmogorov)
Possiamo esporre la teoria delle probabilità a partire da alcuni assiomi attorno ai quali
estendere quanto si è visto sino ad ora. In particolare:
1. Gli eventi sono sottoinsiemi di uno spazio Ω e formano una classe additiva A.
2. Ad ogni evento A ∈ A è associato un numero reale non negativo P (A) che viene
detto probabilità di A.
3. P (Ω) = 1.
4. A ∩ B = {∅} ⇒ P (A ∪ B) = P (A) + P (B).
5. Se {An , n = 1, 2, . . .} è una successione decrescente di eventi e limn→∞ An =
{∅}, si ha limn→∞ P (An ) = 0
Resta definito a questo punto uno spazio di probabilità (Ω, A, P ). La classe additiva o
σ-algebra A è una classe di insiemi non vuota e chiusa (stabile) rispetto alla negazione
e all’unione numerabile (la chiusura appena menzionata vuole intendere che tale classe è costituita da elementi, gli insiemi, che possono essere uniti formando un nuovo
insieme appartenente alla classe e che preso il complementare di ognuno di essi, della
negazione o dell’unione appena ricordata, tale complementare appartiene ancora alla
classe). Una immediata conseguenza è che {∅} ∈ A, Ω ∈ A e ∪n An ∈ A per ogni
successione {An } ∈ A.
La misura P è quindi una misura di probabilità, in particolare è una misura del tipo
(2.15). Diremo che Ω è l’insieme fondamentale o spazio fondamentale, spazio campionario, insieme degli eventi. In un esperimento o nel lancio di un dado si ottiene uno
degli eventi di Ω, se pensiamo al dado l’evento A ∈ A può essere A =00 si ottiene 100 .
Lo spazio degli eventi A o anche algebra degli eventi è l’insieme di tutti gli eventi
casuali che si possono ottenere in un certo esperimento. Supponiamo che nel lancio di
un dado sia A =“si ottiene un numero pari”= {2, 4, 6} = {2}∪{4}∪{6}, la σ-algebra
¯ Ω} dove
A sarebbe allora A = {∅, A, A,
A¯ ={2} ∪ {4} ∪ {6} = {1, 3, 4, 5, 6} ∩ {1, 2, 3, 5, 6} ∩ {1, 2, 3, 4, 5},
quindi se Ω è l’insieme degli eventi possibili, A è l’insieme degli eventi di interesse relativamente all’esperimento (sopra si è usata la legge di DE MORGAN o di BOOLE).
Sembra utile chiarire un formalismo che in realtà è anche una importante sfumatura
teorica, l’evento P ({1, 2, 3}) nel lancio di un dado può essere riscritto P ({1, 2, 3}) =
P ({1}∪{2}∪{3}) e rappresenta l’evento P
2 o 3) = P (esce 1)+P (esce 2)+
S(esce 1 oP
P (esce 3). Allo stesso modo P (Ω) = P ( r Ar ) = r P (Ar ) = 1.
36
Eventi complementari Diciamo che B è il complementare di A e scriviamo B = A¯
oppure B = Ac se
A∪B =Ω e
A ∩ B = ∅.
Eventi incompatibili. Diciamo che due eventi E, F sono incompatibili se E ∩ F =
{∅}. Per gli eventi E =“mi trovo a Parigi”, F =“mi trovo a Roma” si ottiene E ∩ F =
”mi trovo a Parigi e a Roma” = “evento impossibile”.
Definizione 23. Dato un insieme finito di eventi {Ar }r=1,...,n a due a due incompatibili,
la probabilità dell’unione di tutti gli eventi è uguale alla somma delle probabilità degli
eventi. In simboli
n
n
[
X
Ai ∩ Aj = {∅} per i 6= j ⇒ P ( Ar ) =
P (Ar ).
(2.19)
r=1
r=1
Esempio 8. Gli eventi E =”mi trovo a Pisa” e F =”vedo la torre Eiffel” sono eventi
incompatibili.
Esercizio 26. Consideriamo gli eventi E =“piove”, F =“cado scendendo le scale”.
Che tipo di eventi sono?
Intersezione con un evento certo. Un evento è certo se si verifica con probabilità
pari ad 1. Dato un evento certo che indichiamo con Ω (e quindi P (Ω) = 1) è sempre
possibile individuare un evento A tale che A∪Ac = Ω. Si vede subito che P (A∩Ac ) =
0, i due eventi sono incompatibili (osserviamo anche che P (A) + P (Ac ) = 1). Dato
un evento E ∈ Ω, è estremamente utile ricordare la seguente decomposizione
P (E) = P (E ∩ Ω) = P (E ∩ (A ∪ Ac )) = P ((E ∩ A) ∪ (E ∩ Ac )).
Si vede subito che (E ∩ A) ∩ (E ∩ Ac ) = {∅} quindi dalla (2.19) segue che
P (E) = P (E ∩ A) + P (E ∩ Ac ).
(2.20)
Esercizio 27. Si rappresenti graficamente quanto appena detto mediante i digrammi
di Eulero-Venn.
Eventi compatibili. Diremo che due eventi sono compatibili se non sono incompatibili. Se quindi non si escludono.
Prima di proseguire ricordiamo il principio di induzione già introdotto nei corsi
precedenti : Sia Ak dipendente da un indice k ∈ N una affermazione vera per k = 1 e
supponiamo che sia vera per un certo k = n. Se è vera anche per k = n + 1, allora
Ak è vera per ogni k ∈ N.
Diamo ora il seguente risultato.
Capitolo 2.
Misura e Probabilità
37
Teorema 5. (Disuguaglianza di Boole) Per una successione finita o numerabile di
eventi {Ar }r=1,...,n si ha
n
n
[
X
P ( Ar ) ≤
P (Ar )
r=1
r=1
Dimostrazione. Introduciamo una successione arbitraria di eventi
Fr = Ar \
r−1
[
Ak ,
r = 1, 2, . . . , n
k=1
e procediamo per induzione nel dimostrare che
n
[
Ar =
n
[
Fr .
(2.21)
A \ B = A ∩ Bc
(2.22)
r=1
r=1
Sarà utile ricordare la relazione
¯ è il complementare di B (verificate utilizzando i diagrammi di Venn).
dove B c = B
Se vede subito che A1 = F1 per costruzione. Supponiamo che (2.21) sia vera per n − 1
e verifichiamo per n. Si ottiene
!
n
n−1
[
[
Fr =
Fr ∪ Fn
r=1
=
=
r=1
n−1
[
r=1
n−1
[
!
∪ Fn
Ar
(assunzione)
!
∪
Ar
An \
r=1
=
=
=
n−1
[
r=1
n
[
!
Ar
∪
An ∩
n−1
[
!
Ak
k=1
n−1
[
(definizione)
!c !
Ak
(dalla (2.22))
k=1
!
Ar
∩Ω
r=1
n
[
Ar .
r=1
Quindi la (2.21) è dimostrata. La scelta della successione Fr non è stata arbitraria.
Infatti si può verificare facilmente che gli insieme di tale successione sono a due a due
38
disgiunti (la verifica è lasciata al lettore, si consideri ad esempio F2 ∩ F1 ). Possiamo
allora scrivere
P(
n
[
Ar ) =P (
r=1
n
[
Fr )
(per quanto appena dimostrato)
r=1
=
≤
n
X
r=1
n
X
P (Fr )
(per il quarto assioma o per la additività di P )
P (Ar )
r=1
dove si è utilizzato il fatto che P (Fr ) ≤ P (Ar ) termine a termine. Questo fatto segue
ancora dalla definizione della successione Fr . Infatti, si vede subito che P (F1 ) =
P (A1 ), P (A2 \ A1 ) ≤ P (A2 ) etc.. La dimostrazione è conclusa.
Osservazione 11. Se Ak ∩ As = ∅ per ogni s 6= k, allora Fk = Ak e P (Fk ) = P (Ak )
per ogni k. Vale il segno di uguale nella dis. di Boole.
La legge delle probabilità totali. Siano A e B due eventi compatibili. Allora,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
(si dimostri graficamente). Inoltre, se A,B,C sono eventi compatibili,
P (A ∪ B ∪ C) =P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C)
Ovviamente si può procedere con più di tre eventi. Lasciamo questo esercizio al lettore
interessato, si noti che un modo di procedere è il metodo grafico (diagrammi di Venn).
La legge delle probabilità composte. Siano A e B due eventi. Allora,
P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A)
dalla quale si ricava anche
P (A|B) =
P (A ∩ B)
P (B)
e P (B|A) =
P (A ∩ B)
.
P (A)
L’evento A|B si legge A dato il verificarsi di B, presuppone quindi una dipendenza di
A da B. Prima di andare a vedere in quanti modi può verificarsi A bisogna distinguere
tra i casi possibili di B e capire come il verificarsi di B modifica il verificarsi di A.
Capitolo 2.
Misura e Probabilità
39
Esempio 9. Sia A ="mi rompo un braccio" un evento, non troppo felice! Sia B ="piove"
un secondo evento. Allora A|B può avere un senso, posso cioè rompermi il braccio cadendo e cado perché piove. Forse, col sole non sarei caduto! C’è quindi una
probabilità positiva (cioè diversa da zero) per l’evento A|B.
Esempio 10. Siano A ="mi rompo l’altro braccio" e B ="mio fratello è nato il 4
luglio". Cosa posso dire?
Esempio 11. Dal lancio di due dadi regolari, diciamo D1 e D2 , voglio calcolare la
probabilità che sia uscita la faccia 1 sapendo che la somma dei numeri sulle facce è
3. Allora,
P ({1}|somma = 3) =P ((D1 = 1) ∪ (D2 = 1)|D1 + D2 = 3)
P ([(D1 = 1) ∪ (D2 = 1)] ∩ (D1 + D2 = 3))
=
P (D1 + D2 = 3)
P ([(D1 = 1) ∩ (D1 + D2 = 3)] ∪ [(D2 = 1) ∩ (D1 + D2 = 3)])
=
P (D1 + D2 = 3)
P ((D1 = 1) ∩ (D2 = 2)) + P ((D1 = 2) ∩ (D2 = 1))
=
P (D1 + D2 = 3)
=1.
Esempio 12. Seguendo il precedente esercizio, vediamo invece che
P ([(D1 = 1) ∩ (D1 + D2 = 4)] ∪ [(D2 = 1) ∩ (D1 + D2 = 4)])
P (D1 + D2 = 4)
P ((D1 = 1) ∩ (D2 = 3)) + P ((D1 = 3) ∩ (D2 = 1))
=
P (D1 + D2 = 4)
1
2
=
·
P (D1 + D2 = 4) 36
P ({1}|somma = 4) =
dove
P (D1 + D2 = 4) =
3
.
36
Si ottiene quindi
2
P ({1}|somma = 4) = .
3
40
Eventi indipendenti. Se gli eventi A e B sono indipendenti, allora
P (A ∩ B) = P (A)P (B).
Se gli eventi sono indipendenti, come si è visto, A|B = A. Cioè il verificarsi di A
dipende solo da A e non da B. Inoltre, se gli eventi A e B sono indipendenti, sono
¯ A¯ e B, A¯ e B.
¯
indipendenti anche A e B,
Esercizio 28. Siano A e B eventi indipendenti. Si dimostri che
¯ = P (A)P (B).
¯
P (A ∩ B)
La situazione si complica nel caso di più eventi. Vale il seguente risultato.
Proposizione 6. Se gli eventi {Ar }, in numero finito e infinito, sono indipendenti,
allora comunque si prendano k di essi Aj1 , Aj2 , . . . , Ajk con k > 1, si ha
P (Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ) = P (Aj1 )P (Aj2 ) . . . P (Ajk ).
(2.23)
Osservazione 12. Dobbiamo notare che se gli eventi sono incompatibili, non ha senso
il concetto di dipendenza.
Osservazione 13. Vogliamo sottolineare che se vale la (2.23), allora non necessariamente gli eventi {Ar } sono indipendenti. Consideriamo due eventi A =”...” e
B =”...”
Qundi P (A ∩ B) = P (A)P (B) non implica che A e B sono indipendenti.
Nel seguito useremo anche la seguente notazione
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 , A2 , . . . , An )
(2.24)
ed intenderemo sempre la probabilità che gli eventi A1 , A2 , . . . , An si verifichino tutti.
Sembra utile leggere P (A ∩ B) come la probabilità che si verifichi A e B. Diremo
invece che P (A ∪ B) è la probabilità che si verifichino A, B o entrambi. In generale
P (∪r Ar ) sarà la probabilità che si verifichi almeno uno degli Ar (non escludiamo
quindi che se ne possono verificare più di uno).
Se gli eventi sono indipendenti, la formula (2.24) si scrive come il prodotto delle
singole probabilità altrimenti vale la regola del prodotto
P (A1 , A2 , . . . , An ) = P (An |An−1 , . . . , A2 , A1 ) · · · P (A2 |A1 )P (A1 ).
Ovviamente, sotto l’ipotesi di indipendenza si ha che
P (An |An−1 , . . . , A2 , A1 ) = P (An ),
..
.
P (A2 |A1 ) = P (A1 )
e quindi la regola (2.25) vale per eventi qualunque.
(2.25)
Capitolo 2.
Misura e Probabilità
41
Svolgimento Esercizio 11. Indichiamo con A ="a è difettoso" e B ="b è difettoso"
gli eventi di interesse. Ovviamente P (A) = 0.03 e P (B) = 0.04.
1. P (A ∩ B) = P (A)P (B),
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
3. P (A|A ∪ B) = P (A ∩ (A ∪ B))/P (A ∪ B) dove
P (A ∩ (A ∪ B)) = P (A ∪ (A ∩ B)) = P (A),
4. P (B)/P (A ∪ B).
La legge delle probabilità composte a più alternative (formula di Bayes). La formula di Bayes svolge un ruolo molto interessante. Mette in relazione un evento E
(che possiamo identificare come un effetto) con altri eventi (che possiamo considerare
come le cause). Ci chiediamo quanto uno degli altri eventi intervenga nel determinare
E (quindi quale causa partecipa maggiormente nel determinare un effetto).
Teorema 6. Dati un evento E ed unSinsieme finito (o numerabile) di eventi incompatibili {Ar }, r = 1, 2, . . . , n, se E ⊂ nr=1 Ar e P (E) 6= 0, si ha
P (Ar )P (E|Ar )
,
P (Ar |E) = Pn
i=1 P (Ai )P (E|Ai )
r = 1, 2, . . . , n.
(2.26)
Dimostrazione. Per la legge delle probabilità composte possiamo scrivere
P (Ar |E) =
P (E ∩ Ar )
P (E|Ar )P (Ar )
=
.
P (E)
P (E)
Inoltre, E ⊂ ∪r Ar e quindi
!
E=E∩
[
Ar
r
=
[
(E ∩ Ar ).
r
Ora dobbiamo notare che se gli Ar sono incompatibili, allora E ∩ Ar sono incompatibili. Per la legge delle probabilità totali, otteniamo
P (E) = P (∪r (E ∩ Ar )) =
n
X
r=1
La dimostrazione è conclusa.
P (E ∩ Ar ) =
n
X
r=1
P (E|Ar )P (Ar ).
42
Svolgimento Esercizio 2 (continuazione). Diamo qui uno svolgimento diverso da
quello già visto alla luce delle nuove considerazioni. Se estraggo con reimbussolamento le estrazioni sono indipendenti (le probabilità non cambiano in estrazioni
successive). In particolare, P (R) = 5/10 = P (N )
1. P (RN ∪ N R) = P ((R ∩ N ) ∪ (N ∩ R)) = P (R ∩ N ) + P (N ∩ R) − P (R ∩ N ∩
5 5
5
N ∩ R) = P (R ∩ N ) + P (N ∩ R) = P (R)P (N ) + P (N )P (R) = 2 10
= 10
;
10
2. P (RR) = P (R ∩ R) = P (R)P (R) =
52
;
102
3. P (N N ) = P (N ∩ N ) = P (N )P (N ) =
4. P (R|N ) =
2.5
P (R∩N )
P (N )
=
52
;
102
5
.
10
Il concetto di Probabilità e le diverse impostazioni
Abbiamo introdotto gli assiomi della probabilità e ci siamo quindi preoccupati di
introdurre una impostazione rigorosa.
”La Probabilità è una misura.”
Dobbiamo ricordare che si possono dare diverse definizioni di probabilità spesso legate
anche a diverse scuole e linee di pensiero.
• Impostazione soggettiva. La probabilità di un evento è il prezzo che siamo
disposti a pagare in una scommessa per ricevere 1 al verificarsi dell’evento.
• Impostazione Bayesiana. La probabilità di un evento dipende da una legge a posteriori ottenuta scegliendo (anche soggettivamente) una legge a priori. è forte
quindi il condizionamento a ciò che conosciamo sul fenomeno che ci interessa.
Si può definire in questo ambito uno schema che prevede aggiornamenti successivi della priori con la posteriori fino ad uno step definito ottimo in qualche
senso.
• Impostazione frequentista. Si associa la probabilità di un evento alla frequenza
di tale evento, si considera cioè che un evento si possa verificare in relazione ai
casi favorevoli a tale evento. Se i casi in questione sono equiprobabili, allora la
probabilità si può ottenere dal rapporto tra casi favorevoli e casi possibili.
• Impostazione classica. Semplicemente il rapporto tra casi favorevoli e casi
possibili (se gli eventi sono equiprobabili).
• Impostazione assiomatica. Si basa sugli assiomi di Kolmogorov.
Capitolo 2.
2.6
Misura e Probabilità
43
Spazi di Probabilità uniformi
Vediamo più in dettaglio quanto già introdotto nel Capitolo 1 riguardo a spazi uniformi
e impostazione classica della Probabilità. Uno spazio di probabilità è detto uniforme
se gli eventi possibili sono equiprobabili, cioè tutti di probabilità data e uguale a p. Si
pensi al lancio di un dado o di una moneta non truccati. Come si vedrà,
p = P (ω) =
µ] (casi
1
,
possibili)
ω∈Ω
dove Ω è lo spazio degli eventi (elementari) possibili e
X
P (A) =
P (ωk ) =p · µ] (casi favorevoli all’evento A)
k:ωk ∈A
=
µ] (casi favorevoli all’evento A)
µ] (casi possibili)
dove A è un elemento della σ−algebra generata da Ω.
Il nostro lavoro in questa direzione è quindi solo quello di identificare il numero di
casi possibili e favorevoli. A tale scopo diamo alcune definizioni utili.
PN
Definizione 24. Dato un insieme U = ∪N
j=1 Uj di cardinalità |U | =
j=1 nj = n
dove |Uj | = nj per j = 1, . . . , N e gli Uj sono costituiti da nj ripetizioni dello stesso
elemento, tutti i sottoinsiemi di U
i) di cardinalità n,
ii) che differiscono per ordinamento (ordinati),
iii) che non differiscono per numero di elementi uguali (con ripetizione)
formano l’insieme Pnn1 ,...,nN delle permutazioni con ripetizione. Inoltre,
|Pnn1 ,...,nN | =
n!
.
n1 ! n2 ! · · · nN !
Definizione 25. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che differiscono per ordinamento (ordinati),
iii) in cui ogni elemento di U può essere preso una sola volta (senza ripetizione)
44
formano l’insieme Dn,k delle disposizioni semplici di n elementi in classe di k. Inoltre,
|Dn,k | = n · (n − 1) · · · (n − k + 1) =
n!
.
(n − k)!
Definizione 26. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che differiscono per ordinamento (ordinati),
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
delle disposizioni con ripetizione di n elementi in classe di k.
formano l’insieme Dn,k
Inoltre,
0
|Dn,k
| = nk .
Definizione 27. Dato un insieme U di cardinalità |U | = n, tutti i sottoinsiemi di U
i) di cardinalità k ≤ n,
ii) che non differiscono per ordinamento (non ordinati),
iii) in cui ogni elemento di U può essere preso più volte (con ripetizione)
0
formano l’insieme Cn,k
delle combinazioni con ripetizione di n elementi in classe di k.
Inoltre,
n+k−1
0
|Cn,k | =
.
k
Sia U = {a, a, b}, allora
3
P2,1
={aab, aba, baa}.
Sia U = {a, b}, allora
D2,2 = {ab, ba},
0
= {aa, ab, ba, bb},
D2,2
0
C2,2
= {aa, ab, bb} = {aa, ba, bb}
Capitolo 2.
Misura e Probabilità
45
Svolgimento Esercizio 3 (continuazione). Possiamo considerare le estrazioni in
blocco e quindi otteniamo
5
1. P (RN ∪ N R) = 51 51 / 10
= 9;
2
2. P (RR) = 52 50 / 10
;
2
3. P (N N ) = 50 52 / 10
;
2
oppure consideriamo il fatto che non c’è reimbussolamento, le probabilità cambiano
ad estrazioni successive. Infatti,
P (RN ) = P (R alla prima estrazione)P (N alla seconda estrazione) =
5 5
.
10 9
Si ottiene allora
5 5
;
1. P (RN ∪ N R) = 2 10
9
2. P (RR) =
3. P (N N ) =
5 4
;
10 9
5 4
.
10 9
Esercizio 29. Da un mazzo di 52 carte Mariello prende tutte le 13 carte di un solo
seme scelto a caso e le passa a Mario. Mario distribuisce a Maria le prime n carte
del mazzo. Calcolare le seguenti probabilità:
a) tutte le carte di Maria sono minori o uguali ad n.
b) tutte le carte di Maria sono maggiori di n.
c) tutte le carte di Maria sono di cuori.
Esercizio 30. Mario e Piero (in questo ordine) estraggono una pallina numerata a
testa con reimbussolamento da una scatola contenete i numeri da 1 a 9. Guardano
i numeri sulle due palline estratte, chi ha un numero pari vince 5 euro e se si sono
estratte due palline con un numero pari non vince nessuno. Si ripete questa operazione
due volte. Calcolare le probabilità dei seguenti eventi:
1. nessuno vince;
2. Piero vince 10 euro;
3. entrambi vincono 10 euro;
4. uno dei due vince 10 euro;
5. entrambi vincono 5 euro.
46
Capitolo 3
Variabili Aleatorie
3.1
Definizione di variabile aleatoria -
Diamo una definizione formale e introduciamo le variabili aleatorie con un esempio.
Sia B lo spazio dei reali B = Rn o degli interi B = Zn e Ω ⊆ A.
Definizione 28. Sia X = X(ω) una funzione X : Ω 7→ B, diremo che X è una variabile aleatoria (v.a) definita sullo spazio di probabilità (Ω, A, P ) se X è misurabile, se
cioè
(X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A.
Possiamo quindi parlare di una v.a. misurabile X(ω) : A 7→ Bn e risulta
P (B) = P (X(ω) ∈ B ⊆ B n ) = P (X −1 (B) ∈ Ω0 ⊆ A) = P (Ω0 )
dove B n ⊆ P(Rn ) se X ∈ Zn o B n ⊆ P(Rn ) se X ∈ Zn . Dobbiamo specificare
rispetto a quale misura si sta calcolando la probabilità P quando si considera un Boreliano B della σ-algebra B n di Rn (oppure un boreliano B della σ-algebra ”discreta”
B n di Zn ) o un insieme Ω0 della σ-algebra A di Ω. Infatti,
Z
Z
P (Ω0 ) =
dP =
P (dω), Ω0 ∈ A,
(3.1)
Ω0
Ω0
o equivalentemente
Z
P (B) =
Z
dFX =
B
fX (x)µ(dx),
B ∈ Bn .
(3.2)
B
Diremo che FX è associata a P . Si vede subito che FX : B 7→ [0, 1] mentre P : Ω 7→
[0, 1]. Il nostro scopo, in questo capitolo, è quello di caratterizzare la misura µ nel caso
47
48
in cui X assuma valori continui o discreti. Diciamo per ora che una v.a. X(ω) assume
valori in Rn o Zn ma la sua aleatorietà dipende da ω (e quindi ci interessano tutti gli
ω ∈ Ω0 tali che X(ω) ∈ B ⊂ B n , cioè Ω0 ∈ A). Ci troviamo a dover trattare due
spazi, (Ω, A, P ) e (Rn , B n , µ). La v.a. X(ω) rappresenta il collegamento tra di loro.
Se (il Boreliano B) l’insieme B fosse rappresentato dalle persone alte 1.70 metri
(B = {1.70}) ed X fosse la v.a. altezza delle persone di Ω diciamo che la probabilità
che una persona sia alta 1.70 è data da P (X = 1.70) = P (X(ω) = 1.70) = P (ω ∈
Ω0 ) = P (Ω0 ) e quindi dalla µ] (Ω0 )/µ] (Ω) = nX=1.70 /npersone di Ω . In questo caso Ω0
è l’insieme delle persone ω ∈ Ω tali che la v.a. X assuma valori pari a 1.70 metri,
Ω0 = {ω ∈ Ω | X(ω) = 1.70} e µ] (Ω0 ) restituisce il numero di tali persone. Si
osservi che
Ω0 = {ω ∈ Ω | X(ω) < 1.70} ⇔ B = (0, 1.70)
Ω0 = {ω ∈ Ω | X(ω) > 1.20} ⇔ B = (1.20, +∞)
Ω0 = {ω ∈ Ω | 1.20 < X(ω) ≤ 180]} ⇔ B = (1.20, 1.80].
Diremo quindi che X(ω) =” altezza di ω” se X =”altezza” e ad ω può essere associata
una misura di probabilità P (ω).
Osservazione 14. Notiamo che
P (X ∈ B) = P (ω : X(ω) ∈ B) = P (Ω0 )
Ω0 ⊂ Ω
nello spazio (Ω, A, P ) e quindi
P (X ∈ B) = FX (B : X −1 (B) ∈ Ω0 )
B ∈ Bn
nello spazio (Rn , B n , FX ). Rimane da definire µ introdotta in (3.2).
Oggetto chiave del corso sarà la funzione di ripartizione della v.a. X a valori in Rn
FX (x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
dove
X = (X1 , X2 , . . . , Xn )
è un vettore aleatorio e
x = (x1 , x2 , . . . , xn ) ∈ Rn .
Diamo la seguente definizione generale.
Capitolo 3.
Variabili Aleatorie
49
Definizione 29. Una variabile aleatoria (v.a.) reale X è una funzione dallo spazio di
probabilità (Ω, A, P ) allo spazio misurabile (Rn , B n , FX ), con la classe B n misurabile, nel senso che le immagini inverse degli insiemi di B n di B appartengono ad A di
Ω.
Notiamo che N ⊂ Z ⊂ R. Nella definizione precedente si sono introdotte le variabili reali, come vedremo più avanti noi saremo interessati a caratterizzare le variabili
continue e discrete.
Useremo anche la notazione (ΩX , AX , PX ) per indicare che lo spazio di probabilità (Ω, A, P ) si riferisce alla v.a. X.
Vediamo il caso in cui X ha valori in R ed FX (x) = P (X ≤ x) con x ∈ R ovvero
X è reale 1-dimensionale.
Proprietà della funzione di ripartizione. Risulta utile ricordare le proprietà fondamentali della funzione FX : R 7→ [0, 1],
1. P (X ∈ (−∞, x]) = P (X ≤ x) = FX (x), x ∈ R;
2. P (X ∈ (x1 , x2 ]) = P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ), x1 < x2 ;
3. P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 );
4. limx→+∞ FX (x) = 1 e limx→−∞ FX (x) = 0;
5. limx→x+0 FX (x) = FX (x0 ) (continuità a destra) cioè
xn ↓ x ⇒ FX (xn ) ↓ P (X ≤ x) = FX (x)
e
xn ↑ x ⇒ FX (xn ) ↑ P (X < x) = FX (x−).
Se xn → ∞ (o xn ↑ ∞) allora FX (xn ) → P (X < ∞) = 1. Notiamo che
P (X = x) = FX (x) − FX (x−)
(3.3)
è uguale a zero per tutti i punti x di continuità1 per FX .
Nel caso di una v.a. multidimensionale si ottiene
lim F(X1 ,X2 ) (x1 , x2 ) = FX2 (x2 ),
x1 →+∞
1
lim F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ), (3.4)
x2 →+∞
Se la v.a. è continua si ha FX (x−) = FX (x) mentre nel caso di v.a. discrete, i salti della f.r.
determinano P (X = x) > 0.
1.0
50
●
0.8
●
0.6
●
0.4
●
0.2
●
0.0
●
0
1
2
3
4
5
6
7
Figura 3.1: Funzione di ripartizione FX (x) = P (X ≤ x) dove X ="faccia nel lancio
di un dado". La funzione è continua da destra.
lim F(X1 ,X2 ) (x1 , x2 ) = 0 = lim F(X1 ,X2 ) (x1 , x2 ),
x1 →−∞
x2 →−∞
lim
x1 ,x2 →∞
F(X1 ,X2 ) (x1 , x2 ) = 1.
(3.5)
(3.6)
La probabilità è una misura positiva di massa finita (P (Ω) = 1). La funzione di
ripartizione è quindi una probabilità (misura di probabilità) e diciamo che
dP = f · dµ
o
P =f ·µ
(3.7)
dove f è la densità di P rispetto alla misura µ. Per ora vogliamo solo sottolineare (in
maniera ingenua) che:
• f è una densità continua e µ è la misura di Lebesgue, quindi
Z
Z
Z
P (B) =
f dµ =
fX (x)dx = fX (x)1B (x)dx = P (X ∈ B).
B
B
Capitolo 3.
Variabili Aleatorie
51
Notiamo che B ∈ P(R) (o B ∈ P(Rn )) e se B = {x} è un punto,
P (B) = 0.
• f è una densità discreta e µ è una misura di Dirac, quindi
Z
X
X
f dµδ =
pk 1(x=xk ) =
P (B) =
pk 1B (xk ) = P (X ∈ B)
B
x∈B
k
e pk = P (X = xk ) è a sua volta una probabilità per ogni k, diremo che la
successione {pk }k è una distribuzione di probabilità. Notiamo che B ∈ P(Z) (o
B ∈ P(Zn )) se B = {x} è un punto,
P (B) = pk
se x = xk per un k da definire.
Dobbiamo quindi distinguere tra v.a. continue e discrete. In entrambi i casi vale il
seguente risultato di continuità.
Teorema 7. (Continuità di P ) Sia P una misura di probabilità. Sia {Ak }k∈N ∈ A una
successione monotona di eventi, allora
lim P (Ak ) = P lim Ak .
(3.8)
k→∞
k→∞
Inoltre,
lim P (Ak ) = P
k→∞
lim P (Ak ) = P
k→∞
∞
[
!
Ak
,
(se la successione è crescente)
k=1
∞
\
!
Ak
,
(se la successione è decrescente).
k=1
Variabili aleatorie continue
Diamo innanzitutto le seguenti definizioni.
Definizione 30. Una v.a. si dice continua se assume valori continui2 .
Definizione 31. Se X è una v.a. continua, definiamo supp(X) il supporto della v.a.
X, cioè l’insieme dei valori che può assumere X.
2
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato supporto o
spettro continuo, ha la potenza del continuo.
52
Introduciamo le funzioni continue e vediamo come si legano alle v.a. continue.
Definizione 32. Sia f : D 7→ R. Se per ogni successione xn a valori in D per cui
lim xn = x
n→∞
si ha
lim f (xn ) = f (x)
(3.9)
n→∞
diciamo che f è continua in x. Se la (3.9) vale per ogni x ∈ D, scriviamo f ∈ C, dove
C = C(D) è l’insieme delle funzioni continue con supporto in D ⊆ R.
Teorema 8. (Teorema fondamentale del calcolo integrale) Sia f una funzione continua
nell’intervallo [a, b]. La funzione integrale
Z x
F (x) =
f (u)du
(3.10)
a
è derivabile e vale
F 0 (x) = f (x)
∀ x ∈ [a, b].
(3.11)
Dimostrazione. Consideriamo la proprietà di additività dell’integrale
Z
x+h
Z
f (u)du −
F (x + h) − F (x) =
x
Z
x
a
a
x+h
f (u)du
f (u)du =
ed il rapporto incrementale
1
F (x + h) − F (x)
=
h
h
Z
x+h
f (u)du.
x
Dobbiamo calcolare il limite per h → 0. Notiamo che esiste un ponto xh ∈ [x, x + h]
tale che (teorema della media)
F (x + h) − F (x)
= f (xh )
h
e xh → x0 ∈ {x}, cioè xh → x per h → 0. Se f ∈ C, allora f (xh ) → f (x) ed
ovviamente si ha che
F (x + h) − F (x)
→ F 0 (x).
h
Quindi se f è continua si ottiene il risultato atteso e la dimostrazione è conclusa.
Capitolo 3.
Variabili Aleatorie
53
Una funzione derivabile in un punto è continua in quel punto. Non è sempre vero
il contrario, si pensi alla funzione modulo f (x) = |x|.
Teorema 9. (Formula fondamentale del calcolo integrale) Sia f una funzione che
ammette una primitiva F , cioè F 0 (x) = f (x) per ogni x ∈ [a, b]. Se f è integrabile, si
ha
Z
b
f (x)dx = F (b) − F (a).
(3.12)
a
La funzione integrale (3.10) vale per f ∈ C nota dalla quale ricaviamo F . In
questo caso, in cui f è integrabile (e non nota mentre lo è la F ) possiamo scegliere
f = F 0 se l’uguaglianza vale quasi ovunque. Possiamo quindi calcolare la probabilità
Z
P (X ∈ B) =
fX (x)dx
B
per un Boreliano B se fX è integrabile3 . Si pensi ad esempio alla funzione indicatrice
f (x) = 1E (x) o alla funzione di Heaviside H(x) = 1[0,∞) (x) continue nel loro supporto o alle loro combinazioni lineari.
Consideriamo quindi FX ∈ AC dove AC è l’insieme delle funzioni assolutamente
continue ed è costituito dalle funzioni per cui vale la formula fondamentale del calcolo
integrale. Quindi, se F ∈ AC, allora F ∈ C e F 0 = f è integrabile. Notiamo però che
se f ∈ C, vale il Teorema fondamentale. Quindi, possiamo definire una f.r. se fX è
integrabile ma occorre che sia continua affinché FX sia differenziabile in tutti i punti in
cui f è continua4 . Diremo quindi che X è una v.a. continua (o assolutamente continua)
se FX è continua (o assolutamente continua). Scriveremo inoltre ”c.” o "a.c." invece
di "continua" o ”assolutamente continua” se dal contesto sarà chiaro il riferimento alle
v.a..
Proposizione 7. Sia X una v.a. c. o a.s. con FX (x) = P (X ≤ x). Allora,
d
in tutti i punti in cui è continua, se X è c.,
FX (x)
fX (x) =
in tutti i punti in cui esiste,
se X è a.c..
dx
(3.13)
La v.a. X è c. oppure a.c. nel suo supporto. Se f = fX è continua (f ∈ C([a, b])),
abbiamo quindi detto che y = FX risolve y 0 = f (dove y ∈ C 1 ([a, b])). Bisogna
sottolineare che le soluzioni fornite dal Teorema fondamentale del calcolo integrale
sono relative alla teoria dell’integrazione secondo Riemann e quindi al caso in cui
Ricordiamo che una funzione f è integrabile in B se f ∈ L1 (B), ciòè se |f | è integrabile. Dobbiamo notare
R che fX > 0 è una condizione necessaria affinché fX sia una legge di densità. Quindi deve
essere B fX (x)dx < ∞.
4
Per una discussione dettagliata sulle funzioni assolutamente continue si veda [10, pag. 311].
3
54
f ∈ C. Noi ci occupiamo anche di funzioni f ∈ L1 per cui y 0 = f quasi ovunque
(rispetto alla misura µ che per noi sarà la misura di Lebesgue). Si parla in questo caso
di teoria dell’integrazione secondo Lebesgue5 .
Una v.a. con valori continui possiede quindi una f.r. che è una funzione integrale,
si può rappresentare come integrale di una funzione fX detta (funzione di) densità
Z
Z
P (X ∈ B) = FX (B) =
dFX =
fX (x)dx
B
B
(dove B è un Boreliano). Affinché una funzione fX sia una densità, sono condizioni
necessarie e sufficienti:
1. fX (x) > 0,
R∞
2. −∞ fX (x)dx = 1.
Se X è assolutamente continua, a volte diremo semplicemente che X è continua
nel senso della Definizione 30. Inoltre, se X è una v.a. c. o a.c. scriveremo
X ∼ fX .
(3.14)
2
Esercizio 31. Trovare il valore κ tale che f (x) = κe−x , x ∈ R sia una densità.
Esercizio 32. Verificare se f (x) = e−3x , x ≥ 0 è una densità.
Esercizio 33. Trovare il valore κ tale che f (x) = κ1(−1,1) (x), x ∈ R sia una densità.
Esercizio 34. Dire se le densità considerate negli esercizi precedenti sono continue o
assolutamente continue.
Il concetto di funzione di distribuzione può essere esteso al caso delle v.a. multidimensionali (o vettori di v.a.). Nel caso di un vettore 2-dimensionale scriveremo
Z Z
P (X1 ∈ B1 , X2 ∈ B2 ) = F(X1 ,X2 ) (x1 , x2 ) =
fX1 ,X2 (x1 , x2 )dx1 dx2
B1
B2
In generale, X è un vettore di variabili aleatorie di dimensione n se
X = (X1 , X2 , . . . , Xn )
dove le Xj , j = 1, 2, . . . , n possono essere dipendenti o indipendenti. Dalle formule
in (3.4) si ottengono le marginali. Diciamo che, data la f.r.
ϕ(x1 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−1 ≤ xn−1 , Xn ≤ xn )
5
Il lettore interessato può consultare [10, Capitolo 6], per essere precisi, l’integrale (3.2) o
per una f integrabile rispetto a FX , va inteso nel senso di Lebesgue-Stieltjes.
R
f dFX
Capitolo 3.
Variabili Aleatorie
55
si ottiene
lim
xn →∞
xn−1 →∞
ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xn−2 )
dove
ϕ(x1 , . . . , xn−2 ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn−2 ≤ xn−2 )
è la marginale di ordine n − 2. In generale, è anche vero che
lim ϕ(x1 , . . . , xn ) = ϕ(x1 , . . . , xj−1 , xj+1 , . . . , xn ).
xj →∞
Si possono definire marginali di ogni ordine k ≤ n partendo da una funzione di ripartizione di ordine n. Infatti anche per k = n si può pensare di avere una marginale
rispetto a qualche funzione di ripartizione di ordine m > n. Le densità marginali si
ottengono derivando le corrispondenti funzioni di ripartizione che equivale e scrivere,
ad esempio nel caso unidimensionale
Z
fX1 (x1 ) =
fX1 ,X2 (x1 , x2 )dx2
supp(X2 )
oppure, se
φ(x) =
∂ nϕ
(x) = fX1 ,...,Xn (x1 , . . . , xn ),
∂x1 · · · ∂xn
allora
Z
φ(x)dxj .
fX1 ,X2 ,...,Xj−1 ,Xj+1 ,...,Xn (x1 , x2 , . . . , xj , xj+1 , . . . , xn ) =
supp(Xj )
Vale la pena di notare che
P (X1 ≤ x1 , X2 ≤ ∞) = P (X1 ≤ x1 )
dato che l’evento ΩX2 = (X2 ≤ ∞) è un evento certo per X2 . Cioè P (X2 ≤ ∞) = 1
o A ∩ ΩX2 = A per ogni insieme A ∈ AX2 . Preso il Boreliano B = (−∞, x], si ricava
che
Z x
Z x
fX (u)du.
FX ((−∞, x]) = FX (x) =
dFX =
−∞
−∞
Inoltre il concetto di densità può essere espresso in termini di probabilità dalla seguente
relazione
Z x+Mx
fX (x)4x '
fX (u)du = P (x < X ≤ x+ M x) = FX (x + 4x) − FX (x)
x
con
P (x < X ≤ x+ M x)
= FX0 (x).
4x→0
4x
lim
56
Osservazione 15. Osserviamo che per una v.a. assolutamente continua si ha P (X =
x) = 0 per ogni punto x ∈ supp(X) (ed ovviamente per tutti gli x ∈
/ supp(X), per
definizione). Basta considerare 4x → 0+ e la continuità di FX .
Diamo la seguente definizione.
Definizione 33. Sia f ∈ C.
• Se g ∈ L1 e |f (x)| ≤ g(x) per ogni x, diciamo che f è dominata da g.
• Se per M > 0, si ha |f (x)| ≤ M per ogni x, diciamo che f ∈ Cb dove Cb indica
l’insieme delle funzioni continue e limitate (o uniformemente limitate).
Abbiamo preferito mantenere il simbolo Cb che sta per continuous and bounded.
Possiamo dire che una funzione è limitata se la sua immagine è un insieme limitato.
Introduciamo ora la condizione di Lipschitz, per una funzione f ,
|f (x) − f (y)| ≤ M |x − y|
dove M è detta costante di Lipschitz. Una funzione Lipschitziana è una funzione di
una variabile reale che ha una crescita limitata, nel senso che il grafico della funzione
f è contenuto nella regione delimitata dalle rette di coefficiente angolare +M e −M
passanti per un punto opportunamente scelto del grafico della f . La Lipshitzianetà6 è
una condizione più forte della continuità7 o della uniforme continuità8 . Indichiamo con
Lip l’insieme delle funzioni Lipschitziane. Una funzione derivabile e Lipschitziana ha
derivata limitata. Infatti, se f è derivabile nel punto x, allora
f (x) − f (y)
= f 0 (x).
y→x
x−y
lim
Quindi, se f ∈ Lip,
|f 0 (x)| = lim
y→x
|f (x) − f (y)|
≤M
|x − y|
6
Una funzione è detta di Lipschitz se esiste una costante M tale che, per ogni x, y, vale la condizione
di Lipschitz.
7
Una funzione è detta continua in x se
∀ > 0 ∃ δ = δ(y, ) > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .
Questa definizione è ovviamente analoga a quella già data, viene riportata solo per evidenziare il
collegamento con le funzioni Lipschitziane.
8
Una funzione f è uniformemente continua se δ dipende solo da , cioè se per ogni x, y si ha
∀ > 0 ∃ δ = δ() > 0 : |y − x| < δ ⇒ |f (y) − f (x)| < .
Capitolo 3.
Variabili Aleatorie
57
e quindi la derivata è limitata. In particolare, le seguenti affermazioni sono dunque
equivalenti:
i) f è derivabile e |f 0 | ≤ M , allora f ∈ Lip,
ii) f ∈ C 1 , allora f è localmente Lipischitziana.
Osserviamo che la ii) significa che f è uniformemente continua in un intervallo, basta
considerare δ = /M .
2
Osservazione 16. Sono esempi di funzioni continue in R le funzioni
√ f (x) = x e
g(x) = sin x. Si noti che f ∈
/ Lip mentre g ∈ Lip. Inoltre, f (x) = x è continua in
[0, ∞) ma f ∈
/ Lip.
Osserviamo infine che non vale la doppia implicazione. Infatti, f (x) = |x| è
Lipshitziana ma f ∈
/ C 1 in R, essendo continua ovunque ma derivabile per x 6= 0.
Ricordiamo un risultato utile nei conti.
Proposizione 8. Siano ϕ e ψ derivabili, f integrabile. Allora, la funzione integrale
Z ϕ(x)
f (u)du
(3.15)
F (x) =
ψ(x)
ha derivata
F 0 (x) = ϕ0 (x) f (ϕ(x)) − ψ 0 (x) f (ψ(x)).
(3.16)
Una funzione (di una variabile) continua può non essere derivabile mentre una funzione derivabile è continua. Per funzioni di più variabili bisogna introdurre la nozione
di funzione differenziabile. Se f è differenziabile, allora ha derivata in ogni direzione.
Inoltre, ogni funzione differenziabile in x è continua in x.
Teorema 10. Se f ha derivate parziali in un intorno di x e sono continue in x, allora
f è differenziabile in x.
Segue dalla Definizione 31 che P (X ∈ A) > 0 per ogni insieme A ⊂ supp(X).
Si vede subito che per ogni densità fX (e quindi per ogni v.a. X) si ha che supp(X) =
supp(fX ) e quindi fX (x) = 0 per ogni x ∈
/ supp(X). Infatti, sia X una v.a. ddimensionale e A = R \ supp(X), allora possiamo scrivere,
Z
Z
fX (x)dx =
fX (x)dx = P (X ∈ Ω) = 1
Rd
supp(X)
e
Z
fX (x)dx = P (X ∈ A) = 0.
Rd \supp(X)
58
Esercizio 35. Dire se
(
F (x) =
x2 sin
0,
1
, x 6= 0
x2
x=0
è differenziabile e verificare che F 0 = f ∈
/ L1 (f non è integrabile).
Esercizio 36. Si è introdotta la funzione di Heaviside H(x) = 1[0,∞) con x ∈ R. Dire
se H è continua a destra o a sinistra. Dire se H è continua in A = (1, 3), B = [1, 3),
C = (−1, 0), Ac , B c , C c \ [0, ∞).
Esercizio 37. Sia X ∼ fX con fX (x) = κ1E (x) con E = (0, l), κ, l > 0. Dire se X è
c. oppure a.c. in R. Quanto vale κ? Chi è X?
Esercizio 38. Dire se esiste X ∼ fX con FX (x) = H(x). [Si consideri che FX (x) =
P (X ≤ x).]9
Variabili aleatorie discrete
Un esempio di v.a. discreta può essere la variabile che restituisce i numeri da 1 a 6 nel
lancio di un dado oppure una variabile che può assumere solo i valori 1 e −1.
Definizione 34. Una v.a. si dice discreta se assume valori discreti10 .
Definizione 35. Se X è una v.a. discreta, definiamo spet(X) lo spettro della v.a. X,
cioè l’insieme dei valori che può assumere X.
La funzione di ripartizione è scritta a partire dalla seguente probabilità (come
vedremo questa non è la scrittura definitiva)
X
pk , x ∈ spet(X)
P (X ≤ x) =
k:xk ≤x
dove
pk =
P (X = xk ), xk ∈ spet(X)
0,
altrimenti
(3.17)
e la successione xk , k = 1, 2, . . . rappresenta tutti i valori che X può assumere. La
successione è dunque numerabile (cioè può essere messa in corrispondenza biunivoca
con l’insieme dei numeri naturali) e può essere scritta come {xk }k∈IX dove IX ⊆ N
9
Si veda la Definizione 43.
Diciamo anche che l’insieme dei valori che tale v.a. può assumere, in seguito chiamato spettro o
spettro discreto, è un insieme finito o numerabile.
10
Capitolo 3.
Variabili Aleatorie
59
è un insieme di indici per la v.a. X. In generale, diremo che una v.a. discreta X può
essere caratterizzata dalla coppia (xk , pk ) per tutti i k ∈ IX e scriveremo
X ∼ (xk , pk ), k ∈ IX .
(3.18)
Quindi la funzione di ripartizione si potrebbe riscrivere considerando
X
P (X ≤ x) =
pk , x ∈ spet(X).
k∈IX :xk ≤x
Consideriamo la funzione semplice (2.5) e la misura di Dirac associate alla v.a discreta
X. Diremo che:
• la funzione semplice fX è associata alla v.a. discreta X se
X
fX (x) =
pk 1{xk } (x),
k∈Z
• la misura di Dirac µδ è associata alla v.a. discreta X se
µδ = µδ (x, E) con E = spet(X).
Allora,
Z
P (X ∈ B) =
B
fX dµδ =
X
pk µδ (xk , B).
(3.19)
k∈IX
La successione pk , k ∈ IX (e quindi la funzione f ) è detta densità discreta di X.
Condizioni necessarie e sufficienti affinché pk sia una densità discreta sono:
1. pk ≥ 0,
P
2.
k∈IX pk = 1.
Osserviamo che la somma ad uno implica che pk ≤ 1 e quindi pk ∈ [0, 1] sono probabilità. Si noti anche che la definizione (3.17) è stata data per chiarezza ma risulta
ridondante. Infatti P (X = xk ) = 0 se xk ∈
/ spet(X), si pensi al lancio di un dado,
P (esce la faccia con il numero 21) = 0.
Osservazione 17. Notiamo che si sta usando un insieme diverso dal supporto di una
v.a., lo spettro. Si vuole infatti sottolineare che nel caso delle v.a. discrete si ha a
che fare con un insieme, lo spettro, per cui si può avere P (X = x) 6= 0 per qualche
x ∈ spet(X).
60
Osservazione 18. Se pk = 1/|Ω| è costante, la (3.19) diventa
1 X δ
µ] (B)
1 ]
P (X ∈ B) =
µ (B) = ]
.
µ (xk , B) =
|Ω| k∈I
|Ω|
µ (Ω)
X
Ritroviamo cioè uno spazio di probabilità uniforme e la probabilità di un evento si
calcola usando il metodo classico (si veda la Sezione 2.6).
Esercizio 39. Sia {pk }k∈I una densità discreta (I è un insieme di indici e potrà essere
I = IX per qualche X). Studiare la convergenza di
fn (x) =
n
X
pk 1{xk } (x),
x ∈ D,
n ∈ N.
k=−n
Abbiamo accennato al fatto che useremo una scrittura definitiva per la f.r. che
completa quella appena data (si veda il Capitolo 7). Come vedremo sotto, se x ∈
/
supp(X) (o x ∈
/ spet(X)) la f.r. FX (x) può assumere solo il valore 0 oppure 1.
Introduciamo le seguente notazione per indicare la probabilità relativa ad un vettore
di v.a. discrete,
pr,s = P (X1 = xr , X2 = xs ),
r ∈ IX1 , s ∈ IX2
(3.20)
oppure
pr1 ,r2 = P (X1 = xr1 , X2 = xr2 ),
r1 ∈ IX1 , r2 ∈ IX2
Segue immediatamente la notazione relativa a vettori di dimensione d > 2.
Esercizio 40. Sia ck = γP (X = k), k ≥ 1 una successione con X ∼ P ois(λ), λ > 0
e γ > 0. Dire se (yk = k, ck ), k ∈ IY = {1, 2, 3, . . .} caratterizza una v.a. Y .
Osservazione 19. Spesso il supporto di una v.a. (continua) viene chiamato spettro
continuo mentre lo spettro di una v.a. (discreta) viene chiamato spettro discreto. Noi
chiameremo supporto e spettro gli insieme in questione per sottolineare i collegamenti
con la densità f della misura P ed il fatto che il supp(f ) è costituito dai punti x per
cui f (x) 6= 0. In particolare il supporto di una funzione f è dato dalla chiusura di
{x ∈ A : f (x) 6= 0}.
3.2
Media e Momenti
Si consideri una v.a. continua X con legge di densità fX ed una v.a. discreta Y
caratterizzata dalla successione (yk , pk ), k ∈ IY . Definiamo le seguenti medie
Z
X
EX =
x fX (x)dx
EY =
yk p k
supp(X)
k∈IY
Capitolo 3.
Variabili Aleatorie
61
Definiamo inoltre i seguenti momenti di ordine r > 0
Z
X
r
xr fX (x)dx
EY r =
EX =
(yk )r pk .
supp(X)
k∈IY
Le medie campionarie introdotte a pagina 3 sono dunque collegate alle medie appena
introdotte. In particolare, la media aritmetica è un caso particolare di media ponderata
ed entrambe si possono vedere come il valore medio di una variabile aleatoria. Inoltre,
siamo in grado di passare a nuove v.a. per il tramite di una funzione g ben definita.
In generale, vale la seguente
Proposizione 9. Sia g ∈ Cb e non negativa, allora
Z
X
Eg(X) =
g(x) fX (x)dx,
Eg(Y ) =
g(yk ) pk .
supp(X)
(3.21)
k∈IY
Si noti che se 0 ≤ g ≤ M , allora 0 ≤ Eg(X) ≤ M (verificare!). Inoltre, se g ∈ Cb
allora g ∗ = −g ∈ Cb . Siano adesso X ed Y due v.a. (continue o discrete). Sono
quantità di interesse:
la varianza
V ar(X) = E(X − µ)2 = M2 − (M1 )2 ,
(3.22)
la covarianza
Cov(X, Y ) = E[(X − µX )(Y − µY )] = EXY − EXEY
(3.23)
Mr = EX r .
(3.24)
ed i momenti
Spesso scriveremo µ = M1 per indicare che la media M1 = EX è il numero µ
(non deve creare confusione il fatto che si stia usando lo stesso simbolo µ utilizzato per
indicare una misura, infatti dal contesto sarà sempre chiaro a quale oggetto ci stiamo
2
riferendo). Scriveremo anche σX
= V ar(X) per indicare la varianza di X o semplice2
mente σ se non ci sarà ambiguità. Allo stesso modo scriveremo Mr invece di Mr (X)
2
= Cov(X, X).
o Mr (Y ). Notiamo inoltre che σX
Diamo alcune proprietà della media:
i) E1A (X) = P (X ∈ A)
ii) per aj ∈ R ed Xj v.a. qualunque, j = 1, 2, . . . , n,
" n
#
n
X
X
E
aj X j =
aj EXj (linearità della media)
j=1
j=1
62
iii) se X ≥ 0, si ha
Z
∞
P (X > x)dx
EX =
X
e EX =
0
P (X > xk )
k∈IX
iv) se X ≥ 0 e p > 0, si ha
Z ∞
p
EX =
pxp−1 P (X > x)dx
EX =
e
0
X
p(xk )p−1 P (X > xk )
k∈IX
v) se X ≥ 0 e EX = 0, allora P (X = 0) = 1
vi) se X ⊥ Y , allora
EXY = EX EY
vii) se p e q sono esponenti coniugati, allora
1
1
E|XY | ≤ (E|X|p ) p (E|Y |q ) q
Proviamo che vale la relazione (3.22) scritta sopra tra varianza e momenti. Otteniamo
2
σX
=E(X − µ)2 (per definizione)
=E(X 2 − 2µX + µ2 ) (sviluppando il quadrato)
=M2 − 2µM1 + µ2 (per la linearità della media)
=M2 − (M1 )2 (per la definizione di momento)
Per la varianza vale inoltre la relazione
V ar(aX) = a2 V ar(X)
(3.25)
per ogni a ∈ R. La dimostrazione è lasciata al lettore (si consideri E[aX − E(aX)]2 ).
Osserviamo inoltre che (indipendenza lineare)
X ⊥ Y ⇒ Cov(X, Y ) = 0.
Non è vero il contrario (perché?).
Dimostrazione del punto i). Se X ∼ fX ,
Z
Z
E1A (X) = 1A (x)fX (x)dx =
fX (x)dx = P (X ∈ A).
A
(3.26)
Capitolo 3.
Variabili Aleatorie
63
Se invece X ∼ (xk , pk ), k ∈ IX ,
Z
X
E1A (X) = 1A (x)fX (x)µδ (dx) =
1A (xk ) pk = P (X ∈ A).
k∈IX
Esercizio 41. Si dimostri il punto ii).
Dimostrazione del punto iii). Integriamo per parti ed otteniamo
∞ Z ∞
Z ∞
d
x [1 − FX (x)]dx
P (X > x)dx =xP (X > x) −
dx
0
0
∞ 0Z ∞
xfX (x)dx
=x(1 − FX (x)) +
0
0
Z ∞
=
xfX (x)dx
0
dove si è usata la regola di de l’Hopital ed il fatto che
FX (0) = costante,
fX (±∞) = 0 (integrabilità della fX ).
Esercizio 42. Si dimostri il punto iv).
Dimostrazione del punto v). Dal punto precedente si vede che
Z ∞
P (X > x)dx = 0
implica
P (X > x) = 0 per ogni x. (3.27)
EX =
0
Quindi deve essere 1 = 1 − P (X > x) = P (X ≤ x) solo nel punto x = 0.
Dimostrazione del punto vi). Segue dal fatto che f(X,Y ) (x, y) = fX (x) fY (y) per le
v.a. continue e analogamente pr,s = pr ps per le v.a. discrete.
Dimostrazione del punto vii). Consideriamo prima il caso in cui le variabili siano continue. Osserviamo che
Z
Z
Z
E|XY | =
|xy|f(X,Y ) (x, y) dxdy = |xy|dµ = kxyk1
supp(X)
supp(Y )
2
che equivale a kf gk1 in L (µ) per le funzioni f (x, y) = x e g(x, y) = y. Inoltre,
Z
Z
Z
p
p
E|X| =
|x| f(X,Y ) (x, y) dxdy = |x|p dµ = (kf kp )p
supp(X)
q
q
supp(Y )
e E|Y | = (kgkq ) . Si sta quindi considerando una misura µ con densità continua
f(X,Y ) e dalla disuguaglianza di Hölder, si ottiene l’enunciato.
Se le variabili sono discrete, la disuguaglianza di Hölder continua a valere in lp
rispetto alla misura f(X,Y ) · µδ (dx, spet(X, Y )) associata alla v.a. discreta (X, Y ).
64
3.3
Alcune disuguaglianze fondamentali
Teorema 11. (Dis. di Jensen) Sia g una funzione convessa e X una v.a. con valore
atteso finito, allora
Eg(X) ≥ g(EX).
Dimostrazione. Si deve applicare il Teorema 2.
Dalla disuguaglianza appena introdotta e dalla Proposizione 9 si vede che, g ∈ Cb
funzione convessa,
g(EX) ≤ Eg(X) ≤ M.
Teorema 12. (Dis. di Markov) Sia X una v.a. non negativa, allora
∀ > 0 P (X > ) ≤
EX
Dimostrazione. Si utilizza la proprietà i) della media. Per ogni > 0
X
X
1(,∞) (X) ≤ E
P (X > ) = E1(,∞) (X) = E
.
X
La dimostrazione è conclusa.
Se X ∼ fX è una v.a. non negativa (X ≥ 0), possiamo dimostrare la disuguaglianza di Markov come come segue.
Dimostrazione alternativa. Dalla definizione di media per v.a. continue, scriviamo
Z
EX =
xfX (x)dx
supp(X)
Z
≥
xfX (x)dx (X è positiva e l’integrale è non decrescente)
{x∈supp(X) : x>}
Z
x
=
fX (x)dx (moltiplico e divido per )
{x∈supp(X) : x>} Z
x
≥
fX (x)dx = P (X > ).
{x∈supp(X) : x>} Notiamo che {x ∈ supp(X) : x > } = supp(X) ∩ (, ∞)
Teorema 13. (Dis. di Chebyshev) Sia X una v.a.,
∀ > 0 P (|X| > ) ≤
E|X|r
,
r
r > 0.
Capitolo 3.
Variabili Aleatorie
65
Dimostrazione. Per ogni > 0,
P (Y > ) = E1(,∞) (Y )
dove Y = |X| è una v.a. non negativa. Si applica allora la disuguaglianza di Markov
moltiplicando e dividendo per Y r . Otteniamo
r
r
Y
Y
E
1(,∞) (Y ) ≤ E r .
r
Y
La dimostrazione è conclusa.
Dimostrazione alternativa. Consideriamo X ∼ fX . Otteniamo
Z
r
E|X| =
|x|r fX (x)dx (definizione)
Zsupp(X)
Z
r
|x| fX (x)dx +
|x|r fX (x)dx
=
{x∈supp(X):|x|>}
Z{x∈supp(X):|x|≤}
|x|r fX (x)dx (somma di quantità positive)
≥
{x∈supp(X):|x|>}
Z
|x|r
r
fX (x)dx
=
r
{x∈supp(X):|x|>} ≥ P (|X| > )
(sto integrando sulle x : |x| > ⇒ |x|/ > 1).
Consideriamo ora X ∼ (xk , pk ), k ∈ IX . Allora,
X
X
|xk |r pk ≥
E|X|r =
k∈IX
|xk |r pk .
k∈IX : |xk |>
Seguendo passaggi simili a quelli considerati nel caso continuo si conclude la dimostrazione.
Ricordiamo alcuni risultati sulle somme di v.a. senza dare le dimostrazioni.
Teorema 14. (Dis. di Lévy)
P max Sk ≥ β ≤ 2P (Sn ≥ β).
1≤k≤n
Teorema 15. (Dis. di Doob)
P
max Xk ≥ β
1≤k≤n
dove Xn+ = max{0, Xn } e β > 0.
≤
EXn+
β
66
Teorema 16. (Prima dis. di Kolmogorov)
V ar Sn
P max |Sk | ≥ β ≤
.
1≤k≤n
β2
Teorema 17. (Seconda dis. di Kolmogorov)
(β + 2a)2
.
P max |Sk − ESk | ≥ β ≥ 1 −
1≤k≤n
V ar Sn
Teorema 18. (Dis. di Marshall)
P max Sk ≥ β ≤
1≤k≤n
3.4
3.4.1
β2
V ar Sn
.
+ V ar Sn
Relazioni tra variabili aleatorie Eventi di misura nulla
Se vale µ(A) = 0 diciamo che A ha misura µ nulla, cioè A è un insieme trascurabile
rispetto alla misura µ. Se P ha densità f rispetto a µ, cioè dP = f · dµ ed A è
trascurabile rispetto a µ allora sarà anche di misura nulla rispetto a P , cioè P (A) = 011 .
Si consideri una v.a. X ∼ U nif (−c, c) con c > 0, la cui densità è quindi fX (x) =
1
1
(x) (si veda sotto per la v.a. Uniforme). Vediamo che P (X ∈ A) è la misura
2c [−c,c]
di Lebesgue dell’insieme A, infatti se A ⊂ [−c, c],
Z
1
1
1[−c,c] (x)dx = µ(A).
(3.28)
P (X ∈ A) =
2c A
2c
Sia adesso Y ∼ fY una v.a. continua con supp(Y ) ⊂ supp(X). Notiamo che Y è
assolutamente continua rispetto ad X, o meglio
Z
P (Y ∈ A) =
fY (y)dy
A
è assolutamente continua rispetto alla misura di Lebesgue. In particolare, dato un
insieme A ∈ supp(Y ) ⊆ supp(X), allora P (X ∈ A) = 0 implica P (Y ∈ A) = 0.
Si può sempre definire una v.a. Uniforme con supporto contenente un intorno di x
di probabilità nulla, quindi tale intorno sarà di probabilità nulla per ogni ogni v.a.
continua.
11
Si dice che P è assolutamente continua rispetto a µ e si scrive P µ.
Capitolo 3.
3.4.2
Variabili Aleatorie
67
Probabilità congiunte e condizionate
Variabili identicamente distribuite. Diciamo che due o più variabili sono identicamente distribuite e scriveremo ”i.d.” se hanno la stessa legge di densità12 (discreta
o continua). Inoltre se due o più variabili i.d. sono anche indipendenti scriveremo
”i.i.d.”.
Indipendenza. È importante sottolineare un aspetto fondamentale nel calcolo delle
Probabilità al quale si è appena accennato. Diamo la seguente definizione.
Definizione 36. Siano X e Y due v.a. definite sullo stesso spazio di probabilità.
Diciamo che X e Y sono indipendenti e scriveremo X ⊥ Y se
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B) per ogni A, B ∈ B n .
(3.29)
Due eventi A1 , A2 relativi alla v.a. X sono indipendenti se (X ∈ A1 ) ⊥ (X ∈ A2 ).
Si noti che si sta parlando della stessa v.a. X. Studiare il verificarsi di A1 significa
quindi studiare (X ∈ A1 ) e così anche per A2 .
Si deve notare che ci sono diverse misure di dipendenza. Osserviamo i grafici in
Figura 3.2, si vede che i punti in (a) sono distribuiti in maniera casuale; i punti in (b)
sono distribuiti in maniera casuale intorno ad una retta (detta trend); i punti in (c) sono
distribuiti in maniera casuale attorno ad una parabola (un trend diverso dal precedente);
i punti in (d) sono ottenuti da realizzazioni indipendenti del quadrato di una normale.
Le realizzazioni sono quindi indipendenti ma essendo legate da un trend sottostante,
tranne nel caso (a), si possono identificare diverse strutture di dipendenza dei dati. I
grafici si sono ottenuti utilizzando R ed eseguendo il codice:
>e=rnorm(500)
>x=seq(0.01, 5, 0.01)
>par(mfrow=c(2,2))
>plot(e, pch=16, axes=F, xlab="(a)", ylab=" ")
>plot(x + e, pch=16, axes=F, xlab="(b)", ylab=" ")
>plot(x^2 + e, pch=16, axes=F, xlab="(c)", ylab=" ")
>plot(e^2, pch=16, axes=F, xlab="(d)", ylab=" ")
Si noti che rnorm() restituisce un vettore (di dimensione 500) di numeri con distribuzione N (0, 1). Tale funzione è un esempio di generatore di numeri casuali.
Esercizio 43. Nel grafico (a) di Figura 3.2 si sono plottati i punti e. Si noti che tali
punti rappresentano un errore Gaussiano e corrisponde alla nuvola di punti 0+e.
Perché tale osservazione non è banale? (Si faccia il confronto con il grafico (b)!!).
12
Dovremmo dire anche rispetto alla stessa misura µ che noi supporremo essere sempre la misura di
Lebesgue per le v.a. continue (o assolutamente continue) e la misura di Dirac per le v.a. discrete.
68
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
● ●
●
●
● ● ● ●
●
●
●●●
●
● ●
●
●
●●
●●
●●
●●●
● ●● ●●
●● ● ● ●●●
● ●●
● ● ●
●●
● ●
●
●●●●●●● ●
●
●●
● ●
●● ● ● ● ● ●
●●
●● ●● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ● ●
● ●
●
●● ●●
● ●●
●●
●● ●
●●
● ● ●
●●
●●●● ●
●
●
●
●●
●●
●● ●● ●
●●
● ●●
●
● ●●●●
● ●
●●
● ● ●
●
●●●●
●
●
●
●●
●●
● ●●
●
●
●● ●●
●
●●
●●
● ●●●
●
●●●●●●
●●
●● ●● ● ●●●●
●
● ●● ●●●
●
● ●●●●
●●
●
●●
● ●
●●
●
●● ●
● ●
● ●● ●
● ●● ●
●
●●
●
●
●
●● ●●
●
●
●
●●●
●
●
●
●
●
●
●
●
● ●●
●●● ●
● ●
● ●
●●
●
●
●●
●●
●
●
●
● ●●
●
●
●
●●
●●●●
●
●
●●●
●● ●
●● ●
●
●● ●
●
●
●●
●
●●●●
● ●● ●●
●●
● ●
● ●
●● ●
●●
●
●●
●●
●●
●
●
●●
●●
● ●● ●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
● ●
● ●
●
●●● ●
● ● ●
● ●●● ●●
●● ●
● ●●● ●●●●●●●●
● ●●●
● ●
● ● ● ●●
●●
● ●
●●● ● ●●
●
●
●
● ●● ●●
● ● ●
●
● ●● ●● ●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
● ● ●
●● ●●
● ●● ●● ●●
●
●●●●
●
●●
●
●●
●●●
●●
●●● ●
●● ●●●
● ●
● ●
●
●
●
●●
●●
●●●●
●● ●
● ● ●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
● ●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●●●●●●
●
●
●
●
●
●
●
●
●
● ● ●
●●●●●
●●
●● ● ● ●●
● ●
●
● ●●
● ●●●●
●●
●●● ●●
●●●
●●
●●
●
●
● ●
●●●● ●
●●●
●● ●
●●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●●● ●
●
●
●
●
●●
●
●
●
●●●
●
●●
●●● ●
●●
●
● ● ●● ● ●●
●
●●●
●●●
●●
●●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●
●
●
●
●
●●
●●●●
●●●●●●●● ● ●● ●●
●●●
●
●
●●● ●
●●
●
●
●
●
●
●
●
●●
● ●
● ● ●●
● ●
●
●●●
● ● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●
●●●
●
●
●
●●
●
● ●●● ●
●●
●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●●
●● ●●● ●
●
●
●● ●●
●●●● ● ●
●● ●
●
● ●●●●
●●●
●
●
●●●●●
●●
●
● ●●●● ●
●
●
●
●●●
●
●●●●●●● ●
●
●●
●●
●
● ● ●
●
● ●●
●
●
●
●
●
●
● ●●
●● ●
●● ●
●
●●
●
●
●●
●
●
●●
(a)
(b)
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
● ●●● ● ●
●
●
●
●●
●
●
●
●
●
●
●●●
●
● ●● ● ●
●
● ● ●●●
●
●●
●
●
●
●
● ● ●● ●●
● ● ●●● ●
●●●
●
●
●
●
●
●● ● ● ● ●●
●
●
●
●
●
●
●
●
●● ● ● ●●●●●
●● ●
●● ● ● ●●●●
●●
●
● ● ●
●
●
●
●
●● ●
●●
● ●
● ● ●● ●
●
●●● ●●●
●
●● ●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●●
●●● ● ●● ●● ●●●
●●● ●
●● ●
●
● ●●● ●●●●
●●
●
●● ●●●
● ●●● ●
●●
●●
●
●●
●
●
●
●●
●●
●
●
●●
●
●
●
●●●
●
●
●
●●●
●
● ●
●
●●
●
●●
●
●
●
●● ●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●●●
●●
●●●
●
●
●
●
●
(c)
(d)
●
●
●
●
●
●
●
●
●
●
●
Figura 3.2: Diverse strutture di dipendenza.
Capitolo 3.
Variabili Aleatorie
69
Densità e funzioni di ripartizione. Dalla Proposizione 6, scriviamo
P (A1 , A2 , . . . , An ) =
n
Y
P (Aj )
j=1
se gli eventi Aj sono tra loro indipendenti. Consideriamo Aj = (Xj ≤ xj ) per ogni
j = 1, 2, . . . , n. Per il vettore X = (X1 , . . . , Xn ), otteniamo la f.r.
FX (x) =FX (x1 , . . . , xn )
=P (X1 ≤ x1 , . . . , Xn ≤ xn )
n
Y
=
P (Xj ≤ xj )
=
j=1
n
Y
FXj (xj ).
j=1
Dalla relazione precedente si ricava che, se X ∼ fX ,
∂n
FX (x1 , . . . , xn )
∂x1 · · · ∂xn
n
Y
=
fXj (xj ).
fX (x1 , . . . , xn ) =
j=1
Se Xj ∼ (xk , pk ), k ∈ IXj per j = 1, 2, . . . , n (cioè sono identicamente distribuite13 ),
allora
pr1 ,...,rn = P (X1 = xr1 , X2 = xr2 , . . . , Xn = xrn ) =
n
Y
prj .
j=1
Si vede subito, dalla legge delle probabilità composte che
P (X = xr |X = xs ) = pr|s =
pr,s
.
ps
(3.30)
Consideriamo ancora v.a. continue (e quindi integrali). La probabilità condizionata può essere riscritta come segue, sfruttando formalmente la legge delle probabilità
composte,
Z Z
P (Y ∈ A|X ∈ B) =
P (Y ∈ dy|X ∈ dx)
A
13
B
Si considera il caso in cui sono identicamente distribuite solo per semplicità di notazione ma si
potevano considerare le Xj ∼ (xjk , pjk ), k ∈ IXj .
70
Z Z
=
ZA ZB
=
P (Y ∈ dy, X ∈ dx)
P (X ∈ dx)
dFY |X (x, y)
ZA
ZB
A
B
=
fY |X (x, y)dxdy.
In particolare, si ottiene che
fY |X (x, y) =
fX,Y (x, y)
fX (x)
(3.31)
è la densità doppia della v.a. Y |X. Si poteva considerare subito la legge delle probabilità totali ed ottenere
P (Y ∈ A, X ∈ B)
P (X ∈ B)
Z
P (Y ∈ dy, X ∈ B)
=
P (X ∈ B)
ZA
P (Y ∈ dy, X ∈ B) dy
=
P (X ∈ B)
dy
A
P (Y ∈ A|X ∈ B) =
dove
P (Y ∈ dy, X ∈ B)
1
∂
= FY |X (y, B)
dy
P (X ∈ B) ∂y
Z
∂2
FY |X (y, x)dx.
=
B ∂y∂x
Si ottiene ancora che
∂2
fX,Y (x, y)
FY |X (y, x) =
= fY |X (x, y).
∂y∂x
fX (x)
Diremo che fX,Y (x, y) è una densità (doppia) congiunta mentre fY |X (x, y) è una
densità (doppia) condizionata. Nel caso di dimensioni n > 2 parleremo di densità
n-dimensionale (congiunta o condizionata).
Per semplicità continuiamo a riferirci alle densità 2-dimensionali fX,Y (x, y). Bisogna notare che la continuità di una funzione di due variabili, diciamo f (x, y), non deve
essere confusa con la continuità separata . Una funzione f (x, y) si dice separatamente
continua se per ogni y fissato, la funzione φ : x 7→ f (x, y) è continua solo in x e se
per ogni x fissato, la funzione ψ : y 7→ f (x, y) è continua solo in y. Se f è continua
Capitolo 3.
Variabili Aleatorie
71
in un punto allora anche φ,ψ sono separatamente continue in quel punto. Non è vero il
contrario come si può vedere dalla funzione
(
xy
, (x, y) 6= (0, 0)
+ y2
0,
(x, y) = (0, 0).
x2
f (x, y) =
Per verificare che f non è continua basta considerare f (t, t) = t2 /(t2 + t2 ) e quindi
sulle rette x = t e y = t. La verifica della continuità separata è lasciata al lettore.
Inoltre, verificare che f è derivabile. Se una funzione è derivabile e le derivate sono continue in un punto, allora tale funzione è differenziabile in quel punto; se una
funzione è differenziabile in un punto, allora è continua in quel punto.
Esercizio 44. Sia
√

 p x y , (x, y) 6= (0, 0)
f (x, y) =
x2 + y 2

0,
(x, y) = (0, 0).
Provare che f non è differenziabile. Dire se è continua.
Esercizio 45. Calcolare:
1.
x
;
2
(x,y)→(∞,∞) x + y 2
lim
2.
3x2 + 2y 2
;
(x,y)→(0,0) (x2 + y 2 )2
lim
3.
x−y
.
+ y 2 + 1)
lim
(x,y)→(0,0) log(x2
ν−1
Esercizio 46. Sia fX (x1 , x2 ) = λ xΓ(ν) e−(x1 +λx2 ) con x1 , x2 > 0, ν > 0, λ > 0 la legge
di densità del vettore X = (X1 , X2 ).
1. Dire se X1 ⊥ X2 .
2. Scrivere la marginale fX1 .
3. Scrivere la marginale fX2 .
4. Scrivere la f.r. FX2 .
2
2
Esercizio 47. Data la densità congiunta fX (x1 , x2 ) = κe−(x1 +x2 ) con x1 , x2 ∈ R del
vettore X = (X1 , X2 ):
1. determinare κ,
2. scrivere le marginali fXj (xj ), j = 1, 2.
72
Mancanza di memoria.
di indipendenza
Diciamo che una v.a. non ha memoria se vale la relazione
P (X > a + b|X > a) = P (X > b)
(3.32)
per a, b > 0. Per la legge delle probabilità composte si vede subito che deve verificarsi
P (X > a + b, X > a)
P (X > a + b)
=
= P (X > b)
P (X > a)
P (X > a)
dove la prima uguaglianza è sempre soddisfatta essendo vero che (X > a + b) implica
(X > a) con a, b > 0. Infatti, {ω : X(ω) > a} ⊂ {ω : X(ω) > a+b}. La mancanza
di memoria è una proprietà molto importante, implica che il comportamento di un certo
fenomeno (e quindi della v.a. che lo rappresenta) non dipende dal comportamento
passato. Il condizionamento non aggiunge e non toglie informazione.
Esercizio 48. Verificare la proprietà (3.32) per le seguenti v.a. :
1. X ∼ Exp(λ) con λ > 4,
2. X ∼ Gamma(λ, 1) con λ > 0,
3. X ∼ N (0, σ 2 ).
Correlazione. La correlazione è una dipendenza lineare misurata dalla covarianza.
Se due v.a. X e Y hanno covarianza nulla diciamo che sono incorrelate (o non sono
correlate). Stiamo dicendo che non è possibile identificare una relazione lineare tra
le due variabili, ad esempio non possiamo trovare a e b tali che Y = aX + b (o
X = aY + b). Notiamo che Cov(X, Y ) = EXY − EXEX può essere nulla per una
pura combinazione numerica (come ad esempio 12 = 3 · 4 o 12 = 2 · 6) e quindi non
implica che le v.a. siano indipendenti, possiamo solo dire che tra le due v.a. non c’è
dipendenza lineare. Quindi, riassumiamo dicendo che
X ⊥ Y ⇒ Cov(X, Y ) = 0,
Cov(X, Y ) = 0 6⇒ X ⊥ Y.
3.4.3
Trasformazioni di v.a.
Diamo prima i seguenti risultati senza dimostrarli.
Teorema 19. Sia X una v.a. 1-dimensionale e g : R 7→ R una funzione misurabile,
allora Y = g(X) è una variabile aleatoria.
Capitolo 3.
Variabili Aleatorie
73
Teorema 20. Sia (X1 , X2 ) = X una v.a. 2-dimensionale e g : R2 7→ R misurabile,
continua e derivabile. Allora g(X1 , X2 ) = Z è una variabile aleatoria.
Se le trasformazioni Y e Z di cui sopra sono v.a., allora possiamo identificare le
loro funzioni di ripartizione FY e FZ .
Osservazione 20. Sia Z = g(X1 , X2 ) come nel Teorema 20. Notiamo che il valore
medio può essere scritto a partire dalla FZ o dalla FX , cioè
EZ = Eg(X1 , X2 ).
Se le v.a. sono continue posso considerare
Z
EZ =
z dFZ (z)
supp(Z)
oppure
Z
Z
Eg(X1 , X2 ) =
g(x1 , x2 ) dF(X1 ,X2 ) (x1 , x2 ).
supp(X1 )
supp(X2 )
Analogamente nel caso discreto.
Ricordiamo anche che le derivate della funzione g e della sua inversa h = g −1 sono
legate dalla seguente formula
1
h0 (g) = 0
(3.33)
g (h)
(verificate !). Si ricava facilmente che (basta considerare y = g(x) e quindi x = h(y))
h0 (g(x)) =
1
g 0 (x)
e h0 (y) =
1
.
g 0 (h(y))
Teorema 21. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con legge di densità fX nota. La densità della v.a. Y = g(X) è
data da
fY (y) = |h0 (y)| fX (h(y)),
y ∈ supp(g(X)) = g(supp(X))
(3.34)
Dimostrazione. Osserviamo che Y è una v.a. per il Teorema 19, quindi possiamo
calcolare la f.r. FY . Inoltre,
Z
Z
fY (y)dy =
|h(y)| fX (h(y))dy
supp(Y )
g(supp(X))
Z
=
fX (z)dz = 1 ponendo y = g(z).
supp(X)
74
Se X ∼ fX allora la composizione di funzioni continue da una funzione continua ed
Y = g(X) è una v.a. continua. Per trovare la fY si deve quindi derivare la f.r. FY . Se
g è crescente, allora h = g −1 è crescente e h0 > 0. Otteniamo,
FY (y) =P (g(X) < y)
=P (X < h(y))
Z h(y)
fX (x)dx ⇒ fY (y) = h0 (y)fX (h(y)) ≥ 0.
=
−∞
Se g è decrescente, allora la sua inversa è decrescente. In particolare, h0 < 0 e quindi
FY (y) =P (g(X) < y)
=P (X > h(y))
Z ∞
=
fX (x)dx ⇒ fY (y) = −h0 (y)fX (h(y)) ≥ 0.
h(y)
Per quanto sopra, la dimostrazione è conclusa.
Teorema 22. Sia g una funzione misurabile, invertibile e derivabile con inversa h =
g −1 . Sia X una v.a. con distribuzione di probabilità (xk , pk ), k ∈ IX nota. La
distribuzione di probabilità della v.a. Y = g(X) è data da
P (Y = yk ) = |h0 (yk )| P (X = h(yk )),
y ∈ supp(g(X)) = g(supp(X)).
(3.35)
Esercizio 49. Dimostrare la (3.35).
Osservazione 21. Supponiamo che in uno studio medico sia importante misurare il
livello Y di una certa sostanza e che tale misurazione sia estremamente complessa. Si
sa però che tra Y ed il peso di un paziente esiste la relazione Y = g(X) dove X è il
peso ed è quindi facilmente reperibile. Il medico aspetta che arrivi un paziente e subito
misura il peso X, ottiene quindi il livello Y = g(X). I pazienti arrivano casualmente,
quindi per il medico il peso di ogni paziente è aleatorio fino alla misurazione. Di
conseguenza, è aleatorio il livello Y .
Alcuni esempi:
• modello lineare, g(X) = aX + b con a, b ∈ R
• potenza di v.a., g(X) = X α con α ∈ R
• somma di v.a., g(X1 , X2 ) = X1 + X2
• rapporto di v.a., g(X1 , X2 ) = X1 /X2
Capitolo 3.
Variabili Aleatorie
75
• funzioni più complesse, g(X1 , X2 , X3 ) = (X1 + X2 )/(X1 + X3 )
• etc.
Esercizio 50. Sia X ∼ fX una v.a., scrivere la legge di densità di Y = X 2 .
Esercizio 51. Sia X ∼ Exp(2), scrivere la legge di densità di Y = X + 1.
Esercizio 52. Siano X ∼ Exp(λ) con λ > 0 e Y ∼ U nif (0, 1) due v.a. indipendenti,
scrivere la legge di densità di Z = X/Y .
Esercizio 53. Sia X ∼ Exp(1), scrivere la legge di densità di Y = X 2 .
Esercizio 54. Siano X1 , X2 due v.a. i.i.d. Exp(λ), λ > 0. Sia
( x
, x, y ∈ R \ {0}
x+y
g(x, y) =
0,
(x, y) = (0, 0)
e
Z = g(X1 , X2 ).
Determinare:
1. supp(Z).
2. fZ (z), z ∈ supp(Z).
3. supp(fZ ).
Esercizio 55. Sia
(
g(x, y) =
xy
, x, y ∈ R \ {0}
+ y2
.
0,
(x, y) = (0, 0)
x2
Determinare il supporto della v.a.
Z = g(X, Y )
se X ⊥ Y e
1. X, Y ∼ Exp(λ), λ > 2;
2. X ∼ Exp(λ), Y ∼ Exp(µ), λ, µ > 0;
3. X ∼ Exp(λ), λ > 0 e Y ∼ N (0, 1);
76
4. X ∼ Exp(µ), µ > 0 e Y ∼ P ois(λ), λ > 0;
5. X 2 ∼ N (0, 1), Y ∼ Exp(λ), λ > 1.
Esercizio 56. Determinare gli insiemi di definizione delle funzioni:
1. f (x, y) = x(x2 − y 2 )−1 ,
2. f (x, y) = (y log x)y−x ,
√
3. f (x, y) = (|x| − x − y)y ,
4. f (x, y) = e1/y (x2 − y 2 )−1/2 ,
√
5. f (x, y) = y − log x.
Esercizio 57. Siano X e Y due v.a. indipendenti con densità
2
fX (x) = 2xλe−λx 1(0,∞) (x),
2
fY (y) = 2yλe−λy 1(0,∞) (y),
λ > 0.
Sia
Z = g(X, Y )
dove
(
g(x, y) =
x
, x, y ∈ R \ {0}
− y2
.
0,
(x, y) = (0, 0)
x2
1. Determinare Eg(X, Y ).
2. Determinare fZ .
3. Determinare EZ.
Esercizio 58. Siano X ∼ U nif (0, 1) e Y ∼ Exp(1) due v.a. indipendenti. Determinare:
1. la legge di densità della v.a.
Z=
p
Y − log X,
2. supp(Z).
Esercizio 59. Si consideri la funzione f (x) = κ xθ−1 con x ∈ (0, a), a > 0.
1. determinare gli insiemi di definizione per κ e θ tali che f sia una legge di densità.
Si consideri la v.a. X con legge fX = f appena trovata.
√
2. Scrivere la funzione di ripartizione della v.a. V = log( 1 + a − X);
3. Scrivere la legge di densità della v.a. Z = (a − X)−1 .
Capitolo 3.
3.4.4
Variabili Aleatorie
77
Somme di variabili aleatorie
È utile nelle applicazioni saper trattare la somma di v.a. o somme parziali del tipo
Sn =
n
X
Xk ,
n ∈ N.
(3.36)
k=1
Come vedremo, il modo migliore per trattare tali oggetti prevede un utilizzo abbastanza
elementare delle funzioni caratteristiche associate alle v.a. coinvolte nella somma. Un
modello poco più complicato si ottiene considerando la combinazione lineare
Zn =
n
X
ak X k ,
n∈N
(3.37)
k=1
dove compaiono i coefficienti ak che possono essere scelti anche senza restrizioni.
Notiamo che una possibile scelta è ak = n−α per ogni k ≥ 1 con α ∈ R.
Come vedremo, sarà interessante capire a quale v.a. tende Zn se n → ∞. Nelle
applicazioni, n → ∞ significa n molto grande e corrisponde all’aumento di numerosità campionaria o di informazioni disponibili. Inoltre, molto spesso n grande si traduce
in n > 1000, n > 100 o n > 30 nel senso che raggiunti tali valori si ottiene una buona
approssimazione del problema oggetto di studio. Le informazioni disponibili sono già
sufficienti ad ottenere una analisi accurata.
Consideriamo la somma di due v.a. indipendenti X,Y . Vogliamo trovare la legge
di densità (continua, discreta e mista) della v.a. Z = X + Y .
Esempio 13. Siano X ∼ fX , Y ∼ fY due v.a unidimensionali tali che X ⊥ Y .
Studiare la v.a. Z = X + Y . Lo studio di Z passa per tre punti essenziali, si deve
caratterizzare
1. il supporto supp(Z) (visto che X e Y sono c., ci aspettiamo che Z sia c.),
2. la f.r. FZ (z), z ∈ supp(Z) (e quindi resta definita la densità fZ ),
3. la densità fZ = FZ0 ; riconoscere Z se fZ è notevole.
Il primo punto sembra facile, bisogna ovviamente considerare supp(X) e supp(Y ) e
vedere la somma dei minimi e dei massimi valori per entrambe le v.a. X e Y . Vediamo
il secondo punto, per ogni z ∈ supp(X + Y ), si deve considerare la probabilità
P (Z ≤ z) =P (X + Y ≤ z) = P (X ≤ z − Y ) = P (Y ≤ z − X),
ricordando che si hanno informazioni su X e Y (o sulla v.a. doppia (X, Y )) e non
su Z. Chiamiamo D = supp(X) × supp(Y ) il supporto della v.a. doppia (X, Y ), se
78
X ≥ 0 e Y ≥ 0 ovviamente D è il primo quadrante nel piano cartesiano. Scegliamo di
considerare, tanto non cambia il risultato, P (Y ≤ z − X), allora nel piano cartesiano
dobbiamo disegnare la retta Y = z − X dove X e Y variano nel loro supporto e
z ∈ supp(X + Y ) deve essere fissato. Al crescere di z la retta Y = z − X (o
X + Y = z) si allontana dall’origine degli assi. Noi siamo interessati a tutti quei
punti che si trovano sotto la retta, cioè alla porzione di piano
Az = {(x, y) ∈ R2 : x + y ≤ z} = {(x, y) ∈ R2 : y ≤ z − x}.
Infatti stiamo cercando P (X+Y ≤ z) = P (Y ≤ z−X). L’insieme Az deve dipendere
da z, perché si è detto che preventivamente bisogna fissare z, in realtà z va fissato in
base alle diverse figure che si possono ottenere da D ∩ Az al variare di z ∈ supp(Z).
Sia D = ∪N
i=1 Di dove gli insiemi Di sono scelti in modo che Di ∩ Az per i = 1, . . . , N
siano figure geometriche (piane, in questo caso) diverse. Allora,


0,
z∈
/ supp(X + Y ), (X, Y ) ∈ D0




 P (D1 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D1

 P (D2 ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ D2
FZ (z) = P (Z ≤ z) =
..

.




P (DN ∩ Az ), z ∈ supp(X + Y ), (X, Y ) ∈ DN


 1,
z∈
/ supp(X + Y ), (X, Y ) ∈ DN +1
dove P (Di ∩ Az ) = P ((X, Y ) ∈ Di ∩ Az ) per ogni i = 1, 2, . . . , N e D0 , DN +1
sono rispettivamente, l’evento impossibile e l’evento certo per la v.a. doppia (X, Y ).
Il terzo punto è lasciato al lettore e dipenderà dal caso oggetto di studio.
Osservazione 22. Per v.a. discrete e miste si procede esattamente allo stesso modo.
Esercizio 60. Siano λ, µ > 0 e X ∼ Exp(λ), Y ∼ Exp(µ) tali che X ⊥ Y . Studiare
la v.a. Z = X + Y .
Esercizio 61. Sia Z la v.a. del precedente esercizio. Studiare Z nel caso µ = λ.
Teorema 23. (Convoluzione per densità continue) Siano X ∼ fX e Y ∼ fY due v.a.
note. Allora,
X + Y = Z ∼ fZ
con densità
Z
fZ (z) =
SX
Z
fY (z − x)fX (x)dx =
fX (z − y)fY (y)dy,
SY
z ∈ supp(Z) (3.38)
Capitolo 3.
Variabili Aleatorie
79
dove
SX = {x ∈ supp(X) : z − x ∈ supp(Y ), z ∈ supp(Z)}
e
SY = {y ∈ supp(Y ) : z − y ∈ supp(X), z ∈ supp(Z)}
Teorema 24. (Convoluzione per densità discrete) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼
(ys , ps ), s ∈ IY due v.a. note. Allora,
X + Y = Z ∼ (zk , pk ), k ∈ IZ
con
pk = P (Z = zk ) =
X
P (Y = zk − xi ) pi =
i∈If
X
X
P (X = zk − ys ) ps
(3.39)
s∈If
Y
e
P (Z ≤ zk ) =
X
P (Y ≤ zk − xi ) pi =
i∈If
X
X
P (X ≤ zk − ys ) ps
(3.40)
s∈If
Y
dove
If
X = {i ∈ IX : zk − xi ∈ spet(Y ), zk ∈ spet(Z)}
e
If
Y = {s ∈ IY : zk − ys ∈ spet(X), zk ∈ spet(Z)}.
Teorema 25. (Convoluzione per densità miste) Siano X ∼ (xi , pi ), i ∈ IX e Y ∼ fY
due v.a. note. Allora,
X + Y = Z ∼ fZ
con
FZ (z) =
X
FY (z − xi ) pi
(3.41)
fY (z − xi ) pi
(3.42)
i∈If
X
e
fZ (z) =
X
i∈If
X
dove
If
X = {i ∈ IX : z − xi ∈ spet(Y ), z ∈ supp(Z)}.
80
Definizione 37. Si dice famiglia di densità di probabilità F = F(θ) di parametro
θ ∈ Θ ⊆ Rm , l’insieme delle densità f = f (x; θ) con x ∈ D ⊆ Rd .
Esempio 14. La densità discreta pk =
famiglia di densità
λk −λ
e
k!
= f (k; λ) al variare di λ definisce la
F(λ) = {f (k; λ), λ ∈ (0, ∞)} .
√
2
2
Esempio 15. La densità f (x; θ) = e−(x−µ) /2σ / 2πσ 2 con θ = (µ, σ 2 ) ∈ R × (0, ∞)
definisce la famiglia
F(µ, σ 2 ) = f (x; µ, σ 2 ), µ ∈ R, σ 2 > 0 .
Definizione 38. Una famiglia F di densità di probabilità è chiusa rispetto alla somma
se prese due densità in quella famiglia, la loro convoluzione appartiene ancora ad F.
Esercizio 62. Dimostrare che la famiglia di densità di Poisson è chiusa rispetto alla
somma.
Esercizio 63. Siano X ∼ U nif (0, 1) ed Y ∼ Exp(λ), λ > 0 due variabili indipendenti:
a) calcolare la legge di densità della somma Z = X + Y ,
b) calcolare la funzione di ripartizione della variabile W = λZ,
c) scrivere la legge di densità di Z nel caso X ∼ Exp(λ), λ > 0.
Esercizio 64. Siano X ∼ Exp(λ), λ > 0 e Y ∼ Ber(p), p ∈ (0, 1) due v.a.
indipendenti. Studiare la v.a. Z = X + Y .
Approssimazioni per grandi campioni. Sia x ∈ Rn una realizzazione del vettore
X le cui componenti sono Bernoulliane indipendenti. Sappiamo che sommando tali
componenti otteniamo una Binomiale, siamo quindi interessati alla v.a.
Sn =
n
X
Xi ∼ Bin(n, p)
n ∈ N, p ∈ [0, 1].
(3.43)
i=1
Osserviamo che
• Se n è grande e p è molto piccola possiamo approssimare la binomiale Bin(n, p)
con la legge degli eventi rari o di Poisson di parametro λ = np. Quando p è
Capitolo 3.
Variabili Aleatorie
81
molto grande vale la stessa approssimazione se consideriamo che 1 − p = q è
molto piccola. Infatti, se Xn ∼ Bin(n, p) con p = λ/n, allora
n−k
n!
λk
λ
P (Xn = k) =
1−
k!(n − k)! nk
n
−k
n
λ
λ
n(n − 1)(n − 2) · · · (n − k + 1)
λk
1−
1−
=
.
k!
n
n
nk
Per n → ∞,
n
−k
λ
λ
−λ
1−
→ e ,
1−
→ 1
n
n
n(n − 1)(n − 2) · · · (n − k + 1)
→ 1
nk
e quindi si ottiene
lim P (Xn = k) =
n→∞
λk −λ
e ,
k!
k = 0, 1, 2, . . . .
Inoltre, la P oi(λ) può essere approssimata al crescere di λ da una N (λ, λ).
• Se n è grande e p ' q ' 0.5, approssimiamo la binomiale Bin(n, p) con la normale
N (np, npq).
In ultima analisi quindi la Bin(n, p) può essere approssimata al crescere di n da
una normale N (µ, σ 2 ) di media µ = np e varianza σ 2 = np oppure σ 2 = npq se p è
molto piccola oppure se p ' q rispettivamente.
Passeggiate aleatorie (random walk). Consideriamo una successione Xk di v.a.
Bernoulliane di parametro p ∈ (0, 1) e spet(Xk ) = {−1, 1} per ogni k ∈ N. In
particolare, si ha che
p, xk = +1
P (Xk = xk ) =
∀ k.
q, xk = −1
La somma parziale Sn può essere vista come una passeggiata aleatoria, cioè come un
movimento aleatorio (di una particella, di un animale, di una persona) che dipende
da spostamenti in avanti (+1) e spostamenti in dietro (−1). La posizione raggiunta
ad un certo istante dipende dal numero di spostamenti in avanti e in dietro. Provate
a disegnare i punti (n, Sn ) per qualche n partendo da una realizzazione del vettore
X = (X1 , X2 , . . .), ad esempio x = (1, 1, −1, 1, 1, −1, −1, 1, 1, . . .). Notiamo che il
salto |Xk | = 1 può non essere unitario, si consideri ad esempio una successione di v.a.
con spet(Xk ) = {−c, +c} e c > 0.
82
3.4.5
Somme aleatorie di variabili aleatorie
Consideriamo la somma parziale
SN =
N
X
Xk ,
n∈N
(3.44)
k=1
dove N è a sua volta una v.a. oppure la forma più generale ZN . Le Xk possono essere
discrete o continue mentre supporremo sempre che N sia una v.a. discreta. Inoltre,
considereremo sempre N ⊥ Xk per ogni k. Se le Xk sono i.i.d, notiamo che
d
X1 + X 2 + . . . + XN = X
{z. . . + X}
| +X +
N volte
dove Xk ∼ X per qualche v.a. X con la stessa distribuzione di probabilità delle Xk
(per ogni k). Da questa uguaglianza in legge ricaviamo l’identità di Wald
ESN = EN X = EN EX.
3.4.6
Tabella di contingenza
Siano X e Y due v.a. discrete. In generale è sempre possibile associare alla v.a. doppia
(X, Y ) una distribuzione doppia (la congiunta) pr,s definita sopra.
Scriviamo X ∼ (xk , pk ), k ∈ IX ed Y ∼ (ys , qs ), s ∈ IY per distinguere le due
distribuzioni di probabilità. Per distinguere quindi le marginali della v.a. doppia. Supponiamo inoltre che entrambe le v.a. possano assumere solo tre valori per semplicità.
La corrispondente tabella di contingenza (tabella a doppia entrata) è data da
x1
x2
x3
y1
p1,1
p2,1
p3,1
p·,1 = q1
y2
p1,2
p2,2
p3,2
p·,2 = q2
y3
p1,3
p2,3
p3,3
p·,3 = q3
p1,· = p1
p2,· = p2
p3,· = p3
1
dove le marginali si possono ottenere sommando sulle colonne o sulle righe
pk,· =
3
X
s=1
pk,s
e
p·,s =
3
X
pk,s .
k=1
Siano ora X e Y due v.a. indipendenti. Allora la tabella di contingenza nel caso di
indipendenza prende la forma
Capitolo 3.
Variabili Aleatorie
x1
x2
x3
y1
p1 q 1
p2 q 1
p3 q 1
p·,1 = q1
83
y2
p1 q2
p2 q2
p3 q2
p·,2 = q2
y3
p1 q3
p2 q3
p3 q3
p·,3 = q3
p1,· = p1
p2,· = p2
p3,· = p3
1
Si capisce subito che entrambe le tabelle possono essere scritte in termini matriciali,
in particolare possiamo associare una matrice n × m (o quadrata) alla prima tabella,
ad esempio A ed una matrice delle stesse dimensioni alla seconda tabella, ad esempio
B. La dimensione delle matrici dipende ovviamente dalle v.a. X e Y e quindi dai loro
insiemi di indici IX e IY . Avremo le marginali
pk,· =
m
X
pk,s
p·,s =
e
s=1
n
X
pk,s
k=1
e le matrici
A = {pk,s } 1≤k≤n
e B = {pk qs } 1≤k≤n .
1≤s≤m
1≤s≤m
Supponiamo ora di volere una ricostruzione della matrice A a partire da una matrice
osservata che possiamo chiamare F. Vogliamo quindi che F rappresenti una situazione
osservata. Si sono osservate le realizzazioni della v.a. doppia (X, Y ) su un campione (di persone, animali, batteri, alberi, etc.) di numerosità N e si sono registrate le
osservazioni dalle quali si sono ricavate le frequenze fk,s , quindi
F = {fk,s } 1≤k≤n .
1≤s≤m
Notiamo che le frequenze (relative) fk,s si sono ottenute considerando le frequenze
assolute Nk,s su tutte le N osservazioni fatte, cioè fk,s = Nk,s /N ed Nk,s rappresenta
il numero di elementi del campione (numero di persone, animali, batteri, alberi, etc.)
per le quali si è osservata la realizzazione (xk , ys ) della v.a. (X, Y ). Quindi, possiamo
anche scrivere
F=
1
N
N
dove
N = {Nk,s } 1≤k≤n .
1≤s≤m
Seguendo un approccio frequentista potremmo dire che al crescere di N (numerosità
del campione) si arriverebbe a scrivere
1
N→A
N
84
cioè le frequenze diventano probabilità. Diciamo infatti che A e B sono matrici teoriche (o che rappresentano situazioni teoriche) mentre F è una matrice osservata. Sembra ovvio che quanto più F è ”simile” alla matrice B, tanto più le v.a. osservate si
possono considerare indipendenti. Introduciamo allora un indice di dipendenza,
d(F, B) =
n X
m
X
(fk,s − pk qs )2
(3.45)
k=1 s=1
che restituisce una misura quadratica della distanza tra le matrici F e B. Come si vede
subito,
0 ≤ d(F, B) ≤ nm
e quanto più si avvicina a 0 tanto più possiamo dire che la situazione osservata rappresenta meglio un ipotesi di indipendenza tra le variabili X e Y della popolazione (di
persone, animali, batteri, alberi, etc.).
Esercizio 65. Data la matrice
3
8
1
2
A=
1
1
4
calcolare la distanza d(·, ·) tra A e la matrice B = {ai,j = 1/4}1≤i,j≤2 . Cosa
possiamo dire?
Il χ-quadrato. Una v.a. molto importante in statistica è data dalla somma parziale
2
χ (n) =
n
X
Xk2
k=1
dove Xk ∼ N (µ, σ 2 ) e n assume qui il significato di gradi di libertà. La somma (v.a.
varianza campionaria corretta)
n
1 X
¯ 2
S =
(Xk − X)
n − 1 k=1
2
si distribuisce in accordo con una χ-quadrato, in particolare
S2 ∼
σ2 2
χ (n − 1).
n−1
I gradi di libertà sono n − 1 perché si può identificare una combinazione lineare nella
¯ per cui una v.a. può essere scritta in funzione delle n − 1 rimanenti.
somma Xk − X
Capitolo 3.
3.4.7
Variabili Aleatorie
85
Variabili aleatorie ordinate
Consideriamo un vettore di v.a. X ed una sua realizzazione x dati da
X = (X1 , X2 , . . . , Xn ),
x = (x1 , x2 , . . . , xn ).
In generale possiamo ottenere una realizzazione in n! modi diversi, cioè possiamo ordinare le n realizzazione in n! modi diversi. Possiamo poi considerare le realizzazioni
uguali e quindi i modi diversi in cui ordinare le n realizzazioni sono dati dalle permutazioni con ripetizioni, ad esempio se x1 si ripete k1 volte e k2 osservazioni sono
modi diversi di ordinare il vettore
uguali ad x2 , allora si possono considerare k1n!
!k2 !
delle realizzazioni. Qui siamo interessati ad un solo ordinamento, dalla realizzazione
minima a quella massima in ordine crescente. Consideriamo allora le v.a. ordinate ed
il vettore diventa
(X(1) , X(2) , . . . , X(n) )
dove con X(i) indichiamo la v.a. la cui realizzazione occuperà il posto i-esimo del campione x una volta ordinato dalla realizzazione minima alla massima. Quindi X(1) =
min1≤j≤n {Xj } e X(n) = max1≤j≤n {Xj }. Cerchiamo la densità del massimo.
Proposizione 10. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(n) la v.a. ordinata di posto n.
Allora,
FY (y) = [FX (y)]n , y ∈ supp(X).
(3.46)
Dimostrazione.
Y = max {Xj }
1≤j≤n
quindi supp(Y ) = supp(X).
P (Y ≤ y) =P ( max {Xj } ≤ y)
1≤j≤n
ma se il massimo non supera il livello y, allora nessuna v.a. lo supera
P (Y ≤ y) =P (X1 ≤ y, X2 ≤ y, . . . , Xn ≤ y) =
n
Y
P (Xj ≤ y)
j=1
dove si è usato il fatto che le v.a. sono indipendenti. Considerando che Xj ∼ X, cioè
sono identicamente distribuite, si ottiene
P (Y ≤ y) =
n
Y
j=1
ed otteniamo il risultato cercato.
P (X ≤ y) = [P (X ≤ y)]n
86
Cerchiamo ora la densità del minimo di n v.a. i.i.d..
Proposizione 11. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(1) la v.a. ordinata di posto 1. Allora
FY (y) = 1 − [1 − FX (y)]n ,
y ∈ supp(X).
(3.47)
Dimostrazione. Notiamo che
FY (y) = P ( min {Xj } ≤ y)
1≤j≤n
non è trattabile con la stessa comodità di 1 − FY (y) e ci concentriamo allora sulla
probabilità
P ( min {Xj } > y) =P (X1 > y, . . . , Xn > y)
1≤j≤n
=
n
Y
(tutte sono maggiori se lo è il minimo)
P (Xj > y)
(sono indipendenti)
P (X > y)
(sono identicamente distribuite)
j=1
=
n
Y
j=1
=[1 − FX (y)]n
(per la definizione di FX ).
Quindi si ottiene l’enunciato.
In generale, diamo il seguente risultato senza dimostrazione.
Proposizione 12. Sia {Xj }j=1,2,...,n una successione di v.a. indipendenti ed identicamente distribuite, Xj ∼ X per ogni j. Sia Y = X(j) la v.a. ordinata di posto j.
Allora
n X
n
FY (y) =
[FX (y)]k [1 − FX (y)]n−k .
(3.48)
k
k=j
Esercizio 66. Da precedenti studi, una società associa la legge distributiva dei tempi
medi di utilizzo di suoi alcuni macchinari alla legge esponenziale, Exp(λ) con λ ∈
(2, 3). Inoltre, misurando gli utilizzi di tali macchinari in unità di tempo, si chiede:
1. con quale probabilità la durata minima sia maggiore di 8 unità di tempo,
2. se si sono osservate le durate x = (4, 7, 2, 5, 3, 4), si può fornire una stima per
λ?
Capitolo 3.
Variabili Aleatorie
87
Esercizio 67. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la v.a.
Zn =
min1≤k≤n {Xk }
,
max1≤k≤n {Xk }
n ∈ N.
Esercizio 68. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e Exp(λ), λ > 0.
Studiare la v.a.
Zn = max {Xk } − min {Xk },
1≤k≤n
1≤k≤n
n ∈ N.
Esercizio 69. Sia n = 2 nei precedenti esercizi. Studiare le v.a. Z2 .
3.4.8
Successioni monotone di variabili aleatorie
Consideriamo una successione di v.a. in cui l’ordinamento è dato, cioè la successione
{Xk }k∈I con I ⊆ N, può essere:
• monotona non-decrescente se X1 ≤ X2 ≤ X3 ≤ . . .,
• monotona non-crescente se X1 ≥ X2 ≥ X3 ≥ . . ..
Sia K` con ` ∈ R la v.a. per cui è vera la relazione
P (K` ≤ k) =P (Xk ≥ `) (se {Xk } è non-decrescente),
P (K` ≤ k) =P (Xk ≤ `) (se {Xk } è non-crescente).
Supponiamo che k ∈ I rappresenti l’istante in cui si osserva la variabile allo studio.
Allora, la v.a. K` può essere vista come un tempo ovvero come il tempo di attesa per
il raggiungimento del livello ` della successione Xk . Ad esempio, se la successione è
non-crescente, l’evento (K` ≥ k) indica che la successione Xk raggiunge il livello `
ad un istante successivo (non precisato) a k. Aspettare k realizzazioni non bastano per
raggiungere (dal basso) il livello `. Analogamente, se la successione è non-crescente,
(K` ≥ k) indica che k realizzazioni non sono sufficienti per raggiungere (dall’alto) il
livello `. Inoltre, se le v.a. Xk sono continue allora ` ∈ supp(Xk ); se le v.a. sono
discrete, allora ` ∈ spet(Xk ).
Esempio 16. Sia Xk ∼ P ois(λk), sappiamo che Xk può essere vista come la somma
di k v.a. di Poisson indipendenti di parametro λ > 0 (chiusura rispetto alla somma).
Ovviamente Xk è non-decrescente, allora vogliamo trovare la distribuzione K` del
numero di addendi necessari per superare il livello `. Si ha che
P (K` ≤ k) =P (Xk ≥ `)
88
=
∞
X
P (Xk = x)
x=`
=e
−λk
∞
X
(λk)x
x!
x=`
=(λk)` e−λk
∞
X
(λk)x
.
(x
+
`)!
x=0
La densità discreta di una Poisson somma ad uno su N e allora
P (K` ≤ k) =e
−λk
∞
X
(λk)x
x!
x=`
=1 − e
−λk
−λk
−e
∞
X
(λk)x
x=0
x!
+1
`−1
X
(λk)x
x!
x=0
(che è 1 − P (Xk < `)). Notiamo che
1
` − 1 (` − x − 1)!
=
x!
x
(` − 1)!
dove (si veda la funzione Gamma)
Z
(` − x − 1)! = Γ(` − x) =
∞
u`−x−1 e−u du,
x ≥ 0.
0
Allora, possiamo scrivere
`−1
X
(λk)x
x=0
x!
`−1 1 X `−1
=
Γ(` − x) (λk)x
Γ(`) x=0
x
=[ per la linearità e la positività degli addendi14 ]
!
Z ∞
`−1 x
X
`
−
1
(λk)
1
du
=
u`−1 e−u
x
Γ(`) 0
x
u
x=0
=[ per il binomio di Newton ]
`−1
Z ∞
1
λk
`−1 −u
=
u e
1+
du
Γ(`) 0
u
Z ∞
1
=
e−u (u + λk)`−1 du
Γ(`) 0
=[ pongo y = u + λk ]
Capitolo 3.
Variabili Aleatorie
eλk
=
Γ(`)
89
Z
∞
y `−1 e−y dy.
λk
Riorganizzando i conti, si ottiene
Z ∞
Z λk
1
1
`−1 −y
P (K` ≤ k) = 1 −
y e dy =
y `−1 e−y dy,
Γ(`) λk
Γ(`) 0
k ∈ N.
Esercizio 70. Consideriamo Xt ∼ P ois(λt), t > 0 (tempo continuo), allora K`
è una v.a. continua. In maniera alternativa si dimostri che K` ∼ Gamma(1, `).
[Suggerimento: si consideri FK0 ` (t) dove
FK` (t) = e−λt
∞
X
(λt)x
x=`
x!
ed il fatto che si ottiene una serie telescopica].
Osservazione 23. La collezione {Xt , t ≥ 0} in cui Xt ∼ P ois(λt) definisce il
processo (aleatorio) di Poisson.
Osservazione 24. Le somme parziali Sn con n ∈ N di v.a. non-negative sono successioni non-decrescenti.
Esercizio 71. Siano Xj ∼ Ber(p), p ∈ (0, 1) con j ∈ N una successione di v.a. i.i.d.
P
e sia Sk = kj=1 Xj con k ∈ N la loro somma parziale. Trovare la f.r. della v.a. K` ,
cioè del minimo numero k di v.a. Bernoulliane necessarie per raggiungere il livello
`. [Suggerimento: si ricordi che Xj ∈ {0, 1} e Sk è una successione non-decrescente
per cui P (Sk ≥ `) = P (K` ≤ k)].
Esercizio 72. Nel precedente Esercizio 71, si scriva P (Sk = k).
Esempio 17. Sia Sk , k ∈ N la somma parziale di Exp(λ), λ > 0. Si vuole studiare la
v.a. K` . Subito possiamo dire che ` ∈ supp(Sk ), infatti la somma di v.a. continue è
una v.a. continua, in questo caso in particolare ` ∈ (0, ∞). Allora,
P (K` ≤ k) =P (Sk ≥ `)
=P (Gamma(λ, k) ≥ `)
Z ∞
λk
=
uk−1 e−λu du.
Γ(k) `
Esercizio 73. Sia {Xj }j∈N una successione di v.a. indipendenti e Sk con k ∈ N la
corrispondente successione delle somme parziali. Studiare la v.a. (tempo di attesa)
K` nei seguenti casi:
90
1. Xj = |Y | dove Y ∼ N (0, 1),
2. Xj = |Y | dove Y ∼ N (µ, 1/2j ) con µ > 0,
3. Xj ∼ Gamma(λ, j) con λ ∈ (1, 2),
4. Xj ∼ Bin(j, p) con p ∈ (0, 1/3),
per ogni j ∈ N.
3.4.9
Simulazione, generatori di numeri casuali
Nelle tecniche di generazione (di numeri casuali) supporremo sempre di poter generare un vettore uniforme (cioè un vettore di realizzazioni indipendenti di una variabile
aleatoria Uniforme in un certo intervallo, possiamo scegliere un intervallo che più si
adatta alla nostre esigenze). È possibile generare numeri aleatori uniformi seguendo
ben noti algoritmi oppure si possono utilizzare delle funzioni implementate in tutti i
software esistenti. Dalla generazioni di numeri casuali uniformi si possono ottenere
numeri casuali che seguono altre distribuzioni di frequenza (o di probabilità).
Proposizione 13. Sia g una funzione continua e differenziabile (monotona non decrescente) ed U ∼ U nif (a, b). Allora, la v.a.
X = g −1 (U )
(3.49)
ha legge di densità
fX (x) =
g 0 (x), g −1 (a) ≤ x ≤ g −1 (b)
0,
altrimenti.
(3.50)
Dimostrazione. Per il Teorema 21, si ha che
fX (x) = |g 0 (x)|fU (g(x)) =
1 0
g (x)1(a,b) (g(x)),
b−a
x∈R
(3.51)
con g non decrescente, quindi g 0 ≥ 0. Segue l’enunciato.
Esercizio 74. Se il vettore X è stato ottenuto generando n valori U nif (0, 1), come
ottengo il vettore Y con distribuzione U nif (0, a), a > 0?
Esercizio 75. Se g(x) = 1 − e−λx con x ≥ 0, determinare la distribuzione di X =
g −1 (U ) e dire quali numeri aleatori posso generare.
Esercizio 76. Scrivere un algoritmo che restituisca un vettore di realizzazioni N (0, 1).
Capitolo 3.
Variabili Aleatorie
91
Esempio 18. Per generare una numero aleatorio in C si possono usare le chiamate
void srand(unsigned seed);
int rand(void);
di stdlib.h e quindi il codice seguente:
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
double simul(int a)
{
double x;
int n;
srand(time(0));
n = rand();
x = a*((double)n)/RAND_MAX;
/* printf("Il numero estratto è %lf\n", x);
return x;
}
*/
La funzione restituisce (stampa a video) un numero aleatorio in (0, a) proveniente da
una legge Uniforme. Ogni numero ha uguale probabilità di "essere estratto" dalla
funzione rand.
3.5
Serie numeriche e di funzioni
Si è accennato sopra alle somme parziali di v.a., come vedremo tali somme sono legate alle somme parziali di elementi di una successione numerica. Sembra quindi
opportuno ricordare alcuni concetti base riguardanti le serie numeriche.
Serie numeriche
Sia {ak }k∈Z una successione (numerica) di valori in A. Si definisce serie numerica la
somma
X
ak per qualche insieme di indici IK .
(3.52)
k∈IK
Ricordiamo che
∞
X
k=1
k α < ∞ per α < −1 (serie armonica).
(3.53)
92
Serie telescopiche. Un esempio classico è dato dalla serie di Mengoli
∞
X
k=1
1
.
k(k + 1)
Una serie di addendo generico ak è detta telescopica se ak = ±(bk − bk+1 ), se cioè ci
si può ricondurre a due somme in cui gli addendi si elidono a k successivi. Nel caso
della serie di Mengoli si ha che
∞
X
k=1
∞
X
1
=
k(k + 1) k=1
1
1
−
k k+1
=1−
1 1 1
+ − + . . . = 1.
2 2 3
Serie di funzioni
Sia {fk }k∈Z una successione di funzioni. Definiamo la somma parziale
X
fk (x).
k∈IK
Siamo interessati ai limiti per k → ∞ e |IK | → ∞ (spesso |IK | = n). In particolare,
affrontiamo i problemi già accennati in Esempio 6 ed Esempio 7.
Proposizione 14. Valgono le seguenti:
i) (passaggio al limite sotto il segno di integrale) se fk è continua in [a, b] e
fk (x) → f (x) uniformemente,
allora
b
Z
b
Z
fk (x)dx →
f (x)dx
a
(3.54)
a
ii) (integrazione per serie) se fk è continua in [a, b] e
n
X
fk (x) → f (x)
uniformemente,
k=1
allora
Z
b
f (x)dx =
a
∞ Z
X
k=1
a
b
fk (x)dx
(3.55)
Capitolo 3.
Variabili Aleatorie
93
iii) (derivazione per serie) se fk è derivabile in [a, b] e se
n
X
fk (x) → f (x) e
k=1
n
X
fk0 (x) → g(x)
uniformemente
k=1
allora,
f 0 (x) = g(x) in [a, b].
(3.56)
Ricordiamo i seguenti sviluppi in serie
f (x + z) =
n
X
xk d k f
k=0
k! dxk
(z) + Rn (x + z)
(serie di Taylor in z)
oppure scriviamo
f (x) =
n
X
(x − z)k dk f
dxk
k!
k=0
(z) + Rn (x)
(serie di Taylor in z)
dove Rn è il resto di ordine n e noi saremo quasi sempre interessati al caso in cui
lim
x→z
Rn (x)
=0
(x − z)n
(cioè Rn (x) = o((x − z)n ) per x → z).
(3.57)
Considerando n → ∞ e quindi Rn → 0 per una funzione sufficientemente buona,
ricordiamo anche il seguente sviluppo
f (x) =
∞
X
xk dk f
k=0
k! dxk
(0) (serie di Maclaurin - di Taylor in 0).
Se f è derivabile n volte in z, allora Rn è infinitesimo in z di ordine superiore a
(x − z)n (resto di Peano), vale quindi (3.57). Se f è derivabile n + 1 volte in [a, b] con
derivata f (n+1) continua, allora possiamo scrivere il resto come segue
Z x
(x − y)n (n+1)
Rn (x) =
f
(y) dy,
∀ x ∈ [a, b].
(3.58)
n!
z
Inoltre, sotto le stesse ipotesi (e richiedendo che z ∈ [a, b]),
|Rn (x)| ≤ γn+1
|x − z|n+1
,
(n + 1)!
γn+1 = max{|f (n+1) (x)| : x ∈ [a, b]}.
(3.59)
Esercizio 77. Ricavare la formula del binomio di Newton espandendo in serie di
Maclaurin la funzione f (x) = (1 + x)n .
94
Serie di potenze. Poniamo fk (x) = ak xk con {ak } successione numerica. Si ottiene
la serie di potenze
X
ak xk
(3.60)
k∈IK
per la quale è utile ricordare che
∞
X
k
ak x +
k=0
∞
X
k
bk x =
∞
X
k=0
ck x k
dove
c k = ak + b k
(banale!)
k=0
e
∞
X
!
ak x
k
∞
X
k=0
!
bk x
k
=
k=0
∞
X
ck x
k
dove ck =
k
X
as bk−s
(moltiplicazione).
s=0
k=0
Osservazione 25. Si noti che tali risultati valgono per serie numeriche, basta porre
x = 1.
Inoltre, ricordiamo che
n
X
xk =
k=0
1 − xn+1
1−x
per |x| < 1 (serie geometrica).
Alcuni limiti notevoli:
x k
fk (x) = 1 +
→ ex
k
n
X
xk
k=0
n
X
k=1
→ ex
se n → ∞.
∞
kxk →
k=1
n
X
k!
per x ∈ R se k → ∞
xk →
x
1−x
d X k
x
dx k=1
per |x| < 1 se n → ∞
per |x| < 1 se n → ∞ (verificare!!)
(3.61)
Capitolo 3.
Variabili Aleatorie
95
Esercizio 78. Calcolare
1
E
1−X
nei seguenti casi
1. X è una v.a. con momenti Mr (X) = r−α e α > 1,
2. X è una v.a. con momenti Mr (X) = 1/4r ,
3. X è una v.a. con momenti Mr (X) = r−1/3 .
3.6
Trasformate di densità
Funzione caratteristica
Sappiamo trovare la soluzione per una equazione del tipo x2 + 1 = 0?
Introduciamo a tale scopo il numero complesso z = a + ib ed il suo coniugato
∗
z = a − ib dove a = <(z) è la parte reale di z e b = =(z) è la parte immaginaria di
z, i è il numero immaginario per cui i2 = −1. Parte reale e parte immaginaria di un
numero complesso variano in R. Il valore assoluto o modulo di un numero complesso
|z| è dato dalla seguente relazione
|z|2 = z z ∗ = a2 + b2 .
(3.62)
Ricordiamo la scrittura in parte reale e immaginaria di un esponenziale complesso
z = eix = cos x+i sin x,
z ∗ = e−ix = cos x−i sin x (formule di Eulero). (3.63)
Si vede subito che |e±ix | = 1 (verificate!).
Sia X una v.a. con legge di densità fX e
Z
iξX
φX (ξ) = Ee
=
eiξx fX (x)dx = F[fX ](ξ).
(3.64)
supp(X)
Definizione 39. La funzione a valori complessi φX : R 7→ C è la funzione caratteristica della variabile aleatoria X (o associata alla v.a. X).
Definizione 40. La funzione F[fX ](ξ) : R 7→ C è la trasformata di Fourier della
funzione fX (o associata alla funzione fX ).
96
Consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX . Scriviamo
X
φX (ξ) = EeiξX =
eiξxk pk = F[{pk }](ξ)
k∈IX
che è in linea con le (3.21) ed è la funzione caratteristica per v.a. discrete.
In generale, la trasformata di Fourier di una funzione f : A → R è definita da
Z
F[f ](ξ) =
eiξx f (x)dx
A
mentre F[{pk }](ξ) è una trasformata di Fourier discreta.
Proposizione 15. Valgono le seguenti proprietà :
1. φX (0) = 1,
2. |φX (ξ)| ≤ 1 per ogni ξ (è limitata),
3. φX è uniformemente continua,
P
4. se Y = nj=1 aj Xj dove le Xj , j = 1, 2, . . . , n sono v.a. indipendenti e aj ∈ R
per ogni j, allora
n
Y
φY (ξ) =
φXj (aj ξ).
j=1
Dimostrazione. Dimostriamo le proprietà appena introdotte. Dalla (3.64) si vede subito che:
1. segue immediatamente considerando P (X ∈ supp(X)) = 1,
2. dalle proprietà del modulo, si ottiene
Z
iξx
|φX (ξ)| =
e fX (x)dx = EeiξX supp(X)
Z
≤
|eiξx fX (x)|dx
supp(X)
Z
=
|eiξx |fX (x)dx = E eiξX supp(X)
=1
infatti fX ≥ 0 è una legge di densità e |eiξx | = cos2 ξx + sin2 ξx = 1.
Capitolo 3.
Variabili Aleatorie
97
3. si deve considerare
|φX (ξ + h) − φX (ξ)| =EeiξX+ihX − EeiξX =E eiξX+ihX − eiξX linearità della media
≤EeiξX+ihX − eiξX dis. di Hölder
=E eiξX · eihX − 1
=EeihX − 1 si è usato cos2 ξX + sin2 ξX = 1
=Mh
che non dipende da ξ e quindi
|φX (ξ + h) − φX (ξ)| ≤ Mh .
Si deve notare che qui con il simbolo Mh si sta indicando una costante15 . Volendo fornire una rappresentazione esplicita, si ha
q
Mh =E (cos hX − 1)2 + sin2 hX √
=E 2 − 2 cos hX
=2E| sin(hX/2)| ≤ 2
dove si sono usate formule ben note di trigonometria ed il fatto che sin x è una
funzione limitata. Potevamo anche considerare la dis. di Minkowski, |eihX −
1| ≤ |eihX | + |1| ≤ 1 + 1.
4. in questo caso dobbiamo considerare
iξ
Ee
Pn
j=1
aj Xj
=E
n
Y
eiξaj Xj
j=1
=
n
Y
Eeiξaj Xj
per l’indipendenza delle v.a. eiξaj Xj
j=1
=
n
Y
φXj (aj ξ) per definizione.
j=1
15
Dal contesto sarà sempre possibile capire quando invece ci si riferisce al momento di ordine r
indicato con il simbolo Mr .
98
Proposizione 16. Se X ha momento di ordine n+1 finito, cioè Mn+1 (X) < ∞, allora
n
n+1
X
(iξ)r
≤ |ξ|
φX (ξ) −
M
(X)
(3.65)
r
(n + 1)! Mn+1 (|X|)
r!
r=0
Dimostrazione. Consideriamo lo sviluppo in serie di eix , otteniamo dalla (3.59) che
γn+1 = 1 e
|x|n+1
.
|Rn (ix)| = |Rn (x)| ≤
(n + 1)!
Quindi si ha che
!
n
n
r
r
X
X
(iξ)
(iξ)
r
φX (ξ) −
=E eiξX −
M
(X)
X
r
r!
r!
r=0
r=0
n
r
iξX X
(iξ)
r
≤Ee −
X r!
r=0
=E|Rn (X)|
e la dimostrazione è conclusa.
Da quanto visto possiamo enunciare i seguenti risultati.
Teorema 26. Se per ogni ξ,
|ξ|r
Mr (|X|) = 0,
r→∞ r!
lim
(3.66)
allora
φX (ξ) =
∞
X
(iξ)r
r=0
r!
Mr (X).
(3.67)
Lemma 1. Se X ha momento assoluto di ordine n finito, cioè Mn (|X|) < ∞, allora
(n)
φX (0)
= Mn (X).
in
Diamo inoltre il seguente risultato senza dimostrarlo.
Teorema 27. Se φX ∈ L1 (R), allora X ∼ fX e
1. fX è uniformemente continua,
2. vale (3.13) per ogni x,
(3.68)
Capitolo 3.
Variabili Aleatorie
99
3. fX (x) = F −1 [φX ](x) dove
F
−1
1
[φX ](x) =
2π
Z
e−iξx φX (ξ)dξ
R
è la trasformata inversa di Fourier.
Dal teorema precedente arriviamo alla proposizione che segue (si veda anche la
formula (3.3)).
Proposizione 17. Se φX ∈ L1 (R), allora non ci sono punti di massa positiva (di
probabilità positiva). Vale a dire P (X = x) = 0 per ogni x.
Infatti, se φX ∈ L1 allora fX ∈ C e lim|x|→∞ fX (x) = 0 (si ha kfX k∞ ≤ kφX k1 ).
Si possono ottenere molte informazioni interessanti dallo studio della funzione caratteristica che non intendiamo approfondire ora. Ricordiamo però che le code della funzione caratteristica danno informazioni sulla regolarità della densità (sulla continuità)
mentre le code della densità danno informazioni sulla regolarità (continuità) della funzione caratteristica. In particolare, code che decadono esponenzialmente determinano
derivabilità di ogni ordine.
Inoltre diciamo che due v.a. X e Y possono avere momenti di ogni ordine uguali
ma non necessariamente condividono la stessa legge di densità. Infatti stessa densità
significa stessa funzione caratteristica (perché la trasformata di Fourier è un isomorfismo) ma queste possono non esistere in termini di momenti, deve essere verificata per
φX e φY la condizione (3.66). Quindi le v.a. hanno momenti uguali di ogni ordine ma
la funzione caratteristica non può essere scritta come in (3.67).
Ricordiamo anche che due v.a. possono avere la stessa densità ma essere diverse.
Cioè possono avere marginali di ordine k diverse.
Esercizio 79. Sia X una v.a. tale che
Γ(r + 1) r
r! r
a 1(r pari) = r
a 1(r pari) ,
EX r =
(r/2)!
Γ( 2 + 1)
a > 0, r > 0.
Scrivere la funzione caratteristica di X.
Funzione generatrice dei momenti
La funzione generatrice dei momenti è definita dalla media EeξX con ξ ∈ R. Seguendo argomenti analoghi a quanto detto sopra per la funzione caratteristica si arrivano a determinare interessanti proprietà se tale media esiste. Il problema principale
è che g(x) = eξx non è limitata. Non approfondiremo questi aspetti ma definiremo la
funzione generatrice dei momenti, per ξ ≥ 0, come segue
Z
−ξX
ψX (ξ) = Ee
=
e−ξx fX (x)dx = L[fX ](ξ).
(3.69)
supp(X)
100
dove L[fX ](ξ) è la trasformata di Laplace di fX . Segue quindi che se X ≥ 0, ψX
esiste sempre. In particolare, si ottiene:
1. ψX (0) = 1,
(n)
2. (−1)n ψX (0) = Mn (X),
3. se per ogni ξ,
ξk
Mk (X) = 0
k→∞ k!
lim
allora
"
−ξX
ψX (ξ) = Ee
=E
∞
X
(−ξX)k
k=0
#
k!
=
∞
X
(−ξ)k
k=0
k!
Mk (X).
(3.70)
Se consideriamo la v.a. X ∼ (xk , pk ), k ∈ IX , scriveremo
X
Ee−ξX =
e−ξxk pk
k∈IX
che è ancora in linea con le (3.21).
Funzione dei momenti generalizzati
Sia X ≥ 0 con densità fX . Definiamo la trasformata
Z ∞
η−1
ϕX (η) = EX
=
xη−1 fX (x)dx = M[fX ](η)
0
dove M[fX ](η) è la trasformata di Mellin di fX .
Funzione generatrice delle probabilità
Sia X una v.a., allora
GX (u) = EuX ,
|u| < 1
è detta funzione generatrice delle probabilità di X.
Osservazione 26. Ogni variabile è identificata in maniera univoca dalla sua trasformata.
Capitolo 3.
Variabili Aleatorie
101
Esercizio 80. Una fabbrica produce sensori laser che escono da due linee di produzione, diciamo linea A e linea B. Dalla linea A escono il 30% dei prodotti. Si
riscontra che la percentuale di pezzi difettosi nelle due linee è pari al 15% e 12%
rispettivamente. Calcolare:
1. P (un sensore scelto a caso sia difettoso),
2. P (il sensore difettoso e scelto a caso provenga dalla linea A).
I sensori vengono confezionati in scatole da 10 pezzi della stessa linea. Viene ispezionata una scatola a caso e k sensori risultano difettosi (si noti che k ≤ 10). Calcolare:
3. P (la scatola proviene dalla linea A),
4. P (la scatola proviene dalla linea B)
2
Esercizio 81. Si consideri la funzione f (x) = κ e−θx con x ∈ R.
1. Determinare gli insiemi di definizione per κ e θ tali che f sia una legge di
densità.
Si consideri la v.a. X con legge di densità fX = f appena trovata.
2. Chi è X?
3. Si fissino due valori (ammissibili) per κ e θ. Scrivere la legge di densità della
v.a. Y = |X|2 .
4. Si consideri
la successione di v.a. i.i.d. Yj ∼ Y . Scrivere la legge di densità di
Pn
Z = j=1 Yj .
Esercizio 82. Siano Xj , j = 1, 2, . . . , n v.a. i.i.d. tali che
E[Xj ]k =
1
1(k=2) ,
n
k ≥ 1,
1. determinare la funzione caratteristica di Xj ,
2. determinare la funzione caratteristica di Zn =
Pn
j=1
Xj ,
3. determinare la legge di densità della v.a. Z∞ e dire che tipo di convergenza si
ottiene.
102
3.7
3.7.1
Convergenza di variabili aleatorie Definizioni di convergenza
Sia Xn , n = 1, 2, . . . una successione di v.a. e sia fXn la successione delle leggi di
densità delle Xn . Sia X una v.a. tale che Xn → X quando n → ∞. Dobbiamo
caratterizzare il senso della convergenza. Si deve quindi dire in che senso Xn → X.
Definizione 41. Xn → X in distribuzione e scriviamo
d
Xn → X
(3.71)
se
P (Xn ≤ x) → P (X ≤ x)
se n → ∞
(3.72)
per ogni punto x in cui la funzione limite x 7→ P (X ≤ x) è continua.
Se vale la (3.72) possiamo dire che Xn converge ad X in distribuzione (in distribution), in legge (in law), debolmente (weakly). Notiamo che la definizione appena data
è in realtà il teorema di Helly-Bray e che la convergenza in distribuzione non riguarda
direttamente la v.a. X ma la sua distribuzione di probabilità o appunto, la funzione di
ripartizione (si veda ad esempio l’Esercizio 18).
Il lemma che segue ci fornisce definizioni equivalenti di convergenza debole.
Lemma 2. (Portmanteau) Siano Xn ed X vettori di v.a., sono affermazioni equivalenti:
d
i) Xn → X,
ii) Eg(Xn ) → Eg(X) per ogni funzione continua e limitata, ∀ g ∈ Cb ,
iii) Eg(Xn ) → Eg(X) per ogni funzione limitata e di Lipschitz, ∀ g ∈ Lipb ,
iv) P (Xn ∈ B) → P (X ∈ B) per ogni insieme di Borel B tale che P (X ∈ ∂B) =
0 dove ∂B è la frontiera di B.
Osservazione 27. Consideriamo un intervallo della retta dei reali. La frontiera di
[a, b] è costituita dall’insieme {a, b}. Sia X ∼ fX , allora sappiamo che P è assolutamente continua rispetto alla misura di Lebesgue e la misura di Lebesgue di
∂[a, b] = {a, b} = {a} ∪ {b} è zero.
Dire che una v.a. converge in legge equivale a dire che la sua densità (funzione di ripartizione) converge debolmente, cioè se Xn → X in distribuzione, allora
Eg(Xn ) →
R
Eg(X) dove g = 1B è la funzione indicatrice (infatti Eg(Xn ) = g dFXn ). Se g
Capitolo 3.
Variabili Aleatorie
103
è una funzione semplice, per la linearità dell’integrale, continua a valere la convergenza debole. Se g è una funzione misurabile non negativa, continua a valere per la
convergenza monotona16 e per linearità, continua a valere per una arbitraria funzione
misurabile.
d
Osservazione 28. Se Xn → X non è detto che EXn → EX. Infatti la funzione
g(x) = x non è limitata.
Definizione 42. Xn → X in probabilità e scriviamo
P
Xn → X
(3.73)
se
∀ > 0
lim P (|Xn − X| > ) = lim P (ω : |Xn (ω) − X(ω)| > ) = 0
n→∞
n→∞
oppure
∀ > 0
lim P (|Xn − X| ≤ ) = lim P (ω : |Xn (ω) − X(ω)| ≤ ) = 1.
n→∞
n→∞
La convergenza in probabilità richiede che asintoticamente l’insieme {ω : |Xn (ω)−
X(ω)| > } diventi un insieme trascurabile, cioè di misura P nulla (si considera una
distanza). La convergenza in probabilità implica la convergenza in distribuzione, non
è sempre vero il contrario. In particolare, la convergenza in distribuzione implica la
convergenza in probabilità solo se il limite X è una v.a. degenere.
Definizione 43. Una v.a. X si dice degenere se è identicamente uguale ad una costante
quasi certamente (q.c.), cioè se P (X = costante) = 1.
Definizione 44. Xn → X in media r-esima e scriviamo
M
Xn →r X
(3.74)
se
E|Xn − X|r → 0,
r > 0,
16
se n → ∞.
Sia {fn }n∈N una successione non decrescente di funzioni non negative su (Ω, A, µ). Se fn → f
puntualmente, allora f è misurabile (f ∈ L1 ) e
Z
Z
lim
fn (x)dµ(x) =
f (x)dµ(x).
n→∞
Ω
Ω
104
Dalla disuguaglianza di Chebyshev
P (|Xn − X| > ) ≤
E|Xn − X|r
r
si vede subito che la convergenza in media r-esima implica la convergenza in probabilità. Osserviamo inoltre che, per r pari (si veda la formula del binomio di Newton),
r r X
X
r
r
r
k
r−k
|Xn − X| =
ak [Xn ] [X]
=
ak [X]k [Xn ]r−k
k
k
k=0
k=0
dove ak = (−1)k (per r dispari basta considerare il corrispondente ak che tenga conto
del modulo). Quindi si ottiene convergenza in media r-esima se esistono i momenti
1 ≤ k ≤ r di Xn e X. Se r = 1, parleremo semplicemente di convergenza in media.
Osservazione 29. Sia X ∼ U nif (a, b) ed {fn } ∈ Lr ((a, b)) una successione. Notiamo che
Z b
1
r
|fn (x) − f (x)|r dx → 0 se n → ∞
(3.75)
E|fn (X) − f (X)| =
b−a a
collega la convergenza in media r-sima con la convergenza nello spazio di Lebesgue
Lr . Si consideri Yn = fn (X) e Y = f (X). La convergenza in Lp si può formalizzare
come segue, sia Xn ∈ Lp per ogni n, X ∈ Lp e p ≥ 1, diciamo che
Lp
Xn → X
se
lim kXn − Xkp = 0
n→∞
Definizione 45. Xn → X con probabilità 1 (o quasi certamente) e scriviamo
q.c.
Xn → X
se
P ( lim Xn = X) = P (ω : lim Xn (ω) = X(ω)) = 1.
n→∞
n→∞
q.c.
Notiamo che Xn → X significa
P (| lim Xn − X| > 0) = P (ω : | lim Xn (ω) − X(ω)| > 0) = 0
n→∞
n→∞
(3.76)
Capitolo 3.
Variabili Aleatorie
105
oppure
P (| lim Xn − X| ≤ 0) = P (ω : | lim Xn (ω) − X(ω)| ≤ 0) = 1.
n→∞
n→∞
Si vede subito che la convergenza quasi certa è più forte della convergenza in probabilità. La convergenza q.c. implica quindi una convergenza puntuale (pointwise) in ω,
cioè Xn (ω) → X(ω) a meno di un insieme N ⊂ Ω di misura nulla, P (N ) = 0 e
quindi trascurabile. Inoltre la convergenza q.c. implica la convergenza in probabilità
(Lemma di Fatou). La convergenza quasi certa (almost sure) è anche detta convergenza quasi ovunque (almost everywhere), con probabilità uno (with probability one), in
senso forte (strongly). Raramente ci si riferisce alla convergenza certa (o ovunque) in
cui si ha convergenza quasi certa (quasi ovunque) a meno di insiemi di misura nulla.
Esempio 19. La funzione fn (x) = xn converge punto per punto a 0 in [0, 1) ma non
uniformemente. La convergenza non è puntuale in [0, 1]. Inoltre, converge q.o. in
[0, 1] a 0 rispetto alla misura di Lebesgue, visto che µ({1}) = 0 se µ è la misura di
Lebesgue.
Esempio 20. Il limite puntuale di una successione di funzioni continue può essere una
funzione discontinua solo se la convergenza non è uniforme. Si consideri
fn (x) = (cos πx)2n .
Esercizio 83. Sia Xk , k = 1, 2, . . ., una successione di v.a. i.i.d. e U nif (0, 1).
Studiare la convergenza della successione di v.a.
Zn = max {Xk },
1≤k≤n
n ∈ N.
Esercizio 84. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = X n ,
n ∈ N.
Esercizio 85. Sia X ∼ U nif (0, 1). Studiare la convergenza della successione di v.a.
Zn = (−X)n ,
n ∈ N.
Esercizio 86. Siano X, Y due v.a. in D ⊆ R, studiare la convergenza della successione di v.a.
Zn = X +
P
1
Y,
n
n ∈ N.
q.c.
Proposizione 18. Se Xn → X, allora esiste una sotto-successione tale che Xnk → X.
106
Definizione 46. (Convergenza quasi completa) Diciamo che Xn → X quasi completamente se
X
∀ > 0,
P (ω : |Xn (ω) − X(ω)| > ) < ∞, k > 0.
(3.77)
n>k
Si ha quindi convergenza quasi completa se fissato (piccolo a piacere), la somma (3.77) è finita indipendentemente da quale k scelgo (grande a piacere). Se Xn
converge quasi completamente allora converge quasi certamente, cioè converge così
velocemente da assicurare la convergenza q.c. (Lemma di Borel-Cantelli).
Definizione 47. (Convergenza stabile) Sia Xn una successione di v.a. definite in
d
(Ω, A, P ) e sia G ⊂ A. Diciamo che Xn → X stabilmente in G (G-stably in distribution) se
E[Zf (Xn )] → E[Zf (X)]
per ogni funzione f limitata e continua (f ∈ Cb ) e per ogni v.a. Z limitata e Gmisurabile.
Osservazione 30. Per la convergenza in media o in probabilità dobbiamo conoscere
le congiunte delle v.a. interessate mentre per la convergenza in distribuzione basta
conoscere la marginale di ordine k se si studia la convergenza di una successione
Xn ∈ R k .
Teorema 28. Sia g : Rn 7→ Rm una funzione continua in ogni punto x ∈ D per cui si
ha P (X ∈ D) = 1 (deve quindi essere che D = supp(X)). Valgono le seguenti :
d
d
P
P
q.c.
q.c.
i) Xn → X, implica g(Xn ) → g(X),
ii) Xn → X, implica g(Xn ) → g(X),
iii) Xn → X, implica g(Xn ) → g(X).
Osservazione 31. Notiamo che per una funzione g di Lipschitz, g ∈ Lip, vale la
seguente
P
P
• Xn → X, implica g(Xn ) → g(X).
Si vede che g ∈ Lip implica che Ag ⊂ A, dove
Ag ={ω ∈ Ω : |g(Xn (ω)) − g(X(ω))| ≤ M |Xn (ω) − X(ω)| < }
A ={ω ∈ Ω : |Xn (ω) − X(ω)| <
}
M
Capitolo 3.
Variabili Aleatorie
107
e quindi
P (|g(Xn ) − g(X)| < ) ≤ P (|Xn − X| <
) → 1 se n → ∞
M
P
perché vale Xn → X.
Teorema 29. Siano {Xn }n , X e {Yn }n v.a., allora
q.c.
P
P
d
i) Xn → X implica Xn → X,
ii) Xn → X implica Xn → X,
P
d
iii) Xn → c se e solo se Xn → c dove c è una costante,
d
P
d
iv) Xn → X e |Xn − Yn | → 0 implica Yn → X.
Lemma 3. (Lemma di Slutsky) Siano {Xn }n , X e {Yn }n v.a. e c una costante. Se
d
Xn → X
d
e Yn → c,
allora
d
i) Xn + Yn → X + c;
d
ii) Yn Xn → cX;
d
iii) Yn−1 Xn → c−1 X se c 6= 0.
Teorema 30. (Teorema di continuità di Lévy) Siano {Xn }n e X v.a. in Rd . Allora
d
i) Xn → X se e solo se
φXn (ξ) = Eeiξ
TX
n
→ Eeiξ
TX
= φX (ξ),
∀ ξ ∈ Rd
se n → ∞
(3.78)
ii) Inoltre, se la convergenza di φXn ad una funzione φ è puntuale e φ(ξ) è continua
d
in zero, allora φ = φX è la funzione caratteristica di X e Xn → X.
Teorema 31. (Scheffé)17 Se {fn }n∈N è una successione di densità di probabilità con
supporto in D ⊂ Rd tali per cui
lim fn (x) = f (x)
n→∞
17
q.o. in D,
Attribuiamo il risultato a Sheffé perché è una sua formulazione ma ricordiamo, come anche lui ha
fatto, che si poteva ottenere come caso particolare di risultati noti più generali.
108
allora una condizione sufficiente affinché
Z
Z
lim
fn (x)dx =
f (x)dx
n→∞
B
B
per ogni Boreliano B è che f sia una densità di probabilità.
Il teorema autorizza il passaggio al limite sotto il segno di integrale.
Proposizione 19. Sono equivalenti i seguenti limiti:
i) FXn (x) → FX (x) per ogni x ∈ E : FX ∈ C(E),
ii) fXn (x) → fX (x) per ogni x ∈ E : fX ∈ L1 (E),
iii) φXn (ξ) → φX (ξ) in accordo con il Teorema 30.
Dimostrazione. Osserviamo che vale la doppia implicazione i) ⇔ ii). Infatti, se vale
i), dalla 3.13 si ottiene ii). Inoltre, ii) ⇒ i) per il Teorema 31. Le implicazioni con la
iii) sono ovvie.
I seguenti esercizi sono estremamente istruttivi.
Esercizio 87. Studiare la convergenza di Xn ∼ U nif (−n, n) con n ∈ N.
Una v.a. unidimensionale U nif ([0, `]) avrà densità 1/` dove ` è la lunghezza del
supporto. Sembra ovvio che se ` → ∞ la densità tende a zero, tutti i punti hanno
eguale probabilità di essere considerati ed è nulla. Allo stesso tempo però la f.r. può
non essere nulla come nel precedente esercizio. Quindi l’operazione di passaggio al
limite sotto il segno di integrale può condurre a situazioni da analizzare con cura.
Esercizio 88. Studiare la convergenza di Xn ∼ fXn con n ∈ N dove fXn (x) =
2n2 x1(0,1/n) (x), x ∈ R.
Divergenza di variabili aleatorie. Ci siamo sempre interessati alla convergenza
in R = (−∞, +∞) di una successione di v.a. {Xn }n∈N , diamo una definizione di
divergenza.
Definizione 48. La successione {Xn }n∈N a valori in R∗ = [−∞, +∞] diverge q.c. se
∀ M > 0, ∃ n∗ ∈ N : ∀ n > n∗ , P (|Xn | > M ) = 1.
Se scelgo un M grande a piacere, allora |Xn | > M q.c. da qualche n∗ in poi se e
solo se Xn → ±∞ quasi certamente.
Capitolo 3.
3.7.2
Variabili Aleatorie
109
Teoremi limite
Studiamo il limite della v.a. somma parziale
Sn =
n
X
Xj
(3.79)
j=1
e della v.a. media campionaria
n
X
1
¯n = 1
X
Xj = S n .
n j=1
n
(3.80)
dove la successione Xj , j = 1, 2, . . . deve essere caratterizzata opportunamente.
Teorema 32. (Legge debole dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione
di v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ per ogni j. Allora
P
¯n →
X
µ
se n → ∞.
(3.81)
Dimostrazione. Scegliamo r = 2 per comodità, dalla disuguaglianza di Chebyshev,
2
¯
¯
¯ n − µ| > ) ≤ E|Xn − µ| = V ar(Xn )
P (|X
2
2
¯ n = µ. La varianza di X
¯ n si calcola come segue
dato che E X
n
1 X
1
¯
V ar(Xn ) = 2
V ar(Xj ) = σ 2
n j=1
n
dato che le Xj sono i.i.d., segue dunque che
¯ n − µ| > ) ≤
P (|X
σ2
→0
n 2
se n → ∞.
Dalla definizione di convergenza in probabilità segue l’enunciato.
Teorema 33. (Legge forte dei grandi numeri) Sia Xj , j = 1, 2, . . ., una successione di
v.a. indipendenti e identicamente distribuite con EXj = µ < ∞ per ogni j. Allora
¯ n q.c.
X
→µ
se n → ∞.
(3.82)
110
Teorema 34. (Limite centrale) Sia Xj , j = 1, 2, . . ., una successione di v.a. i.i.d. con
EXj = µ e V ar(Xj ) = σ 2 per ogni j. Allora,
Sn − nµ d
√
→ N (0, 1)
σ n
se n → ∞
(3.83)
e
¯ − EX
¯n d
X
pn
→ N (0, 1)
¯n)
V ar(X
¯ n = µ e V ar(X
¯ n ) = σ 2 /n.
dove E X
se n → ∞
(3.84)
Esercizio 89. Sia X ∼ U nif (0, 1) ed α > 1. Studiare la convergenza della v.a.
Yn = (n(1 − X n ))1/α .
Esercizio 90. Sia Xk , k ≥ 1 una successione di v.a. i.i.d. e U nif (0, 1/n). Studiare la
convergenza della v.a. Yn = max0≤k≤n {Xk }.
Esercizio 91. Sia Xk , k ∈ N una successione di v.a. i.i.d con media µ e varianza σ 2
per ogni k. Studiare la convergenza della successione
Yn =
n
X
(Xk − µ)
k=1
3.7.3
σ
n ∈ N.
,
Metodi Monte Carlo
Data una v.a. X ∼ fX ed una successione di v.a. Xj ∼ X, j = 1, 2, . . ., sotto le
condizioni della legge dei grandi numeri sappiamo che
Z
n
1X
P
Xj → µ = EX =
xfX (x)dx
se n → ∞.
n j=1
supp(X)
Inoltre, se Xn → X in probabilità, vale
P
g(Xn ) → g(X) per ogni funzione continua e limitata g.
Otteniamo allora
n
1X
P
g(Xj ) → Eg(X) =
n j=1
Z
g(x)fX (x)dx.
supp(X)
Se X ∼ U nif (a, b), allora
n
1X
1
P
g(Xj ) →
n j=1
b−a
Z
b
g(x)dx.
a
Capitolo 3.
Variabili Aleatorie
111
Possiamo quindi considerare una successione {Xj }j∈N con componenti i.i.d e ognuna
convergente ad una v.a. Uniforme; di questa prendere solo una realizzazione finita,
data del vettore
X = (X1 , X2 , . . . , Xn )
per n sufficientemente grande; passare quindi alla v.a. media campionaria Y¯n relativa
al vettore
Y = (g(X1 ), g(X2 ), . . . , g(Xn )).
La v.a. Y¯n torna utile nel calcolare un integrale di g numericamente complicato (di
elevata complessità computazionale ad esempio). Le convergenze di cui si sta parlando si ottengono per n → ∞ ma in realtà si ottengono buone approssimazioni per n
sufficientemente grande (a volte può essere sufficiente n = 100, 1000 etc.).
La funzione somma in C:
#include <stdio.h>
#include <stdlib.h>
double sum(double v[])
{
int i;
int s;
s=0;
for(i=1; i<length(v)+1; i++)
{
s=s+v[i];
}
return s;
}
Definiamo inoltre la seguente funzione
#include <stdio.h>
/* altre librerie se necessario */
#include <stdlib.h>
double dist(double v)
{
double val;
112
...... /* il codice */
return val;
}
che restituisce un valore secondo la trasformazione della Proposizione 13. Il Metodo
Monte Carlo (MMC in breve) in C:
#include <stdio.h>
#include <stdlib.h>
void MMC(void)
{
double v[500];
double V[500];
int i;
for(i=1; i<=500; i++)
{
v[i]=simul(1);
v[i]=dist(v[i]);
/* qui cambiamo distribuzione
al vettore v che era uniforme */
}
/* supponiamo di inserire qui il codice
che restitutisce il vettore V=g(v) */
printf("il valore dell’integrale è %lf\n", sum(V)/500);
}
dove sum(V)/500 restituisce la media campionaria (avendo simulato V che può
essere visto come una realizzazione di un vettore aleatorio).
Esercizio 92. Si verifichi che il codice non restituisce errori.
Esempio 21. Si vuole trovare la successione di v.a. {Xj }j∈N tale da approssimare con
il MMC l’integrale
Z
2
g(x)e−x dx.
(3.85)
R
Si vede subito che
√ X
n
π
g(Xj )
n j=1
è la v.a. media campionaria cercata.
dove Xj ∼ N (0, 2)
(3.86)
Capitolo 3.
Variabili Aleatorie
113
Ci riferiremo al problema appena affrontato come al problema MC. Quindi, seguendo il precedente Esempio 21 diremo che la caratterizzazione (3.86) di una v.a.
media campionaria è soluzione MC per l’integrale (3.85), cioè (3.86) è soluzione del
problema MC per l’integrale (3.85). Se la funzione g non è specificata, allora la soluzione del problema MC sarà data dalla caratterizzazione del tipo (3.86) ed una forma
esplicita per la funzione g.
Esempio 22. Trovare una soluzione MC per l’integrale
Z ∞
xα e−x dx, α, β > 0.
β
0
Si ottiene
n
βX α
X
n j=1 j
Xj ∼ Exp(1)
e quindi g(x) = βxα .
Esercizio 93. Trovare una soluzione MC per i seguenti integrali:
R
2
1. R x3 e−x dx,
R∞
2
2. 0 x3 e−x dx,
R
3. R (1 + x2 )−1/2 dx
Stima per intervalli. Dal teorema del limite centrale sappiamo che, per n → ∞,
Pn
1
d
j=1 g(Xj ) − Eg(X) √
p
Zn = n
n → N (0, 1)
V ar(g(X))
ed è quindi possibile identificare un intervallo di confidenza18 del tipo
σ
σ
Eg(X) − zα/2 √ , Eg(x) + z1−α/2 √
n
n
dove σ 2 = V ar(g(X)) e z1−α/2 = −zα/2 = zα∗ , per il quale
P | lim Zn | ≤ zα∗ = P −zα∗ ≤ lim Zn ≤ zα∗ = 1 − α.
n→∞
n→∞
Il percentile zα∗ può essere individuato dalla tavola dei percentili in Tabella 7.1.
18
Si veda il Capitolo 5.
114
3.8
Processi aleatori
I processi aleatori si possono classificare per spazio e tempo. Una realizzazione del
processo Xt rappresenta un osservazione al tempo t di un fenomeno che può essere
continuo o discreto, in relazione a questo diciamo che il processo a valori in uno spazio
continuo o discreto (o semplicemente Xt è a spazio continuo o discreto). Il tempo t
può essere continuo ma se pensiamo che le osservazioni siano possibili solo a tempi
discreti, allora possiamo caratterizzare Xt dicendo che può essere a tempo continuo o
discreto.
Spazio discreto e tempo continuo
Per ora non ci interessano.
Spazio continuo e tempo continuo
La soluzione del problema di Cauchy
∂ 2u
∂u
(x, t) =
(x, t),
∂t
∂x2
u(x, 0) = g(x)
x ∈ R, t > 0
(3.87)
si può scrivere come (supponiamo g ∈ Cb )
w2
e− 4t
g(x + w) √
dw =
u(x, t) = Eg(x + Bt ) =
4πt
R
Z
Z
(w−x)2
4t
e−
g(w) √
R
4πt
dw
dove Bt , t ≥ 0 è un moto Browniano con legge di probabilità
Z
P (Bt ∈ A) =
A
w2
e− 4t
√
dw.
4πt
(3.88)
Il moto Browniano è un processo aleatorio ”elementare” (volendo semplificare) nel
senso che rappresenta la base di partenza nello studio di processi aleatori molto più
generali e guidati dalle Stochastic differential equations o dalle più complicate Stochastic partial differential equations (il lettore interessato è invitato a fare una ricerca
in rete, ad esempio utilizzando Google!). Il moto Browniano rappresenta il movimento
di una particella, la diffusione del calore, l’andamento di un oggetto finanziario e molto altro ed è associato alla equazione (3.87). È quindi di interesse in Fisica, Economia,
Finanza e tutte le scienze applicate. Al variare del tempo, rappresenta un fenomeno
di evoluzione governato dalla equazione del calore. La (3.88) può quindi essere letta
Capitolo 3.
Variabili Aleatorie
115
come la probabilità che al tempo t una particella (o altro) si trovi in A (o occupi una
delle posizioni contenute nell’insieme A, un punto di A).
La soluzione del problema di Cauchy
∂u
∂ 2u
(x, t) =
(x, t),
∂t
∂x2
u(x, 0) = g(x)
x ∈ D, t > 0
(3.89)
si può scrivere come
u(x, t) = E[g(x + Bt ), t < τD ],
x ∈ D, t > 0
(3.90)
dove τD = inf{s ≥ 0 : Bs ∈
/ D} è il primo istante in cui il moto Browniano Bs esce
da D.
Si noti come oggetti aleatori possano essere utilizzati per fornire interessanti spunti
nello studio delle equazioni a derivate parziali e quindi nei vari modelli (o fenomeni)
collegati.
Esercizio 94. Sia u(x, t) la soluzione di (3.87). Scrivere il problema associato a
v(x, t) = u(x, 2t).
Esempio 23. La Figura 3.4 da un idea di traiettoria del moto Browniano, mentre nella
Figura 3.3 si è rappresentata una realizzazione di un vettore (sempre di dimensione
300) di v.a. Xi con ti = i, i = 1, 2, . . . , 300. È stata ottenuta considerando
>rnorm(n, media, varianza)
di R che genera un vettore con componenti
Xi ∼ N (0, ti ),
i = 1, 2, . . . , 300.
Il moto Browniano Bi è stato ottenuto dalle v.a.
Xj ∼ N (0, 1) dove Bi =
i
X
Xj ,
i = 1, 2. . . . , 300.
j=1
Si è considerata la funzione di R
>cumsum(vector)
che restituisce un vettore la cui componente i-esima è data dalla somma delle prime i
componenti.
Esercizio 95. Scrivere una soluzione MC per l’integrale
Z
2
f (y)e−ay dy, f ∈ Cb (R), a > 0.
R
200
0
−400
−200
rnorm(300, 0, c(1:300))
400
600
116
0
50
100
150
200
250
300
Index
−5
−10
−15
cumsum(rnorm(300, 0, 1))
0
Figura 3.3: Collezione di Xi ∼ N (0, ti ).
0
50
100
150
200
250
300
Index
Figura 3.4: Esempio di traiettoria di un moto Browniano.
Capitolo 3.
Variabili Aleatorie
117
Spazio discreto e tempo discreto
Per ora non ci interessano.
Spazio continuo e tempo discreto
Si supponga di dover analizzare delle osservazioni che dipendono dal tempo, che sono
state osservate non allo stesso istante ma in un arco di tempo. Supponiamo che tali
osservazioni siano state effettuate nei tempi
t = (t1 , t2 , . . . tn )
dove ovviamente 0 ≤ t1 < t2 < · · · < tn < ∞. Tali osservazioni sono tra loro legate,
nel senso che rappresentano lo stesso fenomeno e la sua evoluzione nel tempo. Noi
però conosciamo di tale fenomeno solo quello che abbiamo osservato. Possiamo allora
pensare che le osservazioni fatte siano realizzazioni di uno stesso oggetto aleatorio ad
istanti dati dal vettore t. In particolare tale oggetto è un processo aleatorio, diciamo
Xt indicizzato da t ∈ t e la collezione di dati
{Xt , t ∈ t}
è una serie storica. Il processo è a tempo discreto e le equazioni governanti sono
discrete.
Processi multi-parametro
Sia
{Xz , z ∈ Rn }
con n > 1 un processo a valori reali. Il processo è indicizzato dalla variabile z ∈ Rn
che gioca il ruolo di multi-parametro. La realizzazione di X può dipendere dai parametri z = (z1 , . . . , zn ) e X viene anche chiamato campo aleatorio. Se z ∈ R2 , possiamo
considerare il processo come un campo aleatorio sul piano, se z ∈ R3 pensiamo ad un
campo nello spazio etc., in ogni caso rappresenta un oggetto molto utile nello studio
di fenomeni ambientali (statistica ambientale/statistica spaziale).
118
Capitolo 4
Gli universi campionari
4.1
Popolazioni finite
Supponiamo d’ora in avanti che la popolazione allo studio sia in corrispondenza biunivoca con un insieme delle etichette
P = {1, 2, . . . , i, . . . , N }
e che possiamo dunque riferirci alla unità i − esima della popolazione considerando
la etichetta i − esima di tale insieme, diremo anche che l’insieme P rappresenta la
popolazione allo studio. Ogni campione c di dimensione n sarà allora esprimibile con
cs = {ki1 , ki2 , . . . , kij , . . . , kin }
ed
s = {i1 , i2 , . . . , ij , . . . , in }
dove si è osservata la caratteristica k per ognuna delle n unità i di P appartenente al sottoinsieme s ∈ Sn e Sn rappresenta l’insieme dei campioni di dimensione
n che è possibile costruire a partire dalle unità (etichette) di P, Sn è detto universo
campionario. Introduciamo la notazione seguente
P (cs ) = P (ki ∈ cs ) = P (i ∈ s) = πi
P ({ki , kj } ∈ cs ) = P ({i, j} ∈ s) = πi,j
dove P (cs ) è la probabilità di osservare il campione cs e πi , πi,j sono le probabilità
del primo e secondo ordine rispettivamente, cioè le probabilità che in s sia compresa
l’etichetta i o siano comprese entrambe le etichette i, j. Inoltre,
X
P (cs ) = 1.
s∈Sn
119
120
Introduciamo anche la variabile indicatrice
δ(i, s) = 1(i∈s) =
1, i ∈ s
0, altrimenti
e la media E A [g], che è la media di g(x) per tutti i valori x ∈ A (data una opportuna
funzione g del campione). è il caso di notare che (media sullo spazio campionario)
X
X
E Sn [δ(i, s)] =
δ(i, s)P (cs ) =
δ(i, s)P (i ∈ s) = P (δ(i, s) = 1) = πi
s∈Sn
s∈Sn
che è la probabilità di considerare proprio l’unità i-esima e
E Sn [δ 2 (i, s)] = E Sn [δ(i, s)].
Se invece si considera (media sulle etichette o sulla popolazione)
E P [δ(i, s)] =
N
1 X
ν(s)
ν(cs )
n
=
=
δ(i, s) =
N i=1
N
N
N
dove ν(·) è l’ampiezza effettiva di s o di cs . Le probabilità di inclusione del secondo
ordine sono date da
E Sn [δ(i, s)δ(j, s)] = πi,j .
Definiamo disegno campionario la coppia (Sn , P (·)) ed introduciamo la funzione di riduzione r(s) del campione s, in particolare s? = r(s) è il campione ottenuto da s privandolo della ripetizione e dell’ordine sulle unità campionarie. Per un
campionamento non ordinato senza ripetizione sarà allora s? = s ed in generale
δ(i, s) = δ(i, r(s))
quindi presi s ∈ S e s? ∈ S ? si ha
P (δ(i, s) = 1) = P (δ(i, s? ) = 1).
Universi dei campioni con ripetizione
Universo Bernoulliano
È l’universo dei campioni ordinati, con ripetizione e a probabilità costanti caratterizzato da:
1
P (cs ) = n ,
N
1
πi =1 − (1 − )n ,
N
1
2
πi,j =1 − 2(1 − )n + (1 − )n .
N
N
Capitolo 4.
Gli universi campionari
121
Distribuzione della n-upla (x1 , x2 , . . . , xn ):
f (x1 , x2 , . . . , xn ) =
n
Y
f (X = xi )
i=1
e
µ
ˆX = x¯
Distribuzione della variabile
P
2
σX
n
σx2¯ =
xi :
La legge distributiva è
N
f (k) =
P k Qn−k
n
e quindi la legge binomiale, si ha
σk2 = nP Q,
E[k] = nP
PQ
.
n
σp2 =
E[p] = P
Distribuzione della r-upla (n1 , n2 , . . . , nr ):
f (n1 , n2 , . . . , nr ) = Qr
r
Y
n!
i=1
ni !
Pini
i=1
Osserviamo che considerata la variabile
2
χ =
n
X
(npi − nPi )2
nPi
i=1
=n
n
X
(pi − Pi )2
i=1
Pi
= n
possiamo scrivere
1
f (n1 , n2 , . . . , nr ) ∝ exp − χ2 .
2
Osservazione 32. Introduciamo una variante dell’universo Bernoulliano. Prescindendo dalla permutazione sulle etichette si ottiene:
P (cs ) =
,
n
,
N +n−1
N −1
(N − 2)(N − 1)
=1 − 2
+
.
N + n − 1 (N + n − 2)(N + n − 1)
πi =
πi,j
1
N +n−1
n
122
Universi dei campioni senza ripetizione
Si considerano qui gli universi campionari che differiscono solo per l’ordine delle
unità, in sostanza quindi dalle permutazioni n! delle unità campionarie.
Universo esaustivo
È l’universo dei campioni ordinati, senza ripetizione e a probabilità costanti caratterizzato da:
1
,
n!
P (cs ) =
N
n
n
,
N
n(n − 1)
=
.
N (N − 1)
πi =
πi,j
Universo in blocco
È l’universo dei campioni non ordinati, senza ripetizione e a probabilità costanti caratterizzato da:
1
P (cs ) =
N
n
,
n
,
N
n(n − 1)
=
.
N (N − 1)
πi =
πi,j
Osserviamo che
N −1
n−1
N
n
πi =
X
s∈S
s3i
P (s) =
N −2
n−2
N
n
e
X
πi,j =
s∈S
s3i,j
P (s) =
.
Distribuzione della n-upla (x1 , x2 , . . . , xn ). Le stime valgono per entrambi gli universi campionari visto che si distinguono solo per l’ordine. Otteniamo
µ
ˆX = x¯ ⇒ E[¯
x ] = µX
σ
ˆx2¯ =
2
N −n
σX
n N −1
Capitolo 4.
Gli universi campionari
123
n
Sx2
1X
N n−1
2
=
(xi − x¯)2 ⇒ E[Sx2 ] = σX
n i=1
N −1 n
n
s2x
N −1 1 X
2
=
(xi − x¯)2 ⇒ E[s2x ] = σX
N n − 1 i=1
n
1X h
x¯r =
x ⇒ E[¯
xh ] = µ X r
n i=1 i
N −n1
(µX 2r − µ2X r ).
N −1n
r
Si sta usando la notazione Y = X e quindi µY = EY .
σx2¯r =
P
Distribuzione della variabile
xi . Dobbiamo distinguere tra i due casi in cui X
è una variabile quantitativa oppure dicotomica, nel primo caso parliamo quindi della
distribuzione dei totali T , mentre nel secondo della distribuzione della variabile k. Iniziamo dalla descrizione della variabile k.
La v.a. X può assumere solo i valori 0 oppure 1, i campioni sono senza ripetizione e possiamo prescindere dall’ordine visto che dipende solo dalla permutazione n!,
otteniamo quindi la legge ipergeometrica a due modalità
N2 N1
f (k) =
k
n−k
N
n
dove, al denominatore, abbiamo le combinazioni di N = N1 + N2 elementi in classi
di n in cui k sono presi tra N1 di essi e n − k tra N2 , ad esempio N1 sono gli X = 1
ed N2 sono gli X = 0. Allora
E[k] = nP
σk2 =
N −n
nP Q
N −1
σp2 =
N − n PQ
.
N −1 n
ed ovviamente per p = k/n
E[p] = P
Si poteva scrivere
f (k) = f (k, n − k) = f (n1 , n0 )
e
p1 =
k
n1
= .
n
n
124
Distribuzione della r-upla (n1 , n2 , . . . , nr ).
diventa
La legge ipergeometrica ad r modalità
Qr N i i=1 ni
N
n
f (n1 , n2 , . . . , nr ) =
con pi = ni /n, allora
E[ni ] = nPi
σn2 i =
N −n
nPi Qi
N −1
E[pi ] = Pi
σp2i =
Nn Pi Qi
.
N −1 n
e
Osserviamo che
4.2
1 χ2
f (n1 , n2 , . . . , nr ) ∝ exp −
.
2 (1 − Nn )
Popolazioni virtuali
Semplificando molto, diremo solo che ad una popolazione potrà sempre essere associata una legge di probabilità. Tale legge sarà una legge di densità. Diremo quindi che
una popolazione P è rappresentata dalla v.a. X, alternativamente diremo che X è la
popolazione oggetto di studio. Se X è la popolazione oggetto di studio, allora ogni
realizzazione delle v.a. X è legata alla f.r. FX e quindi alla sua legge di densità fX . In
questo caso, cioè quando X è continua, parleremo di popolazione continua.
Noi ci occuperemo solo di popolazioni virtuali per pura comodità di trattazione,
nelle applicazioni invece si è condotti a considerare tale popolazioni perché non sempre
si è in grado di identificare tutti gli elementi di una popolazione oggetto di studio.
Funzione di verosimiglianza
Sia X la popolazione oggetto di studio ed x un campione osservato. Si definisce
funzione di verosimiglianza la funzione
L(θ; x) = L(θ; x1 , . . . , xn ) =
n
Y
fX (xi ; θ).
(4.1)
i=1
Si osservi che la legge distributiva della popolazione fX (x; θ) è funzione di x (di parametro θ) mentre nel definire la funzione di verosimiglianza si definisce una funzione
di θ in cui i dati campionari svolgono il ruolo di parametri (infatti sono dati, una volta
osservato il campione). A questo punto la variabile di interesse è θ. Dobbiamo inoltre
Capitolo 4.
Gli universi campionari
125
osservare che si è introdotta implicitamente la condizione di indipendenza nelle realizzazioni di X. Infatti, per x ∈ Rn , la legge di densità del vettore X si può fattorizzare
come segue
fX (x) = fX1 ,...,Xn (x1 , . . . , xn ) =
n
Y
fXi (xi )
i=1
solo se le componenti di X sono indipendenti a due a due. Si assume quindi che le
osservazioni fatte siano realizzazioni indipendenti della stessa variabile. Si noti inoltre
che nella formula (4.1) si è assunto anche che la v.a. fossero identicamente distribuite,
cioè Xi ∼ X per ogni i = 1, 2, . . . , n.
Vogliamo introdurre una notazione compatibile con una trattazione unificata di funzione di verosimiglianza e quindi trattare allo stesso modo variabili continue e discrete.
Si è già introdotta la scrittura
dP = f · dµ
(4.2)
dove P è la probabilità associata ad una v.a. X. Quindi, scriviamo
Z
Z
P (X ∈ B) =
f · dµ = 1B f · dµ =
per il Boreliano B ∈ B
B
dove f è detta densità di P e µ è la misura rispetto alla quale si sta calcolando la
probabilità P (quindi f è la densità di P rispetto alla misura µ). Caratterizzare X,
significa anche caratterizzare µ e di conseguenza f . Se X è una variabile continua,
allora µ è la misura di Lebesgue e f = fX è una densità continua o integrabile. Se
invece X è una v.a. discreta, allora f sarà una densità discreta e µ dovrà essere tale da
associare massa di probabilità solo ai valori di X in B, cioè solo ai punti x ∈ spet(X)
che si trovano anche in B. Scriveremo, come già introdotto nei capitoli precedenti,
Lebesgue,
se X ∼ fX e quindi è continua
dµ =
Dirac relativa a spet(X), se X ∼ (xk , pk ), k ∈ IX e quindi è discreta
e di conseguenza
 Z


1B (x) fX (x)dx,

supp(X)
X
P (X ∈ B) =

1B (xk ) pk ,


se X è continua,
se X è discreta.
.
k∈IK
La legge di densità f è uguale rispettivamente a f (x) = fX (x) o f (xk ) = P (X =
xk ) = pk se X è continua o discreta. Se le pk dipendono da un parametro θ, scriviamo
f (xk ; θ) = pk . Si consideri ad esempio X ∼ P ois(λ), allora
f (xk ; θ) = f (k; λ) = e−λ
λk
.
k!
126
Se la v.a. allo studio è una Gaussiana, allora
x2
k
e− 2σ2
f (xk , θ) = f (xk ; µ, σ 2 ) = √
2πσ 2
dove θ = (µ, σ 2 ) è un vettore. Si deve notare che qui µ ∈ R è la media teorica della
variabile X (non la misura di cui sopra).
Si ottiene quindi, per una v.a. X che caratterizza la popolazione allo studio ed un
campione x di dimensione n, che
 n
Y



fXj (xj ) se X è continua,

n

Y
j=1
L(θ; x) =
f (xi ; θ) =
n
Y


i=1

pk
se X è discreta.


k=1
Osservazione 33. Indipendentemente dal fatto che X sia continua o discreta (e quindi
che la densità sia continua, integrabile o discreta) si deve notare che L(θ; x) è una
funzione continua e derivabile in θ.
Capitolo 5
Inferenza statistica
5.1
Stima parametrica -
Il problema di stima parametrica puntuale è quello di stimare un parametro incognito
θ ∈ Rm della legge distributiva di una popolazione X legata al campione, potremmo
anche essere interessati non alla stima di θ ma di una sua funzione τ (θ) oppure ad una
stima intervallare di θ o τ (θ).
Diciamo statistica una funzione g dei dati campionari come ad esempio
g(x) =
n
X
xi
g(x) =
i=1
n
X
x2i ,
i=1
dato il campione empirico x. Il campione x è una realizzazione del vettore aleatorio
X ∈ Rn che rappresenta la popolazione oggetto di studio. La legge di X, diciamo
fX (x; θ), dipende da un parametro θ. Si chiama stimatore di un parametro θ ∈ Rm una
statistica θˆ opportunamente individuata e funzione dei dati campionari
θˆ = g(x1 , x2 , . . . , xn )
dove x = (x1 , x2 , . . . , xn ) ∈ U ⊂ Rn è il campione osservato ed U l’universo campiocθ ∈ Rm costituito dai valori dello stimatore θˆ
nario, al variare di x in U resta definito U
ottenuti per i diversi campioni x ∈ U . In particolare, sia g : Rn 7→ Rm , allora
ˆ θˆ = g(x), x ∈ U ⊆ Rn }
cθ ={θ;
U
con m ≥ 1. Dato lo stimatore θˆ = g(x) dove x è una realizzazione del vettore aleatorio
ˆ = g(X)1 . Nel seguito
X, allora sembra immediata la definizione di v.a. stimatore Θ
Pn
ˆ = X n è la v.a. media campionaria. Così per altre g corrispondenti
Se g(x) = n1 i=1 xi allora Θ
ad altre v.a. definite nei capitoli precedenti.
1
127
128
scriveremo anche
Z
X
g(x) dFX (x) = E[g(X)]
E [g] =
(5.1)
supp(X)
(come già definito, si è solo introdotto il simbolo E X ) e
X
E U [g] =
g(x) f req{x ∈ U }
(5.2)
x∈U
che equivale a scrivere
cθ
U
Z
E [g] =
ˆ = E[Θ].
ˆ
θˆ dFΘˆ (θ)
(5.3)
cθ
U
cθ , allora E A [g] sarà la media di tutti i valori che θˆ = g(x) assume al
Quindi se A ∈ U
variare di θˆ ∈ A o equivalentemente al variare di x ∈ g −1 (A). Si noti che
ˆ
ˆ = θ)
(X = x) ≡ (Θ
(i due eventi sono equivalenti) e allora
ˆ = E[g(X)].
E[Θ]
5.1.1
Proprietà desiderabili di uno stimatore
Assumiamo ora per comodità che θ ∈ R sia il parametro oggetto di stima e che sia
nota la forma distributiva di X nella popolazione2 . Dato che θˆ è scritto in funzione di
c ˆ
g, la (5.3) si può anche scrivere come E Uθ [θ]
ed ovviamente intendiamo la media di
ˆ
c
tutti i valori θ di Uθ .
ˆ si dice corretto se vale
Correttezza. Uno stimatore Θ
c ˆ
E Uθ [θ]
=θ
ˆ =θ
o equivalentemente E[Θ]
mentre si dice distorto nel caso
ˆ − θ 6= 0
Dn = E[Θ]
2
Con il termine popolazione si è qui rappresentato l’insieme delle unità statistiche sulle quali osservare la caratteristica X (o la caratteristica espressa dalla v.a. X) ma ci si poteva anche riferire alla
popolazione X visto che esiste un isomorfismo che collega ogni sottoclasse delle unità statistiche aventi
stessa caratteristica Xi ad una densità di tale sottoclasse.
Capitolo 5.
Inferenza statistica
129
ˆ ed n in pedice indica la numerosità
dove Dn è detta distorsione dello stimatore Θ
campionaria di x. La distorsione Dn può essere tale per cui
lim Dn = 0
n→∞
ˆ è asintoticamente corretto.
e allora diciamo che Θ
Esercizio 96. Verificare se la v.a. varianza campionaria
n
1X
¯ 2
(Xk − X)
n k=1
è uno stimatore corretto.
Esercizio 97. Si consideri
n
1 X
¯ 2.
(Xk − X)
S =
n − 1 k=1
2
Verificare se è uno stimatore corretto.
Esercizio 98. Verificare che lo stimatore (v.a.) media campionaria è uno stimatore
corretto.
Consistenza. Ipotizziamo ora che alla simulazione i-esima si sia osservato un campione xi ∈ Rn di dimensione campionaria n e si abbia la stima θˆi di θ ∈ R inoltre
supponiamo di aver effettuato un numero I di simulazioni ovviamente rispettando la
natura campionaria di xi . Considerando cioè che l’universo campionario U 3 sia lo
stesso in ognuna delle I simulazioni e sia quindi la stessa anche la legge fX (x; θ) della
popolazione X oggetto di studio (pensiamo ad esempio alle simulazioni fatte partendo
dalla stessa legge distributiva in cui θ = µ, media della popolazione). Otteniamo così
un insieme
cθ (I, n) = {θˆi ; θˆi = g(xi ), xi ∈ U, i = 1, 2, . . . , I}
U
ˆ uno stimaindicizzato rispetto ad n per via della numerosità campionaria di xi . Sia Θ
tore corretto, diciamo che è consistente se per piccolo a piacere si ha
cθ (I, n) : |θˆi − θ| < } = 1
lim f req{θˆi ∈ U
n→∞
3
In realtà in situazioni come questa l’universo campionario è effettivamente lo stesso mentre ogni
simulazione va pensata come una estrazione di un diverso campione da uno stesso contenitore U . In
linea teorica quindi simulando campioni all’infinito si potrebbe ricreare lo stesso U e di fatto procedendo
ad un numero opportunamente grande di simulazioni possiamo costruire un ottimo banco di prova per
le proprietà desiderabili di uno stimatore.
130
ˆ al valore
postulando in questo modo la convergenza in probabilità dello stimatore Θ
vero θ e affermando che uno stimatore consistente aumenta in stabilità all’aumentare
della numerosità campionaria.
ˆ uno stimatore corretto o asintoticamente corretto, allora condiTeorema 35. Sia Θ
ˆ sia consistente4 è che
zione sufficiente affinché Θ
2
lim σΘ
ˆ = 0.
n→∞
Esercizio 99. Dimostrare che lo stimatore media campionaria è consistente.
Efficienza. Dobbiamo innanzitutto distinguere tra efficienza relativa ed efficienza assoluta. Dati due stimatori corretti si dice efficiente (in senso relativo) quello dei due
ˆ1 e Θ
ˆ 2 corretti, se vale
con varianza minima. Siano allora Θ
2
2
σΘ
ˆ 1 ≤ σΘ
ˆ2
ˆ 1 è efficiente rispetto a Θ
ˆ 2 . Dato uno stimatore corretto Θ
ˆ e si dice
diciamo che Θ
efficiente (in senso assoluto) se è lo stimatore di varianza minima nella classe degli
ˆ e, Θ
ˆ ∈ Cθ e sia Cθ la classe degli stimatori
stimatori corretti del parametro θ. Siano Θ
corretti di θ, allora
2
2
ˆ ∈ Cθ .
∀Θ
σΘ
ˆ e ≤ σΘ
ˆ
Teorema 36. (Disuguaglianza di Cramer-Rao) Considerato un campione x ∈ Rn
estratto da una popolazione con funzione di densità fX (x; θ) e θ ∈ Θ, se valgono:
i) il campo di definizione5 della v.a. X non dipende da θ,
ii) la funzione di verosimiglianza L(θ; x) ammette derivata prima e seconda rispetto a θ,
ˆ è uno stimatore corretto di θ ( cioè Θ
ˆ ∈ Cθ ),
iii) Θ
allora si ha
ˆ − θ]2 = σ 2ˆ ≥
E[Θ
Θ
E
1
d log L 2 .
dθ
Esercizio 100. Siano X ∼ P ois(λ) e Y ∼ U nif (0, a) due v.a. indipendenti. Si
ˆea
vogliono trovare le stime λ
ˆ di λ e di a. Scrivere il campo di definizione di entrambe
le v.a. e dire se vale il punto i) del teorema precedente.
4
5
ˆ = θ, otteniamo E[Θ
ˆ − θ0 + θ0 − θ]2 = σ 2 + Dn2 .
Considerato θ0 il valore vero ( da stimare ) e E[Θ]
ˆ
Θ
Si intende lo spettro o il supporto a seconda della natura della v.a. X.
Capitolo 5.
Inferenza statistica
131
Il teorema ci consente quindi di individuare l’estremo inferiore della varianza di
2
uno stimatore appartenente alla classe Cθ e se tale estremo coincide con σΘ
ˆ ? allora
?
ˆ
Θ è più efficiente (in senso assoluto) se esiste, può capitare cioè che non esista uno
stimatore con varianza uguale all’estremo indicato dalla disuguaglianza di Cramer-Rao
mentre se esiste è unico. Sembra utile ricordare inoltre che dalla relazione
L(θ; x1 , . . . , xn ) =
n
Y
fX (xi ; θ)
i=1
e dalla v.a.
L(θ; X) =
n
Y
fX (Xi ; θ)
i=1
(dove le Xi sono i.i.d.) seguono le quantità
2
2
U d log fX
U d log L
= nE
E
dθ
dθ
che è detta informazione di Fisher espressa dal campione mentre
2
U d log fX
E
dθ
è detta informazione di Fisher espressa da X (quindi dalla popolazione). Inoltre,
"
#2
ˆ
cθ d log fX (θ; θ)
U
E
dθ
è l’informazione di Fisher espressa dallo stimatore. Vale la seguente rappresentazione
che lega momenti e derivate
2
2
d log L(θ; X)
d log L(θ; X)
I(θ) = E
= −E
dθ
dθ2
e risulta verificata solo sotto le ipotesi di Cramer-Rao e dove I(θ) è detta informazione
di Fisher (attesa).
Sufficienza. Sia dato un campione x ∈ Rn con densità fX (x; θ), θ ∈ Θ ed una
statistica g ? : Rn 7→ Rm . Si vuole stimare il parametro θ, può essere anche m ≥ 1
ma non m > n. Supponiamo che al fine di ottenere una stima di θ costituisca la
stessa informazione considerare il campione x o il valore assunto da g ? (x), allora
g ? è detta statistica sufficiente per θ. Quanto abbiamo appena detto ci consente di
132
passare da Rn ad Rm trattando quindi con dimensioni minori o addirittura scalari (cioè
m = 1) rappresentando così una prima utilità espressa da tali statistiche. Un ulteriore
definizione di statistica sufficiente è dovuta al seguente teorema di fattorizzazione di
Neyman.
Teorema 37. Sia x ∈ U ⊆ Rn un campione di dimensione n e X con densità fX (x; θ),
θ ∈ Θ, date due funzioni non negative γ : U 7→ R e ϕ : Θ × G? 7→ R, una statistica
sufficiente g ? : Rn 7→ G∗ ⊆ Rm , allora la verosimiglianza può scriversi
L(θ; x) = γ(x) · ϕ(θ, g ? (x)).
La funzione di verosimiglianza può essere quindi ricostruita a meno di un fattore
inessenziale γ(·) indipendente da θ a partire dal nucleo ϕ(·) e che a parità del valore
g0? = g ? (x0 ) per qualche x0 ∈ U della statistica sufficiente si ottiene equivalenza in
verosimiglianza. Quindi, diversi campioni x0 producono lo stesso g0∗ .
Di fatto vale il ragionamento inverso, se la verosimiglianza può decomporsi come
sopra allora resta definita una statistica sufficiente g ? .
Come tutte le statistiche campionarie le statistiche sufficienti effettuano una classificazione per livelli dei campioni di U a partire da tutti i campioni x ∈ Ugi? tali per cui
g ? (x) = gi∗ e i = 1, 2, . . . , I ( può essere anche I = 1 ), individuando così I insiemi
di livello in ognuno dei quali si può avere o meno equivalenza in verosimiglianza ( verosimiglianza proporzionale per i campioni appartenenti allo stesso insieme di livello
e per livello si intende appunto il livello della verosimiglianza ). La sufficienza comporta che dato gi? (e quindi tutto un insieme di livello Ugi? ) la distribuzione delle n-ple
x ∈ Ugi? è indipendente da θ e si ottiene
fX (x; θ|gi? ) = γ(x),
∀ x ∈ Ugi?
che è funzione della sola n-upla campionaria per tutti gli i ∈ {1, 2, . . . , I}. Sembra logico pensare quindi che il passaggio da Ugi? ad U sia definito in termini di
verosimiglianza dalla fattorizzazione di Neyman-Pearson. Basta ricordare che
fX (x; θ) = L(θ; x).
Consideriamo ora due campioni xa , xb ∈ U ⊆ Rn ed osserviamo che
γ(xa ) ϕ(θ, g ? (xa ))
L(θ; xa )
γ(xa )/γ(xb ), g ? (xa ) = g ? (xb )
=
=
c(xa , xb ),
g ? (xa ) 6= g ? (xb )
L(θ; xb )
γ(xb ) ϕ(θ, g ? (xb ))
(5.4)
dove in generale, c(·, ·) può dipendere da θ. Si vede quindi che la partizione su U
indotta da una statistica sufficiente g ? è tale per cui campioni appartenenti allo stesso
Capitolo 5.
Inferenza statistica
133
insieme di livello (xa , xb ∈ Ugi? ) sono equivalenti in verosimiglianza. Non è in generale
vero il contrario visto che può verificarsi c(xa , xb ) = γ(xa )/γ(xb ) a meno che g ? non
sia minimale, come vedremo!
Osserviamo che
log L(θ; x) = log γ(x) + log ϕ(θ; g ? (x))
per cui si ottiene
d log ϕ(θ; g ? (x))
d log L(θ; x)
=
dθ
dθ
e quindi ai fini dell’inferenza su θ, l’informazione espressa dalla statistica g ? sufficiente
per θ è equivalente a quella espressa dal campione x.
Teorema 38. (Blackwell-Rao) Sia x ∈ Rn un campione causale, fX (x; θ) con θ ∈ Θ
la densità per X. Se g ? : U ⊆ Rn 7→ G? è una statistica sufficiente per θ e g uno
stimatore corretto di θ, che non dipende da θ, allora per
?
g ?? (g0? ) = E U |g0 [g|g ? = g0? ]
valgono le seguenti :
?
i) E G [g ?? (g0? )] = θ , (sempre ricordando che g0? è funzione di (x1 , . . . , xn ) )
?
ii) V arG [g ?? (g0? )] ≤ V arUθ [g]
c
?
e possiamo riferirci a g ?? (g0? ) = E U |g0 [g|g ? = g0? ] come allo stimatore migliorato.
ˆ
Per ricollegarci al formalismo già usato consideriamo il caso in cui lo stimatore Θ
ˆ = g ? (x1 , x2 , . . . , xn ), si ha U
cθ = G? .
sia una statistica sufficiente per θ, quindi se Θ
Indichiamo con
Ug0? = U |g0? = {x ∈ Rn t.c. g ? (x) = g0? }
un insieme di livello per la statistica sufficiente g ? . Vediamo allora che le proprietà
dello stimatore migliorato sono ottenute come media su tutti gli insiemi di livello delle
medie in ogni insieme di livello6 . Sembra utile chiarire quanto esposto per le applicazioni pratiche, osservato il campione x0 ∈ Rn e considerato uno stimatore migliorato
g ? ? di θ otteniamo
θˆ = g ?? (g0? )
che è funzione dei dati campionari attraverso g0? = g ? (x0 ).
Si effettua la media tra i campioni di U che determinano un certo valore g0? della statistica sufficiente g ? (per i campioni che appartengono quindi a quell’insieme di livello) ed otteniamo lo stimatore
migliorato, il condizionamento rappresenta qui una regola di inclusione per i campioni di U , inclusione
in U |g0? . Le proprietà vanno verificate per ogni insieme di livello (quindi possiamo condizionare per
ogni g0? ∈ G? al fine di individuare tutte le partizioni U |g0? e quindi tutti i valori per g ?? ) o meglio per
tutti i campioni di U .
6
134
Esempio 24. Quanto visto vale anche per le popolazioni (virtuali) discrete. Dato un
campione x ∈ Rn estratto da una popolazione Bernoulliana X con densità (discreta)
fX (xi ; θ) = θxi (1 − θ)1−xi ,
xi ∈ {0, 1},
θ ∈ (0, 1)
e lo stimatore non distorto g(x) = xP
1 (o g(x) = xi per qualche i = 1, 2, . . . che è lo
?
stesso) di θ con la statistica g (x) = ni=1 xi sufficiente per θ, lo stimatore migliorato
è
" n
#
X
g ?? (x) = E ?? [g|g ? (x)] = E {0,1} g|
xi = k .
i=1
Si ottiene
P
P
n
X
!
P
P (x1 = 0, ni=1 xi = k)
n−k
Pn
=
,
x1 = 0|
xi = k =
P ( i=1 xi = k)
n
i=1
!
P
n
X
P (x1 = 1, ni=1 xi = k)
k
Pn
= ,
x1 = 1|
xi = k =
P ( i=1 xi = k)
n
i=1
" n
#
X
k
g ?? (x) = E ?? g|
xi = k = ,
n
i=1
e
θ(1 − θ)
n
??
quindi g è uno stimatore corretto di varianza minima rispetto a g.
σg2 = θ(1 − θ),
σg2?? =
Statistiche sufficienti minimali. Si dice minimale la statistica sufficiente che produce la partizione con il minor numero di insiemi rispetto a tutte le altre statistiche
sufficienti per lo stesso parametro.
Per tali statistiche si possono osservare alcune particolarità di natura funzionale:
1. una statistica sufficiente h? è minimale se dati due campioni questi sono equivalenti in verosimiglianza se e solo se presentano lo stesso valore, in altri termini se si considera una statistica sufficiente minimale insiemi di livello diversi producono funzioni di verosimiglianza sostanzialmente diverse e dalla 5.4
scriviamo
c(xa , xb ) 6= γ(xa )/γ(xb ),
2. la caratteristica di dar luogo ad una partizione perfettamente coincidente con
quella dei campioni equivalenti in verosimiglianza, ci dice che ciascun insieme
della partizione associata ad una statistica sufficiente è necessariamente compresa interamente in un insieme della partizione indotta da una statistica sufficiente
Capitolo 5.
Inferenza statistica
135
minimale. In sostanza allora possiamo dire che la statistica sufficiente minimale
è funzione di quella statistica sufficiente,
3. se esistono due statistiche sufficienti minimali queste condurrebbero alla stessa
partizione di U quindi si potrebbe individuare una relazione biunivoca tra le due
statistiche. Diciamo allora che a meno di una relazione biunivoca la statistica
sufficiente minimale è unica.
Completezza. Teorema di Lehmann-Scheffé. Una statistica (o stimatore) θˆ = h(·)
ˆ θ) e cioè se è tale per cui data una
è completa se è completa la legge distributiva f (θ,
ˆ di θ,
ˆ indipendente da θ, l’uguaglianza
qualsiasi funzione reale g(θ)
ˆ =
E[g(Θ)]
Z
ˆ (θ;
ˆ θ)dθˆ = 0
g(θ)f
cθ
U
ˆ = 0 per ogni θ, quindi se g(·) è una
implica necessariamente che sia sempre g(θ)
funzione nulla ovunque. Possiamo allora ricondurci anche allo studio della legge f (·)
ed in realtà ci potremmo riferire anche a particolari famiglie di distribuzioni complete,
ad esempio se f (·) è normale, sapendo che qualunque sia g(·) si avrà
E[g] = 0 ⇔ g = 0 ovunque.
Teorema 39. Sia x un campione estratto da una popolazione con densità f (X; θ)
e come al solito θ ∈ Θ, se h?,c è una statistica sufficiente e completa per θ e se
h = g(h?,c ) è uno stimatore corretto di θ, allora h è unico ed ha varianza non superiore
a quella di ogni altro stimatore.
Ancillarità. Teorema di Basu. Una statistica la cui distribuzione non dipende dal
parametro θ di interesse è chiamata statistica ancillare. In sostanza quindi tale statistica non fornisce informazioni su θ, resta comunque interessante il loro utilizzo nella
pratica, considerando ad esempio il condizionamento parziale.
Teorema 40. Se hm,c è una statistica completa e sufficiente minimale, allora hm,c è
indipendente da ogni statistica ancillare.
Si può così provare l’indipendenza di due statistiche senza dover passare per le
rispettive distribuzioni e quindi quella congiunta, resta però impegnativo (almeno a
volte) dover dimostrare la completezza.
136
In Breve. Possiamo sintetizzare quanto appena detto come segue:
i) la dis. di Cramer-Rao ci dice quale è l’estremo inferiore della varianza di uno
stimatore corretto che non necessariamente esiste, se non esiste tale estremo non
può essere raggiunto e lo stimatore corretto di varianza minima per il parametro
di interesse ha varianza maggiore dell’estremo trovato,
ii) il Teorema di Blacwell-Rao ci permette di individuare uno stimatore funzione di
una statistica sufficiente che è corretto e di varianza minima. In particolare, preso
ˆ ed una statistica sufficiente g ∗ , allora lo stimatore Θ
ˆ ∗ = Θ|g
ˆ ∗
uno stimatore Θ
è detto stimatore migliorato ed ha varianza minore o uguale della varianza dello
ˆ (detto originale o di partenza).
stimatore Θ
iii) Inoltre, ricordiamo che
θ : il parametro da stimare,
θb : lo stimatore per θ,
b : la v.a. stimatore per θ,
Θ
x : campione osservato (denotato anche xoss ), realizzazione di X,
X : v.a. (in particolare, un vettore di n v.a.),
dove
x = (x1 , x2 , . . . , xn ) e X = (X1 , X2 , . . . , Xn ),
θb = g(x)
b = g(X),
e Θ
g è una statistica.
5.1.2
Metodi di stima
Stima di massima verosimiglianza. Lo stimatore di massima verosimiglianza θˆM V
è tale per cui
L(θˆM V ) = max.
Deve quindi soddisfare le condizioni
d L(θ; x) =0
dθ θ=θˆM V
d2 L(θ; x) <0
dθ2 ˆ
θ=θM V
dove x = xoss rappresenta il campione osservato ed L(θ; x) deve essere massimizzata
rispetto a θ e dato il campione osservato. Risulta:
Capitolo 5.
Inferenza statistica
137
1. (invarianza degli stimatori MV) Sia θˆM V lo stimatore di massima verosimiglianza di θ, se ψ è una funzione che ammette la funzione inversa lo stimatore di
ˆ = ψ(θˆM V ),
massima verosimiglianza di λ = ψ(θ) è dato da λ
2. Se esiste per θ una statistica sufficiente h? , allora uno stimatore di massima
verosimiglianza di θ se esiste, è funzione di h? e θˆM V = g(h? ),
ˆ allora è anche stimatore di
3. Se esiste per θ uno stimatore corretto ed efficiente θ,
ˆ
ˆ
massima verosimiglianza, θ = θM V ,
4. Se per la fX (x; θ) valgono le condizioni di regolarità ed inoltre per ogni x e
θ ∈ Ω esiste ed è continua e limitata la derivata terza di fX (x; θ), lo stimatore di massima verosimiglianza è asintoticamente corretto e consistente e ha
distribuzione asintotica di tipo normale
ˆ ∼ N (θ, 1/I(θ)).
Θ
Inoltre
ˆ 1/I(θ;
ˆ x))
L(Θ; x) ∼ N (θ,
ˆ x) è l’informazione di Fisher osservata. All’aumentare della numerodove I(θ;
ˆ M V ha varianza sempre più vicina al limite di Cramèr-Rao ed
sità campionaria Θ
è corretto.
Esercizio 101. Sia X una popolazione N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione
osservato. Determinare lo stimatore MV per la media della popolazione.
Esercizio 102. Sia X una popolazione N (µ, σ 2 ), e sia x = (x1 , . . . , xn ) il campione
osservato. Determinare lo stimatore MV per la varianza della popolazione.
Esercizio 103. Dire se la v.a. varianza campionaria trovata nel precedente esercizio
è uno stimatore corretto per la varianza della popolazione.
Esercizio 104. Sia P una popolazione in cui il fenomeno oggetto di studio X segue
una legge distributive uniforme, X ∼ U nif (0, θ) con θ > 0. Scrivere la funzione di
log-verosimiglianza.
Stima per intervalli. Supponiamo che si voglia ottenere la stima θˆ di un parametro θ
da una osservazione campionaria, diciamo dal campione x ∈ Rn . Si possono costruire
degli intervalli per θˆ se si conosce la legge distributiva fΘˆ (·) di tale stimatore. Dalla
relazione
Z θ1
ˆ ≤ θ1 ) =
P (θ0 ≤ Θ
f ˆ (u)du = 1 − α
Θ
θ0
138
standardizzando secondo una trasformazione G(·), si ricava
ˆ
P G(θ0 ) ≤ G(Θ) ≤ G(θ1 ) = 1 − α
dove G(θ0 ) = gα/2 e G(θ1 ) = g1−α/2 sono i percentili della fG(Θ)
ˆ (·) che una volta
calcolati o individuati (ad esempio attraverso le tavole dei percentili) consentono di
scrivere
ˆ ≤ G−1 (g1−α/2 ) = 1 − α.
P G−1 (gα/2 ) ≤ Θ
ˆ =X
¯ n è la v.a. media campionaria ed X ∼ N (µ, σ 2 ) con varianza σ 2
Se ad esempio Θ
nota, allora
¯
√
¯ n ) = Xn − µ n ∼ N (0, 1)
G(X
σ
e dai passaggi visti sopra con α = 0.05 (si vedano le tavole dei percentili della
normale) scriveremo
−1
−1
−1
−1
ˆ
ˆ
P G (g1−α/2 ) ≤ Θ ≤ G (gα/2 ) = P G (−1.96) ≤ Θ ≤ G (1.96) = 0, 95.
Se invece θˆ = σ 2 e X ∼ N (µ, σ 2 ) con media µ nota, si ottiene
(n − 1)s2
∼ χ2(n)
G(S ) =
2
σ
2
dove S 2 è la v.a. varianza campionaria corretta
n
S2 =
1 X
(Xi − µ)2 .
n − 1 i=1
Inoltre
G(S 2 ) ∼ χ2(n−1)
se µ non è nota e la v.a. varianza campionaria diventa
n
1 X
¯ n )2 .
S =
(Xi − X
n − 1 i=1
2
Numerosità ottima del campione. Ricorriamo ancora alla trasformazione G vista
sopra e supponiamo che sia G(·; n), sottolineando cioè la dipendenza da n. Una simile
trasformata non è certo difficile da trovare poiché standardizzando è facile ricorrere a
grandezze che dipendono dalla numerosità campionaria n. Possiamo scegliere un θ0
Capitolo 5.
Inferenza statistica
139
per cui G(θ0 ; n) = g1−α/2 = f (n) sia funzione di n, quindi esplicitando rispetto ad n
troveremo
n = f −1 (g1−α/2 ; θ0 , . . .).
Consideriamo ad esempio X ∼ N (µ, σ 2 ) ed il campione x ∈ Rn , supponiamo σ 2 nota,
standardizziamo ed otteniamo
G(¯
x; n, σ) =
x¯ − µ √
n ∼ N (0, 1)
σ
per cui g1−α/2 = z1−α/2 e z è il percentile della N (0, 1). Si ha per un certo livello
1 − α ed un errore e = x¯ − µ che G(e; n, σ) = f (n) = z1−α/2 ed ancora, calcolando
la funzione inversa
n=
2
z1−α/2
σ
e2
(dove considererò la parte intera se voglio che n ∈ N)
si è ottenuta la numerosità ottima per cui al livello 1 − α possiamo ottenere un intervallo di stima per µ di ampiezza 2e. Osserviamo che e = x¯ −µ può essere scelto piccolo a
piacere, tale valore dipenderà dal grado di accostamento che vogliamo ottenere essendo incognita la media µ della popolazione. Come si è già osservato, il valore n trovato
non è intero, infatti si deve considerare il più piccolo n tra quelli che soddisfano alla
condizione richiesta. In altre parole, cerchiamo il più piccolo n per il quale
n≥
2
σ
z1−α/2
e2
che corrisponde alla parte intera superiore
n=
2
σ
z1−α/2
e2
.
Esercizio 105. Sia P la popolazione oggetto di studio, il fenomeno oggetto di studio è
ben rappresentato dalla v.a. X ∼ N (µ, σ 2 ). Vogliamo stimare la media µ del fenomeno X della popolazione. In particolare, si vuole trovare la numerosità campionaria n
del campione x ∈ Rn tale per cui, con probabilità pari al 95%, si commette un errore
minore di una quantità nella stima di µ. Trovare il minimo n.
Osservazione 34. Trovare il minimo n nel precedente esercizio significa anche trovare
¯ n − µ| < nel 95% dei casi, cioè pensando di considerare
il più piccolo n per cui |X
100 campioni, 95 di questi restituiscono una stima che non si discosta più di dal
valore vero µ (P (|b
µ − µ| < ) = 95%).
140
Stima dei minimi quadrati. Supponiamo di osservare la variabile dipendente Y e
le variabili esplicative X = (X1 , X2 , . . . , Xk ) dalla popolazione ed otteniamo un campione di numerosità n (ossia n unità statistiche) della forma {(yi , xi ); yi ∈ R, xi ∈
Rk , i = 1, 2, . . . , n}. Ipotizzando una relazione lineare tra le variabili potremmo
scrivere
k
X
yi =
aj xi,j
j=1
ed in termini matriciali
Y = Xa
dove X è una matrice n × k ed ovviamente Y ∈ Rn .
Se in generale esiste tra la variabile dipendente e le variabili esplicative una relazione
del tipo
Y = f (X; a) + dato il campione (y, x) troviamo i valori yˆ = f (x; a
ˆ) in modo che
n
X
(yi − yˆi )2 = min,
i=0
in particolare cerchiamo il vettore a
ˆ ∈ Rk tale che per ei = yi − yˆi si possa scrivere
n
X
e2i = min
i=1
ed ei rappresenta l’errore che si commette approssimando gli yi con la relazione f (x; a
ˆ),
diverso quindi dal significato di che rappresenta una v.a. qualunque (di media nulla)
e quindi il grado di incertezza o di imprecisione inevitabile nella realtà fattuale ( è interessante per il confronto con la verosimiglianza il caso in cui ∼ N (µ, σ 2 ) ). è il caso
di notare che il metodo dei MQ prescinde dalla conoscenza delle forme distributive
mentre si dovrà conoscere o identificare la relazione f (·; a) o meglio la dipendenza
funzionale tra i dati. Il metodo dei MQ trova la sua piú naturale applicazione nelle
relazioni f (·; a) che siano lineari o linearizzabili quindi nei modelli lineari.
Stima dei momenti. Il metodo dei momenti conduce a stimatori consistenti ed è il
piú semplice metodo di stima, consiste nello stimare caratteristiche della popolazione a partire dalle relazioni teoriche tra i momenti e supponendole valide anche per i
momenti campionari. Indichiamo un momento di ordine r con
Z
Mr =
xr fX (x; θ)dx,
U
Capitolo 5.
Inferenza statistica
141
2
è di immediata comprensione il fatto che la relazione teorica σX
= M2 − M12 porti,
dato un campione x ∈ Rn , a stimare la quantità
!2
n
n
X
X
1
1
2
x2 −
xi
σ
ˆX
= m2 − m21 =
n i=1 i
n i=1
P
oppure µ
ˆX = m1 = n1 ni=1 xi ottenute appunto dai momenti campionari m1 e m2
in questo caso del primo e del secondo ordine rispettivamente. In generale quindi si
dovranno conoscere le relazioni teoriche tra i momenti che non prescindono sempre
dalla legge distributiva come invece accade nel caso sopra illustrato. Se si devono
stimare k parametri della popolazione, diciamo θ ∈ Rk sarà possibile impostare un
sistema di k equazioni del tipo
Mr = mr ,
r = 1, 2, . . . , k
dove Mr = g(θ) dipende da θ = (θ1 , . . . , θk ) e risolvendo il sistema si trova θˆ ∈ Rk .
Indichiamo lo stimatore dei momenti con il simbolo θbM .
Osservazione 35. Si osservi che si sta impostando un sistema di k equazioni in k
incognite.
Esercizio 106. Determinare lo stimatore dei momenti per il parametro θ = (µ, σ 2 )t
da una popolazione X ∼ N (µ, σ 2 ).
Stima bayesiana. Nella logica Bayesiana sappiamo che assegnata una legge di probabilità iniziali π(θ) per il parametro θ ∈ Θ ed osservato il campione x ∈ Rn ,
possiamo calcolare la legge delle probabilità a posteriori
π(θ|x) = c L(θ; x) π(θ)
dove ovviamente L(θ; x) = f (x; θ) è la verosimiglianza e
Z
−1
c =
L(θ; x) π(θ)dθ.
Θ
Sembra allora ovvio, dato x ottenere una stima θˆ di θ dalla
Z
Θ
ˆ
θ = h(x) = E [θ|x] =
θ π(θ|x) dθ.
Θ
Possiamo iterare il calcolo delle probabilità a posteriori (aggiornare le π(θ|xi ) per
successivi campioni xi , o anche successivi x1 ) un certo numero di volte e giungere a
nuove stime Bayesiane di θ.
142
5.2
5.2.1
Verifica delle ipotesi statistiche Test parametrici
Parleremo di ipotesi parametriche quando ci si riferisce ad un vettore incognito θ mentre chiameremo ipotesi funzionali quelle relative ad una forma f (x; θ), θ ∈ Θ, ci
occuperemo delle ipotesi funzionali nel paragrafo che segue. Un ipotesi si dice semplice se specifica completamente la f (x; θ) altrimenti si dice composta. Un ipotesi che
consideri un solo parametro θ può essere semplice se è della forma θ = θ0 , può essere
unilaterale se è del tipo θ > θ0 o θ ≥ θ0 oppure sostituendo con < o ≤, può essere
bilaterale se è del tipo θ 6= θ0 . Possiamo dire formalizzando il problema che un test di
ipotesi è del tipo θ ∈ Θ0 dove Θ0 rappresenta un insieme che può essere costituito da
un solo elemento, caso in cui l’ipotesi si dice semplice oppure può essere costituito da
più elementi, il caso delle ipotesi composte. Il test di ipotesi è strutturato in modo da
testare una certa congettura, solitamente l’ipotesi detta alternativa ed indicata con H1
mentre si descrive la situazione di base con l’ipotesi detta appunto di base o nulla H0 .
In linea di principio quindi si avrà a che fare con un test del tipo
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 ,
un campione x = (x1 , . . . , xn ) verrà osservato (estratto) da una popolazione X con
densità fX (x; θ), verrà scelta una opportuna funzione dei dati campionari che potrà
essere una funzione test o uno stimatore, indichiamo tale funzione con g(x) e si potrà
individuare una distribuzione per g(X) a partire dalla densità fX (·|H0 ) e quindi valida
se θ ∈ Θ0 (o equivalentemente se è vera l’ipotesi di base) ed una distribuzione per
g(X) a partire dalla densità fX (·|H1 ) se θ ∈ Θ1 (o se è vera l’ipotesi alternativa).
Si devono introdurre gli errori
di prima specie: la decisione di rifiutare l’ipotesi nulla quando questa è vera,
di seconda specie: la decisione di rifiutare l’ipotesi alternativa quando questa è vera.
Si deve notare che si stanno considerando gli oggetti Y = g(X) e y = g(x).
Indichiamo rispettivamente con
Z
α=
fg(X) (g(x)|H0 )dg,
θˆ = g(x)
R|H0
e
Z
β=
fg(X) (g(x)|H1 )dg,
A|H1
θˆ = g(x)
Capitolo 5.
Inferenza statistica
143
le probabilità di commettere un errore di prima specie e di seconda specie rispettivamente. Risulta anche
P (g(X) ∈ R|H0 ) = P (R|H0 ) = α
e
P (g(X) ∈ A|H1 ) = P (A|H1 ) = β
dove R|H0 è la regione di rifiuto sotto l’ipotesi di base ed A|H1 è la regione di accettazione sotto l’ipotesi alternativa. La funzione h(x) è qui presentata nella notazione
piú usuale per uno stimatore del parametro θ piuttosto che per una funzione test, ovviamente sempre funzione dei dati campionari, θˆ = h(x), il valore θ? in questo caso
delinea le regioni di accettazione e di rifiuto sotto entrambe le ipotesi.
Sono importanti anche le probabilità
P (A|H0 ) = 1 − α
detta livello di fiducia, mentre α è detta livello di significatività e la probabilità
P (R|H1 ) = 1 − β
detta potenza del test.
Il test migliore si ottiene rendendo piccole le probabilità di ottenere un errore (quindi
α e β), di norma si fissa α essendo strutturato il test in modo da rendere preferibile
mantenere l’ipotesi di base7 e si cerca di massimizzare la potenza del test ovvero la
probabilità di non commettere errori di seconda specie (la situazione ottimale può
essere ottenuta fissando entrambe le probabilità degli errori piccole a piacere o secondo
le necessità del caso). Se le ipotesi sono composte si avranno diversi valori di tali
probabilità e fissata α avremo una funzione di potenza da massimizzare.
Ipotesi di base semplici
Nel caso in cui entrambe le ipotesi siano semplici il test assume la forma
H0 : θ = θ0
H1 : θ = θ1 , θ0 < θ1
se X ∼ N (µ, σ 2 ) ed osserviamo un campione x di dimensione n, possiamo voler
verificare due stime campionarie, la media θ = µ oppure la varianza θ = σ 2 .
7
Ad esempio se si sta testando l’affidabilità di un prodotto alternativo (espresso appunto dall’ipotesi alternativa) contro l’ipotesi nulla secondo cui il prodotto cosí come è proposto risulta il piú
affidabile, sarà certamente meno auspicabile commettere un errore di seconda specie perché evidentemente comporterebbe ammodernamenti nel meccanismo di produzione e quindi delle spese che non
rappresenterebbero un buon investimento.
144
Ipotesi sulla media, θ = µ.
Il test assume la forma
H0 : µ = µ0
H1 : µ = µ1 , µ0 < µ1
P
¯ ∼ N (µ, σ2 ), quindi x¯ è
sappiamo che µ
ˆ = x¯, quindi h(x) = n1 ni=1 xi ed inoltre X
n
¯ = h(X). Conosciamo la fX¯ (·) ed
una realizzazione della v.a. media campionaria X
in particolare le distribuzioni
¯ 0 ∼ N (µ0 , σ 2 /n),
X|H
¯ 1 ∼ N (µ1 , σ 2 /n)
X|H
2
condizionate alle ipotesi da verificare. Si è comunque supposto che σP
fosse noto,
n
1
2
altrimenti bisogna ricorrere ad una stima campionaria corretta, s = n−1 i=1 (xi −¯
x)2
e si ottiene
¯ 0 ∼ N (µ0 , s2 /n),
¯ 1 ∼ N (µ1 , s2 /n).
X|H
X|H
Note le distribuzioni diciamo che x¯oss è la stima ottenuta (osservata) dal campione,
x¯oss = h(x), dobbiamo verificare se tale valore cade nella regione di accettazione o
di rifiuto dell’ipotesi di base. Al fine di individuare tali regioni fissiamo il livello di
significatività α (ad esempio α = 0.05) e standardizziamo le distribuzioni viste sopra
relativamente alla sola ipotesi nulla e al caso in sui σ 2 sia noto oppure no, si ottiene
rispettivamente
¯ − µ0
¯ − µ0
X
X
√ ∼ N (0, 1),
√ ∼ t(n−1)
σ/ n
s/ n
ed ancora, preso α ed x¯oss
σ
x¯? = µ0 + z1−α √
n
oppure
s
x¯? = µ0 + t(n−1), 1−α √
n
ed A = (−∞, x¯? ), R = (¯
x? , ∞) quindi
x¯oss < x¯? ⇒ acettiamo H0
x¯oss > x¯? ⇒ rifiutiamo H0 .
Conclusioni simili si otterrebbero calcolando i percentili osservati
x¯oss − µ0
√
= zoss ,
σ/ n
x¯oss − µ0
√
= t(n−1),oss
s/ n
e successivamente le probabilità osservate
αoss = 1 − FN (zoss )
oppure
αoss = 1 − FT (t(n−1),oss )
Capitolo 5.
Inferenza statistica
145
ovviamente
αoss < α ⇒ al 1 − αoss % rifiutiamo H0
αoss > α ⇒ accettiamo H0 .
Il test così strutturato prescinde dall’ipotesi alternativa ed in effetti si sarebbe ovviamente giunti a regioni differenti ponendo H1 : θ < θ0 o H1 : θ > θ0 o ancora
H1 : θ 6= θ0 ma sempre seguendo la stessa procedura infatti questo è un test uniformemente più potente8 . La funzione di potenza nel caso H1 : θ > θ0 è data
da
¯ > x¯oss |H1 )
P (X
mentre se H1 : θ < θ0 è data da
¯ < x¯oss |H1 ).
P (X
¯ ∈ W |H1 ).
Verifica P (X
Ipotesi sulla varianza, θ = σ 2 .
Supponendo µ nota il test assume la forma
H0 : σ 2 = σ02
H1 : σ 2 = σ12
sappiamo che la varianza campionaria e la varianza campionaria corretta9 sono rispettivamente date da
n
1X
(xi − x¯)2
S =
n i=1
2
n
e
1 X
s =
(xi − x¯)2
n − 1 i=1
2
mentre una stima corretta di σ 2 è σ
ˆ 2 = s2 , inoltre sotto l’ipotesi nulla si ha
nS 2
(n − 1)s2
=
∼ χ2(n−1)
σ02
σ02
8
Un test in cui l’ipotesi di base è semplice, quindi la forma distributiva della v.a. X è completamente
specificata da un solo parametro, l’ipotesi alternativa H1 è invece composta e sia individuata da ogni
ipotesi semplice H1 ∈ H1 , si dice uniformemente più potente se per ogni ipotesi H1 ∈ H1 non variano
le regioni di accettazione e di rifiuto individuate mediante la procedura di Neyman e Pearson. Tali test
non sono molto frequenti ed in particolare non esistono, in condizioni regolari, se l’ipotesi alternativa è
parametrica bilaterale.
2
Pn Pn
9
L’espressione i=1 xiσ−ξ
∼ χ2(v) è giustificata dal fatto che i=1 Ui2 ∼ χ2(n) dove le Ui
sono normali standardizzate,
dobbiamo però precisare che v = n nel caso ξ = µ ovvero è nota, se
Pn
invece ξ = x
¯ = n1 i=1 xi , funzione dei dati campionari, allora v = n − 1 perché non si ha più una
combinazione lineare dei dati indipendente.
146
quindi dato il campione x di dimensione n calcoliamo s2oss ed il percentile χ2oss , dalle
tavole dei percentili risulta 1 − Fχ2(n) (χ2oss ) = αoss e come sopra, fissato il livello di
significatività
αoss > α oppure χ2oss < χ2α ⇒ accetto H0 .
Si sono introdotti i valori osservati x¯oss e s2oss , in realtà entrambi sono delle stime
campionarie quindi usando una notazione più coerente si sarebbe scritto xˆ¯ e sˆ2 .
Il test ottimo. La procedura di Neyman-Pearson. La procedura di N-P consente
di individuare, fissato α, quel test per cui è massima la potenza 1 − β, quindi individua
le regioni di accettazione e di rifiuto di quei test detti piú potenti.
In termini più o meno pratici il problema può essere cosí rappresentato, sia U =
{xi }i=1,...,N l’universo campionario di interesse, il test sia del tipo
H0 : θ = θ0
H1 : θ = θ1
ovviamente θˆ = h(xi ) e vogliamo costruire un test più potente di dimensione α (o
fissato α). Le probabilità dei campioni siano espresse da P (xi |H0 ) e P (xi |H1 ) rispet(xi |H1 )
, allora la regione
tivamente in H0 o H1 e si definisca il rapporto Λ(xi ) = PP (x
i |H0 )
di rifiuto sotto l’ipotesi nulla sarà costruita prendendo quei campioni di rapporto Λ(·)
massimo e via via inferiore fino ad ottenete un insieme Iα di campioni per cui si abbia
X
X
P (xi |H0 ) ' α
ed ovviamente
P (xi |H1 ) = 1 − β
xi ∈Iα
xi ∈Iα
quindi fissato α inseriamo campioni in Iα fino ad ottenere un valore prossimo o uguale
ad α e troviamo la potenza 1 − β, vale α ≤ 1 − β , inoltre il test è coerente nel senso
che la potenza del test relativa ad un campione di n unità è non superiore, fissato α, a
quella di un campione di n + 1 unità . La procedura operativa si basa sul fatto che il
lemma di N-P (in letteratura indicato anche come tale oltre che come procedura) dice
che il test piú potente è quello che si basa sulla regione di rifiuto W = Iα nella quale
per ogni n-upla campionaria è massimo il rapporto delle verosimiglianze
Λ(xi ) =
L(θ1 ; xi )
≥ Cα
L(θ0 ; xi )
dove ovviamente, per il test dato sopra, P (xi |Hj ) = L(θj ; xi ) e
Cα = max Λ(xi ).
xi ∈U \Iα
Bisogna fare delle precisazioni, la procedura garantisce l’esistenza del test ottimo ma
può capitare che la regione W non sia unica inoltre Λ(·) è un rapporto di verosimiglianze e se esiste una statistica sufficiente per θ, tale rapporto può scriversi come funzione
della statistica sufficiente evitando di considerare ulteriormente le n-ple campionarie.
Capitolo 5.
Inferenza statistica
147
Nota Bene. In linea di principio si tende sempre a considerare vera l’ipotesi di base
ma ogni volta si procede come per accettare l’ipotesi alternativa, lo spirito che spinge
quindi al test, in sostanza, è quello di poter considerare un’alternativa all’ipotesi di
base essendo però quest’ultima sempre preferita. Seguendo queste considerazioni si
sceglie α sempre più piccolo se si vuole rendere difficile commettere un errore di prima
specie, in questo modo se le risultanze campionarie conducessero al rifiuto dell’ipotesi
nulla, ”nulla” si potrebbe dire sul tentativo di mantenerla valida, in altre parole deve
necessariamente essere rifiutata. Sullo stesso principio ci si basa quando si sceglie la
regione di potenza minima tra quelle ottime (o con massima potenza), si vuole rendere
meno agevole il rifiuto dell’ipotesi di base.
Ipotesi di base composte
Lo scenario è rappresentato, nel semplice caso discreto, da una collezione di ipotesi
semplici H0 ∈ H0 che esauriscono l’ipotesi composta H0 , sembra quindi difficile
dover mantenere la porzione α per ognuna delle H0 ∈ H0 , si ricerca allora per ogni
H1 ∈ H1 l’insieme delle regioni ottime (di potenza massima) per ogni H0 ∈ H0 e tra
le |H0 | × |H1 | regioni (con |A| si è indicata la cardinalità dell’insieme A) si sceglie la
regione di rifiuto W 10 di potenza minima.
5.2.2
Test non parametrici
Tratteremo test su P o sulla sua densità f . In particolare, vogliamo confrontare la distribuzione di probabilità teorica di una certa variabile con la distribuzione di frequenze
(e quindi osservate).
Test del χ2 . Siano X ∼ (xk , pk ), k ∈ IX una v.a. e fk , k ∈ IX una successione
di frequenze osservate per il fenomeno oggetto di studio. Vogliamo vedere quanto X
descriva bene tale fenomeno. Una misura della distanza tra le distribuzioni è data da
χ2oss =
X (fk − pk )2
pk
k∈I
X
che può essere vista come una realizzazione della v.a. χ2 (|IX |−1), cioè una χ-quadrato
con |IX | − 1 gradi di libertà. Il test ci permette di individuare un p-value e quindi una
regione di rifiuto/accettazione per l’ipotesi nulla
H0 : χ2 = 0
10
(stesse distribuzioni)
(5.5)
Nel caso di ipotesi composte se tale regione non cambia al variare di H1 ∈ H1 si tratta di una
regione W che determina un test uniformemente piú potente.
148
che corrisponde all’ipotesi che X descriva bene il fenomeno oggetto di studio. Se
χ2oss = 0 allora fk = pk per ogni k ma se χ2oss > 0 dobbiamo individuare una soglia
(il p-value) al di sotto della quale si possa ancora accettare (con un certo livello di
significatività) l’ipotesi H0 .
È stata già introdotta la tabella di contingenza, in quel caso si voleva studiare la
dipendenza di due variabili osservate. Se si considera
χ2oss =
X (fk,s − pk,s )2
pk,s
(k,s)∈I
con distribuzione teorica pk,s = pk ps si sta considerando l’ipotesi
H0 : χ2 = 0
(variabili indipendenti).
(5.6)
Inoltre, bisogna notare che le osservazioni riguardano un fenomeno in cui X e Y (e
quindi la variabile doppia (X, Y ) con frequenze fk,s , (k, s) ∈ I = IX × IY ) rappresentano due caratteristiche di tale fenomeno. Allora l’ipotesi nulla da verificare è se le
due caratteristiche sono indipendenti o meno.
Test di Kolmogorov-Smirnov. Sia X ∼ fX e Xi ∼ X v.a. i.i.d. con i = 1, 2, . . . , n.
Definiamo la funzione di ripartizione empirica
n
1X
1(−∞,x] (Xi ).
Fn (x) =
n k=1
Il test prevede l’utilizzo della distanza
Dn = kFn − FX k∞ = sup |Fn (x) − FX (x)|.
x
q.c.
Dal teorema di Glivenko-Cantelli, Dn → 0, soddisfa cioè la legge forte dei grandi
numeri. In maniera analoga a quanto accade per la v.a. media campionaria, si ha che
q.c.
Fn (x) → E1(−∞,x] (X) = FX (x),
x ∈ R.
Inoltre, fissato x, notiamo che
EFn (x) = FX (x),
e V ar(Fn (x)) =
1
FX (x) (1 − FX (x))
n
ed in particolare Fn (x) ∼ Bin(n, FX (x)). Dal teorema del limite centrale si ottiene
che
√ d
Un (x) = (Fn (x) − FX (x)) n → N 0, FX (x) (1 − FX (x)) .
Capitolo 5.
5.3
Inferenza statistica
149
Stima in presenza di parametri di disturbo
Ci troviamo nel caso in cui oggetto di stima è il parametro λ = g(θ) e g(·) non ammette
la funzione inversa oppure nel caso in cui θ = (λ, µ) e µ è un parametro di disturbo
per l’inferenza su λ. Il problema quindi nasce quando si ha un esperimento del tipo
e = {X , Pθ , θ ∈ Θ}
in cui, poniamoci nel caso piú comune, θ = (λ, µ) ed oggetto di interesse è il parametro
( di interesse ) λ, allora se possiamo individuare una funzione h(·) per cui µ = h(λ)
allora possiamo anche scrivere θ = (λ, h(λ)) ed ottenere nella formalizzazione quello
che si dice ”eliminazione del parametro di disturbo”, altrimenti possiamo comunque
scegliere h(·) liberamente e con lo stesso obbiettivo, quello dell’eliminazione di µ, nel
seguito consideriamo due varianti di h, h1 ed h2 allo stesso scopo. Diamo allora la
seguente
Definizione 49. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono
parametri complementari se si ha una corrispondenza biunivoca tra gli insiemi Θ
e Θ0 = {(λ, µ) : λ = h1 (θ), µ = h2 (θ), θ ∈ Θ}.
Potremmo anche scrivere Θ0 = Λθ × Mθ , θ ∈ Θ in cui ovviamente Λθ = {λ :
λ = h1 (θ)} e Mθ = {µ : µ = h2 (θ)}. Inoltre
Definizione 50. Dato l’esperimento e, si dice che λ = h1 (θ) e µ = h2 (θ) sono parametri a variazione indipendente se si ha una corrispondenza biunivoca tra gli insiemi
Θ e Θ0 = Λ × M dove Λ = {λ : λ = h1 (θ), θ ∈ Θ} e M = {µ : µ = h2 (θ), θ ∈ Θ}.
L-indipendenza
Diamo la seguente
Definizione 51. Dato l’esperimento e, i parametri complementari λ e µ si dicono
L-indipendenti se esistono due funzioni l1 ed l2 tali che, per ogni x ∈ X sia
l(λ, µ; x) = l1 (λ; x)l2 (µ; x).
Si presenta quindi come una caratteristica strettamente legata alla verosimiglianza
( Lik-indipendenza ) ed è piuttosto estrema, si può verificare sostanzialmente nel caso
si considerino due esperimenti distinti o nel caso i parametri si riferiscano ad aspetti
essenzialmente differenti.
150
Profilo della verosimiglianza
Dato l’esperimento e, tale procedura consiste essenzialmente nel calcolare, fissato x ∈
X , la verosimiglianza lmax per ogni λ ∈ Λ massimizzando ogni volta rispetto a µ ∈ M ,
la soluzione sarà ovviamente data da λ per cui lmax è massima. Scriviamo
ˆ x) = sup{lmax (λ)}
l(λ;
λ∈Λ
dove
lmax (λ) = max{l(λ, µ; x)},
µ∈M
λ ∈ Λ.
Esperimenti marginali
Abbiamo un esperimento marginale quando si considera come risultato dell’esperimento non x0 ∈ X ma h0 = h(x0 ) ∈ H.
Definizione 52. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→
H ⊆ Rm con 1 ≤ m ≤ n, allora si chiama esperimento marginale basato su h
l’esperimento
eh = {H, Pθh , θ ∈ Θ}
dove Pθh è la legge di probabilità indotta su H da Pθ e la funzione di verosimiglianza
associata a (eh , h0 ) è detta verosimiglianza marginale.
La verosimiglianza e la verosimiglianza marginale sono in generale diverse a meno
che h non sia sufficiente per θ, la marginalizzazione allora comporta in generale una
perdita di informazione. La statistica h ha qui il compito di generare una verosimiglianza ( quella marginale ) che dipende dal solo parametro di interesse, caso in cui si
dice che h è orientata a λ ( λ = g(θ) ad esempio ).
Esperimenti condizionati
Definizione 53. Dato un esperimento e, una qualunque statistica h : X ⊆ Rn 7→ H ⊆
Rm , si chiama esperimento condizionato ad h l’esperimento aleatorio
eh = {X , Pθ,h , θ ∈ Θ}
dove Pθ,h è la legge di probabilità su X calcolata per θ fissato e condizionatamente al valore h0 = h(x0 ). La funzione di verosimiglianza sarà detta verosimiglianza
condizionata.
Capitolo 5.
5.4
Inferenza statistica
151
Inferenza su particolari parametri
Diamo ora alcuni esempi sulla verifica di ipotesi in casi particolari di stima, si adotterà
sempre la regola αoss ≷ α dove αoss come sappiamo è dato dal percentile calcolato
in base ai risultati campionari ed α è il livello di significatività dato al test di ipotesi,
considereremo qui solo la individuazione dell’ αoss e della distribuzione della v.a. in
questione quindi si parlerà della sola ipotesi di base lasciando al lettore la costruzione
vera e propria del test anche in relazione alla ipotesi alternativa. Dove non specificato
si assumerà inoltre che X ∼ N (µ, σ 2 ) ed otteniamo:
1. H0 : µ = µ0 e σ 2 nota
µ
ˆ = x¯
¯ ∼ N (µ, σ 2 /n)
X
√
¯
X−µ
0
n ∼ N (0, 1) sotto H0
σ
x
¯oss −µ0 √
n = zαoss
σ
2. H0 : µ = µ0 e σ 2 non è nota
µ
ˆ = x¯
¯ ∼ N (µ, σ 2 /n)
X
σ
ˆ 2 = s2 , varianza campionaria corretta
(n−1)s2
σ2
∼ χ2(n−1)
√
¯
X−µ
0
n ∼ t(n−1)
s
x
¯oss −µ0 √
n = t(n−1), oss
s
Per entrambe le situazioni viste sopra possiamo generalizzare alla normale se la
numerosità del campione e grande, otteniamo che zα < t(n),α e per n sempre
maggiore t(n),α → zα (o meglio t(n) → N (0, 1) per n → ∞) quindi passare
alla normale equivale a restringere la regione di accettazione del test se n non è
sufficientemente grande.
3. H0 : µ1 = µ2 , varianze note. Esistono due popolazioni X1 ed X2 , entrambe
supposte normali e due campioni x1 e x2 osservati per cui
X1 ∼ N (µ1 , σ12 ) e X2 ∼ N (µ2 , σ22 )
µ
ˆ1 = x¯1 e µ
ˆ2 = x¯2
√
¯
X1 −µ1
n1 ∼ N (0, 1) e
σ1
¯ 2 −µ2 √
X
n2
σ2
∼ N (0, 1)
152
0.0
0.1
0.2
0.3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−3
−2
−1
0
1
2
3
Figura 5.1: La densità in grassetto è di Student mentre l’altra è normale.
√
¯
¯
X1 −X2
σ12 /n1 +σ22 /n2
∼ N (0, 1) sotto H0
x
¯1, oss −¯
x2, oss
√
= zoss
2
2
σ1 /n1 +σ2 /n2
4. H0 : µ1 = µ2 , varianze non note. Verifichiamo innanzitutto se le due varianze
possono considerarsi uguali oppure no. Supponiamo che σ12 = σ22 = σ 2 allora
σ
ˆ2 =
(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2
e possiamo verificare H0 : σ12 = σ12 = σ 2 considerando
F(n1 −1), (n2 −1) =
(n1 − 1)s21 (n2 − 1)σ 2
s21
=
(n1 − 1)σ 2 (n2 − 1)s22
s22
che è una Fisher-Snedecor. Supposte allora uguali otteniamo
√X¯1 −X¯2
σ
ˆ
1/n1 +1/n2
x
¯1, oss −¯
x2, oss
√
σ
ˆ
1/n1 +1/n2
∼ t(n1 +n2 −2)
= t(n1 +n2 −2), oss
Se invece le varianza delle due popolazioni non possono considerarsi uguali
sorgono non pochi problemi, la distribuzione della variabile che si verrebbe a
considerare è
¯ −X
¯2
X
q 12
s1
s22
+
n1
n2
che è detta di Behrens-Fisher.
Capitolo 5.
Inferenza statistica
153
Avendo considerato la sola ipotesi nulla è il caso di notare che l’aggiunta di un ipotesi alternativa composta comporta le valutazioni operative che ora andiamo a vedere.
Si è sempre arrivati a considerare una v.a. standardizzata, diciamo Q con una sua
distribuzione, si è inoltre individuato un percentile in base al quale discriminare in relazione all ’ipotesi nulla, diciamo qα al livello di significatività α. Essendo l’ipotesi
nulla semplice e del tipo (o riconducibile a) θ = θ0 e non essendo sempre simmetrica la distribuzione in esame (o a valori tutti positivi dei percentili) ci avvaliamo di
un percentile di riferimento, quello modale che indichiamo con qM (ovviamente se la
distribuzione fosse discreta si avrebbe Q(qM ) = max). Diciamo che in generale si
avranno le seguenti situazioni
a) H1 : θ > θ0 , allora si ha un solo percentile di riferimento qα > qM per cui 1 −
Q(qα ) = α,
b) H1 : θ < θ0 , allora si ha ancora un unico percentile qα < qM e per cui Q(qα ) = α,
c) H1 : θ 6= θ0 , in questo caso abbiamo due percentili q1, α/2 < qM e q2, α/2 > qM tale
che Q(q1, α/2 ) = α/2 e 1 − Q(q2, α/2 ) = α/2 quindi, ovviamente, Q(q2, α/2 ) −
Q(q1, α/2 ) = 1 − α e rappresenta l’area sottesa alla curva di probabilità relativa
alla regione di accettazione.
Si è sempre considerato ovviamente che la distribuzione Q fosse del tipo Q|H0 , il caso
in cui Q|H1 dovrà essere considerato al fine di investigare sulla potenza del test.
Esercizio 107. Dato il campione x ∈ Rn con x¯ = 4/5 e n = 30, verificare l’ipotesi
che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.
Esercizio 108. Dato il campione x ∈ Rn con x¯ = 3/5 e n = 30, verificare l’ipotesi
che x provenga da una popolazione P in accordo con una X ∼ N (1, 1) al livello di
significatività α = 0.05.
5.5
Logiche inferenziali
Il principio della verosimiglianza
La funzione di verosimiglianza nasce dal presupposto che un evento verificatosi può
considerarsi l’evento con la probabilità maggiore di verificarsi ed infatti massimizziamo tale funzione. Il principio di base quindi è sviluppato attorno alla realizzazione o
all’evento realizzato, al risultato della prova o come diremo nel capitolo che segue al
risultato dell’esperimento
154
Definizione 54. Principio della verosimiglianza. Siano dati due esperimenti e0 ed e00
in cui l’ipotesi vera sia la stessa. Se per due risultati x0 e x00 le corrispondenti funzioni
di verosimiglianza l0 e l00 soddisfano la condizione di equivalenza
l0 (θ) = c · l00 (θ)
θ∈Θ
dove c può dipendere dai risultati campionari ma non da θ, allora gli esperimenti
(e0 , x0 ) ed (e00 , x00 ) forniscono la stessa informazione riguardo alle ipotesi. In altre
parole le due funzioni di verosimiglianza sono equivalenti (equivalenza in verosimiglianza) per il parametro θ.
Il principio del campionamento ripetuto
Il principio del campionamento ripetuto si pone in modo diverso da quello della verosimiglianza in quanto il risultato ottenuto assume qui importanza solo dopo che si
siano considerati tutti i risultati possibili o meglio la procedura statistica che meglio si
adatta a tali risultati. Per procedura intendiamo ad esempio una statistica e per miglior
adattamento ai dati intendiamo, ad esempio, miglior prestazioni della statistica:
Definizione 55. Principio del campionamento ripetuto. Le procedure statistiche devono essere valutate per il loro comportamento in ripetizioni ipotetiche dell’esperimento che si suppongono eseguite sempre nelle stesse condizioni.
Nei problemi di stima parametrica diciamo quindi che il risultato campionario
si rende utile non appena si sappia individuare nello scenario d’analisi una statistica che sia non distorta e di varianza minima, potremmo poi desiderare ancora delle
altre proprietà.
Esercizio 109.
1. Sia x = (1, 4, 1, 5, 2, 2, 3, 9) un campione proveniente da una
popolazione P (supposta) Esponenziale di parametro λ. Determinare lo stimaˆ M con il metodo dei momenti e λ
ˆ M V di massima verosimiglianza.
tore λ
2. Sia P una popolazione normale di media µ e varianza σ 2 = 1. Determinare
la numerosità campionaria n per cui stimando la media si commette un errore
¯ − µ| < ) > 86%.
minore con probabilità P (|X
Esercizio 110. Sia P una popolazione in cui il fenomeno oggetto di studio X ha densità normale di media µX e varianza σ 2 = 1. Si supponga inoltre di conoscere la
relazione Y = aX in cui a > 0 ed Y è una seconda variabile di interesse. Dato il
campione
x = (x1 , . . . , xn )
Capitolo 5.
Inferenza statistica
155
a) si trovi una stima di massima verosimiglianza per la media µY di Y
b) si trovi una stima della media µY di Y con il metodo dei momenti
c) si trovi il minimo n tale per cui con probabilità maggiore del 95% si commette
un errore minore di nella stima della media di Y (si consideri |Y¯ − µY | < ).
Esercizio 111.
1. Sia x = (1, 4, −1, 5, 2, −2, −3, 9) un campione proveniente da
una popolazione P (supposta) di Poisson di parametro λ. Determinare lo stimaˆ M con il metodo dei momenti.
tore λ
2. Sia x = (x1 , . . . , xn ) un campione proveniente da una P con legge
f (xi ; θ, λ) = κ θxi e−λxi 1(0,∞) (xi ),
0 < θ < eλ , λ > 0,
– determinare κ,
– determinare lo stimatore θˆM V di MV per θ se λ = log
√
θ.
i = 1, 2, . . .
156
Capitolo 6
I modelli lineari
6.1
Il modello lineare generale
Il modello lineare o qualunque modello linearizzabile assume la forma matriciale
Y = Xβ + dove X ∈ Rn×k+1 e la prima colonna è costituita dal vettore unità, i vettori Y, ∈ Rn
e il secondo è costituito da componenti aleatorie, β ∈ Rk+1 è il vettore dei coefficienti
da stimare, le assunzioni di base che si fanno sono
1. E[] = 0,
2. Σ = E[t ] = σ2 In
dette anche ipotesi interne e determinano appunto il modello lineare generale (MLG).
Tale modello prende il nome di modello lineare normale se in aggiunta a tali ipotesi si
assume
∼ M N (0, Σ ).
Bisogna notare che in generale tra le Y e le X (qui intendiamo X = {X1 , X2 , . . .}
variabili osservate) si ipotizza una relazione del tipo
Y = f (X) + in cui è comunque un termine residuale aleatorio mentre la forma della f (·) dipenderà
dalla natura delle X, sia per quanto riguarda la linearizzabilità che la trasformazione
necessaria nel caso si passi da variabili a mutabili (vedi modelli anova ad esempio). In
breve si otterrà
E[Y|X] = f (X) = Aβ
dove A è una matrice strutturale del modello e β è ancora un vettore dei coefficienti,
entrambi saranno individuati diversamente nei tre casi in cui
157
158
• le X sono tutte quantitative ⇒ si ha un modello di regressione,
• le X sono tutte qualitative ⇒ si ha un modello di analisi della varianza,
• le X sono in parte quantitative ed in parte qualitative ⇒ si ha un modello di analisi
della covarianza
e Y è una variabile quantitativa continua o discreta, l’obbiettivo dell’analisi è quello
di studiare la dipendenza tra la variabile dipendente Y e le variabili esplicative X.
6.2
Stima dei parametri
Stima dei minimi quadrati
Il modello da identificare è il MLG (a rango pieno, detto così per questioni chiarite
sotto) quindi senza assunzioni sulla forma distributiva di , le stime sono date da
ˆ = Xβˆ
Y
e l’idea è quella di minimizzare la forma quadratica
ˆ = (Y − Xβ)
ˆ t (Y − Xβ)
ˆ = et e.
M Q(β)
La soluzione è data da dal vettore
βˆ = (Xt X)−1 Xt Y.
Teorema 41. (Gauss-Markov). Sotto le ipotesi interne 1. e 2. sopra specificate per v.a. qualunque si ha che βˆ è l’unica stima lineare non distorta di β di varianza minima
nella classe degli stimatori lineari non distorti.
Osserviamo che affinché esista l’inversa (Xt X)−1 deve essere det(Xt X) 6= 0, deve
essere cioè rango(Xt X) = k+1 (rango pieno). Una tale condizione è verificata se non
ci sono colonne di X correlate tra loro (per cui quindi r2 ' 1) cosa che risulta anche
scomoda sul piano logico visto che una forte correlazione tra due variabili indurrebbe
ad escludere dal modello una di esse (essendo di pari informazione) stando però di
fatto molto attenti agli effetti finali. La stima della varianza di è data dalla formula
σ
ˆ2 =
et e
1
ˆ t (Y − Xβ)
ˆ =
(Y − Xβ)
.
n−k−1
n−k−1
Elenchiamo alcune proprietà:
1. gli stimatori dei MQ βˆ e σ
ˆ2 sono corretti,
Capitolo 6.
I modelli lineari
159
2. lo stimatore dei MQ βˆ ha varianza uniformemente minima nella classe degli
stimatori lineari di β,
3. la varianza dello stimatore è σβ2ˆ = σ 2 (Xt X)−1 ,
4. si ha il vettore dei residui e = [In − X(Xt X)−1 Xt ] ed inoltre
- E[e] = 0
- E[et e] = σ 2 (n − k − 1)
5. si ha σ 2 = σY2 = σ2 .
Stima di massima verosimiglianza
Sappiamo che gli stimatori di massima verosimiglianza possono non essere corretti o
unici comunque risultano legati attraverso la sufficienza a molte proprietà importanti
tanto da poter dire che se esiste uno stimatore corretto ed efficiente, allora è di massima
verosimiglianza. Resta poi aperta la questione riguardante la forma distributiva dei
dati (o meglio degli errori) dalla quale non si può prescindere nella verosimiglianza
come invece avviene nei minimi quadrati, in generale le due stime coincidono ma
assumendo che gli errori si distribuiscano normalmente otteniamo che le stime dei
minimi quadrati non saranno piú non distorti di varianza minima (corretti ed efficienti)
nella classe degli stimatori (corretti) lineari ma nella classe di tutte le stime possibili.
Notiamo che lo stimatore di massima verosimiglianza
σ
˜2 =
1
ˆ t (Y − Xβ)
ˆ
(Y − Xβ)
n
non è corretto mentre lo è β˜ che coincide con lo stimatore dei MQ ( β˜ = βˆ ), scriviamo
allora
n
σ
˜2
σ
ˆ2 =
n−k−1 e lo stimatore corretto coincide con lo stimatore dei MQ. Elenchiamo i seguenti fatti:
1. βˆ e σ
ˆ2 sono corretti,
2. βˆ e σ
ˆ2 sono congiuntamente sufficienti per β e σ2 quindi sono di varianza
uniformemente minima nella classe degli stimatori di β e σ2 ,
3. βˆ ∼ M N (β, σ2 (Xt X)−1 ),
4.
(n−k−1)ˆ
σ2
σ2
∼ χ2(n−k−1) ,
5. βˆ e σ
ˆ2 sono stocasticamente indipendenti.
160
Ricordiamo che parleremo di modello lineare normale nel caso la forma distributiva
di sia nota e Normale mentre parleremo di modello lineare generale quando non
si fanno assunzioni sulla forma distributiva della tranne quelle fatte nel teorema di
Gauss-Markov.
6.3
Il caso di una variabile esplicativa
Sia osservato un campione del tipo (y, x) con y, x ∈ Rn , il modello lineare (detto
modello lineare semplice) sia
yi = β0 + β1 xi + i
con i ∼ N (0, σ2 ) ∀i ∈ {1, . . . , n}. Le stime dei coefficienti lineari sono date da
βˆ0 = y¯ − βˆ1 x¯,
σ
bXY
βˆ1 = 2 ,
σ
bX
e sono le stesse sia con il metodo dei MQ che con la MV; inoltre sono corretti. Si
ottiene poi
P 2
xi
2
2
σβ0 = σ P
n (xi − x¯)2
σ2
.
σβ21 = P n (xi − x¯)2
Esercizio 112. Dimostrare che βb = (βb0 , βb1 ) è uno stimatore MQ .
Uno stimatore corretto della varianza σ2 è dato da
P
(yi − yˆi )2
2
σ
ˆ =
n−2
ed infine, ricordando che i ∼ N (0, σ2 ), si ha
βˆ0 ∼ N (β0 , σβ20 )
βˆ1 ∼ N (β1 , σβ21 )
(n − 2)ˆ
σ2
∼ χ2(n−2)
σ2
se σ2 è nota quindi possiamo dire che la standardizzazione dei coefficienti porta alla
distribuzione N (0, 1) altrimenti si ha
βˆ0 − β0
∼ t(n−2)
σ
ˆ β0
Capitolo 6.
I modelli lineari
161
βˆ1 − β0
∼ t(n−2) .
σ
ˆ β0
Tornando alla formulazione matriciale scriviamo
σβ2ˆ = σ2 (Xt X)−1
βˆj ∼ N (βj , σ2 [(Xt X−1 )]j+1,j+1 )
La devianza totale campionaria (DT) può essere così decomposta
n
X
i=1
2
(yi − y¯) =
n
X
2
(ˆ
yi − y¯) +
i=1
n
X
(yi − yˆi )2
i=1
i cui addendi a secondo membro corrispondono rispettivamente alla DR (devianza di
regressione) e alla DE (devianza dell’errore), quindi
DT = DR + DE
ed è possibile esplicitare una misura della bontà di adattamento del modello attraverso
il coefficiente di determinazione così definito
R2 =
DR
DE
=1−
.
DT
DT
Si vede subito che:
1. 0 ≤ R2 ≤ 1,
2. R2 = 1 ⇒ DE = 0: tutte le yi giacciono sulla retta di regressione,
3. R2 = 0: non vi è relazione lineare tra x e y,
4. tanto più R2 → 1, tanto più l’accostamento è migliore,
5. R2 è il quadrato del coefficiente di Bravais-Pearson.
6.4
Modelli lineari generalizzati
Sia dato il campione {(yi , xi ), i = 1, 2, . . . , n} in cui yi ∈ R e xi ∈ Rn , allora il
modello postula l’uguaglianza
E[Yi |Xi ] = µi
162
ed in generale µi non potrà essere ritenuta lineare. Al fine di ottenere una relazione
lineare interveniamo su µi attraverso la riparametrizzazione indotta da una funzione
link g(·) che ammette la funzione inversa
g(µi ) = xti β
e
µi = g −1 (xti β),
al variare di tale funzione otterremo modelli diversi, lineari generalizzati. Alcuni
esempi sono dati dalle seguenti funzioni:
1. funzione identità: g(µi ) = µi ,
E[Yi |Xi ] = xti β
ed è il caso del modello lineare generale,
2. funzione logit: g(µi ) = logit(µi ),
E[Yi |Xi ] =
exp{xti β}
1 + exp{xti β}
dove la funzione link è data da
logit(µi ) = ln
µi
1 − µi
ed è il caso del modello logistico lineare,
3. funzione logaritmo: g(µi ) = ln(µi ),
E[Yi |Xi ] = exp{xti β}
ed otteniamo un modello loglineare.
Il modello logistico lineare
A differenza del modello lineare classico nel quale si studia la dipendenza di una variabile quantitativa da un insieme di variabili quantitative e/o qualitative, il modello
logistico lineare costituisce uno strumento utile per lo studio della dipendenza tra una
variabile qualitativa e un insieme di variabili quantitative e/o qualitative. La variabile
dipendente non è più quantitativa ma qualitativa, può essere dicotomica o no.
Assumiamo che la variabile di interesse sia Bernoulliana quindi di tipo dicotomico ed
in particolare dato il campione x di dimensione n si ha
P (Y = 1|X = x) = π(x)
Capitolo 6.
I modelli lineari
163
mentre il rapporto odds è dato da
odds(x) =
P (Y = 1|X = x)
π(x)
=
.
P (Y = 0|X = x))
1 − π(x)
Considerata la probabilità
π(x) =
exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
1 + exp(β0 + β1 x1 + β2 x2 + . . . + βk xk )
si ottiene
odds(x) = exp(β0 + β1 x1 + β2 x2 + . . . + βk xk ),
il modello logit, ossia il logaritmo dell’odds, diventa allora una funzione lineare
logit(x) = ln odds(x) = β0 + β1 x1 + β2 x2 + . . . + βk xk
e possiamo dire che βj rappresenta l’influenza della variabile Xj finalizzato ad ottenere
Y = 1.
è evidente ora che se P (Y = y) = θy (1 − θ)1−y ( quindi se Y è Bernoulliana ) si ha
E[Y ] = θ e se Y = {Y1 , . . . , Yn } e θ = {θ1 , . . . , θn } si ha
P (Y|θ) =
n
Y
θiYi (1 − θi )1−Yi
i=1
e molto importante
V ar(Yi ) = θi (1 − θi )
quindi non si possono fare le assunzioni di omoschedasticità. La riparametrizzazione
che adottiamo è la seguente
E[Yi ] = θi = π(xi ),
i = 1, . . . , n
e
θi
logit(θi ) = ln
1 − θi
= logit(xi )
π(xi )
= ln
1 − π(xi )
= β0 + β1 xi1 + β2 xi2 + . . . + βk xik
= xti β
164
Capitolo 7
Distribuzioni di probabilità elementari
7.1
Variabili discrete -
Uniforme. Sia X ∼ U nif ({1, 2, . . . , n}) con n ∈ N. La distribuzione di probabilità
della v.a. X è
1
pk = P (X = k) = , k ∈ IX = {1, 2, . . . , n}.
(7.1)
n
Si vede subito che
1. pk ≥ 0,
Pn 1
n
2.
k=1 n = n .
La funzione di ripartizione è data da

0, x < 1


X

x
pk = , x ∈ [1, n]
FX (x) =
n


 {k≥1 : k≤x}
1, x ≥ n
Esercizio 113. Siano X ∼ U nif ({1, 2, 3, 4}) e Y ∼ U nif ({1, 2}) e X ⊥ Y .
Calcolare la f.r. FZ della v.a. Z = X + Y .
Esercizio 114. Calcolare la funzione caratteristica di X.
Zipf. Se X ∼ Zipf , si definisce la successione
pk = P (X = k) =
C
k α+1
,
k≥1
detta anche legge di Zipf (vedi Zipf, Mandelbrot e Shannon), strettamente legata alla
funzione Zeta di Riemann.
165
166
Esercizio 115. Determinare C.
Esercizio 116. Determinare P (X > 4).
Esercizio 117. Calcolare la funzione caratteristica di X.
Geometrica. Sia X ∼ Geo(p) con p ∈ [0, 1]. La distribuzione delle probabilità di
X è data da
pk = P (X = k) = (1 − p)k−1 p,
k ∈ IX = {1, 2, . . .} = N.
La v.a. X rappresenta la probabilità di avere il primo successo esattamente all kesima prova, cioè dopo k − 1 insuccessi (con prove indipendenti). Ogni insuccesso
ha probabilità (1 − p) di verificarsi. Se indichiamo con S il successo, P (S) = p e
¯ = 1 − p. Allora,
ovviamente P (S)
¯ ¯ · · · ∩ S¯ ∩S
(X = k) ="primo successo alla k-esima prova" = S
| ∩S∩
{z
}
k−1 volte
ed essendo le prove indipendenti,
¯ · · · P (S)
¯ ·P (S) = P (S)
¯ k−1 · P (S) = (1 − p)k−1 p.
P (X = k) = P (S)
|
{z
}
k−1 volte
Possiamo quindi associare alla distribuzione di probabilità Geometrica la v.a.
X = "istante di primo successo"
se P (S) = p
oppure la v.a.
X = "istante di primo insuccesso"
¯ = p.
se P (S)
Verifichiamo che pk sia effettivamente una distribuzione di probabilità. Dobbiamo
verificare
1. (1 − p)k−1 p ≥ 0 infatti 0 ≤ p ≤ 1,
2.
X
pk =p
k≥1
=p
∞
X
k=1
∞
X
(1 − p)k−1
(1 − p)s
(si è posto s = k − 1)
s=0
=p
1
=1
1 − (1 − p)
(somma notevole di una serie geometrica).
Capitolo 7.
Distribuzioni di probabilità elementari
167
Si vede che
EX =p
=p
∞
X
k=1
∞
X
k=1
=p
kq k−1
d k
q
dq
∞
d X k
q
dq k=1
d
=p
dq
d
=p
dq
∞
X
(q = 1 − p)
(derivazione per serie)
!
qk − 1
k=0
1
1
−1 = .
1−q
p
Esercizio 118. Calcolare V ar(X) se X ∼ Geo(p) definita sopra.
La funzione di ripartizione è data da


X
FX (x) =

0, x < 1
pk , x ≥ 1
{k≥1 : k≤x}
Esercizio 119. Siano X1 ∼ Geo(θ1 ) e X2 ∼ Geo(θ2 ) due v.a. indipendenti. Caratterizzare Z = X1 + X2 .
Esercizio 120. Calcolare la funzione caratteristica di X.
Bernoulli e Binomiale. Sia X ∼ Ber(θ) con parametro θ ∈ [0, 1] una v.a. di
Bernoulli o Bernoulliana. Allora, la distribuzione di Bernoulli è data da
P (X = x) = θx (1 − θ)1−x ,
x ∈ {0, 1}.
Notiamo che X è dicotomica, può assumere solo due valori con probabilità P (X =
1) = θ e P (X = 0) = 1 − θ. Quindi, se scegliamo IX = {1, 2} potremmo scrivere
x1 = 0 e x2 = 1 con le rispettive probabilità. Otteniamo
EX = θ,
2
σX
= M2 − M12 = θ(1 − θ).
Se il campione x ∈ {0, 1}n è dato da n osservazioni su v.a. Bernulliane indipendenti,
diciamo {Xi }i=1,...,n , otteniamo (grazie all’indipendenza delle v.a.)
P (X1 = x1 , . . . , Xn = xn ) = θ
Pn
i=1
xi
Pn
(1 − θ)n−
i=1
xi
168
e se volessimo che esattamente k tra di loro rappresentino un successo (Xi = 1)
n
X
n
P
Xi = k =
P (X1 = x1 , . . . , Xn = xn ), 0 ≤ k ≤ n
k
i=1
ovvero, per le probabilità totali, basta che si osservi uno degli
n
n!
=
k
k!(n − k)!
campioni in cui k su n osservazioni sono dei successi, ognuno ovviamente con probabilità P (X1 = x1 , . . . , Xn = xn ). Chiamiamo K la v.a.
K=
n
X
Xi ∼ Bin(n, θ)
i=1
che è una Binomiale di parametri n e θ dove le Xi ∼ Ber(θ) sono indipendenti (le Xi
sono i.i.d.). Otteniamo
EK =
n
X
E[Xi ] = nθ,
V ar(K) =
i=1
n
X
2
σX
= nθ(1 − θ)
i
i=1
ed ovviamente per ogni Xi vale Xi ∼ Bin(1, θ).
Si può considerare una v.a. Q costruita a partire da Q =
EQ =
EK
= θ = q,
n
V ar(Q) =
K
n
e per cui
1 2 θ(1 − θ)
q(1 − q)
σk =
=
.
2
n
n
n
Se K rappresenta il numero di successi in n prove indipendenti, allora Q rappresenta
la frequenza dei successi (ed è una v.a.).
Concludiamo ricordando che se X ∼ Bin(n, p) con p ∈ [0, 1] e n ∈ N, allora
n k
pk = P (X = k) =
p (1 − p)n−k , k ∈ IX = {s ∈ N ∪ {0} : s ≤ n} (7.2)
k
e la distribuzione Binomiale può essere associata alla v.a.
X = "numero di successi in n prove "
Si vede subito che
1. pk ≥ 0,
Pn
2.
k=0 pk = 1.
se P (Successo) = p.
Capitolo 7.
Distribuzioni di probabilità elementari
169
Per verificare la somma ad uno si è usata una somma notevole, la formula del binomio
di Newton
n X
n k n−k
a b
= (a + b)n .
k
k=0
La funzione di ripartizione è data da

0, x < 0


X

pk , 0 ≤ x ≤ n
FX (x) =


 0≤k≤n : k≤x
1, x ≥ n
Esercizio 121. Dimostrare che la Binomiale è chiusa rispetto alla somma. Cioè, se
X1 ∼ Bin(n, p) e X2 ∼ Bin(m, p), allora X1 + X2 ∼ Bin(n + m, p).
Esercizio 122. Calcolare la funzione caratteristica di X.
Multinomiale. Sia X ∼ M N om({pi }) dove le pi , i = 1, 2, . . . , n sono probabilità.
Allora, dato il vettore x = (x1 , x2 , . . . , xn ) con xi ∈ {0, 1, . . . , N } per ogni i =
1, 2, . . . , n, si ha


0, xi < 0 per qualche i


Pn
N!
FX (x) =
px1 1 · · · pxnn ,
i=1 xi = N

x ! · · · xn !

 1
1, x ≥ N per ogni i
i
La Multinomiale generalizza la Binomiale (potremmo dire che una Binomiale a
più alternative) e l’evento che si vuole considerare prevede la realizzazione di xi volte
la caratteristica i-esima per ottenere N caratteristiche totali su n prove totali. Nello
schema Binomiale si avevano k e n − k realizzazioni delle caratteristiche "successo"
ed "insuccesso" su un totale di n prove. Si pensi ad un vettore
V = (](X1 ), ](X2 ), . . . , ](Xn ))
in cui le variabili Xi sono i.i.d. dove ](Xi ) ="il numero di volte che si è verificato Xi "
e la v.a Xi si verifica con probabilità pi . L’evento (](Xi ) = xi ) = "Xi si verifica xi
volte" ha probabilità pxi i di verificarsi (oppure P (](Xi ) = k) = pki ). La probabilità di
ottenere la n-upla x = (x1 , x2 , . . . , xn ), vista l’indipendenza, è data dal prodotto
P (V = x) =
n
Y
i=1
pxi i .
170
Di tutte le n-upla che si possono ottenere, vogliamo tenere solo quelle per cui
N . Allora la v.a. X si può ottenere considerando
Pn
i=1
xi =
P (X = x) = P (V = x, |V | = N )
dove |V | =
Pn
i=1
](Xi ) =
Pn
i=1
xi . In quanti modi si può ottenere |V | = N ? In
N!
= |PxN1 ,...,xn |
x1 ! · · · xn !
modi, cioè il vettore (xi1 , xi2 , . . . xin ) può permutare in N ! modi mantenendo però lo
stesso numero di ripetizioni per ogni caratteristica xi . Ogni permutazione ha la stessa
probabilità di realizzarsi e quindi
n
P (X = x) = P (V = (x1 , . . . , xn ), |V | = N ) =
Y
N!
pxi = FX (x).
x1 ! · · · xn ! i=1 i
Nel caso n = 2, si ha che N = x1 + x2 e 1 = p1 + p2 , quindi
N ! x1 x2
P (X = x) =
p p =
x1 !x2 ! 1 2
N x1
p (1 − p1 )N −x1 = P (V1 = x1 , V2 = N − x1 )
x1 1
con x1 ∈ {0, 1, . . . , N }. Quindi P (X = x) = P (Bin(N, p1 ) = x1 ).
Ipergeometrica. Sia X ∼ Iperg(N, M ), allora
N M
n
m
N +M
n+m
pn,m =
=
K
k
N −K
n−k
N
n
= pk
Esercizio 123. Determinare spet(X).
La v.a. Ipergeometrica viene utilizzata negli schemi di campionamento (o scelta)
in blocco, dove cioè non è previsto il reimbussolamento (schema senza ripetizione).
Inoltre, rappresenta la probabilità di estrarre da un urna in cui sono inseriti oggetti
divisi in gruppi (due in questo caso, n nel caso delle Ipergeometrica a n alternative).
Se in un scatola ci sono K palline rosse e N −K palline nere per un totale di N palline,
allora estraendo n palline a caso,
P (estrarne k rosse) = P (estrarne k rosse e n − k nere) = pk .
Capitolo 7.
Distribuzioni di probabilità elementari
171
Poisson. Sia X ∼ P ois(λ) con λ > 0. Allora
λk −λ
pk = P (X = k) = e ,
k!
k ∈ IX = N ∪ {0}.
Verifichiamo che sia una distribuzione di probabilità:
1. pk ≥ 0,
2.
X
pk =e−λ
k≥0
∞
X
λk
k=0
k!
=1
(espansione di Maclaurin)
Si ottiene
EX =
X
xk p k
k≥0
=e
−λ
∞
X
λk
(k − 1)!
k=1
∞
X
−λ
=λe
k=1
=λe−λ
(per k = 0 il primo addendo è nullo)
λk−1
(k − 1)!
∞
X
λs
s=0
s!
=λ (espansione in serie della funzione esponenziale).
e
V ar(X) = EX 2 − (EX)2 = λ.
Infatti,
2
EX = e
−λ
∞
X
k=0
k
2λ
k
k!
=e
−λ
∞
X
∞
X
λk−1+1
λs+1
k
(s + 1)
= e−λ
= λEX + λ.
(k
−
1)!
s!
s=0
k=1
La funzione di ripartizione è data da


FX (x) =

X
k≥0 : k≤x
0, x < 0
pk , x ≥ 0
172
Esercizio 124. Dimostrare che una v.a. di Poisson è chiusa rispetto alla somma, che
vale cioè X1 + X2 ∼ P ois(λ1 + λ2 ), se X1 ∼ P ois(λ1 ) e X2 ∼ P ois(λ2 ).
Esercizio 125. Calcolare la funzione caratteristica di X.
La v.a. di Poisson viene anche detta legge degli eventi rari perché, fissato λ, si ha
la convergenza in legge
Bin(n, λ/n) → P ois(λ) per
n→∞
partendo quindi da successi legati alla probabilità p = λ/n che decresce al crescere
delle prove.
7.2
Variabili continue -
Consideriamo alcune distribuzioni di probabilità FX (x) = P (X ≤ x) per le quali
possiamo calcolare la corrispondente legge di densità fX .
Uniforme. Sia X ∼ U nif (a, b) con a < b ed a, b ∈ R. Allora
fX (x) =
1
1[a,b] (x).
b−a
Se (a, b) = (0, 1) otteniamo che P (X ≤ x) = µ((a, x]) è la misura di Lebesgue
dell’insieme (a, x] ⊂ (0, 1).
EX =
1 b 2 − a2
a+b
=
b−a 2
2
che è la media aritmetica di a e b,
V ar(X) =?

x≤a
 0,
(x − a)/(b − a), a ≤ x ≤ b .
FX (x) =

1,
x≥b
Esercizio 126. Siano X, Y due v.a. U nif (0, 1) i.i.d., caratterizzare Z = X + Y .
Esercizio 127. Una v.a. Uniforme è continua o assolutamente continua?
Esercizio 128. Calcolare la funzione caratteristica di X.
Capitolo 7.
Distribuzioni di probabilità elementari
173
Esponenziale. Sia X ∼ Exp(λ) con λ > 0. Allora
fX (x) = λe−λx 1[0,∞) (x).
EX =
1
λ
V ar(X) =
FX (x) =
1
λ2
0,
x≤0
−λ x
1−e
, x≥0
λ > 0.
Esercizio 129. Siano X, Y esponenziali di parametro λ > 0 e X ⊥ Y . Calcolare fZ
dove Z = X + Y .
Esercizio 130. Calcolare la funzione caratteristica di X.
Gamma. Sia X ∼ Gamma(λ, ν) con parametri λ, ν > 0. Allora
λν ν−1 −λx
x e 1[0,∞) (x)
Γ(ν)
fX (x) =
dove
∞
Z
uz−1 e−u du,
Γ(z) =
z>0
0
è la funzione Gamma. Si ottiene che
EX =
ν
λ
V ar(X) =
FX (x) =
ν
λ2
0,
x≤0
Γ(x, λ, ν), x > 0
dove
Z
Γ(x, λ, ν) =
0
è la Gamma incompleta.
x
λν ν−1 −λu
u e du
Γ(ν)
(7.3)
174
Esercizio 131. Dimostrare che la Gamma è chiusa rispetto alla somma.
Esercizio 132. Calcolare la funzione caratteristica di X.
Diamo alcune proprietà molto importanti della funzione Gamma:
• (la formula di duplicazione) per m ∈ N, z > 0, si ha che
m
Y
m−1
1
k−1
= (2π) 2 m 2 −mz Γ(mz).
Γ z+
m
k=1
(7.4)
• (la formula di riflessione) per z > 0, si ha che
Γ(z)Γ(1 − z) =
π
.
sin πz
(7.5)
• (la funzione fattoriale) per z ∈ N, si ha che
Γ(z) = (z − 1)!.
(7.6)
Per m = 2, si ottiene
√
1
4π
Γ(z)Γ z +
= z Γ(2z).
2
4
Inoltre, dalle proprietà del fattoriale,
Γ(1) = Γ(2) = 1.
Esercizio 133. Dimostrare che Γ(z) = (z − 1)! se z ∈ N.
Cauchy.
Se X ∼ Cauchy,
fX (x) =
1
,
π(1 + x2 )
x ∈ R.
EX =∞
FX (x) =
1 1
+ arctan(x),
2 π
x ∈ R.
Esercizio 134. Calcolare EX r per r ∈ (0, 1) ∪ [1, ∞).
Esercizio 135. Quale trasformata associamo ai momenti della Cauchy e per quali
valori è definita?
Capitolo 7.
Distribuzioni di probabilità elementari
175
Normale e Normale standard (Gaussiana). Sia X ∼ N (µ, σ 2 ) con µ ∈ R e σ 2 >
0. Allora
(x−µ)2
1
fX (x) = √
e− 2σ2 , x ∈ R
2πσ 2
EX =µ
V ar(X) =σ 2
1
x−µ
FX (x) = √
Φ √
,
2σ 2
2σ 2
x∈R
dove
x
Z
Φ(x) =
−∞
x
2
e−u
√ du,
x≤0
−u2
e
−∞ Z π
√ du =
x −u2

π
e
1

 +
√ du, x ≥ 0
2
π
0
 Z



è la funzione degli errori. Se µ = 0 e σ 2 = 1, allora X ∼ N (0, 1) è detta Normale
standard. Se X ∼ N (0, 1) e Y = aX + b, si ottiene Y ∼ N (b, a2 ). Inoltre, se
X1 , . . . , Xn sono v.a. indipendenti tali che Xi ∼ N (µi , σi2 ) per ogni i, allora
!
X
X
X
a+
bi X i ∼ N a +
bi µ i ,
b2i σi2 .
i
i
i
Esercizio 136. Calcolare la funzione caratteristica di X.
Normale Multidimensionale. Sia X = (X1 , . . . , Xn ) un vettore di v.a. Gaussiane
(non necessariamente indipendenti!!), allora X è detta v.a. Normale (o v.a. Gaussiana)
multidimensionale. La densità di X è la densità multidimensionale
1
1
−1
T
fX (x) = p
exp − (x − µ)Σ (x − µ)
2
(2π)n |Σ|
dove x = (x1 , . . . , xn ) ∈ R, µ = (µ1 , . . . , µn ) ∈ Rn , (x − µ)T è il vettore (x − µ)
trasposto, |Σ| e Σ−1 sono rispettivamente il determinante e la matrice inversa di


σ1,1 σ1,2 . . . σ1,n
 σ2,1 σ2,2 . . . σ2,n 


Σ =  ..
..
..
..  = {σi,j } con 1 ≤ i, j ≤ n.
 .
.
.
. 
σn,1 σn,2 . . . σn,n
176
La matrice Σ è detta matrice di varianze e covarianze (o semplicemente, delle covarianze) di X e
σi,j = Cov(Xi , Xj ) = Cov(Xj , Xi ) = σj,i
per cui la matrice è simmetrica. Si vede subito che σi,i = V ar(Xi ), quindi la diagonale di Σ è costituita dalle varianze degli elementi del vettore X. Ovviamente se le
componenti sono indipendenti si ottiene
Σ = diag{σi,i }1≤i≤n
mentre se le componenti sono indipendenti e di varianza σi,i = σ 2 per ogni i,
Σ = σ2I
dove I è la matrice identità.
Weibull. Sia X ∼ W eibull(λ, n) con parametri λ > 0 e n ∈ N. Allora
fX (x) =
λn
xn−1 e−λx 1[0,∞) (x)
(n − 1)!
che è quindi una Gamma
con ν = n. Inoltre, se X1 , . . . , Xn ∼ Exp(λ) sono v.a.
P
n). Inoltre,P
per quanto appena detto, la
indipendenti, allora ni=1 Xi ∼ W eibull(λ, P
n
Weibull è chiusa rispetto alla somma, infatti i=1 Xi + m
j=1 Xj ∼ W eibull(λ, n +
m).
Beta.
Sia X ∼ Beta(α, γ) con parametri α, γ > 0. Allora
fX (x) =
1
xα−1 (1 − x)γ−1 1[0,1] (x)
B(α, γ)
Chi-quadrato, χ2 . Sia X ∼ χ2 (ν) dove ν (non necessariamente intero) sono detti
gradi di libertà. Allora
ν ν −1 ν
x
fX (x) = 2 2 Γ
x 2 −1 e− 2
x ≥ 0, ν > 0
2
e si ha:
EX = ν e V ar(X) = 2ν,
P
se N1 , . . . , Nn ∼ N (0, 1) e indipendenti, allora ni=1 Ni2 ∼ χ2 (n),
P
P
se X1 , . . . , Xn ∼ χ2 (νi ) e indipendenti, allora ni=1 Xi ∼ χ2 ( ni=1 νi ),
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora
X1
X1 +X2
se X1 , X2 ∼ χ2 (νi ) e indipendenti, allora
X1 /ν1
X2 /ν2
∼ Beta(ν1 /2, ν2 /2),
∼ F (ν1 , ν2 ).
Capitolo 7.
Distribuzioni di probabilità elementari
177
T di Student. La variabile prende il nome da Gosset, ingegnere presso Guinnes che
si firmava come Student. Se X ∼ T ,
fX (x) =
1
B
1 ν
,
2 2
√
1
ν 1−
x2
ν
ν+1
2
x ∈ R, ν > 0
che è simmetrica e tende alla normale al crescere di n, si ha:
√
se Z ∼ N (0, 1) e G ∼ Gamma ν2 , ν2 sono indipendenti, allora Z/ G ∼ T (ν),
T 2 ∼ F (1, ν),
T (1) = Cauchy(0, 1).
La variabile F. La variabile di Fisher-Snedecor ha legge di densità
µ
ν
µ
x 2 −1
µ2 ν 2
fX (x) =
µ+ν ,
B µ2 , ν2 (µx + ν) 2
x ≥ 0, µ, ν > 0
Quartile, decile, centile
Data una distribuzione di probabilità, diciamo della v.a. X, su D ⊆ R sappiamo che
P (X ∈ D) = 1. Supponiamo ora di dividere D in intervalli disgiunti Dj tali che
D = ∪j Dj e P (X ∈ Dj ) = α costante. Allora: si definiscono quartili, quei valori per
cui α = 1/4 ed in particolare
Dj = [dj , dj+1 ),
j = 0, 1, 2, 3
dove d1 , d2 , d3 sono detti quartili; si definiscono decili, quei valori per cui α = 1/10 e
Dj = [dj , dj+1 ),
j = 0, 1, . . . , 9
dove d1 , . . . , d9 sono detti decili; si definiscono centili o percentili, quei valori per cui
α = 1/100 e
Dj = [dj , dj+1 ),
j = 0, 1, . . . , 99
dove d1 , . . . , d99 sono detti centili o percentili. Si possono definire tutti i quantili di
ordine α = 1/n. Il quantile di ordine 1/2 è la mediana.
178
Tabella 7.1: Tavola della funzione di ripartizione Φ(z) di una N (0, 1).
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
0.00
0.50000
0.53983
0.57926
0.61791
0.65542
0.69146
0.72575
0.75804
0.78814
0.81594
0.84134
0.86433
0.88493
0.90320
0.91924
0.93319
0.94520
0.95543
0.96407
0.97128
0.97725
0.98214
0.98610
0.98928
0.99180
0.99379
0.99534
0.99653
0.99744
0.99813
0.99865
0.99903
0.99931
0.99952
0.99966
0.99977
0.99984
0.99989
0.99993
0.99995
0.01
0.50399
0.54380
0.58317
0.62172
0.65910
0.69497
0.72907
0.76115
0.79103
0.81859
0.84375
0.86650
0.88686
0.90490
0.92073
0.93448
0.94630
0.95637
0.96485
0.97193
0.97778
0.98257
0.98645
0.98956
0.99202
0.99396
0.99547
0.99664
0.99752
0.99819
0.99869
0.99906
0.99934
0.99953
0.99968
0.99978
0.99985
0.99990
0.99993
0.99995
0.02
0.50798
0.54776
0.58706
0.62552
0.66276
0.69847
0.73237
0.76424
0.79389
0.82121
0.84614
0.86864
0.88877
0.90658
0.92220
0.93574
0.94738
0.95728
0.96562
0.97257
0.97831
0.98300
0.98679
0.98983
0.99224
0.99413
0.99560
0.99674
0.99760
0.99825
0.99874
0.99910
0.99936
0.99955
0.99969
0.99978
0.99985
0.99990
0.99993
0.99996
0.03
0.51197
0.55172
0.59095
0.62930
0.66640
0.70194
0.73565
0.76730
0.79673
0.82381
0.84849
0.87076
0.89065
0.90824
0.92364
0.93699
0.94845
0.95818
0.96638
0.97320
0.97882
0.98341
0.98713
0.99010
0.99245
0.99430
0.99573
0.99683
0.99767
0.99831
0.99878
0.99913
0.99938
0.99957
0.99970
0.99979
0.99986
0.99990
0.99994
0.99996
0.04
0.51595
0.55567
0.59483
0.63307
0.67003
0.70540
0.73891
0.77035
0.79955
0.82639
0.85083
0.87286
0.89251
0.90988
0.92507
0.93822
0.94950
0.95907
0.96712
0.97381
0.97932
0.98382
0.98745
0.99036
0.99266
0.99446
0.99585
0.99693
0.99774
0.99836
0.99882
0.99916
0.99940
0.99958
0.99971
0.99980
0.99986
0.99991
0.99994
0.99996
0.05
0.51994
0.55962
0.59871
0.63683
0.67364
0.70884
0.74215
0.77337
0.80234
0.82894
0.85314
0.87493
0.89435
0.91149
0.92647
0.93943
0.95053
0.95994
0.96784
0.97441
0.97982
0.98422
0.98778
0.99061
0.99286
0.99461
0.99598
0.99702
0.99781
0.99841
0.99886
0.99918
0.99942
0.99960
0.99972
0.99981
0.99987
0.99991
0.99994
0.99996
0.06
0.52392
0.56356
0.60257
0.64058
0.67724
0.71226
0.74537
0.77637
0.80511
0.83147
0.85543
0.87698
0.89617
0.91308
0.92785
0.94062
0.95154
0.96080
0.96856
0.97500
0.98030
0.98461
0.98809
0.99086
0.99305
0.99477
0.99609
0.99711
0.99788
0.99846
0.99889
0.99921
0.99944
0.99961
0.99973
0.99981
0.99987
0.99992
0.99994
0.99996
0.07
0.52790
0.56749
0.60642
0.64431
0.68082
0.71566
0.74857
0.77935
0.80785
0.83398
0.85769
0.87900
0.89796
0.91466
0.92922
0.94179
0.95254
0.96164
0.96926
0.97558
0.98077
0.98500
0.98840
0.99111
0.99324
0.99492
0.99621
0.99720
0.99795
0.99851
0.99893
0.99924
0.99946
0.99962
0.99974
0.99982
0.99988
0.99992
0.99995
0.99996
0.08
0.53188
0.57142
0.61026
0.64803
0.68439
0.71904
0.75175
0.78230
0.81057
0.83646
0.85993
0.88100
0.89973
0.91621
0.93056
0.94295
0.95352
0.96246
0.96995
0.97615
0.98124
0.98537
0.98870
0.99134
0.99343
0.99506
0.99632
0.99728
0.99801
0.99856
0.99896
0.99926
0.99948
0.99964
0.99975
0.99983
0.99988
0.99992
0.99995
0.99997
0.09
0.53586
0.57535
0.61409
0.65173
0.68793
0.72240
0.75490
0.78524
0.81327
0.83891
0.86214
0.88298
0.90147
0.91774
0.93189
0.94408
0.95449
0.96327
0.97062
0.97670
0.98169
0.98574
0.98899
0.99158
0.99361
0.99520
0.99643
0.99736
0.99807
0.99861
0.99900
0.99929
0.99950
0.99965
0.99976
0.99983
0.99989
0.99992
0.99995
0.99997
Come si legge una tavola? Se voglio calcolare z tale P (Z ≤ z) = Φ(z) = 0.95 devo
cercare 0.9500 nella tavola, mi accorgo che non c’è ma posso considerare il valore più
vicino che è 0.95053. Tale valore corrisponde alla riga 1.6 e alla colonna 0.05. Allora,
z = 1.6 + 0.05 = 1.65 è il valore cercato.
Appendice A
Alcune somme notevoli
n
X
c=c+
k=0
n
X
k=
k=0
n
X
2
k =
k=0
n
X
n
X
k=0
n(n + 1)
2
k=
k2 =
k=1
3
k =
n
X
c = c(n + 1)
(banale!)
k=1
k=1
n
X
n
X
(somma dei primi n numeri)
n(n + 1)(2n + 1)
6
3
k =
k=1
n
X
n(n + 1)
2
(somma dei primi n quadrati)
2
(somma dei primi n cubi)
(2k − 1) = n2
(verificare!)
k=1
n X
n
k=0
k
= 2n
∞
X
1
=e
k!
k=0
(verificare!)
(verificare!)
179
180
∞
X
(−1)k
k=0
k!
∞
X
k=1
n
X
xk =
k=m
n
X
k=1
!2
xk
=
1
e
(verificare!)
k
=1
(k + 1)!
xm − xn−1
1−x
n
X
k=1
=
xk
n
X
s=1
xs =
(verificare!)
n
X
k=1
x2k +
X
0≤k≤n
0≤s≤n
k6=s
xk xs
Appendice B
Svolgimenti
Svolgimento Esercizio 12. Dal vettore x = (60, 62, 59, 66, 70, 55, 64, 61, 68, 62) ricaviamo media x¯ = e varianza σ
¯ 2 =. La stima puntuale del prezzo medio è la media
campionaria. Non interviene la varianza campionaria che invece risulta essere un informazione importante. Per tale motivo cerchiamo una stima intervallare e rispondiamo
al secondo punto. Supponiamo che X ="prezzo" si distribuisce come una normale
di media µ e varianza σ 2 , le stime trovate sono µ
ˆ = x¯ e σ
ˆ2 = σ
¯ 2 quindi la variabile
standardizzata
Z=
X −µ
σ
per cui si ha X = µ + σZ
ci consente di definire gli estremi di interesse per l’intervallo che stiamo cercando. La
variabile Z è la normale standard, le quantità zα codificati nelle tavole dei percentili
della Z secondo la relazione P (z α2 < Z ≤ z1− α2 ) = 1 − α ci consentono di trovare
x1 , x2 tale che P (x1 < X ≤ x2 ) = 1 − α dalle relazioni
x1 = x¯ + σ
¯ z α2
e x2 = x¯ + σ
¯ z1− α2 .
(B.1)
Richiedendo una probabilità del 95% si deve scegliere α = 0.05 e per i percentili che
ci interessano vale z ∗ = zα/2 = −z1−α/2 essendo Z simmetrica e centrata in zero. Si
osserva che P (Z ≤ zα/2 ) = α/2 = P (Z > z1−α/2 ).
Soluzione Esercizio 29.
a)
P (tutte minori o uguali ad n) =
n!(13 − n)!
1
= 13 ,
13!
n
181
n = 1, 2, . . . , 13
182
b)
13−n
n
13
n
P (tutte maggiori di n) =
n ≤ 13 − n
,
(B.2)
e
P (tutte maggiori di n) = 0,
n > 13 − n
(B.3)
c)
P (tutte di cuori) =
1
4
Soluzione Esercizio 30.
1. (4/9)4 + 2[(4/9)2 · (5/9)2 ] + (5/9)4
2. (5/9)2 · (4/9)2
3. 0 ⇔ (vince M ario) ∩ (vince P iero) = {∅}
4. 2 · [(5/9)2 · (4/9)2 ] − 2 · 0
5. 2 · (5/9)2 · (4/5)2
Soluzione Esercizio 45.
1. Passando alle coordinate polari si ha che
lim
z→∞ x2
x
ρ cos θ
= lim
= 0 uniformemente
2
ρ→∞
+y
ρ2
cioè per ogni angolo θ. Quindi il limite è 0.
2. Passando alle coordinate polari e considerando che la funzione è positiva si trova
che diverge positivamente (verificare!!). Inoltre, si poteva osservare che
3x2 + 2y 2
=
(x2 + y 2 )2
2
3 xy2 + 2
x2
y2
+2+
y2
x2
1
x2
e quindi
3x2 + 2y 2
5 1
= lim
= +∞.
2
2
2
x→0 4 x2
(x,y)→(0,0) (x + y )
lim
Capitolo B.
Svolgimenti
183
3. Si può passare alle coordinate polari, vedere che si ottiene una forma indeterminata (ma non uniformemente e questo già è sufficiente) e quindi usare la regola
di de l’Hôpital per vedere che il limite diverge ma non per tutti i valori di θ (non
per θ = π/4). Oppure si può vedere cosa succede sulle rette, basta considerare
y = mx per ottenere
x2 (1 + m2 )(1 − m) + (1 − m)
=∞
x→0
2x(1 + m2 )
lim
ma non uniformemente (cioè, non per m = 1). Il limite non esiste, la funzione
in (0, 0) non ammette limite.
2
2
2
2
Soluzione Esercizio 47. Basta osservare che e−(x1 +x2 ) = e−x1 e−x2 e riconoscere la
normale multidimensionale. Quindi κ = 1/π e
2
e−xj
fXj (xj ) = √ ,
π
j = 1, 2.
Soluzione Esercizio 59.
1. κ = θ/aθ e θ > 0
2. si ottiene V ∈ (0, log(1 + a)1/2 ) e

v<0

 0, θ
2v
FV (v) =
1 − 1 + 1−ea
, 0 ≤ v ≤ log(1 + a)1/2


1,
v > log(1 + a)1/2
3.
θ 1
fZ (z) = θ 2
a z
θ−1
1
a−
1(1/a,∞) (z)
z
Soluzione Esercizio 60. Si vede subito che supp(Z) = (0, +∞). Passiamo al secondo punto dell’ Esempio 13: si vede che D = (0, +∞) × (0, +∞) = D1 , non occorre
costruire una partizione di D che identifichi diverse forme geometriche per D1 ∩ Az ,
z > 0. Infatti, per ogni z > 0, D1 ∩ Az è sempre un triangolo. Si noti che Az è
costituito da tutti i punti (x, y) del piano tali che x + y ≤ z, cioè anche dai punti con
x e y negativi. Invece, D1 ∩ Az è costituito dai soli punti di coordinate x > 0 e y > 0
(si ricordi che z > 0). Si ottiene la f.r.

z≤0
 0,
P (T ), z ∈ (0, ∞)
FZ (z) =

1,
z = ∞ (in questo caso non va considerato)
184
dove T = D1 ∩ Az è (sempre) un triangolo di vertici T1 = (0, 0), T2 = (0, z), T3 =
(z, 0). L’evento certo, non va considerato perché, in casi come questo, può essere
ricondotto a P (T ) con z → ∞. Si costruisca il grafico e si verifichi quanto appena
detto. Dal grafico se vede che
Z z Z z−x
dx
dyfX (x)fY (y)dxdy
P (T ) = P ((X, Y ) ∈ T ) =
0
0
e quindi
Z
z
P (T ) =
dxλe−λx 1 − e−µ(z−x) dx
0
=1 − e−λz −
λ
e−µz − e−λz = P (Z ≤ z).
λ−µ
Si ottiene la densità
fZ (z) =


λe−λz −
 0,
λ
λe−λz − µe−µz , z ∈ (0, ∞),
λ−µ
z∈
/ (0, ∞).
Soluzione Esercizio 63. Si disegni il grafico.
a)
P (Z < z) =P (X + Y < z) = P (Y < z − X)
Si deve osservare che 0 < X < z se X + Y = z ∈ (0, 1) mentre 0 < X < 1 se
X + Y = z > 1. Quindi si ottiene

0,
z≤0




 R
R z−x
z
dx 0 λe−λy dy = z − e−λz (eλz − 1)/λ, z ∈ (0, 1]
P (Z < z) =
0




 R 1 R z−x −λy
dx 0 λe dy = 1 − e−λz (eλ − 1)/λ, z > 1
0
La legge di densità è quindi

1 − e−λz ,
z ∈ (0, 1]





e−λz (eλ − 1), z > 1
fZ (z) =





0,
altrove
Capitolo B.
Svolgimenti
185
b)
FW (w) = P (W < w) = P (λZ < w) = P (Z < w/λ) = FZ (w/λ).
c) La somma di due esponenziali di parametro λ è una gamma di parametri (2, λ),
quindi
fZ (z) = λ2 ze−λz 1(0,∞) (z)
Svolgimento Esercizio 72. Si deve considerare che la somma di k Bernoulliane
indipendenti di parametro p è una Bin(k, p).
Svolgimento Esercizio 79. Dallo sviluppo in serie della funzione caratteristica e dal
fatto che
X X
X
=
+
r
r pari
r dispari
si vede che (ponendo r = 2k con k ∈ N, cioè r pari)
∞
∞
X
(iξ)r
r=0
X (−ξ 2 a)k
r! r
2
a 1(r pari) =
= e−aξ = φX (ξ).
r! (r/2)!
k!
k=0
Svolgimento Esercizio 80.
1. Sia D =”il sensore è difettoso”. Si ha che
P (A) = 0.3 P (B) = 1 − P (A) = 0.7 P (D|A) = 0.15 P (D|B) = 0.12
Quindi, osservando che A∩B = {∅} e A∪B = Ω, dalla formule delle probabilità totali e composta si ottiene P (D) = P (D∩(A∪B)) = P ((D∩A)∪(D∩B)) =
P (D|A)P (A) + P (D|B)P (B)
2. Si utilizza la formula di Bayes
P (A|D) =
P (D|A)P (A)
P (D|A)P (A)
=
P (D|A)P (A) + P (D|B)P (B)
P (D)
3. e 4. I sensori sono difettosi in maniera indipendente quindi
P (k su 10|A) =P (su 10 sensori provenienti dalla linea A, k sono difettosi)
186
10 k
=
p (1 − pA )10−k
k A
dove pA = P (D|A) e P (k su 10|A) è una Bin(10, pA ). Allo stesso modo si
considera Bin(10, pB ) dove pB = P (D|B) per calcolare P (k su 10|B). Quindi
si usa la formula di Bayes e si ottiene
P (A|k su 10) =
P (k su 10|A)P (A)
P (T )
P (B|k su 10) =
P (k su 10|B)P (B)
P (T )
dove P (T ) = P (k su 10|A)P (A) + P (k su 10|B)P (B) = P (k su 10).
Svolgimento Esercizio 81.
1. Si vede che f > 0 se κ > 0. Inoltre
Z
1=
f (x)dx
R
r
1
se θ = 2 ≥ 0
2σ
κ=
θ
≥0
π
Quindi κ ∈ (0, ∞) e θ ∈ (0, ∞).
2. X ∼ N (0, 1/2θ)
3. Volendo fissare due valori
(per semplificare i conti) si può scegliere θ = 1 e di
√
conseguenza κ = 1/ π. Si ottiene
e−y
y 1/2−1 −y
fY (y) = √ =
e ,
yπ
Γ(1/2)
y≥0
che è una Gamma(1/2, 1).
4. Z ∼ Gamma(n/2, 1), quindi
fZ (z) =
z n/2−1 −z
e ,
Γ(n/2)
Svolgimento Esercizio 82. Si deve sfruttare
iξX
Ee
=
∞
X
(iξ)k
k=0
per una v.a. X e i2 = −1. Allora si ha che
1. φXj (ξ) = 1 −
ξ2
2n
k!
EX k
z≥0
Capitolo B.
Svolgimenti
2. φZn (ξ) = 1 −
ξ2
2n
187
n
ξ2
3. φZ∞ (ξ) = e− 2 e quindi
x2
e− 2
fZ∞ (x) = √ ,
2π
x ∈ R.
Soluzione Esercizio 84. Si deve considerare che X ∈ (0, 1) q.c., infatti P (X =
1) = 0. Quindi, X n → 0 q.c., cioè ∀ω ∈ Ω, (X(ω))n → 0 e si ha convergenza
q.c.
puntuale in Ω. Si conclude che Zn → 0.
Soluzione Esercizio 85. Come nel precedente Esercizio 84 X ∈ (0, 1) q.c., cioè
q.c.
P (X ∈ (0, 1)) = 1 e xn → 0 se x ∈ (−1, 1). Quindi, Zn → 0.
Soluzione Esercizio 86. Un occhio allenato vede subito non conviene considerare
altre forme più deboli di convergenza, si può verificare la convergenza quasi certa. In
particolare, Y ∈ D è una v.a. finita e
∀ ω ∈ Ω Zn (ω) = X(ω) +
1
Y (ω) → X(ω)
n
q.c.
(convergenza puntuale in Ω) e quindi Zn → X.
Soluzione Esercizio 87. Si vede subito che fXn → 0 uniformemente mentre la f.r.

x < −n

 0,
x+n
FXn (x) =
, x ∈ [−n, +n)

 2n
1,
x≥n
converge a FX (x) =
converge in R1 .
1
2
per ogni x ∈ R (puntualmente). Diciamo allora che Xn non
Soluzione Esercizio 88.
f.r.
Si vede che fXn → 0 per ogni x ∈ R (puntualmente) e la

x<0
 0,
2 2
n x , x ∈ [0, n1 )
FXn (x) =

1,
x ≥ n1
1
Potremmo dire però che Xn diverge con probabilità 1 (q.c.) ad X ”degenere” ed in particolare
P (X = −∞) = P (X = +∞). In questo caso P (X ∈ R∗ ) = 1 dove R∗ = R ∪ {−∞} ∪ {+∞} è
l’estensione di R (il completamento dei reali).
188
converge a
FX (x) =
0, x < 0
1, x ≥ 0.
Concludiamo che Xn → 0 in legge e quindi Xn → 0 in probabilità.
Soluzione Esercizio 93.
1. 0,
2. Bisogna osservare che l’integrale si riduce a
MC è data da
1
2
R∞
0
ye−y dy e quindi la soluzione
n
1 X
Xj ,
2n j=1
3. Si vede che
R
√ 1
dx
1+x2
=
R
Xj ∼ Exp(1),
√
1+x2
dx
1+x2
e quindi la soluzione MC è
n
π Xq
1 + Xj2 ,
n j=1
Xj ∼ Cauchy.
Soluzione esercizio 96. Il vettore (X1 , . . . , Xn ) è costituito da v.a. i.i.d., cioè sono
n copie di una stessa variabile X che rappresenta la popolazione di interesse. La v.a.
varianza campionaria è data dalla somma
n
n
X
1X
¯ 2 =1
¯ − µ) + (X
¯ − µ)2
(Xk − µ + µ − X)
(Xk − µ)2 − 2(Xk − µ)(X
n k=1
n k=1
n
1X
¯ − µ)2 .
=
(Xk − µ)2 − (X
n k=1
Passando al valor medio si vede che
#
" n
n
1X
1X
2
(Xk − µ) =
E(Xk − µ)2
E
n k=1
n k=1
(linearità della media)
n
=
1X
V ar(Xk )
n k=1
2
=σX
(le v.a. sono identicamente distribuite)
Capitolo B.
Svolgimenti
189
e
2
¯ − µ)2 = V ar(X)
¯ = σX .
E(X
n
Infatti,
n
1 X 2
1 X
2
¯
X = 2
Xk Xs
Xk + 2
n k=1
n 0≤k,s≤n
k6=s
2
¯ 2 = σ 2 /n.
dove EXk2 = σX
per ogni k e Cov(Xk , Xs ) = 0 per ogni k 6= s. Quindi E X
X
Si ottiene che
" n
#
1X
2
¯ 2 = n − 1 σX
E
(Xk − X)
n k=1
n
e lo stimatore non è corretto. Si vede però che è asintoticamente corretto.
Soluzione esercizio 97. Dal precedente Esercizio 96 si vede che
" n
#
X
n
1
¯ 2 = σ2
ES 2 =
E
(Xk − X)
X
n−1
n k=1
quindi lo stimatore è corretto.
Svolgimento Esercizio 98. La v.a. media campionaria
n
X
¯n = 1
Xk
X
n k=1
n
X
¯n = 1
ha media E X
EXk
n k=1
per la linearità della media. Le variabili Xk , per ogni k, sono supposte essere copie
(indipendenti, ma in questo caso non importa) di una v.a. X che descrive una certa
popolazione oggetto di studio. Quindi, se Xk ∼ X per ogni k (sono i.d.), allora
EXk = EX per ogni k. sia µ = EX la media vera della popolazione. Otteniamo che
¯ (o X
¯ n ) è la v.a. stimatore per µ e E X
¯ = µ.
µ
b = x¯ è lo stimatore per il parametro µ, X
¯ è corretto.
Lo stimatore X
¯ è uno stimatore corretto,
Svolgimento Esercizio 99. Si è già visto che la v.a. X
calcoliamo la sua varianza. Sia µ la media teorica, lo scostamento attorno al suo valore
centrale (cioè, il valore medio) è data da
2
2
2
¯
¯2
σX
¯ = E(X − µ) = E X − µ
190
dove (per la linearità della media ed il quadrato di una somma, Appendice A)
¯2 =
EX
n
n
1 XX
E[Xk Xs ].
n2 k=1 s=1
A questo punto è importante ricordare che le osservazioni sono realizzazione di v.a.
supposte indipendenti (le Xk , k = 1, . . . , n sono i.i.d) e quindi di covarianza nulla.
Inoltre Cov(Xk , Xs ) = E[Xk Xs ] − µ2 e si ottiene
¯2 =
EX
n
n
n
2
1 X 2
1 XX 2
n2 2 σX
2
=
σ
1
+
µ
+ µ2 .
σ
+
µ
=
(s=k)
n2 k=1 s=1 Xk
n2 k=1 X n2
n
La varianza cercata è
2
σX
¯ =
2
σX
n
cioè la varianza teorica (finita) della popolazione caratterizzata dalla v.a. X diviso la
numerosità campionaria n. Come al solito, volendo sottolineare la dipendenza da n
¯ n invece di X.
¯ Si vede subito che
scriviamo X
2
σX
¯n =
2
σX
→ 0 quando n → ∞.
n
Svolgimento Esercizio 101. La v.a. allo studio è il vettore X = (X1 , . . . , Xn ) le cui
componenti sono Xk ∼ N (µ, σ 2 ) per ogni k = 1, 2, . . . , n e indipendenti (sono i.i.d.).
La realizzazione di X è il campione x. La densità della v.a. multidimensionale X,
essendo le componenti i.i.d., è data dal prodotto
n
Y
1
Pn
2
e− 2σ2 k=1 (xk −µ)
p
fX (x) =
fXk (xk ) =
(2πσ 2 )n
k=1
dove fX (x) = fX (x; µ) dipende ovviamente dai parametri µ e σ 2 ma a noi interessa,
in questo caso, sottolineare il fatto che dipende da µ. La funzione di verosimiglianza è
data dalla relazione L(µ; x) = fX (x; µ) ed il suo logaritmo restituisce la funzione
n
n
1 X
log L(µ; x) = − log(2πσ 2 ) − 2
(xk − µ)2 .
2
2σ k=1
Si ottiene µ
bM V = x¯.
Capitolo B.
Svolgimenti
191
Svolgimento Esercizio 102. Dalla log-verosimiglianza calcolata nel precedente esercizio
n
n
1 X
2
log L(µ; x) = − log(2πσ ) − 2
(xk − µ)2
2
2σ k=1
si ottiene subito che
n
2
σ
bM
V =
1X
(xk − µ)2 ,
n k=1
la varianza campionaria è stimatore di MV per la varianza della popolazione.
Svolgimento Esercizio 103. Si veda il precedente Esercizio 96.
Svolgimento Esercizio 104. Per il vettore X = (X1 , . . . , Xn ) in cui Xj ∼ U nif (0, θ)
per ogni j (variabili i.i.d.) si ha che
fX (x) =
n
Y
1
θ
j=1
1[0,θ] (xj )
con x = (x1 , . . . , xn ) ∈ [0, θ]n . La funzione di log-verosimiglianza si ottiene come al
solito dalla relazione L(θ; x) = fX (x; θ) e quindi
n
1 Y
1[x ,∞) (θ)
L(θ; x) = n
θ j=1 j
ed ovviamente
log L(θ; x) = −n log θ +
n
X
log 1[xj ,∞ (θ).
j=1
Svolgimento Esercizio 105. Si deve considerare
¯
|X − µ|
√ ¯
P |X − µ| ≤ = P
≤
= P |N (0, 1)| ≤
n .
σX¯
σX¯
σ
Osservando che
P (|N (0, 1)| ≤ z) = P (−z ≤ N (0, 1) ≤ z) = 0.95
⇔
z = z0.975 ,
192
cioè 1.96 è il percentile z0.975 della tavola in Tabella 7.1 (si noti che 0.975 = 0.95 +
0.025 dove 0.025 = P (N (0, 1) ≤ −z) = Φ(−z)). Possiamo a questo punto sfruttare
l’identità
√
oppure n ≥ (1.96σ/)2 .
n = 1.96 ⇒ n = (1.96σ/)2
σ
2
Ovviamente, nella
relazione2 n ≥ (1.96σ/) sceglierò il più piccolo n, cioè la parte
intera superiore (1.96σ/) .
Svolgimento Esercizio 106.
incognite µ, σ 2 (θ ∈ R2 ),
Si deve impostare un sistema di due equazioni nelle due
EX =¯
x
2
EX =¯
x2
dal quale si ottiene,
µ
b = x¯ e
σ
b2 = x¯2 − (¯
x) 2 .
Lo stimatore dei momenti è quindo dato dal vettore θbM = (b
µ, σ
b2 )t .
Svolgimento Esercizio 107. Il test consiste nel formalizzare le ipotesi H0 : µ = 1 e
quindi H1 : µ 6= 1 conoscendo la varianza σ 2 = 1 e la forma distributiva della X. Ci
interessa solo H0 . In particolare, per la v.a. media campionaria sotto l’ipotesi nulla si
¯ n |H0 ∼ N (1, 1/n) con n = 30, quindi
ha che X
P (a ≤ Z ≤ b|H0 ) = 1 − α = 0.95
dove la v.a. (standardizzata) in questione è
Z|H0 =
¯n − 1
X
√ ∼ N (0, 1)
1/ n
si ottiene dai percentili
a = z0.025 = −1.96 e
b = z0.975 = 1.96
ottenuti dalla Tabella 7.1. Dal campione osservato si ha che
−1.96 <
x¯ − 1
1√
√ =
30 < 1.96
5
1/ 30
e quindi si conclude che il valore stimato standardizzato (cioè zoss ) cade nella regione di accettazione per H0 : µ = 1. Possiamo accettare, al 95% (o al livello di
significatività α = 0.05), l’ipotesi che X ∼ N (1, 1).
Capitolo B.
Svolgimenti
193
Svolgimento Esercizio 108. Riprendiamo quanto visto nell’Esercizio 107. In questo
caso si deve considerare un valore zoss diverso e per quale
zoss =
x¯ − 1
2√
√ =
30 > 1.96
5
1/ 30
e si conclude che il valore stimato standardizzato sotto H0 cade nella regione di rifiuto
per H0 . Non possiamo accettare l’ipotesi nulla.
Svolgimento Esercizio 109.
ˆ M = 1/¯
ˆ M V . Infatti, il sistema di una sola equazione da risolvere è
1. λ
x=λ
EX = x¯
mentre lo stimatore di massima verosimiglianza si calcola dalla
L(λ; x) = λn e−λn¯x
e
log L(λ; x) = −λn¯
x + n log λ
2. si deve osservare che
¯ − µ| ≤ ) = P (− ≤ |X
¯ − µ| ≤ )
P (|X
¯ ∼ N (µ, 1/n) quindi
dove X
√
√
√
¯ − µ| ≤ n)
¯ − µ| ≤ ) =P (− n ≤ n|X
P (− ≤ |X
√
√
=P (− n ≤ Z < n)
dove Z ∼ N (0, 1) e dalle tavole si vede che
P (−z ≤ Z ≤ z) > 0.86 o P (Z ≤ z) > 0.93 se z > 1.48.
√
Quindi n > 1.48 e n > (1.48/)2 .
Soluzione Esercizio 110.
a) Dalla trasformazione lineare Y = aX si ottiene che Y ∼ N (aµX , a2 ) quindi
la stima per µY è la media campionaria del vettore y = ax = (ax1 , . . . , axn ).
Ovvero
µ
bX = y¯ = a¯
x
essendo x¯ uno stimatore di massima verosimiglianza per µX .
194
b) Con il metodo dei momenti otteniamo
y¯ = EY = aEX = aµX
e
x¯ = EX = µX
quindi
µ
bX = x¯
⇒
µ
bY = a¯
x
c) Si deve calcolare la probabilità
P (|Y¯ − µY | < ) ≥ 0.95.
Quindi
¯
√
|Y − µX | √
√
√ P
n<
n =P −
n < N (0, 1) <
n = 0.95
a
a
a
a
dove
P (N (0, 1) < z) ≥ 0.975
z ≥ 1.96
per
ed otteniamo
√
n ≥ 1.96
a
⇒
n≥
a
2
1.96 .
Svolgimento Esercizio 111.
ˆ = x¯ = 1 Pn xi = conti
1. λ
i=1
n
2. κ = λ−log θ > 0, basta osservare che θx = ex log θ . Inoltre θˆM V = exp(−2/¯
x) ∈
(0, 1)
Svolgimento Esercizio 112. Sia y = (y1 , . . . , yn )t il vettore da stimare e yb = xβb una
stima per y dove x = (x1 , . . . , xn )t . Dobbiamo minimizzare la quantità (y − yb)2 =
b 2 rispetto al vettore βb = (βb0 , βb1 ), ovvero βb tale che Q(β)
b = min dove
(y − xβ)
b =
Q(β)
n
X
i=1
(yi − βb0 − βb1 xi )2 .
Capitolo B.
Svolgimenti
195
Si arriva al sistema
1 dQ
= y¯ − βb1 x¯ − βb0 = 0
2n dβb0
n
1X
1 dQ
=
−
xi yi − βb1 x¯2 − βb0 x¯ = 0
2n dβb1 n i=1
−
che è un sistema di due equazioni in due incognite. La soluzione è unica ed è quella
cercata. Infatti dalla prima equazione si ricava subito βb0 . Sostituendo nella seconda ed
2
2
osservando che x¯2 − x¯2 = σ
bX
(è la varianza campionaria, cioè una stima di σX
) e che
P
b
¯y¯ = σ
bXY (una stima della covarianza σXY ), si ricava β1 . Si verifica poi
i xi y i − x
che il punto trovato è effettivamente un punto di minimo per Q.
196
Bibliografia
[1] P. Baldi. Calcolo delle probabilità. McGraw Hill, 2011.
[2] K. L. Chung. A Course in Probability Theory. Academic Press, 2000.
[3] E. Giusti. Analisi matematica 2. Bollati Boringhieri, 1994.
[4] E. Giusti. Analisi matematica 1. Bollati Boringhieri, 1996.
[5] I. S. Gradshteyn and I. M. Ryzhik. Tables of integrals, series, and products.
Academic Press, Elsevier Inc., 2007.
[6] E. Orsingher and L. Beghin. Introduzione alla probabilità. Dalle nozioni
fondamentali alle applicazioni. Carocci editore, 2009.
[7] S. M. Ross. Calcolo delle probabilità. Apogeo, ultima versione.
[8] S. M. Ross. Probabilità e statistica per l’ingegneria e le scienze. Apogeo, ultima
versione.
[9] W. Rudin. Real and complex analysis. McGraw-Hill, 1987.
[10] A. Tesei. Istituzioni di analisi superiore. Bollati Boringhieri, 1997.
[11] A. W. van der Vaart. Asymptotic Statistics. Cambridge University Press., 2006.
197
Indice analitico
approssimazioni
di v.a., 80
binomio di Newton, 169
decile, 177
dipendenza, 82
disposizioni
con ripetizione, 44
semplici, 44
disuguaglianza
di Boole, 36
di Chebyshev, 65
di Doob, 66
di Hölder, 34
di Jensen, 34
di Kolmogorov, 66
di Lévy, 65
di Markov, 64
di Marshal, 66
di Minkowski, 34
divergenza di v.a., 108
calcolo combinatorio, 43
campione
grande, approssimazioni, 80
numerosità ottima, 138
centile, 177
combinazioni
con ripetizione, 44
semplici, 9
continuità
di funzioni, 52
separata, 70
convergenza
in Lp , 30, 104
in distribuzione, in legge, debole, 102 eventi
in media, 103
compatibili, 36
in misura, 30
complementari, 36
in probabilità, in misura, 103
incompatibili, 36
pointwise, 29
indipendenti, 40
puntuale, 29
quasi certa, forte, 104
formula
quasi completa, 105
di Bayes, 41
quasi ovunque, q.o., 30
di duplicazione, 174
stabile, 106
di riflessione, 174
uniforme, 29
funzione
convergenze, 29
caratteristica, 95
convoluzione, 77
continua, 52
correlazione, 72
convessa, 33
covarianza, 60
dei momenti generalizzati, 100
198
INDICE ANALITICO
di Lipschitz (o Lipshitziana), 56
di verosimiglianza, 124, 136
Gamma, 173, 174
generatrice dei momenti, 99
generatrice delle probabilità, 100
limitata, 56
uniformemente limitata, 56
identità di Wald, 82
legge
debole dei grandi numeri, 109
delle pr. composte a più alternative,
41
delle probabilità composte, 38
delle probabilità totali, 38
forte dei grandi numeri, 109
limite
centrale, 109
limiti
notevoli, 94
mancanza di memoria, 72
media, 60
media
campionaria, 2
memoria, 72
metodo
dei minimi quadrati, 140
dei momenti, 140
di massima verosimiglianza, 136
Monte Carlo, 110
misura
di conteggio, 25
di Dirac, 26
di Lebesgue, 24
momenti, 60
numeri casuali
generatori, 90
passeggiata aleatoria, 81
199
percentile, 177
permutazioni
con ripetizione, 43
semplici, 9
popolazione
finita, 119
virtuale, 124
problema MMC, 113
quantile, 177
quartile, 177
random walk, 81
regola del
ne fisso uno, 11
procedo per iterazioni successive, 13
serie
armonica, 91
di funzioni, 92
di Maclaurin, 93
di potenze, 94
di Taylor, 93
geometrica, 94
numerica, 91
telescopica, 92
simulazione, 90
soluzione MMC, 113
somme
aleatorie, 82
di v.a., 77
spettro, 58–60
statistica
descrittiva, 1
funzione, 1
inferenziale, 14, 127
stima
dei minimi quadrati, 140
dei momenti, 140
di Bayes, 141
di massima verosimiglianza, 136
200
per intervalli, 137
successioni
monotone di v.a., 87
supporto, 51, 53, 59, 60
tabella di contingenza, 82
tempi di attesa, 87
test
del χ2 , 147
di Kolmogorov-Smirnov, 148
variabile
χ-quadrato, 84
Bernoulli, 167
Beta, 176
Binomiale, 167
Cauchy, 174
Chi-quadrato, 176
degenere, 103
di Fisher-Snedecor, 177
di Poisson, 171
di Student, 177
Esponenziale, 173
Gamma, 173
Geometrica, 166
Ipergeometrica, 170
media campionaria, 6
Multinomiale, 169
Normale, 175
Normale Multidimensionale, 175
Uniforme, 172
varianza campionaria corretta, 84
Weibull, 176
Zipf, 165
variabili
i.i.d., 67
indipendenti, 67
ordinate, 85, 87
varianza, 60
varianza
campionaria, 2
campionaria corretta, 84
INDICE ANALITICO
Finito di stampare (ultima modifica) il 4 marzo 2015 utilizzando LATEX 2ε
201