capitolo iv 3a calcolo delle probabilit60a

Liceo Lugano 1, 2011-2012
3N (Luca Rovelli)
Capitolo IV :
Calcolo delle Probabilit`
a
1. Introduzione
Il calcolo delle probabilit`a `e una branca relativamente giovane della matematica, le cui
motivazioni originarie vanno ricercate nel gioco d’azzardo, e in particolare nella necessit`a di stimare le possibilit`a di vittoria nei giochi di dadi. I primi timidi tentativi in
questo senso si devono al monaco francescano Luca Pacioli (1445-1517), all’eccentrico
matematico e medico Girolamo Cardano (1501-1576) e a Galileo Galilei (1564-1642), ma
la nascita ”ufficiale” del calcolo delle probabilit`a viene solitamente fatta risalire ad uno
scambio epistolare tra Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665) dedicato alla discussione del ”problema del gioco incompiuto” (se una partita a dadi viene
interrotta prima della sua conclusione, come va spartita la posta?), sottoposto nel 1654
a Pascal da Antoine Gombaud, il Cavaliere de M´er´e, matematico dilettante e inveterato
giocatore d’azzardo.
Nei secoli successivi a questa prima trattazione molti importanti matematici si sono occupati di questioni probabilistiche. Di particolare rilievo sono i lavori di Jakob Bernoulli
(1654-1705), che nell’Ars conjectandi (pubblicata postuma nel 1713) riassunse le conoscenze del tempo, e di Pierre-Simon Laplace (1749-1827), che nella sua Th´eorie analytique
des probabilit´es, del 1812, diede una prima sistemazione formale alla teoria. Non vanno
per`o dimenticati i contributi di altri Grandi le cui scoperte hanno fatto del calcolo delle
probabilit`a uno dei capisaldi della matematica pura ed applicata, quali Edmund Halley
(1656-1742), Abraham De Moivre (1667-1754), Daniel Bernoulli (1700-1782) e il princeps
mathematicorum Carl Friedrich Gauss (1777-1825).
La ricerca di una definizione rigorosa del concetto di probabilit`a ha avuto un percorso
lungo e travagliato: intuitivamente si tratta di una misura della chance di un dato evento
di avverarsi, e quindi di un modo per quantificare l’incertezza, ma questioni tecniche e
filosofiche si sono costantemente frapposte a una sua sistemazione definitiva. Solo negli
anni ’30 del XX secolo, grazie alle intuizioni del matematico sovietico Andrej Kolmogorov
(1903-1987), si giunse alla definizione assiomatica oggi universalmente accettata, che fa
uso della moderna teoria degli insiemi.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
62
LiLu1, 3N (Luca Rovelli)
2. La nozione di ”probabilit`
a”
Consideriamo i seguenti esempi introduttivi:
1) Lanciando pi`
u volte una moneta, quanto spesso mi attendo l’esito ”testa”?
Apparentemente, una volta su due.
2) Estraendo (e reinserendo) pi`
u volte una carta da un mazzo ben mischiato, quanto
spesso posso attendermi che si tratti di una carta di picche?
Apparentemente, una volta su quattro.
3) Lanciando pi`
u volte un dado, quanto spesso mi attendo l’esito ”cinque”?
Apparentemente, una volta su sei.
In ognuno dei tre casi, la chance dell’evento considerato viene espressa da un numero
compreso tra zero e uno (rispettivamente 21 , 14 e 16 ). Tali numeri possono essere interpretati
in due maniere: da un lato vi `e la consapevolezza che la moneta pu`o cadere in due modi,
che vi sono 40 modi per estrarre una carta da un mazzo (di cui 10 modi per estrarne una di
picche) e che un dado pu`o fermarsi in sei modi diversi. Dall’altro, si pu`o ragionevolmente
supporre che la ripetizione prolungata degli esperimenti considerati avrebbe prodotto
frequenze paragonabili a questi valori.
Considerazioni di questo tipo hanno dato origine a differenti approcci al calcolo delle probabilit`a, e quindi a pi`
u definizioni del concetto di probabilit`a. La loro descrizione richiede
una formulazione (intuitiva, per ora) di due concetti-chiave:
• un esperimento casuale `e un esperimento (come il lancio di un dado o di una moneta)
il cui esito pu`o essere considerato frutto del caso;
• un evento E `e rappresentato da uno o pi`
u esiti possibili di un esperimento casuale
(ad esempio, ”il lancio di un dado ha dato un esito dispari”).
Prendiamo innanzitutto in considerazione la definizione data da Laplace nel gi`a menzionato Th´eorie analytique des probabilit´es.
L’approccio classico (o Laplaciano): se in un esperimento casuale un evento E pu`o
verificarsi in k modi diversi su n realizzazioni possibili, tutte ugualmente probabili,
allora la probabilit`
a di E `e
”casi favorevoli”
k
p(E) =
.
n
”casi possibili”
Esempi: facendo riferimento agli esempi introduttivi,
1) E: ”ottengo testa”; n = 2, k = 1, p(E) =
1
2
= 0, 5 ;
2) E: ”la carta estratta `e di picche”; n = 40, k = 10, p(E) =
3) E: ”ottengo l’esito 5”; n = 6, k = 1, p(E) =
Calcolo delle probabilit`
a, corso scientifico (V0.1)
63
1
6
10
40
=
1
4
= 0, 25 ;
= 0, 16 .
LiLu1, 3N (Luca Rovelli)
Altri esempi:
4) Lanciando un dado, qual `e la probabilit`a di ottenere un numero pari?
Con E: ”l’esito `e pari”, vale n = 6, k = 3 (gli esiti favorevoli sono 2, 4 e 6), quindi
p(E) = 36 = 12 = 0, 5.
5) Qual `e la probabilit`a di fare 6 al lotto?
Con E: ”indovino i 6 numeri” vale n =
combinazione vincente), quindi p(E) =
45
6
1
8145060
= 8 145 060, k = 1 (c’`e una sola
∼
= 0, 000000123.
6) Qual `e la probabilit`a di ottenere tre volte ”testa” lanciando 3 monete?
Con E: ”tre esiti testa” vale n = 23 = 8, k = 1 (c’`e un solo esito favorevole), quindi
1
p(E) = = 0, 125.
8
7) Lanciando 10 monete, qual `e la probabilit`a di ottenere esattamente 5 volte testa?
Possiamo descrivere gli esiti utilizzando sequenze di 10 lettere T e C, ad esempio
TTCCTTCCTC rappresenta una sequenza di lanci con l’esito ”testa” al 1o , 2o , 5o ,
6o e 9o lancio.
Qui vale n = 210 = 1024, k = 10
= 252 (sono gli anagrammi di TTTTTCCCCC),
5
252 ∼
e con E: ”5 esiti testa” vale p(E) = 1024
= 0, 246.
Osservazioni:
(i) La definizione data di probabilit`a `e insoddisfacente dal punto di vista matematico:
supponendo che tutti gli esiti siano equiprobabili, essa fa riferimento a se stessa!
(ii) Anche dal punto di vista applicativo la definizione `e lacunosa: supponendo l’equiprobabilit`a, essa `e inutilizzabile ad esempio nel caso di un dado truccato.
(iii) Come mostrano gli ultimi 3 esempi, nell’ambito della probabilit`a classica sono utili
le tecniche del calcolo combinatorio.
Passiamo ad un altro approccio ”tradizionale” alla probabilit`a, che non suppone pi`
u
l’equiprobabilit`a, descritto sistematicamente dal logico inglese John Venn (1834-1923)
nel saggio The Logic of Chance: An Essay on the Foundations and Province of the Theory of Probability.
L’approccio frequentista: la probabilit`
a di un evento E `e il valore a cui si avvicina
f
il rapporto n (”frequenza relativa”) dove f rappresenta il numero di realizzazioni di
E in n ripetizioni dell’esperimento casuale al crescere di n; con il linguaggio dei limiti
(vedi programma di IV Liceo):
f
n→∞ n
p(E) = lim
Calcolo delle probabilit`
a, corso scientifico (V0.1)
64
.
LiLu1, 3N (Luca Rovelli)
Se, ad esempio, lanciando 1000 volte un certo dado l’esito ”6” si `e verificato 432 volte,
432
per E: ”l’esito `e pari a 6” si pu`o ragionevolmente supporre che valga p(E) ∼
= 0, 432
= 1000
(il dado `e probabilmente truccato!).
Osservazione: anche questo secondo approccio appare insoddisfacente. In particolare,
esso presuppone la ripetibilit`a di un esperimento, spesso non plausibile.
Nel corso del XX secolo, in particolare grazie al matematico italiano Bruno de Finetti
(1906-1985), si `e fatta strada una nuova visione del concetto di probabilit`a, che viene
interpretata come una misura del grado di fiducia e che quindi dipende esclusivamente da
una valutazione soggettiva1 .
L’approccio soggettivo: la probabilit`a di un evento E `e il valore p(E) che l’individuo
che procede alla valutazione `e disposto a pagare per ricevere una vincita unitaria nel
caso si verifichi E ad un ipotetico banco, il quale `e a sua volta disposto ad accettare la
scommessa.
Ad esempio: valuto che p(E) = 0, 5 per l’evento E : ”esito pari” nel lancio di un dado se
sono disposto a scommettere 50 franchi sulla sua realizzazione a fronte di una posta pari
a 100 franchi.
Osservazione: per tutti e tre gli approcci menzionati `e possibile identificare delle propriet`a di fondo in comune. In particolare:
(i) la probabilit`a p(E) di un evento E `e un numero compreso tra zero e uno;
(ii) la probabilit`a di un evento certo `e pari a uno;
(iii) dati due eventi E1 e E2 tra loro incompatibili (cio`e tali che il realizzarsi di uno dei
due escluda il realizzarsi dell’altro), la probabilit`a che si realizzi E1 oppure E2 (cio`e
almeno uno dei due) `e pari alla somma p(E1 ) + p(E2 ).
Sono proprio queste osservazioni ad aver ispirato ad Andrej Kolmogorov il suo approccio
assiomatico, a cui `e dedicato il prossimo paragrafo. Egli identific`o nella teoria degli insiemi il linguaggio adatto a descrivere gli eventi, i loro connettivi logici (”e”, ”oppure”) e
la negazione (”non”).
3. Spazi di probabilit`
a
Gli approcci descritti nel paragrafo precedente sono per la loro stessa natura filosoficamente inconciliabili. Per ovviare a questo vero e proprio impasse, nel 1933 il matematico
russo Andrej Nikolaeviˇc Kolmogorov propose una definizione assiomatica, basata non sul
modo in cui p(E) dev’essere definita ma solo sulle propriet`a che la ”funzione” p(...) deve
possedere. Alla base di tale approccio vi `e la nozione di spazio campionario2 , dalla quale
prende avvio la nostra discussione.
1
il pi`
u celebre trattato di De Finetti, Teoria della probabilit`a (1970) si apre con l’espressione provocatoria la probabilit`
a non esiste !
2
detto anche insieme universo
Calcolo delle probabilit`
a, corso scientifico (V0.1)
65
LiLu1, 3N (Luca Rovelli)
Definizione 1: uno spazio campionario Ω `e un insieme i cui elementi rappresentano
tutte le possibili realizzazioni di un esperimento casuale. Un sottoinsieme E ⊆ Ω `e detto
evento. Un elemento e ∈ Ω `e detto esito.
Esempi:
1) Per l’esperimento casuale ”lancio di un dado”, possiamo scegliere Ω = {1, 2, 3, 4, 5, 6}.
Allora all’evento E: ”l’esito `e dispari” corrisponde E = {1, 3, 5}.
2) Per l’esperimento casuale ”lancio di tre monete”, possiamo scegliere
Ω = {CCC, CCT, CT C, CT T, T CC, T CT, T T C, T T T }.
All’evento E: ”ottengo almeno due croci” corrisponde E = {CCC, CCT, CT C, T CC}.
3) (Un esempio di probabilit`a geometrica) Considera un bersaglio
quadrato Q, all’interno del quale `e inscritto un cerchio C. Immaginando di colpire sempre il quadrato, per l’esperimento casuale ”tiro al bersaglio” posso porre Ω = Q (identificare cio`e
lo spazio campionario con il quadrato stesso); in questo caso,
all’evento ”colpisco il cerchio” corrisponde il cerchio C!
Q
C
Definizione 2: sia Ω uno spazio campionario.
(i) Se l’esperimento casuale ha prodotto un esito corrispondente a e e vale e ∈ E,
diremo che l’evento E si `e verificato.
(ii) Un evento {e} contenente un solo esito `e detto elementare.
(iii) Ω (visto come sottoinsieme di Ω stesso) `e l’evento certo (si verifica di sicuro),
mentre ∅ `e l’evento impossibile (non si verifica mai).
(iv) Sia E = Ω \ E; allora E `e l’evento complementare ad E (E si verifica se E
non si verifica).
(v) Due eventi E1 e E2 sono detti incompatibili se E1 ∩ E2 = ∅ (sono cio`e insiemi
disgiunti).
Esempi:
1) Sia nuovamente Ω = {1, 2, 3, 4, 5, 6} (v. sopra).
• E: ”l’esito `e 4”, cio`e E = {4}, `e elementare;
• sia E: ”l’esito `e almeno 3”, cio`e E = {3, 4, 5, 6}; allora vale E = {1, 2}, cio`e
E: ”l’esito `e inferiore a 3”;
• gli eventi E1 : ”l’esito `e al massimo 2” e E2 : ”l’esito `e superiore a 4”, cio`e
E1 = {1, 2} e E2 = {5, 6}, sono incompatibili.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
66
LiLu1, 3N (Luca Rovelli)
2) Sia Ω = {CCC, CCT, CT C, CT T, T CC, T CT, T T C, T T T } (v. sopra).
• sia E: ”esattamente due teste”, cio`e E = {CT T, T CT, T T C}; allora E =
{CCC, CCT, CT C, T CC, T T T };
• gli eventi E1 ; ”almeno due teste” e E2 : ”esattamente tre croci”, cio`e E1 =
{CT T, T CT, T T C, T T T } e E2 = {CCC} sono incompatibili;
• gli eventi E1 ; ”almeno due teste” e E2 : ”almeno una croce”, cio`e E1 =
{CT T, T CT, T T C, T T T } e E2 = {CCC, CCT, CT C, CT T, T CC, T CT, T T C}
sono compatibili; difatti vale E1 ∩ E2 = {CT T, T CT, T T C} =
6 ∅.
Osservazioni: siano Ω uno spazio campionario e A, B ⊆ Ω due eventi.
(i) L’unione A ∪ B rappresenta l’evento che si verifica se si verifica A oppure3 B.
A
B
Ω
Esempio: consideriamo, come nella pagina precedente, Ω = {1, 2, 3, 4, 5, 6} (lo
spazio campionario associato al lancio di un dado). Siano A: ”l’esito `e dispari” e B:
”l’esito `e un numero primo”, cio`e A = {1, 3, 5} e B = {2, 3, 5}. Allora per l’evento
A ∪ B: ”l’esito `e dispari oppure primo” vale A ∪ B = {1, 2, 3, 5}.
(ii) L’intersezione A ∩ B rappresenta l’evento che si verifica se si verificano entrambi gli
eventi A e B.
A
B
Ω
Esempio: consideriamo nuovamente Ω = {1, 2, 3, 4, 5, 6}, A: ”l’esito `e pari” e B:
”l’esito `e un numero primo”. Allora per l’evento A ∩ B: ”l’esito `e pari e primo” vale
A ∩ B = {2}.
Le considerazioni che concludono il paragrafo, di natura molto formale, vengono inserite
per completezza. Dal momento che saremo principalmente interessati ad esperimenti
casuali con un numero finito di esiti, e quindi a spazi campionari finiti, esse potrebbero
essere per il momento tralasciate.
3
in modo non esclusivo: A e B possono anche verificarsi entrambi!
Calcolo delle probabilit`
a, corso scientifico (V0.1)
67
LiLu1, 3N (Luca Rovelli)
Come abbiamo visto, per formalizzare il concetto di ”evento” nel linguaggio della moderna
teoria delle probabilit`a si fa uso dei sottoinsiemi di uno spazio campionario Ω. Spesso,
per`o, non `e conveniente (o addirittura non `e possibile) prendere in considerazione tutti i
sottoinsiemi dello spazio campionario4 , e ci si limita ad una famiglia pi`
u ristretta. Per ”far
funzionare” i meccanismi dell’assiomatica di Kolmogorov occorre per`o che tale famiglia
possegga delle propriet`a minime, che per i matematici contraddistinguono le cosiddette
σ-algebre (”sigma-algebre”):
Definizione 3: sia Ω un insieme. Una famiglia (o classe) Σ di sottoinsiemi di Ω `e una
σ-algebra se vale
(σ1 ) Ω ∈ Σ (l’insieme Ω fa parte di Σ);
(σ2 ) se A ∈ Σ, allora A ∈ Σ (con A, anche il suo complemento fa parte di Ω);
(σ3 ) se A1 , A2 , A3 , . . . ∈ Σ, allora A1 ∪ A2 ∪ A3 ∪ . . . ∈ Σ (l’unione di una famiglia
enumerabile di sottoinsiemi in Σ fa parte di Σ).
Osservazioni:
(i) Da (σ1 ) e (σ2 ) segue immediatamente che ∅ ∈ Ω, dal momento che ∅ = Ω e Ω ∈ Σ.
(ii) Da (σ3 ) segue in particolare che con A ∈ Σ e B ∈ Σ vale anche A ∪ B ∈ Σ (e quindi
che l’unione di una famiglia finita di sottoinsiemi in Σ fa parte di Σ).
(iii) Da (σ2 ) e (ii) segue che l’intersezione di due elementi di Σ `e anch’essa in Σ (e quindi
che ci`o vale anche per intersezioni finite); per verificarlo, basta utilizzare la relazione
di de Morgan A ∩ B = A ∪ B.
Esempi:
1) Per uno spazio campionario finito Ω, `e sempre possibile lavorare con l’intera famiglia
dei sottoinsiemi di Ω. In questo caso, come abbiamo mostrato nell Cap. III, vale5
|Σ| = 2|Ω| (cio`e, se Ω contiene n elementi allora include 2n sottoinsiemi).
2) Consideriamo nuovamente l’esperimento casuale ”lancio di un dado”; se sono interessato unicamente alla parit`a/disparit`a del risultato, all’interno di Ω = {1, 2, 3, 4, 5, 6}
posso limitarmi a scegliere la σ-algebra Σ = {∅, P, D, Ω}, con P = {2, 4, 6} e
D = {1, 3, 5}. Σ deve contenere ∅ e Ω per soddisfare la Def. 3.
3) Per l’esperimento ”tiro al bersaglio” (es. 3), pag. 66) `e sufficiente la σ-algebra
Σ = {∅, C, Q \ C, Q}.
4
in particolare, nel caso della ”probabilit`a geometrica” (come nell’esempio del bersaglio) la famiglia
di tutti i sottoinsiemi risulta troppo vasta
5
ricorda: |M | indica il numero di elementi (cio`e la cosiddetta cardinalit`a) di un insieme finito M
Calcolo delle probabilit`
a, corso scientifico (V0.1)
68
LiLu1, 3N (Luca Rovelli)
4) Consideriamo il seguente esperimento casuale: spezzo in due parti uno spago lungo
1 metro. Se sono interessato ad esempio alla lunghezza del frammento sinistro, `e
naturale scegliere Ω = [0, 1]. Inoltre, se voglio considerare soltanto eventi quali
E: ”il frammento sinistro `e lungo tra 30 e 40 centimetri” non utilizzer`o quale Σ
l’intera famiglia dei sottoinsiemi di Ω, ma soltanto la pi`
u piccola σ-algebra contenente gli intervalli chiusi di [0, 1]. In questo caso, sar`a naturale associare all’evento
E menzionato l’intervallo E = [0, 3; 0, 4].
Passiamo ora alla definizione rigorosa di spazio di probabilit`a, data da Kolmogorov nel
1933. Essa sintetizza, essenzialmente, le propriet`a che accomunano gli approcci classico,
frequentista e soggettivo.
Definizione 4: uno spazio di probabilit`
a `e costituito da una terna (Ω, Σ, p), dove
• Ω `e un insieme, lo spazio campionario;
• Σ `e una σ-algebra di Ω, la classe degli eventi misurabili;
• p `e una funzione Σ → R (cio`e una legge che assegna univocamente un numero
reale ad ogni evento misurabile), la misura di probabilit`
a
tale che
(p1 ) p(E) ≥ 0 per ogni E ∈ Σ (cio`e: ogni evento misurabile ha probabilit`a positiva);
(p2 ) p(Ω) = 1 (cio`e: l’evento certo ha probabilit`a 1);
(p3 ) se E1 , E2 , E3 , . . . sono eventi incompatibili a due a due, allora
p(E1 ∪ E2 ∪ E3 ∪ . . .) = p(E1 ) + p(E2 ) + p(E3 ) + . . .
(cio`e: le probabilit`a di eventi incompatibili si sommano).
Osservazione: gli assiomi della Def. 4 non danno alcuna indicazione sul modo in cui
la funzione p debba essere costruita, e non hanno a priori alcuna attinenza con la realt`a
fisica di un esperimento casuale. Essi stabiliscono soltanto quali sono le regole che p deve
soddisfare. Il grosso vantaggio di un approccio assiomatico `e dato dal fatto che ogni affermazione dimostrata a partire dagli assiomi `e valida ogni qual volta essi sono soddisfatti.
Ci`o permette di costruire una teoria matematica coerente.
Esempi:
1) Consideriamo l’esperimento ”lancio di un dado equo”. In entrambi gli approcci
tradizionali sembra sensato assegnare ad ogni evento elementare la stessa probabilit`a; con Ω = {1, 2, 3, 4, 5, 6} porremo quindi
p({1}) = p({2}) = p({3}) = p({4}) = p({5}) = p({6}) =
Calcolo delle probabilit`
a, corso scientifico (V0.1)
69
1
6
.
LiLu1, 3N (Luca Rovelli)
Per l’evento E: ”l’esito `e pari” varr`a quindi
p(E) = P ({2, 4, 6}) = p ({2} ∪ {4} ∪ {6}) = p({2}) + p({4}) + p({6}) =
1 1 1
1
+ + =
6 6 6
2
.
2) Consideriamo la seguente variante dell’es. 1): il dado `e truccato in modo tale che
l’esito ”6” esca con frequenza tripla rispetto a tutti gli altri. Sar`a quindi sensato
assegnare ad esso una probabilit`a tripla rispetto alle probabilit`a dei restanti esiti.
Sia quindi x la probabilit`a degli eventi ”1”, ”2”, ”3”, ”4” e ”5” (e quindi 3x la
probabilit`a di ”6”): dovr`a valere
1 = p(S) = p({1, 2, 3, 4, 5, 6}) = p ({1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6})
= p({1}) + p({2}) + p({3}) + p({4}) + p({5}) + p({6})
= x + x + x + x + x + 3x = 8x ,
cio`e 8x = 1, x = 18 . Sar`a quindi sensato porre
p({1}) = p({2}) = p({3}) = p({4}) = p({5}) =
1
8
e p({6}) =
3
8
.
Per l’evento E: ”l’esito `e pari” varr`a quindi stavolta
p(E) = P ({2, 4, 6}) = p ({2} ∪ {4} ∪ {6}) = p({2}) + p({4}) + p({6}) =
1 1 3
5
+ + =
8 8 8
8
.
3) Consideriamo l’esperimento ”spago lunga 1 metro che si spezza” (v. sopra). Supponendo che possa spezzarsi in un punto qualsiasi, sar`a sensato scegliere la probabilit`a
che il tratto sinistro sia lungo non meno di a metri e non pi`
u di b metri in maniera
proporzionale alla lunghezza dell’intervallo stesso. Porremo quindi
p ([a, b]) = b − a .
Per l’evento E: ”il tratto sinistro misura meno di 10 cm oppure pi`
u di 70 cm” varr`a
quindi
p(E) = p ([0; 0, 1] ∪ [0, 7; 1]) = p ([0; 0, 1])+p ([0, 7; 1]) = (0, 1−0)+(1−0, 7) = 0, 1+0, 3 = 0, 4 .
4) Per l’esperimento ”bersaglio quadrato” (vedi pag. 66) sar`a sensato scegliere la probabilit`a di un evento in modo proporzionale
alla superficie che lo rappresenta. Indicando con r il raggio del
cerchio, dovr`a quindi valere
p(C) =
Q
C
π
r2 π
= ∼
= 0, 785 .
2
(2r)
4
Per la σ-algebra Σ = {∅, C, Q \ C, Q} (cfr. pag. 68) sceglieremo quindi
p(∅) = 0 ,
p(C) =
π ∼
= 0, 785 ,
4
Calcolo delle probabilit`
a, corso scientifico (V0.1)
p(Q \ C) = 1 −
70
π ∼
= 0, 215 e p(Q) = 1 .
4
LiLu1, 3N (Luca Rovelli)
4. Spazi campionari finiti
In questo paragrafo prenderemo in considerazione solo spazi campionari finiti. In altre
parole, ci occuperemo soltanto di esperimenti casuali con un numero finito di esiti possibili. In questo caso la definizione di spazio di probabilit`a assume una forma pi`
u semplice:
Definizione 40 : uno spazio di probabilit`
a finito `e costituito da uno spazio campionario finito Ω e da una funzione p (la misura di probabilit`
a) che associa ad ogni
evento E ⊆ Ω un numero reale p(E) in modo tale che valga quanto segue:
(p1 ) p(E) ≥ 0 per ogni E ⊆ Ω;
(p2 ) p(Ω) = 1;
(p03 ) se E1 ed E2 sono eventi incompatibili, allora
p(E1 ∪ E2 ) = p(E1 ) + p(E2 ) .
In altre parole: scegliamo quale σ-algebra Σ la famiglia di tutti i sottoinsiemi di Ω e la
cosiddetta σ-additivit`a (p3 ) (che contempla unioni infinite di eventi) `e sostituita dalla
semplice additivit`a (p03 ) (che considera solo unioni finite).
La realizzazione pratica di una misura di probabilit`a su uno spazio finito `e molto semplice:
`e sufficiente ”suddividere” equamente la probabilit`a totale tra gli eventi elementari.
Teorema 1: sia Ω = {e1 , e2 , e3 , . . . , en } uno spazio campionario finito, e siano
p1 , p2 , . . . , pn numeri reali nell’intervallo [0, 1] tali che valga
p1 + p2 + . . . + p n = 1 .
Allora la legge
p({ek1 , ek2 , . . . , ekm }) = pk1 + pk2 + . . . + pkm
definisce una misura di probabilit`a su Ω, con
p({e1 }) = p1
,
p({e2 }) = p2
,
...
,
p({en }) = pn
.
In altre parole: otteniamo una misura di probabilit`a su Ω semplicemente assegnando ad
ogni evento elementare una probabilit`a in modo tale che il totale sia pari ad 1.
Esempi:
1) Una ”ruota della fortuna consiste” di 5 settori circolari,
ciascuno di angolo al centro pari a 72◦ , ai quali vengono
associati premi da 0, 5, 10, 50 e 100 franchi. Qual `e la
probabilit`a di vincere almeno 50 franchi?
Calcolo delle probabilit`
a, corso scientifico (V0.1)
71
LiLu1, 3N (Luca Rovelli)
Potremmo procedere ”geometricamente” come visto nel paragrafo precedente, considerando lo spazio campionario (infinito!) di tutti i punti sulla superficie della
ruota. Oppure, tenendo conto del fatto che siamo interessati a cinque soli esiti,
potremmo piuttosto lavorare con lo spazio campionario finito
Ω = {0, 5, 10, 50, 100} .
Dal momento che ogni settore ha la stessa ampiezza, assegneremo ad ogni evento
elementare la stessa probabilit`a x; chiaramente, deve valere
p({0})+p({5})+p({10})+p({50})+p({100}) = 1
⇐⇒
⇐⇒
5x = 1
x=
1
= 0, 2
5
e quindi p({0}) = p({5}) = p({10}) = p({50}) = p({100}) = 51 .
Per l’evento E: ”vinco almeno 50 franchi” vale quindi
p(E) = p({50, 100}) = p({50}) + p({100}) =
1 1
2
+ = = 0, 4 .
5 5
5
Nota che, data l’equiprobabilit`a, avremmo potuto procedere con la definizione Laplaciana: p(E) = nk = 25 .
2) Supponiamo ora che i settori della ruota corrispondenti
ai premi di 100, 50, 10, 5 e 0 franchi abbiano ampiezze
di 24◦ , 48◦ , 72◦ , 96◦ , 120◦ . Qual `e, ora, la probabilit`a di
vincere almeno 50 franchi?
Le ampiezze dei settori sono multiple di 24◦ ; con x = p({100}) sar`a quindi sensato
porre
p({0}) + p({5}) + p({10}) + p({50}) + p({100}) = 1
⇐⇒
⇐⇒
5x + 4x + 3x + 2x + x = 1
1
15x = 1
⇐⇒
x=
15
e quindi
p({100}) =
1
2
3
1
4
5
1
, p({50}) =
, p({10}) =
=
, p({5}) =
, p({0}) =
=
.
15
15
15
5
15
15
3
Per l’evento E: ”vinco almeno 50 franchi” vale quindi
p(E) = p({50, 100}) = p({50}) + p({100}) =
2
1
3
1
+
=
= = 0, 2 .
15 15
15
5
Nota che, dal momento che non vi `e pi`
u equiprobabilit`a, la definizione classica non
pu`o essere applicata (con 5 settori; lo si potrebbe per`o fare dividendo la ruota in 15
parti uguali...).
Per altri esempi analoghi si vedano le pagine 69 e 70 (esempi 1) e 2)).
Calcolo delle probabilit`
a, corso scientifico (V0.1)
72
LiLu1, 3N (Luca Rovelli)
Osservazione: se, come nel primo esempio, lo spazio campionario Ω = {e1 , e2 , . . . , en }
`e equiprobabile, dobbiamo porre p(ei ) = n1 per ogni i. Per un evento E contenente k
elementi vale quindi
1
1
1
k
”casi favorevoli”
p(E) = + + . . . + =
.
n
n
n
n
”casi
possibili”
|
{z
}
k volte
Per spazi equiprobabili finiti, la definizione assiomatica ci riconduce quindi forzatamente
alla definizione Laplaciana!
5. Teoremi sulla probabilit`
a
Ricaviamo ora dagli assiomi di Kolmogorov alcune utili conseguenze.
Teorema 2: sia Ω uno spazio campionario, e E ⊆ Ω.
(i) (probabilit`a dell’evento impossibile) p(∅) = 0 ;
(ii) (probabilit`a dell’evento complementare) p(E) = 1 − p(E).
Dimostrazione:
(i) Dato che Ω = Ω ∪ ∅ e Ω ∩ ∅ = 0, (cio`e: Ω `e l’unione disgiunta di Ω e ∅) per (p3 )
deve valere
1 = p(Ω) = p(Ω ∪ ∅) = p(Ω) + p(∅) = 1 + p(∅)
⇐⇒
1 = 1 + p(∅)
e quindi p(∅) = 0.
(ii) Dato che Ω = E ∪ E e E ∩ E = 0, (cio`e: Ω `e l’unione disgiunta di E e E) per (p3 )
deve valere
E Ω
1 = p(Ω) = p(E ∪ E) = p(E) + p(E)
E
e quindi p(E) = 1 − p(E) Esempi
1) Considera l’esperimento casuale ”lancio di due dadi” (equi), e l’evento E: ”la somma
dei punti `e superiore a 10”. Allora potremmo scrivere E = {5 + 6, 6 + 5, 6 + 6}, e
quindi
3
1
p(E) = 2 =
;
6
12
per l’evento E: ”la somma dei punti `e al massimo 10” varr`a quindi
p(E) = 1 − p(E) = 1 −
1
11
=
12
12
.
Come gi`a mostra il precedente esempio, la relazione tra p(E) e p(E) pu`o rivelarsi
molto utile nei casi in cui la probabilit`a dell’evento complementare `e pi`
u semplice
da calcolare.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
73
LiLu1, 3N (Luca Rovelli)
2) Lanciando 6 monete, qual `e la probabilit`a di ottenere almeno 2 volte ”testa”?
Sia E l’evento ”almeno due volte testa”, e siano E2 , E3 ,. . . gli eventi ”esattamente
due volte testa”, ”esattamente tre volte testa” e cos`ı via. Allora vale E = E2 ∪ E3 ∪
E4 ∪ E5 ∪ E6 (unione disgiunta), e quindi, ragionando direttamente,
6
6
6
6
6
p(E) = p(E2 ) + p(E3 ) + p(E4 ) + p(E5 ) + p(E6 ) =
=
15 + 20 + 15 + 6 + 1
57
=
64
64
2
26
+
3
26
+
4
26
+
5
26
+
6
26
.
Ragionando invece sul fatto che vale E: ”nessuna oppure una testa”, avremmo
potuto calcolare innanzitutto la probabilit`a dell’evento complementare E = E0 ∪E1 :
6
6
7
1+6
=
p(E) = p(E0 ) + p(E1 ) = 06 + 16 =
2
2
64
64
e quindi p(E) = 1 −
7
64
=
57
.
64
3) Un celebre esempio in cui conviene ricorrere alla probabilit`a dell’evento complementare `e il cosiddetto paradosso dei compleanni: in un gruppo di persone, qual `e
la probabilit`a che almeno due festeggino il compleanno lo stesso giorno?
Sia n ≤ 365 il numero di persone prese in considerazione6 . Per risolvere il problema,
trascuriamo gli anni bisestili e supponiamo che un compleanno possa cadere con la
stessa probabilit`a in un qualsiasi giorno. Sia E l’evento ”almeno due compleanni coincidono”; grazie alla definizione Laplaciana, per l’evento E: ”tutti gli n compleanni
cadono in giorni diversi” vale
p(E) =
Dn365
365
Dn
=
365 · 364 · . . . · (365 − n + 1)
365n
(si tratta di distribuire n oggetti diversi su 365 posti). Quindi, la probabilit`a cercata
`e pari a
p(E) = 1 − p(E) = 1 −
Dn365
365
Dn
=
365n − 365 · 364 · . . . · (365 − n + 1)
365n
.
Per n = 20 vale p(E) ∼
= 0, 411; in una classe di 20 allievi
`e quindi abbastanza probabile che (almeno) due compleanni
coincidano. Inoltre, per n = 22 vale p(E) ∼
= 0, 476 e per
n = 23 vale p(E) ∼
u
= 0, 507: a partire da 23 persone, `e pi`
probabile che due compleanni coincidano piuttosto che tutte
le date siano differenti!
Il grafico a destra mostra la probabilit`a di p(E) in funzione
di n (con n ≤ 100); la sua crescita repentina `e evidente.
6
con n > 365 due compleanni coinciderebbero di sicuro, in virt`
u del principio dei cassetti: se k + 1
oggetti sono riposti in k cassetti, un cassetto conterr`a pi`
u di un oggetto
Calcolo delle probabilit`
a, corso scientifico (V0.1)
74
LiLu1, 3N (Luca Rovelli)
Proseguiamo con un risultato di natura tecnica:
Lemma 3: sia Ω uno spazio campionario, e A, B ⊆ S. Allora vale
p(A \ B) = p(A) − p(A ∩ B) .
Dimostrazione: dal momento che A = A \ B ∪ A ∩ B
(unione disgiunta), vale
p(A) = p A \ B + p A ∩ B
A
B
Ω
e la tesi segue immediatamente Occupiamoci ora, dati due eventi A e B, della probabilit`a che si avveri A oppure B (cio`e
che almeno uno dei due eventi si verifichi).
A
B
Ω
L’intuizione ci fa supporre che la somma p(A) + p(B) contenga due volte la probabilit`a
dell’intersezione A ∩ B (cio`e che si avverino entrambi gli eventi A e B). Ci`o ci conduce
naturalmente al seguente risultato (di cui diamo comunque una dimostrazione formale):
Teorema 4: siano A e B due eventi di uno spazio campionario Ω. Allora vale
p(A ∪ B) = p(A) + p(B) − p(A ∩ B) .
Dimostrazione: dato che A ∪ B = (A \ B) ∪ B e (A \ B) ∩ B = ∅, da(p3 ) ricaviamo,
con l’ausilio del Lemma 3,
p(A ∪ B) = p(A \ B) + p(B) = p(A) − p(A ∩ B) + p(B) Esempio: estraggo una carta da un mazzo di 52; siano A: ”la carta `e di picche” e B: ”la
carta `e una figura”. Calcola la probabilit`a di C: ”la carta `e di picche oppure una figura”.
12
3
Qui vale chiaramente p(A) = 13
= 14 e p(B) = 52
= 13
; per l’evento A ∩ B: ”la carta `e
52
3
una figura di picche” vale inoltre p(A ∩ B) = 52
, e infine
p(C) = p(A ∪ B) = p(A) + p(B) − p(A ∩ B) =
1
3
3
13 + 12 − 3
22
11
+
−
=
=
=
4 13 52
52
52
26
.
In effetti, 22 (= 13 + 12 − 3) carte del mazzo sono figure oppure carte di picche.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
75
LiLu1, 3N (Luca Rovelli)
6. Probabilit`
a condizionata e indipendenza
Esempi introduttivi
1) Lancio un dado (equo). Sapendo che l’esito `e pari, con quale probabilit`a esso sar`a
un numero primo?
La risposta `e immediata: il fatto che l’esito sia pari riduce, per cos`ı dire, lo spazio
campionario da {1, 2, 3, 4, 5, 6} a {2, 4, 6}. Tra gli eventi elementari rimasti, l’unico
a rappresentare un numero primo `e {2}. Quindi, p = 13 .
2) Il paradosso del secondo figlio7 : ho due figli, e almeno uno di essi `e maschio; con
che probabilit`a lo sono entrambi?
Di primo acchito, potrebbe sembrare che l’informazione fornita non cambi la probabilit`a in questione. Consideriamo invece i sessi dei due figli in ordine di nascita: a
priori, essi danno luogo allo spazio campionario {♂♂, ♂♀, ♀♂, ♀♀}, e l’informazione
riduce tale spazio a {♂♂, ♂♀, ♀♂}. La probabilit`a cercata `e quindi pari a 13 .
Pi`
u in generale, siano A e B due eventi di uno spazio campionario Ω. Supponiamo di voler determinare la probabilit`a di B
sapendo che A si `e verificato, indicata con p(B|A) (leggi ”B
dato A”). Come sopra, ragionando sul fatto che la condizione
”A si `e verificato” attribuisce ad A il ruolo di ”nuovo” spazio
campionario, possiamo motivare la seguente
Ω
B
A
A∩B
Definizione 5: sia Ω uno spazio campionario, e A, B ⊆ Ω. Allora la probabilit`
a
condizionata di B dato A `e pari a
p(B|A) =
p(A ∩ B)
p(A)
.
Altri esempi
1) Come cambia la probabilit`a del precedente es. 1 se il dado `e truccato in modo tale
che le facce 1, 2 e 3 compaiano con frequenza doppia?
Occorre innanzitutto definire una nuova
misura di probabilit`a su Ω = {1, 2, 3, 4, 5, 6};
se x = p({4}) = p({5}) = p({6}) deve valere
p({1})+p({2})+p({3})+p({4})+p({5})+p({6}) = 2x+2x+2x+x+x+x = 1 ⇐⇒ x =
1
,
9
quindi
p({1}) =
2
2
2
1
1
1
, p({2}) = , p({3}) = , p({4}) = , p({5}) = , p({6}) = .
9
9
9
9
9
9
7
proposto nel 1959 dal matematico statunitense Martin Gardner (1914-2010) nella rubrica di giochi
matematici di Scientific American (l’edizione americana di Le Scienze)
Calcolo delle probabilit`
a, corso scientifico (V0.1)
76
LiLu1, 3N (Luca Rovelli)
Con A: ”l’esito `e pari” e B: ”l’esito `e primo” calcoliamo quindi
p(A ∩ B)
p({2})
p(B|A) =
=
=
p(A)
p({2}) + p({4}) + p({6})
2
9
2
9
1
9
+ +
1
9
=
1
2
.
2) Da un’urna contenente 10 sferette rosse e 5 verdi vengono effettuate 2 estrazioni
(senza reimmissione). Sapendo che la prima estratta `e rossa, con quale probabilit`a
la seconda sar`a verde?
Con A: ”la prima estratta `e rossa” e B: ”la seconda estratta `e verde” vale
p(A) =
2
3
,
p(A ∩ B) =
e
p(B|A) =
p(A ∩ B)
=
p(A)
10 · 5
50
5
=
=
15
D2
210
21
5
21
2
3
=
5 3
5
· =
21 2
14
,
.
Potremmo (giustamente) obiettare che tale risultato `e ovvio, e non richiede certamente le operazioni aritmetiche effettuate: togliendo una sferetta rossa dall’urna,
abbiamo ridotto a 14 il numero di sferette, di cui 5 verdi!
In effetti, molto spesso `e il calcolo di p(A ∩ B) a risultare pi`
u problematico, e quindi la
legge della probabilit`a condizionata si rivela utile per quest’ultimo:
Teorema 5 (Teorema del prodotto, o della probabilit`a composta): sia Ω uno spazio
campionario, e A, B ⊆ Ω. Allora vale
p(A ∩ B) = p(A) · p(B|A) .
Esempio: una confezione di 12 lampadine ne contiene 4 difettose. Con quale probabilit`a
due lampadine estratte a caso (senza reimmissione) saranno entrambe utilizzabili?
Con A: ”la prima `e utilizzabile” e B: ”la seconda `e utilizzabile” vale A ∩ B: ”entrambe
sono utilizzabili. Calcoliamo quindi
p(A ∩ B) = p(A) · p(B|A) =
dove p(B|A) =
la prima lo `e.
7
11
8 7
14
·
=
12 11
33
rappresenta la probabilit`a che la seconda sia utilizzabile sapendo che
Naturalmente il teorema del prodotto `e generalizzabile all’intersezione di pi`
u eventi: ad
esempio
p(A ∩ B ∩ C) = p (A ∩ B) ∩ C = p(A ∩ B) · p(C|A ∩ B) = p(A) · p(B|A) · p(C|A ∩ B)
cio`e
p(A ∩ B ∩ C) = p(A) · p(B|A) · p(C|A ∩ B)
Calcolo delle probabilit`
a, corso scientifico (V0.1)
77
LiLu1, 3N (Luca Rovelli)
e, pi`
u in generale, per una famiglia A1 , A2 , . . . , An di eventi
p(A1 ∩ A2 ∩ A3 ∩ . . . ∩ An ) = p(A1 )p(A2 |A1 )p(A3 |A1 ∩ A2 ) . . . p(An |A1 ∩ A2 ∩ . . . ∩ An−1 )
(la dimostrazione rigorosa di questa affermazione fa uso del principio di induzione, vedi
Cap. V).
Esempio: nella situazione dell’esempio precedente, qual `e la probabilit`a di estrarre 2
lampadine funzionanti seguite da due difettose?
Con A1 : ”la I `e OK”, A2 : ”la II `e OK”, A3 : ”la III `e difettosa”, A4 : ”la IV `e difettosa”
vale
p(A1 ∩ A2 ∩ A3 ∩ A4 ) = p(A1 )p(A2 |A1 )p(A3 |A1 ∩ A2 )p(A4 |A1 ∩ A2 ∩ A3 )
28 ∼
8 7 4 3
·
·
· =
=
= 0, 057 .
12 11 10 9
495
Consideriamo ora il caso in cui il verificarsi di un evento A non influenza il verificarsi di
un ulteriore evento B. Allora `e chiaro che vale p(B|A) = p(B). Ci`o motiva la seguente
Definizione 6: due eventi A e B sono detti stocasticamente indipendenti (o anche
solo indipendenti) se vale
p(A ∩ B) = p(A) · p(B) .
Nota che la definizione, in linea con l’approccio assiomatico, fa riferimento soltanto alle
propriet`a aritmetiche di p (e quindi non al modo in cui p viene definito concretamente);
in realt`a, per la sua applicazione noi dedurremo spesso l’indipendenza dalla situazione
concreta (dedurremo cio`e l’indipendenza stocastica da un’indipendenza causale).
Tipicamente, vi `e indipendenza nel caso di estrazioni ripetute con reimmissione.
Esempio: consideriamo nuovamente la situazione iniziale dell’esempio 3: un’urna contiene 15 sferette di cui 10 sono rosse e 5 verdi.
a) Con che probabilit`a 2 sferette estratte di seguito con reimmissione sono entrambe
rosse?
Se poniamo A: ”la prima `e rossa” e B: la seconda `e rossa” possiamo supporre che
gli eventi A e B siano indipendenti, e pertanto
p(A ∩ B) = p(A) p(B) =
1
1 1
· =
3 3
9
.
b) Estraggo, con reimmissione, 5 sferette. Con quale probabilit`a le prime 3 saranno
verdi e le rimanenti due rosse?
Anche in questo caso, l’indipendenza dei 5 eventi ”la prima `e verde”, ”la seconda `e
verde” e cos`ı via ci conduce, per l’esito che potremmo indicare con V V V RR, a
3 2
1 1 1 2 2
1
2
22
4 ∼
p({V V V RR}) = · · · · =
·
= 5 =
= 0, 016 .
3 3 3 3 3
3
3
3
243
Calcolo delle probabilit`
a, corso scientifico (V0.1)
78
LiLu1, 3N (Luca Rovelli)
c) Estraggo, con reimmissione, 5 sferette. Con quale probabilit`a esattamente 2 di esse
saranno verdi?
L’evento ”esattamente 2 sono verdi” si pu`o realizzare in 52 modi (come gli anagrammi di ”VVRRR”); ognuno di essi ha la probabilit`a calcolata al punto b), e trattandosi di eventi incompatibili le singole probabilit`a vanno sommate. Per l’evento
E: ”esattamente 2 sono verdi” vale quindi
3 2
40 ∼
5
1
2
4
=
p(E) =
·
= 10 ·
= 0, 16 .
3
3
243
243
2
Osservazione: possiamo procedere in modo analogo ogni qual volta vi `e la ripetizione
di un esperimento con due soli possibili esiti (fra loro complementari) in maniera tale che
le prove ripetute diano luogo a eventi indipendenti. Pi`
u tardi (IV.11), caratterizzeremo
questo tipo di situazioni mediante la cosiddetta distribuzione binomiale.
d) Quante sferette devo estrarre, con reimmissione, affinch´e la probabilit`a che almeno
una di esse sia verde superi il valore 0,99?
Sia En : ”in n estrazioni, almeno una sferetta `e verde”; allora vale En : ”in n estrazioni
u semplice da calcolare;
tutte le sferette sono rosse”. La probabilit`a di En `e molto pi`
in effetti vale
n
2
p(En ) = 1 − p(En ) = 1 −
3
e quindi
p(En ) ≥ 0, 99
⇐⇒
⇐⇒
n
2
1−
≥ 0, 99
3
2
n log ≤ log 0, 01
3
⇐⇒
⇐⇒
n
2
≤ 0, 01
3
−2
∼
n≥
= 11, 4 .
log 2 − log 3
Occorrono quindi almeno 12 estrazioni.
A volte, l’indipendenza pu`o essere abbinata con il Teorema 4 (pag. 75).
Esempio: un tiratore fa centro il 50% delle volte; un secondo tiratore fa centro il 40%
delle volte. Se sparano entrambi sul bersaglio, ...
a) ... con quale probabilit`a entrambi faranno centro?
Possiamo supporre che gli eventi A: ”il primo fa centro” e B: ”il secondo fa centro”
siano indipendenti; allora la probabilit`a cercata `e
p(A ∩ B) = p(A) · p(B) =
1 2
1
· = = 0, 2 .
2 5
5
b) ... con quale probabilit`a almeno uno di loro far`a centro?
Si tratta della probabilit`a dell’evento A ∪ B; con il Teorema 4 avremo
1 2 1
1 1
7
p(A∪B) = p(A)+p(B)−p(A∩B) = p(A)+p(B)−p(A)·p(B) = + − = + =
= 0, 7
2 5 5
2 5
10
Calcolo delle probabilit`
a, corso scientifico (V0.1)
79
LiLu1, 3N (Luca Rovelli)
.
7. Il teorema della probabilit`
a totale
Esempio: ho due monete. La prima `e equa, mentre la seconda `e truccata in modo tale
che l’esito ”testa” si verifichi con frequenza pari al 75%. Scelgo a caso una moneta e la
lancio. Con quale probabilit`a l’esito sar`a ”croce”?
Sia A: ”scelgo la moneta equa”, B: ”scelgo la moneta truccata”, T : ”l’esito `e testa” e C:
”l’esito `e croce”. Scrivendo C come unione disgiunta ricaviamo
p(C) = p (C ∩ A) ∪ (C ∩ B) = p(C ∩ A) + p(C ∩ B)
(ottengo croce se scelgo la prima moneta e ottengo croce oppure se scelgo la seconda e
ottengo croce); grazie al Teorema 5 vale poi
1 1 1 1
1 1
3
p(C ∩ A) + p(C ∩ B) = p(A) p(C|A) + p(B) p(C|B) = · + · = + = = 0, 375 .
2 4 2 2
8 4
8
Osservazione: gli eventi A e B rappresentano una partizione dello spazio campionario,
sono cio`e incompatibili e tali che Ω = A ∪ B. Essi inducono quindi un’unione disgiunta
di ogni evento di Ω:
Ω
C ∩A
C ∩B
A
C = (C ∩ A) ∪ (C ∩ B)
B
La situazione pu`o essere efficacemente rappresentata con l’ausilio di un diagramma ad
albero; la scrittura al disopra dei rami delle corrispondenti probabilit`a facilita il calcolo
di p(C):
P
mmm PPPPP 1
mmm
PP2P
m
m
m
PPP
mmm
m
PP
m
mm
A@
B@
@@ 1
@@ 1
1
3
@@4
@@2
2 4 @@
@@
1
2
T
C
T
p(C) =
1 1 1 1
3
· + · = .
2 4 2 2
8
C
L’idea pu`o essere facilmente generalizzata: se la collezione di eventi {A1 , A2 , . . . , An }
rappresenta una partizione di uno spazio campionario, se vale cio`e
Ω = A1 ∪ A2 ∪ . . . ∪ An
con Ai ∩ Aj = ∅ per i 6= j
allora ogni evento B ⊆ Ω viene ”partizionato” a sua volta:
Ω
A1 A2
···
B
Calcolo delle probabilit`
a, corso scientifico (V0.1)
An
B = (B∩A1 )∪(B∩A2 )∪. . .∪(B∩An )
80
LiLu1, 3N (Luca Rovelli)
Assieme all’assioma (p3 ) e al Teorema 5 si ricava immediatamente il
Teorema 6 (teorema della probabilit`a totale): sia Ω uno spazio campionario,
{A1 , A2 , . . . , An } una sua partizione e B ⊆ Ω un evento. Allora vale
p(B) = p(B ∩ A1 ) + p(B ∩ A2 ) + . . . + p(B ∩ An )
= p(A1 ) p(B|A1 ) + p(A2 ) p(B|A2 ) + . . . + p(An ) p(B|An ) .
Esempio: un certo manufatto viene prodotto da 3 fabbriche; la prima delle tre garantisce
il 50% della produzione, di cui il 93% di prima qualit`a; la seconda garantisce il 30% della
produzione, di cui il 99% di prima qualit`a, la terza garantisce il 20% della produzione, di
cui il 95% di prima qualit`a. Con che probabilit`a un manufatto scelto a caso tra l’intera
produzione sar`a di prima qualit`a?
Definiamo innanzitutto i 3 eventi A1 : ”il pezzo proviene dalla I fabbrica”, A2 : ”il pezzo
proviene dalla II fabbrica”, A3 : ”il pezzo proviene dalla III fabbrica”. Allora vale
p(A1 ) =
1
50
=
100
2
,
p(A2 ) =
30
3
=
100
10
,
p(A3 ) =
20
1
=
100
5
.
Con B: ”il pezzo `e di prima qualit`a” sono altres`ı note le probabilit`a condizionate:
p(B|A1 ) =
93
100
,
p(B|A2 ) =
99
100
,
p(B|A3 ) =
95
19
=
100
20
.
Non ci resta che calcolare
p(B) = p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + p(A3 )p(B|A3 )
1 93
3 99
1 19
119
=
·
+
·
+ ·
=
= 0, 952 (= 95, 2%) .
2 100 10 100 5 20
125
E direttamente con un diagramma ad albero:
eeeee YYYYYYYYYYY
YYYYYY 15
eeeeee
e
e
e
e
e
3
YYYYYY
e
e
e
e
e
YYYYYY
10
eee
e
e
e
e
YYY
e
eee
III fabbr.
I fabbr.
II
fabbr.
FF
GG
HH
s
93
99
19
rr
ss
HH
FF
GG
r
s
ss
r
s
HH
100 ss
100
20
F
G
r
s
r
s
F
G
s
HH
r
s
F
G
s
r
s
F
G
s
HH
r
s
FF
GG
s
r
s
H
1
2
I qual.
no
p(”I qualit`a”) =
no
I qual.
I qual.
1 93
3 99
1 19
119
·
+
·
+ ·
=
= 0, 952 .
2 100 10 100 5 20
125
Calcolo delle probabilit`
a, corso scientifico (V0.1)
81
LiLu1, 3N (Luca Rovelli)
no
8. Il teorema di Bayes
Ci occupiamo ora della cosiddetta probabilit`a delle cause, riutilizzando in parte gli esempi
del paragrafo precedente.
Iniziamo con un semplice risultato, che mette in relazione la probabilit`a condizionata di
A dato B con la probabilit`a condizionata di B dato A:
Lemma 7 : siano A e B due eventi di uno spazio campionario Ω. Allora vale
p(A|B) =
p(A) · p(B|A)
p(B)
risp.
p(B|A) =
p(B) · p(A|B)
p(A)
.
Dimostrazione: segue da p(A ∩ B) = p(A) · p(B|A) = p(B) · p(A|B) Esempio: ho due monete. La prima `e equa, mentre la seconda `e truccata in modo tale
che l’esito ”testa” si verifichi con frequenza pari al 75%. Scelgo a caso una moneta e la
lancio. Ottengo ”testa”. Con quale probabilit`a si trattava della moneta truccata?
Sia A: ”scelgo la moneta equa”, B: ”scelgo la moneta truccata”, T : ”l’esito `e testa” e C:
”l’esito `e croce”. Grazie al Lemma 7 possiamo ricondurre il calcolo di p(B|T ) (cio`e della
probabilit`a che la moneta sia truccata sapendo che l’esito `e ”testa”) al calcolo di p(T |B)
(cio`e della probabilit`a che l’esito sia ”testa” sapendo che la moneta `e truccata):
p(B|T ) =
p(B) · p(T |B)
p(T )
.
` gi`a noto che vale p(B) = 1 e p(T |B) = 3 ; per il calcolo di p(T ) sfruttiamo un diaE
2
4
gramma ad albero (applichiamo cio`e implicitamente il Teorema 6):
n RRRRR
nnn
RRR 21
n
n
RRR
nn
n
RRR
n
n
RRR
n
n
n
A;
B
~ ;;; 1
;; 1
1
3
~
;; 4
;; 2
2 ~~
4 ;;
;;
~~
;
;;
~
;
1
2
T
C
T
p(T ) =
1 3 1 1
5
· + · = .
2 4 2 2
8
C
(chiaro: si tratta dell’evento complementare all’evento C di pag. 80!).
1 1
·
p(B) · p(T |B)
1 8
2
Vale quindi p(B|T ) =
= 252 = · = .
p(T )
4 5
5
8
Osservazione: dal momento che gli eventi A e B rappresentano una partizione dello
spazio campionario, avremmo potuto tener conto direttamente della ”formula” per la
probabilit`a totale, e quindi calcolare
p(B|T ) =
p(B) · p(T |B)
=
p(A)p(T |A) + p(B)p(T |B)
1
2
·
1 1
·
2 2
3
+ 12
4
·
1
2
=
2
5
(nota che il diagramma ad albero contiene tutte le informazioni necessarie!).
Calcolo delle probabilit`
a, corso scientifico (V0.1)
82
LiLu1, 3N (Luca Rovelli)
Ragionando in modo analogo con una partizione qualsiasi ricaviamo immediatamente il
seguente risultato:
Teorema 8 : sia {A1 , . . . , Ak } una partizione di uno spazio campionario Ω, e sia
B ⊆ Ω. Allora vale, per k = 1, . . . , n,
p(Ak |B) =
p(Ak ) · p(B|Ak )
p(Ak ) · p(B|Ak )
=
p(B)
p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + . . . + p(An )p(B|An )
.
Esempio: un certo manufatto viene prodotto da 3 fabbriche; la prima delle tre garantisce
il 50% della produzione, di cui il 93% di prima qualit`a; la seconda garantisce il 30% della
produzione, di cui il 99% di prima qualit`a, la terza garantisce il 20% della produzione, di
cui il 95% di prima qualit`a. Ho acquistato un manufatto scadente. Con che probabilit`a
esso proveniva dalla prima fabbrica?
Siano nuovamente A1 : ”il pezzo proviene dalla I fabbrica”, A2 : ”il pezzo proviene dalla
II fabbrica”, A3 : ”il pezzo proviene dalla III fabbrica”, e sia B: ”il pezzo `e scadente”.
La probabilit`a cercata `e p(A1 |B). Rappresentiamo la situazione con un diagramma ad
albero:
eeeee YYYYYYYYYYY
YYYYYY 15
eeeeee
e
e
e
e
e
YYYYYY
3
eeee
e
e
e
YYYYYY
10
e
e
eee
YYYY
eeeeee
I fabbr.
II
fabbr.
III fabbr.
II
II
II
II 7
II 1
II 1
uu
uu
vv
93
99
19
u
u
v
I
I
II20
100 vv
100
100 uu
100
20 uu
I
I
I
u
u
I
v
II
I
II
I
uu
vv
uu
II
u
v
u
I
uu
vv
uu
I qual.
I qual.
I qual.
scad.
scad.
scad.
1
2
Calcoliamo
p(A1 |B) =
=
p(A1 ) · p(B|A1 )
p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + p(A3 )p(B|A3 )
1
2
·
7
100
+
1
· 7
2 100
3
· 1
10 100
1
5
+ ·
1
20
=
7 125
35 ∼
·
=
= 0, 73 .
200 6
48
Un altro celebre esempio relativo all’applicazione del teorema di Bayes `e il paradosso
delle tre scatole, proposto dal matematico francese Joseph Bertrand nel suo Calcul des
probabilit´es (1889): sono date tre scatole, ognuna delle quali contiene due monete. La
prima contiene due monete d’oro, la seconda due d’argento e la terza una moneta d’oro
` d’oro. Con che
e una d’argento. Scelgo a caso una scatola ed estraggo una moneta. E
probabilit`a lo sar`a anche la seconda moneta della stessa scatola?
Siano O: ”la moneta estratta `e d’oro”, A: ”la moneta estratta `e d’argento”, OO: ”ho
scelto la prima scatola”, AA: ”ho scelto la seconda” e OA: ”ho scelto la terza”. La
probabilit`a cercata `e p(OO|O), cio`e la probabilit`a che la scatola scelta sia la prima sapendo
che la moneta estratta `e d’oro.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
83
LiLu1, 3N (Luca Rovelli)
Rappresentiamo la situazione per mezzo di un diagramma ad albero:
gg WWWWWWW
ggggg
WWWWW 13
g
g
g
g
WWWWW
1
gg
g
g
g
g
WWWWW
3
ggg
g
g
WWW
g
g
g
OA
AA>
OO>
{
>>
>>
~
~ >>> 1
1
{
~
~
>>1
>>0
>> 2
0 ~~
1 {{{
2 ~~
>>
>>
>>
{
~~
~~
>
>>
>>
~
~
{{
>
~
~
1
3
O
A
O
A
O
A
e calcoliamo
p(OO|O) =
=
p(OO) · p(O|OO)
p(OO)p(O|OO) + p(AA)p(O|AA) + p(O)p(O|OA)
1
·1
3
1
1 · 1 +
·
0 + 13 · 12
3
3
=
1
1+
1
2
=
2
3
.
La probabilit`a che anche la seconda moneta sia d’oro `e pari a 23 .
9. Variabili aleatorie discrete
Spesso le caratteristiche degli esiti di un esperimento casuale vengono espresse per mezzo
di valori numerici, ad esempio:
1) il numero di esiti Testa nel lancio di n monete;
2) la somma dei punteggi nel lancio di n dadi;
3) la percentuale di pezzi difettosi prodotti da una fabbrica in un determinato lasso di
tempo.
Tali valori, associati ai rispettivi esiti, rappresentano funzioni aventi immagini nell’insieme
R dei numeri reali.
Definizione 7: sia Ω uno spazio campionario. Una funzione
X : Ω −→ R
`e detta variabile aleatoria (o variabile casuale, o anche variabile stocastica). Se Ω `e
un insieme finito o enumerabile la variabile aleatoria si dice discreta.
Le variabili aleatorie vengono solitamente indicate da lettere maiuscole (X, Y , Z, W , ...).
Esempi
1) Consideriamo il lancio di 3 monete; allora possiamo porre
Ω = {T T T, T T C, T CT, T CC, CT T, CT C, CCT, CCC}.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
84
LiLu1, 3N (Luca Rovelli)
Sia
X(e) := il numero di T nell’esito e
la variabile aleatoria che computa il numero di esiti Testa; vale
X(T T T ) = 3 ;
X(T T C) = X(T CT ) = X(CT T ) = 2 ;
X(T CC) = X(CT C) = X(CCT ) = 1 ;
X(CCC) = 0 .
2) Consideriamo il lancio di due dadi, e quindi
Ω = {ij |1 ≤ i, j ≤ 6} = {11, 12, 13, . . . , 64, 65, 66} .
Sia
X(ij) := i + j
la variabile aleatoria relativa alla somma dei due punteggi. Allora essa assumer`a
valori nell’insieme {1, 2, . . . , 11, 12}; in particolare,
X(11) = 2 , X(12) = X(21) = 3 , X(13) = X(22) = X(31) = 4 ,
X(14) = X(23) = X(32) = X(41) = 5 , X(15) = X(24) = X(33) = X(42) = X(51) = 6 ,
X(16) = X(25) = X(34) = X(43) = X(52) = X(61) = 7 ,
X(26) = X(35) = X(44) = X(53) = X(62) = 8 , X(36) = X(45) = X(54) = X(63) = 9 ,
X(46) = X(55) = X(64) = 10 , X(56) = X(65) = 11 , X(66) = 12 .
3) Considera il seguente esperimento: lancio una moneta fino al primo esito Testa. Ne
risulta uno spazio campionario infinito (ma enumerabile):
Ω = {T, CT, CCT, CCCT, CCCCT, . . .} .
La variabile aleatoria
X(C
. CT}) := n
| . .{z
n
rappresenta il ”tempo d’attesa”, cio`e il numero di lanci fino al primo esito T . Vale
X(T ) = 1 , X(CT ) = 2 , X(CCT ) = 3 , X(CCCT ) = 4 , . . .
Passiamo ora ad un’altra nozione fondamentale.
Definizione 8: sia X : Ω → R una variabile aleatoria (discreta). La funzione reale
definita da
f (x) := p(X = x)
che associa ad x ∈ R la probabilit`a che X assuma il valore x `e la distribuzione di
probabilit`
a della variabile aleatoria X.
Se f (x) `e la distribuzione di X, si scrive anche X ∼ f (x).
Calcolo delle probabilit`
a, corso scientifico (V0.1)
85
LiLu1, 3N (Luca Rovelli)
Esempi (v. sopra)
1) Per il lancio di tre monete, se X rappresenta il numero di esiti Testa, vale
1
3
, f (1) = p(X = 1) = ,
8
8
3
1
f (2) = p(X = 2) = , f (3) = p(X = 3) =
.
8
8
f (0) = p(X = 0) =
La distribuzione pu`
o efficacemente essere rappresentata per mezzo dell’istogramma a destra.
2) Sia X la somma dei punti nel lancio di tre dadi; tabelliamo i valori della sua distribuzione, e in seguito ne disegniamo l’istogramma:
x
p(X = x)
2
3
4
5
6
7
8
9 10 11 12
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
3) Sia X il numero di lanci necessari ad ottenere il primo esito Testa; otteniamo
x
1
p(X = x) 12
2
3
4
5
1
4
1
8
1
16
1
32
...
...
x
1
e quindi p(X = x) = p({C
. CT}}) =
| . .{z
2
.
x
Calcolo delle probabilit`
a, corso scientifico (V0.1)
86
LiLu1, 3N (Luca Rovelli)
Osservazione: sia Ω uno spazio campionario e X una variabile aleatoria con insieme
delle immagini Im(X) = {x1 , x2 , x3 , . . .}. Allora vale certamente
(i) f (xi ) = p(X = xi ) ≥ 0 ∀ i
(dal momento che rappresentano delle probabilit`a),
X
(ii)
f (x) = f (x1 ) + f (x2 ) + f (x3 ) + . . . = 1
x ∈ Im(X)
(dal momento che, complessivamente, gli eventi ”X = xi ” rappresentano la certezza).
Tali propriet`a vengono utilizzate per definire assiomaticamente il concetto di distribuzione
discreta di probabilit`a.
Verifichiamo (ii) per gli esempi trattati sopra:
X
1 3 3 1
1)
p(X = xi ) = p(X = 0)+p(X = 1)+p(X = 2)+p(X = 3) = + + + = 1
8 8 8 8
x ∈ Im(X)
X
2)
p(X = xi ) = p(X = 2) + p(X = 3) + p(X = 4) + . . . + p(X = 12)
x ∈ Im(X)
=
3)
1
2
3
4
5
6
5
4
3
2
1
+
+
+
+
+
+
+
+
+
+
=1
36 36 36 36 36 36 36 36 36 36 36
X
1 1 1
1
1
p(X = xi ) = + + +
+
+ ... ;
2 4 8 16 32
x ∈ Im(X)
si tratta di una ”somma infinita”, per il cui studio necessiteremo della nozione di
limite (in particolare, interpreteremo ”somme infinite” come limiti di somme finite).
In questo caso, si tratta di una serie geometrica, cio`e di una somma i cui termini
successivi hanno tra loro un rapporto costante ( 12 , qui). Come vedremo, nel nostro
caso ci`o conduce a 12 + 41 + 18 + . . . = 1. Non `e difficile convincersi di ci`o suddividendo
un segmento di lunghezza unitaria:
1
2
1
4
1
8
1
16
...
10. Valore atteso e varianza
Definizione 9: sia X : Ω → R una variabile aleatoria (discreta), con Im(X) =
{x1 , x2 , x3 , . . .}. Il suo valore atteso (o speranza matematica) `e il numero reale indicato con E[X] (o anche con µX ) e definito da
X
E[X] =
xi · p(X = xi ) = x1 · p(X = x1 ) + x2 · p(X = x2 ) + x3 · p(X = x3 ) + . . .
i
Se X ∼ f (x), possiamo anche scrivere E[X] =
X
xi f (xi ).
i
Calcolo delle probabilit`
a, corso scientifico (V0.1)
87
LiLu1, 3N (Luca Rovelli)
Esempi
1) Sia Ω = {1, 2, 3, 4, 5, 6} lo spazio campionario relativo all’esperimento casuale ”lancio
di un dado equo”, e sia X la variabile aleatoria indicante il punteggio di un lancio.
Allora vale
E[X] =
6
X
i · p(X = i) = 1 · p(X = 1) + 2 · p(X = 2) + . . . + 6 · p(X = 6)
i=1
1 2 3 4 5 6
1+2+3+4+5+6
21
7
+ + + + + =
=
= = 3, 5 .
6 6 6 6 6 6
6
6
2
=
2) Sia X il numero di esiti Testa nel lancio di tre monete (vedi pag. 84); allora vale
E[X] =
4
X
i · p(X = i) = 0 · p(X = 0) + 1 · p(X = 1) + 2 · p(X = 2) + 3 · p(X = 3)
i=0
= 0·
3
3
1
0+3+6+3
12
3
1
+1· +2· +3· =
=
= = 1, 5 .
8
8
8
8
8
8
2
3) Sia X la somma dei punti nel lancio di due dadi (vedi pag. 85); allora
E[X] =
12
X
i · p(X = i)
i=2
= 2 · p(X = 2) + 3 · p(X = 3) + . . . + 11 · p(X = 11) + 12 · p(X = 12)
=
2 · 1 + 3 · 2 + 4 · 3 + . . . + 11 · 2 + 12 · 1
252
=
=7 .
36
36
4) Sia X il numero di lanci di una moneta necessari per ottenere il primo esito Testa
(vedi pag. 85); allora il valore atteso `e una ”somma infinita”
E[X] =
∞
X
i=1
∞
X
i
1 2 3
4
5
6
= + + +
+
+
+ ...
i · p(X = i) =
i
2
2 4 8 16 32 64
i=0
Il suo valore, cio`e il valore cui si avvicina indefinitamente la successione delle somme
4
finite 21 + 42 , 12 + 42 + 38 , 12 + 24 + 38 + 16
ecc. `e pari a 2.
Osservazione: proviamo a considerare il valore atteso dal punto di vista frequentista;
sia Ω uno spazio campionario finito, e sia X una variabile aleatoria su Ω con Im(X) =
{x1 , x2 , . . . , xn } e siano p(X = x1 ) = fn1 , p(X = x2 ) = fn2 , . . . , p(X = x2 ) = fnn le probabilit`a stimate da n ripetizioni dell’esperimento casuale. Allora vale
Calcolo delle probabilit`
a, corso scientifico (V0.1)
88
LiLu1, 3N (Luca Rovelli)
E[X] =
n
X
xi · p(X = i) =
i=1
∞
X
xi ·
i=1
f1 x1 + f2 x2 + . . . fn xn
fi
=
n
n
.
Evidentemente, si tratta della media ponderata degli esiti nelle n ripetizioni dell’esperimento. Per tale motivo, il valore atteso E[X] viene a volte chiamato semplicemente media.
Pi`
u rigorosamente, dalla legge dei grandi numeri (vedi IV.13) segue che il valore atteso
pu`o essere interpretato come il valore a cui si avvicina la media degli esiti se un esperimento casuale viene ripetuto n volte con ”n tendente a infinito”. In particolare, E[X]
non `e per forza un valore assumibile dalla variabile aleatoria X, come mostrano gli esempi precedenti (quindi, la denominazione ”valore atteso” non si rivela particolarmente
felice...).
Introduciamo ora una misura per la dispersione degli esiti in un esperimento casuale.
Definizione 10: sia X : Ω → R una variabile aleatoria (discreta), con valore atteso
E[X] = µX .
(i) La variabile aleatoria (X − µX )2 `e detta scarto quadratico di X.
(ii) Il valore atteso di quest’ultima `e la varianza Var(X) = E [(X − µX )2 ].
(iii) La deviazione standardp
(o scarto tipo, o anche scarto quadratico medio) di X
`e il numero reale S(X) = Var(X).
2
A volte, la deviazione standard viene indicata con σX , e quindi la varianza con σX
. Nota
che σX viene espressa con la stessa unit`a di misura di X, e ci`o ne rende a volte preferibile
l’impiego.
Dalla definizione segue immediatamente il
Lemma 9: sia X : Ω → R una variabile aleatoria (discreta), con valore atteso E[X] = µ
e Im(X) = {x1 , x2 , x3 , . . .}. Allora vale
X
Var(X) =
(xi − µ)2 · p(X = xi )
i
= (x1 − µ)2 · p(X = x1 ) + (x2 − µ)2 · p(X = x2 ) + (x3 − µ)2 · p(X = x3 ) + . . .
Grazie al lemma (e agli esempi sottostanti) `e possibile intuire perch´e lo scarto quadratico
(X −µX )2 `e preferibile al semplice scarto X −µX : utilizzando quest’ultimo la somma consisterebbe di addendi positivi e negativi che annullerebbero vicendevolmente i rispettivi
contributi. A tal proposito sarebbe possibile impiegare anche lo scarto assoluto |X − µX |,
ma la problematicit`a della funzione x 7→ |x| ne rende sconsigliabile l’utilizzo.
Calcolo delle probabilit`
a, corso scientifico (V0.1)
89
LiLu1, 3N (Luca Rovelli)
Esempi (vedi sopra)
1) Lancio di un dado equo: Ω = {1, 2, 3, 4, 5, 6}, X rappresenta il punteggio di un
lancio. Allora vale µX = 3, 5 e
Var(X) = (1 − 3, 5)2 p(X = 1) + (2 − 3, 5)2 p(X = 2) + . . . + (6 − 3, 5)2 p(X = 6)
17, 5 ∼
2, 52 + 1, 52 + 0, 52 + 0, 52 + 1, 52 + 2, 52
=
= 2, 92 .
6
6
2 ∼
Quindi vale σX
= 2, 92 e σX ∼
= 1, 71.
=
2) Sia X il numero di esiti Testa nel lancio di tre monete; allora µX = 1, 5 e
Var(X) = (0 − 1, 5)2 p(X = 0) + . . . + (3 − 1, 5)2 · p(X = 3)
1 · 1, 52 + 3 · 0.52 + 3 · 0.52 + 1 · 1, 52
6
3
=
= = = 0, 75 .
8
8
4
2
Quindi vale σX
= 0, 75 e σX =
√
0, 75 ∼
= 0, 87.
11. La distribuzione binomiale
Esempio introduttivo: consideriamo l’esperimento casuale tre lanci di un dado equo.
Ad ogni lancio, dichiariamo come un successo un esito 5 oppure 6 e come un insuccesso
un esito inferiore a 5. Lo spazio campionario relativo all’esperimento pu`o essere scelto
come segue:
Ω = {iii, iis, isi, iss, sii, sis, ssi, sss}
Sia X : Ω → R la variabile aleatoria indicante il numero di successi. Calcoliamo la
distribuzione8 f (k) = p(X = k) di X, e rappresentiamone l’istogramma:
k
f (k)
8
2 3
3
0
∼
= 0, 30 3 · 13 ·
1
2 2
3
∼
= 0, 44 3 ·
1 2
3
2
· 23 ∼
= 0, 22
1 3
3
3
∼
= 0, 04
a volte, se X assume valori interi, si preferisce indicarli con k piuttosto che con x
Calcolo delle probabilit`
a, corso scientifico (V0.1)
90
LiLu1, 3N (Luca Rovelli)
Consideriamo ora lo stesso esperimento ma con 50 lanci. Allora per la distribuzione di X
vale
k 50−k
50
1
2
f (k) = p(X = k) =
·
·
k
3
3
e l’istogramma ha l’aspetto seguente:
(nota che il valore massimo di f (k) viene
raggiunto per k ∼
= 13 · 50).
L’esperimento considerato consiste in una successione di prove tra loro indipendenti aventi
tutte la stessa probabilit`a di successo, un cosiddetto processo bernoulliano.
Definizione 11
(i) Un esperimento casuale con due soli esiti tra loro complementari (successo e
insuccesso) `e detto esperimento di Bernoulli.
(ii) Una sequenza di n esperimenti di Bernoulli indipendenti tra loro dove la probabilit`a di successo `e costante `e detta processo di Bernoulli di lunghezza n.
L’esempio standard di un processo bernoulliano `e costituito da una sequenza di n estrazioni con reimmissione (osserviamo immediatamente che avremmo potuto sostituire nell’esempio introduttivo il lancio di un dado con l’estrazione da un’urna contenente due palline
nere e una bianca, dove quest’ultima rappresenta il ”successo”).
Formalizziamo la situazione: sia Ω lo spazio campionario degli esiti di un processo bernoulliano di lunghezza n. Allora possiamo porre
n
o
Ω = ω = ω1 ω2 . . . ωn | ωi ∈ {s, i}
(in altre parole: l’insieme di tutte le ”parole” di n lettere scelte tra s e i). Sia inoltre
X la variabile aleatoria che indica il numero di successi (che ”conta”, cio`e, il numero di
s in una sequenza ω). Allora, vista l’indipendenza, la probabilit`a di k successi `e pari a
pk (1 − p)n−k , e per la distribuzione di X possiamo scrivere
n k
f (k) = p(X = k) =
p (1 − p)n−k .
k
Calcolo delle probabilit`
a, corso scientifico (V0.1)
91
LiLu1, 3N (Luca Rovelli)
Definizione 12: sia X una variabile aleatoria discreta; essa segue una distribuzione
binomiale di parametri n e p se vale
n k
p(X = k) = Bn,p (k) =
p (1 − p)n−k .
k
In questo caso scriveremo anche X ∼ Bn,p (k).
` immediato verificare che una legge di questo tipo soddisfa gli ”assiomi” per una diE
stribuzione di probabilit`a menzionati a pagina 87 : innanzitutto `e chiaro che Bn,p (k) ≥ 0,
e inoltre
n
n X
X
n k
Bn,p (k) =
p (1 − p)n−k = (p + 1 − p)n = 1n = 1
k
k=0
k=0
per la formula binomiale (vedi Cap. III, pag. 60).
Per il valore atteso e la varianza si ha quanto segue:
Teorema 10: sia X ∼ Bn,p (x). Allora vale
E[X] = np
e
Var(X) = np(1 − p) .
Dimostramo soltanto la prima della due formule. Il valore atteso di X ∼ Bn,p (x) vale
n
X
n k
k
p (1 − p)n−k
k · Bn,p (k) =
k · p(X = k) =
E[X] =
k
k=1
k=1
k=0
n
X
n
X
(1)
(si noti che il termine con k = 0 `e nullo).
Trattiamo dapprima il termine k · nk :
n
n!
n(n − 1)!
(n − 1)!
k
= k·
=k·
=n·
=
k
k!(n − k)!
k(k − 1)!(n − k)!
(k − 1)!(n − k)!
(n − 1)!
n−1
= n·
=n·
;
(k − 1)!((n − 1) − (k − 1))!
k−1
inseriamo il risultato in (1); utilizzando il fatto che pk = p · pk−1 si ricava
n
n X
X
n−1
n − 1 k−1
k−1
n−k
E[X] =
n
pp (1 − p)
= np
p (1 − p)n−k
k
−
1
k
−
1
k=1
k=1
.
Sostituiamo k − 1 con m (e quindi anche i limiti della sommatoria con 0 e n − 1, e n − k
con n − (m + 1) = (n − 1) − m); con l’aiuto della formula binomiale si ottiene
n−1 X
n−1 m
E[X] = np
p (1 − p)(n−1)−m = np (p + 1 − p)n−1 = np {z
}
|
m
m=0
1
Calcolo delle probabilit`
a, corso scientifico (V0.1)
92
LiLu1, 3N (Luca Rovelli)
Osservazione: a dire il vero, se interpretiamo E[X] come una media, il risultato E[X] =
np `e perfettamente comprensibile. Se p rappresenta la probabilit`a di successo in un
esperimento bernoulliano, allora lo si pu`o interpretare (”frequentisticamente”) come la
percentuale di successi nella sua ripetizione. In media, ci attenderemo quindi circa n · p
successi in n esecuzioni dell’esperimento!
Esempio: supponiamo che il 3% di tutti gli smartphone di un dato modello siano difet3
rappresenta la probabilit`a che la scelta di un cellulare a caso (un
tosi. Allora p = 100
esperimento bernoulliano!) sia difettoso, e su una scelta di 1000 cellulari ci attenderemo
3
all’incirca 1000 · 100
= 30 pezzi difettosi (nota che, se la produzione `e sufficientemente
vasta, potremmo considerare come praticamente indipendenti le estrazioni anche nel caso
in cui non vi sia reimmmissione).
12. Altre distribuzioni discrete di probabilit`
a
Iniziamo dalla cosiddetta distribuzione ipergeometrica.
Esempio: in un’urna sono presenti 7 palline bianche e 4 nere. Estraendone 5, qual `e la
probabilit`a che esattamente 2 siano bianche?
Utilizzando la definizione Laplaciana, computiamo il rapporto tra le estrazioni possibili
di 2 bianche tra 7 e 3 nere da 4 e le estrazioni possibili di 5 palline da 11:
4
7
· 3
21 · 4
2 ∼
2
=
=
p=
= 0, 18 .
11
462
11
5
In generale, si considerano N oggetti, di cui R presentano una data caratteristica C.
Estraendone n, senza reimmissione, la variabile aleatoria X indicante il numero di oggetti
estratti aventi la caratteristica C segue una distribuzione data da
N −R
R
·
p(X = k) = HN,R,n (k) = k N n−k
.
n
Definizione 13: una variabile aleatoria discreta X per cui vale X ∼ HN,R,n segue una
distribuzione ipergeometrica di parametri N , R e n.
Quindi, una distribuzione ipergeometrica si applica nel caso di estrazioni senza reimmissione.
Esempi
1) Nell’esempio introduttivo, vale N = 11, R = 7 , n = 5; abbiamo calcolato
11−7
7
· 5−2
2
∼
p(X = 2) = H11,7,5 (2) =
= 0, 18 .
11
5
Calcolo delle probabilit`
a, corso scientifico (V0.1)
93
LiLu1, 3N (Luca Rovelli)
2) quanto vale, nel Lotto svizzero a numeri (6 su 45), la probabilit`a di indovinare
quattro numeri estratti?
Tra i sei numeri di una griglia, 4 devono appartenere ai 6 estratti e 2 ai rimanenti
39. Quindi, se X indica i numeri azzeccati, vale
39
6
· 2 ∼
4
= 0, 0014 .
p(X = 4) = H45,6,6 (4) =
45
6
Per quanto riguarda valore atteso e varianza, vale il
Teorema 11: sia X ∼ HN,R,n . Allora
nR
E[X] =
N
nR
Var(X) =
N
e
R
1−
N
N −n
N −1
.
Ad esempio, per quanto riguarda l’estrazione del lotto, se X rappresenta i numeri azzeccati vale n = 45, R = n = 6 e quindi E[X] = 6·6
= 0, 8.
45
Descriviamo ora un’ulteriore distribuzione discreta, definita per`o su uno spazio campionario infinito ma enumerabile.
Esempio: lancio una moneta fino al primo esito Testa. Se X rappresenta il numero di
lanci necessari, abbiamo gi`a mostrato (pag. 86) che vale p(X = k) = 21k .
Pi`
u in generale, si considera la ripetizione indipendente di un esperimento casuale (come
un’estrazione senza reimmissione) avente probabilit`a di successo pari a p. Allora, se X
rappresenta il ”tempo d’attesa”, cio`e il numero di ripetizioni necessarie al primo successo,
vale
p(X = k) = Gp (k) = (1 − p)k−1 p
(dal momento che a k − 1 insuccessi deve far seguito un successo).
Definizione 14: una variabile aleatoria discreta X per cui vale X ∼ Gp segue una
distribuzione geometrica di parametro p.
Esempio: quanto vale la probabilit`a di ottenere il primo esito 6 dopo 4 lanci di un dado?
5
5
Con p = 1 , calcoliamo p(X = 5) = G 1 (5) = 5 · 1 = 56 ∼
= 0, 067.
6
6
6
6
6
Teorema 12: sia X ∼ Gp . Allora vale
E[X] =
1
p
e
Var(X) =
1−p
p2
.
Esempio: per quanto riguarda il ”tempo d’attesa” dell’esito 6 nel lancio di un dado, con
p = 16 varr`a E[X] = 6 (in media, dovremo attendere 6 lanci).
Calcolo delle probabilit`
a, corso scientifico (V0.1)
94
LiLu1, 3N (Luca Rovelli)
13. La legge dei grandi numeri
Per concludere, menzioniamo un risultato fondamentale che, come abbiamo gi`a fatto
notare, attribuisce un significato ben preciso alla nozione di valore atteso. Per la sua
comprensione, occorre ancora specificare che due variabili aleatorie X e Y sono dette indipendenti se vale p(X = x e Y = y) = p(X = x) · p(Y = y). Ci`o `e verificato ad esempio
nel caso di un processo di Bernoulli, dove gli esperimenti non si influenzano a vicenda.
Teorema 13 (la Legge forte dei grandi numeri)
Siano X1 , X2 , X3 , . . . variabili aleatorie indipendenti e identicamente distribuite, con
E[X1 ] = E[X2 ] = . . . = µ. Sia Sn la variabile aleatoria ottenuta sommando le prime n
variabili Xi :
n
X
Sn =
X i = X1 + X2 + . . . + Xn .
i=1
Allora vale
Sn
=µ
p lim
n→∞ n
=1 ,
cio`e: la media delle variabili aleatorie Xi si avvicina al valore atteso µ con probabilit`a
pari a 1.
Proviamo ad applicare tale teorema nel caso di un processo di Bernoulli. Sia p la probabilit`a di successo e sia Xi la variabile aleatoria che assume il valore 1 se l’i-esimo esito `e
un successo e il valore 0 in caso contrario. Allora vale
E[Xi ] = 1 · p(Xi = 1) + 0 · p(Xi = 0) = p .
{z
}
|
0
La variabile aleatoria Sn = X1 + . . . + Xn computa il numero complessivo di successi in n
ripetizioni dell’esperimento; applicando il Teorema 14 ricaviamo
Sn
p lim
=p =1 ,
n→∞ n
cio`e, in poche parole, al crescere delle ripetizioni dell’esperimento, la frequenza dei successi
si avviciner`a a p (con probabilit`a pari a 1).
Calcolo delle probabilit`
a, corso scientifico (V0.1)
95
LiLu1, 3N (Luca Rovelli)