Liceo Lugano 1, 2011-2012 3N (Luca Rovelli) Capitolo IV : Calcolo delle Probabilit` a 1. Introduzione Il calcolo delle probabilit`a `e una branca relativamente giovane della matematica, le cui motivazioni originarie vanno ricercate nel gioco d’azzardo, e in particolare nella necessit`a di stimare le possibilit`a di vittoria nei giochi di dadi. I primi timidi tentativi in questo senso si devono al monaco francescano Luca Pacioli (1445-1517), all’eccentrico matematico e medico Girolamo Cardano (1501-1576) e a Galileo Galilei (1564-1642), ma la nascita ”ufficiale” del calcolo delle probabilit`a viene solitamente fatta risalire ad uno scambio epistolare tra Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665) dedicato alla discussione del ”problema del gioco incompiuto” (se una partita a dadi viene interrotta prima della sua conclusione, come va spartita la posta?), sottoposto nel 1654 a Pascal da Antoine Gombaud, il Cavaliere de M´er´e, matematico dilettante e inveterato giocatore d’azzardo. Nei secoli successivi a questa prima trattazione molti importanti matematici si sono occupati di questioni probabilistiche. Di particolare rilievo sono i lavori di Jakob Bernoulli (1654-1705), che nell’Ars conjectandi (pubblicata postuma nel 1713) riassunse le conoscenze del tempo, e di Pierre-Simon Laplace (1749-1827), che nella sua Th´eorie analytique des probabilit´es, del 1812, diede una prima sistemazione formale alla teoria. Non vanno per`o dimenticati i contributi di altri Grandi le cui scoperte hanno fatto del calcolo delle probabilit`a uno dei capisaldi della matematica pura ed applicata, quali Edmund Halley (1656-1742), Abraham De Moivre (1667-1754), Daniel Bernoulli (1700-1782) e il princeps mathematicorum Carl Friedrich Gauss (1777-1825). La ricerca di una definizione rigorosa del concetto di probabilit`a ha avuto un percorso lungo e travagliato: intuitivamente si tratta di una misura della chance di un dato evento di avverarsi, e quindi di un modo per quantificare l’incertezza, ma questioni tecniche e filosofiche si sono costantemente frapposte a una sua sistemazione definitiva. Solo negli anni ’30 del XX secolo, grazie alle intuizioni del matematico sovietico Andrej Kolmogorov (1903-1987), si giunse alla definizione assiomatica oggi universalmente accettata, che fa uso della moderna teoria degli insiemi. Calcolo delle probabilit` a, corso scientifico (V0.1) 62 LiLu1, 3N (Luca Rovelli) 2. La nozione di ”probabilit` a” Consideriamo i seguenti esempi introduttivi: 1) Lanciando pi` u volte una moneta, quanto spesso mi attendo l’esito ”testa”? Apparentemente, una volta su due. 2) Estraendo (e reinserendo) pi` u volte una carta da un mazzo ben mischiato, quanto spesso posso attendermi che si tratti di una carta di picche? Apparentemente, una volta su quattro. 3) Lanciando pi` u volte un dado, quanto spesso mi attendo l’esito ”cinque”? Apparentemente, una volta su sei. In ognuno dei tre casi, la chance dell’evento considerato viene espressa da un numero compreso tra zero e uno (rispettivamente 21 , 14 e 16 ). Tali numeri possono essere interpretati in due maniere: da un lato vi `e la consapevolezza che la moneta pu`o cadere in due modi, che vi sono 40 modi per estrarre una carta da un mazzo (di cui 10 modi per estrarne una di picche) e che un dado pu`o fermarsi in sei modi diversi. Dall’altro, si pu`o ragionevolmente supporre che la ripetizione prolungata degli esperimenti considerati avrebbe prodotto frequenze paragonabili a questi valori. Considerazioni di questo tipo hanno dato origine a differenti approcci al calcolo delle probabilit`a, e quindi a pi` u definizioni del concetto di probabilit`a. La loro descrizione richiede una formulazione (intuitiva, per ora) di due concetti-chiave: • un esperimento casuale `e un esperimento (come il lancio di un dado o di una moneta) il cui esito pu`o essere considerato frutto del caso; • un evento E `e rappresentato da uno o pi` u esiti possibili di un esperimento casuale (ad esempio, ”il lancio di un dado ha dato un esito dispari”). Prendiamo innanzitutto in considerazione la definizione data da Laplace nel gi`a menzionato Th´eorie analytique des probabilit´es. L’approccio classico (o Laplaciano): se in un esperimento casuale un evento E pu`o verificarsi in k modi diversi su n realizzazioni possibili, tutte ugualmente probabili, allora la probabilit` a di E `e ”casi favorevoli” k p(E) = . n ”casi possibili” Esempi: facendo riferimento agli esempi introduttivi, 1) E: ”ottengo testa”; n = 2, k = 1, p(E) = 1 2 = 0, 5 ; 2) E: ”la carta estratta `e di picche”; n = 40, k = 10, p(E) = 3) E: ”ottengo l’esito 5”; n = 6, k = 1, p(E) = Calcolo delle probabilit` a, corso scientifico (V0.1) 63 1 6 10 40 = 1 4 = 0, 25 ; = 0, 16 . LiLu1, 3N (Luca Rovelli) Altri esempi: 4) Lanciando un dado, qual `e la probabilit`a di ottenere un numero pari? Con E: ”l’esito `e pari”, vale n = 6, k = 3 (gli esiti favorevoli sono 2, 4 e 6), quindi p(E) = 36 = 12 = 0, 5. 5) Qual `e la probabilit`a di fare 6 al lotto? Con E: ”indovino i 6 numeri” vale n = combinazione vincente), quindi p(E) = 45 6 1 8145060 = 8 145 060, k = 1 (c’`e una sola ∼ = 0, 000000123. 6) Qual `e la probabilit`a di ottenere tre volte ”testa” lanciando 3 monete? Con E: ”tre esiti testa” vale n = 23 = 8, k = 1 (c’`e un solo esito favorevole), quindi 1 p(E) = = 0, 125. 8 7) Lanciando 10 monete, qual `e la probabilit`a di ottenere esattamente 5 volte testa? Possiamo descrivere gli esiti utilizzando sequenze di 10 lettere T e C, ad esempio TTCCTTCCTC rappresenta una sequenza di lanci con l’esito ”testa” al 1o , 2o , 5o , 6o e 9o lancio. Qui vale n = 210 = 1024, k = 10 = 252 (sono gli anagrammi di TTTTTCCCCC), 5 252 ∼ e con E: ”5 esiti testa” vale p(E) = 1024 = 0, 246. Osservazioni: (i) La definizione data di probabilit`a `e insoddisfacente dal punto di vista matematico: supponendo che tutti gli esiti siano equiprobabili, essa fa riferimento a se stessa! (ii) Anche dal punto di vista applicativo la definizione `e lacunosa: supponendo l’equiprobabilit`a, essa `e inutilizzabile ad esempio nel caso di un dado truccato. (iii) Come mostrano gli ultimi 3 esempi, nell’ambito della probabilit`a classica sono utili le tecniche del calcolo combinatorio. Passiamo ad un altro approccio ”tradizionale” alla probabilit`a, che non suppone pi` u l’equiprobabilit`a, descritto sistematicamente dal logico inglese John Venn (1834-1923) nel saggio The Logic of Chance: An Essay on the Foundations and Province of the Theory of Probability. L’approccio frequentista: la probabilit` a di un evento E `e il valore a cui si avvicina f il rapporto n (”frequenza relativa”) dove f rappresenta il numero di realizzazioni di E in n ripetizioni dell’esperimento casuale al crescere di n; con il linguaggio dei limiti (vedi programma di IV Liceo): f n→∞ n p(E) = lim Calcolo delle probabilit` a, corso scientifico (V0.1) 64 . LiLu1, 3N (Luca Rovelli) Se, ad esempio, lanciando 1000 volte un certo dado l’esito ”6” si `e verificato 432 volte, 432 per E: ”l’esito `e pari a 6” si pu`o ragionevolmente supporre che valga p(E) ∼ = 0, 432 = 1000 (il dado `e probabilmente truccato!). Osservazione: anche questo secondo approccio appare insoddisfacente. In particolare, esso presuppone la ripetibilit`a di un esperimento, spesso non plausibile. Nel corso del XX secolo, in particolare grazie al matematico italiano Bruno de Finetti (1906-1985), si `e fatta strada una nuova visione del concetto di probabilit`a, che viene interpretata come una misura del grado di fiducia e che quindi dipende esclusivamente da una valutazione soggettiva1 . L’approccio soggettivo: la probabilit`a di un evento E `e il valore p(E) che l’individuo che procede alla valutazione `e disposto a pagare per ricevere una vincita unitaria nel caso si verifichi E ad un ipotetico banco, il quale `e a sua volta disposto ad accettare la scommessa. Ad esempio: valuto che p(E) = 0, 5 per l’evento E : ”esito pari” nel lancio di un dado se sono disposto a scommettere 50 franchi sulla sua realizzazione a fronte di una posta pari a 100 franchi. Osservazione: per tutti e tre gli approcci menzionati `e possibile identificare delle propriet`a di fondo in comune. In particolare: (i) la probabilit`a p(E) di un evento E `e un numero compreso tra zero e uno; (ii) la probabilit`a di un evento certo `e pari a uno; (iii) dati due eventi E1 e E2 tra loro incompatibili (cio`e tali che il realizzarsi di uno dei due escluda il realizzarsi dell’altro), la probabilit`a che si realizzi E1 oppure E2 (cio`e almeno uno dei due) `e pari alla somma p(E1 ) + p(E2 ). Sono proprio queste osservazioni ad aver ispirato ad Andrej Kolmogorov il suo approccio assiomatico, a cui `e dedicato il prossimo paragrafo. Egli identific`o nella teoria degli insiemi il linguaggio adatto a descrivere gli eventi, i loro connettivi logici (”e”, ”oppure”) e la negazione (”non”). 3. Spazi di probabilit` a Gli approcci descritti nel paragrafo precedente sono per la loro stessa natura filosoficamente inconciliabili. Per ovviare a questo vero e proprio impasse, nel 1933 il matematico russo Andrej Nikolaeviˇc Kolmogorov propose una definizione assiomatica, basata non sul modo in cui p(E) dev’essere definita ma solo sulle propriet`a che la ”funzione” p(...) deve possedere. Alla base di tale approccio vi `e la nozione di spazio campionario2 , dalla quale prende avvio la nostra discussione. 1 il pi` u celebre trattato di De Finetti, Teoria della probabilit`a (1970) si apre con l’espressione provocatoria la probabilit` a non esiste ! 2 detto anche insieme universo Calcolo delle probabilit` a, corso scientifico (V0.1) 65 LiLu1, 3N (Luca Rovelli) Definizione 1: uno spazio campionario Ω `e un insieme i cui elementi rappresentano tutte le possibili realizzazioni di un esperimento casuale. Un sottoinsieme E ⊆ Ω `e detto evento. Un elemento e ∈ Ω `e detto esito. Esempi: 1) Per l’esperimento casuale ”lancio di un dado”, possiamo scegliere Ω = {1, 2, 3, 4, 5, 6}. Allora all’evento E: ”l’esito `e dispari” corrisponde E = {1, 3, 5}. 2) Per l’esperimento casuale ”lancio di tre monete”, possiamo scegliere Ω = {CCC, CCT, CT C, CT T, T CC, T CT, T T C, T T T }. All’evento E: ”ottengo almeno due croci” corrisponde E = {CCC, CCT, CT C, T CC}. 3) (Un esempio di probabilit`a geometrica) Considera un bersaglio quadrato Q, all’interno del quale `e inscritto un cerchio C. Immaginando di colpire sempre il quadrato, per l’esperimento casuale ”tiro al bersaglio” posso porre Ω = Q (identificare cio`e lo spazio campionario con il quadrato stesso); in questo caso, all’evento ”colpisco il cerchio” corrisponde il cerchio C! Q C Definizione 2: sia Ω uno spazio campionario. (i) Se l’esperimento casuale ha prodotto un esito corrispondente a e e vale e ∈ E, diremo che l’evento E si `e verificato. (ii) Un evento {e} contenente un solo esito `e detto elementare. (iii) Ω (visto come sottoinsieme di Ω stesso) `e l’evento certo (si verifica di sicuro), mentre ∅ `e l’evento impossibile (non si verifica mai). (iv) Sia E = Ω \ E; allora E `e l’evento complementare ad E (E si verifica se E non si verifica). (v) Due eventi E1 e E2 sono detti incompatibili se E1 ∩ E2 = ∅ (sono cio`e insiemi disgiunti). Esempi: 1) Sia nuovamente Ω = {1, 2, 3, 4, 5, 6} (v. sopra). • E: ”l’esito `e 4”, cio`e E = {4}, `e elementare; • sia E: ”l’esito `e almeno 3”, cio`e E = {3, 4, 5, 6}; allora vale E = {1, 2}, cio`e E: ”l’esito `e inferiore a 3”; • gli eventi E1 : ”l’esito `e al massimo 2” e E2 : ”l’esito `e superiore a 4”, cio`e E1 = {1, 2} e E2 = {5, 6}, sono incompatibili. Calcolo delle probabilit` a, corso scientifico (V0.1) 66 LiLu1, 3N (Luca Rovelli) 2) Sia Ω = {CCC, CCT, CT C, CT T, T CC, T CT, T T C, T T T } (v. sopra). • sia E: ”esattamente due teste”, cio`e E = {CT T, T CT, T T C}; allora E = {CCC, CCT, CT C, T CC, T T T }; • gli eventi E1 ; ”almeno due teste” e E2 : ”esattamente tre croci”, cio`e E1 = {CT T, T CT, T T C, T T T } e E2 = {CCC} sono incompatibili; • gli eventi E1 ; ”almeno due teste” e E2 : ”almeno una croce”, cio`e E1 = {CT T, T CT, T T C, T T T } e E2 = {CCC, CCT, CT C, CT T, T CC, T CT, T T C} sono compatibili; difatti vale E1 ∩ E2 = {CT T, T CT, T T C} = 6 ∅. Osservazioni: siano Ω uno spazio campionario e A, B ⊆ Ω due eventi. (i) L’unione A ∪ B rappresenta l’evento che si verifica se si verifica A oppure3 B. A B Ω Esempio: consideriamo, come nella pagina precedente, Ω = {1, 2, 3, 4, 5, 6} (lo spazio campionario associato al lancio di un dado). Siano A: ”l’esito `e dispari” e B: ”l’esito `e un numero primo”, cio`e A = {1, 3, 5} e B = {2, 3, 5}. Allora per l’evento A ∪ B: ”l’esito `e dispari oppure primo” vale A ∪ B = {1, 2, 3, 5}. (ii) L’intersezione A ∩ B rappresenta l’evento che si verifica se si verificano entrambi gli eventi A e B. A B Ω Esempio: consideriamo nuovamente Ω = {1, 2, 3, 4, 5, 6}, A: ”l’esito `e pari” e B: ”l’esito `e un numero primo”. Allora per l’evento A ∩ B: ”l’esito `e pari e primo” vale A ∩ B = {2}. Le considerazioni che concludono il paragrafo, di natura molto formale, vengono inserite per completezza. Dal momento che saremo principalmente interessati ad esperimenti casuali con un numero finito di esiti, e quindi a spazi campionari finiti, esse potrebbero essere per il momento tralasciate. 3 in modo non esclusivo: A e B possono anche verificarsi entrambi! Calcolo delle probabilit` a, corso scientifico (V0.1) 67 LiLu1, 3N (Luca Rovelli) Come abbiamo visto, per formalizzare il concetto di ”evento” nel linguaggio della moderna teoria delle probabilit`a si fa uso dei sottoinsiemi di uno spazio campionario Ω. Spesso, per`o, non `e conveniente (o addirittura non `e possibile) prendere in considerazione tutti i sottoinsiemi dello spazio campionario4 , e ci si limita ad una famiglia pi` u ristretta. Per ”far funzionare” i meccanismi dell’assiomatica di Kolmogorov occorre per`o che tale famiglia possegga delle propriet`a minime, che per i matematici contraddistinguono le cosiddette σ-algebre (”sigma-algebre”): Definizione 3: sia Ω un insieme. Una famiglia (o classe) Σ di sottoinsiemi di Ω `e una σ-algebra se vale (σ1 ) Ω ∈ Σ (l’insieme Ω fa parte di Σ); (σ2 ) se A ∈ Σ, allora A ∈ Σ (con A, anche il suo complemento fa parte di Ω); (σ3 ) se A1 , A2 , A3 , . . . ∈ Σ, allora A1 ∪ A2 ∪ A3 ∪ . . . ∈ Σ (l’unione di una famiglia enumerabile di sottoinsiemi in Σ fa parte di Σ). Osservazioni: (i) Da (σ1 ) e (σ2 ) segue immediatamente che ∅ ∈ Ω, dal momento che ∅ = Ω e Ω ∈ Σ. (ii) Da (σ3 ) segue in particolare che con A ∈ Σ e B ∈ Σ vale anche A ∪ B ∈ Σ (e quindi che l’unione di una famiglia finita di sottoinsiemi in Σ fa parte di Σ). (iii) Da (σ2 ) e (ii) segue che l’intersezione di due elementi di Σ `e anch’essa in Σ (e quindi che ci`o vale anche per intersezioni finite); per verificarlo, basta utilizzare la relazione di de Morgan A ∩ B = A ∪ B. Esempi: 1) Per uno spazio campionario finito Ω, `e sempre possibile lavorare con l’intera famiglia dei sottoinsiemi di Ω. In questo caso, come abbiamo mostrato nell Cap. III, vale5 |Σ| = 2|Ω| (cio`e, se Ω contiene n elementi allora include 2n sottoinsiemi). 2) Consideriamo nuovamente l’esperimento casuale ”lancio di un dado”; se sono interessato unicamente alla parit`a/disparit`a del risultato, all’interno di Ω = {1, 2, 3, 4, 5, 6} posso limitarmi a scegliere la σ-algebra Σ = {∅, P, D, Ω}, con P = {2, 4, 6} e D = {1, 3, 5}. Σ deve contenere ∅ e Ω per soddisfare la Def. 3. 3) Per l’esperimento ”tiro al bersaglio” (es. 3), pag. 66) `e sufficiente la σ-algebra Σ = {∅, C, Q \ C, Q}. 4 in particolare, nel caso della ”probabilit`a geometrica” (come nell’esempio del bersaglio) la famiglia di tutti i sottoinsiemi risulta troppo vasta 5 ricorda: |M | indica il numero di elementi (cio`e la cosiddetta cardinalit`a) di un insieme finito M Calcolo delle probabilit` a, corso scientifico (V0.1) 68 LiLu1, 3N (Luca Rovelli) 4) Consideriamo il seguente esperimento casuale: spezzo in due parti uno spago lungo 1 metro. Se sono interessato ad esempio alla lunghezza del frammento sinistro, `e naturale scegliere Ω = [0, 1]. Inoltre, se voglio considerare soltanto eventi quali E: ”il frammento sinistro `e lungo tra 30 e 40 centimetri” non utilizzer`o quale Σ l’intera famiglia dei sottoinsiemi di Ω, ma soltanto la pi` u piccola σ-algebra contenente gli intervalli chiusi di [0, 1]. In questo caso, sar`a naturale associare all’evento E menzionato l’intervallo E = [0, 3; 0, 4]. Passiamo ora alla definizione rigorosa di spazio di probabilit`a, data da Kolmogorov nel 1933. Essa sintetizza, essenzialmente, le propriet`a che accomunano gli approcci classico, frequentista e soggettivo. Definizione 4: uno spazio di probabilit` a `e costituito da una terna (Ω, Σ, p), dove • Ω `e un insieme, lo spazio campionario; • Σ `e una σ-algebra di Ω, la classe degli eventi misurabili; • p `e una funzione Σ → R (cio`e una legge che assegna univocamente un numero reale ad ogni evento misurabile), la misura di probabilit` a tale che (p1 ) p(E) ≥ 0 per ogni E ∈ Σ (cio`e: ogni evento misurabile ha probabilit`a positiva); (p2 ) p(Ω) = 1 (cio`e: l’evento certo ha probabilit`a 1); (p3 ) se E1 , E2 , E3 , . . . sono eventi incompatibili a due a due, allora p(E1 ∪ E2 ∪ E3 ∪ . . .) = p(E1 ) + p(E2 ) + p(E3 ) + . . . (cio`e: le probabilit`a di eventi incompatibili si sommano). Osservazione: gli assiomi della Def. 4 non danno alcuna indicazione sul modo in cui la funzione p debba essere costruita, e non hanno a priori alcuna attinenza con la realt`a fisica di un esperimento casuale. Essi stabiliscono soltanto quali sono le regole che p deve soddisfare. Il grosso vantaggio di un approccio assiomatico `e dato dal fatto che ogni affermazione dimostrata a partire dagli assiomi `e valida ogni qual volta essi sono soddisfatti. Ci`o permette di costruire una teoria matematica coerente. Esempi: 1) Consideriamo l’esperimento ”lancio di un dado equo”. In entrambi gli approcci tradizionali sembra sensato assegnare ad ogni evento elementare la stessa probabilit`a; con Ω = {1, 2, 3, 4, 5, 6} porremo quindi p({1}) = p({2}) = p({3}) = p({4}) = p({5}) = p({6}) = Calcolo delle probabilit` a, corso scientifico (V0.1) 69 1 6 . LiLu1, 3N (Luca Rovelli) Per l’evento E: ”l’esito `e pari” varr`a quindi p(E) = P ({2, 4, 6}) = p ({2} ∪ {4} ∪ {6}) = p({2}) + p({4}) + p({6}) = 1 1 1 1 + + = 6 6 6 2 . 2) Consideriamo la seguente variante dell’es. 1): il dado `e truccato in modo tale che l’esito ”6” esca con frequenza tripla rispetto a tutti gli altri. Sar`a quindi sensato assegnare ad esso una probabilit`a tripla rispetto alle probabilit`a dei restanti esiti. Sia quindi x la probabilit`a degli eventi ”1”, ”2”, ”3”, ”4” e ”5” (e quindi 3x la probabilit`a di ”6”): dovr`a valere 1 = p(S) = p({1, 2, 3, 4, 5, 6}) = p ({1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}) = p({1}) + p({2}) + p({3}) + p({4}) + p({5}) + p({6}) = x + x + x + x + x + 3x = 8x , cio`e 8x = 1, x = 18 . Sar`a quindi sensato porre p({1}) = p({2}) = p({3}) = p({4}) = p({5}) = 1 8 e p({6}) = 3 8 . Per l’evento E: ”l’esito `e pari” varr`a quindi stavolta p(E) = P ({2, 4, 6}) = p ({2} ∪ {4} ∪ {6}) = p({2}) + p({4}) + p({6}) = 1 1 3 5 + + = 8 8 8 8 . 3) Consideriamo l’esperimento ”spago lunga 1 metro che si spezza” (v. sopra). Supponendo che possa spezzarsi in un punto qualsiasi, sar`a sensato scegliere la probabilit`a che il tratto sinistro sia lungo non meno di a metri e non pi` u di b metri in maniera proporzionale alla lunghezza dell’intervallo stesso. Porremo quindi p ([a, b]) = b − a . Per l’evento E: ”il tratto sinistro misura meno di 10 cm oppure pi` u di 70 cm” varr`a quindi p(E) = p ([0; 0, 1] ∪ [0, 7; 1]) = p ([0; 0, 1])+p ([0, 7; 1]) = (0, 1−0)+(1−0, 7) = 0, 1+0, 3 = 0, 4 . 4) Per l’esperimento ”bersaglio quadrato” (vedi pag. 66) sar`a sensato scegliere la probabilit`a di un evento in modo proporzionale alla superficie che lo rappresenta. Indicando con r il raggio del cerchio, dovr`a quindi valere p(C) = Q C π r2 π = ∼ = 0, 785 . 2 (2r) 4 Per la σ-algebra Σ = {∅, C, Q \ C, Q} (cfr. pag. 68) sceglieremo quindi p(∅) = 0 , p(C) = π ∼ = 0, 785 , 4 Calcolo delle probabilit` a, corso scientifico (V0.1) p(Q \ C) = 1 − 70 π ∼ = 0, 215 e p(Q) = 1 . 4 LiLu1, 3N (Luca Rovelli) 4. Spazi campionari finiti In questo paragrafo prenderemo in considerazione solo spazi campionari finiti. In altre parole, ci occuperemo soltanto di esperimenti casuali con un numero finito di esiti possibili. In questo caso la definizione di spazio di probabilit`a assume una forma pi` u semplice: Definizione 40 : uno spazio di probabilit` a finito `e costituito da uno spazio campionario finito Ω e da una funzione p (la misura di probabilit` a) che associa ad ogni evento E ⊆ Ω un numero reale p(E) in modo tale che valga quanto segue: (p1 ) p(E) ≥ 0 per ogni E ⊆ Ω; (p2 ) p(Ω) = 1; (p03 ) se E1 ed E2 sono eventi incompatibili, allora p(E1 ∪ E2 ) = p(E1 ) + p(E2 ) . In altre parole: scegliamo quale σ-algebra Σ la famiglia di tutti i sottoinsiemi di Ω e la cosiddetta σ-additivit`a (p3 ) (che contempla unioni infinite di eventi) `e sostituita dalla semplice additivit`a (p03 ) (che considera solo unioni finite). La realizzazione pratica di una misura di probabilit`a su uno spazio finito `e molto semplice: `e sufficiente ”suddividere” equamente la probabilit`a totale tra gli eventi elementari. Teorema 1: sia Ω = {e1 , e2 , e3 , . . . , en } uno spazio campionario finito, e siano p1 , p2 , . . . , pn numeri reali nell’intervallo [0, 1] tali che valga p1 + p2 + . . . + p n = 1 . Allora la legge p({ek1 , ek2 , . . . , ekm }) = pk1 + pk2 + . . . + pkm definisce una misura di probabilit`a su Ω, con p({e1 }) = p1 , p({e2 }) = p2 , ... , p({en }) = pn . In altre parole: otteniamo una misura di probabilit`a su Ω semplicemente assegnando ad ogni evento elementare una probabilit`a in modo tale che il totale sia pari ad 1. Esempi: 1) Una ”ruota della fortuna consiste” di 5 settori circolari, ciascuno di angolo al centro pari a 72◦ , ai quali vengono associati premi da 0, 5, 10, 50 e 100 franchi. Qual `e la probabilit`a di vincere almeno 50 franchi? Calcolo delle probabilit` a, corso scientifico (V0.1) 71 LiLu1, 3N (Luca Rovelli) Potremmo procedere ”geometricamente” come visto nel paragrafo precedente, considerando lo spazio campionario (infinito!) di tutti i punti sulla superficie della ruota. Oppure, tenendo conto del fatto che siamo interessati a cinque soli esiti, potremmo piuttosto lavorare con lo spazio campionario finito Ω = {0, 5, 10, 50, 100} . Dal momento che ogni settore ha la stessa ampiezza, assegneremo ad ogni evento elementare la stessa probabilit`a x; chiaramente, deve valere p({0})+p({5})+p({10})+p({50})+p({100}) = 1 ⇐⇒ ⇐⇒ 5x = 1 x= 1 = 0, 2 5 e quindi p({0}) = p({5}) = p({10}) = p({50}) = p({100}) = 51 . Per l’evento E: ”vinco almeno 50 franchi” vale quindi p(E) = p({50, 100}) = p({50}) + p({100}) = 1 1 2 + = = 0, 4 . 5 5 5 Nota che, data l’equiprobabilit`a, avremmo potuto procedere con la definizione Laplaciana: p(E) = nk = 25 . 2) Supponiamo ora che i settori della ruota corrispondenti ai premi di 100, 50, 10, 5 e 0 franchi abbiano ampiezze di 24◦ , 48◦ , 72◦ , 96◦ , 120◦ . Qual `e, ora, la probabilit`a di vincere almeno 50 franchi? Le ampiezze dei settori sono multiple di 24◦ ; con x = p({100}) sar`a quindi sensato porre p({0}) + p({5}) + p({10}) + p({50}) + p({100}) = 1 ⇐⇒ ⇐⇒ 5x + 4x + 3x + 2x + x = 1 1 15x = 1 ⇐⇒ x= 15 e quindi p({100}) = 1 2 3 1 4 5 1 , p({50}) = , p({10}) = = , p({5}) = , p({0}) = = . 15 15 15 5 15 15 3 Per l’evento E: ”vinco almeno 50 franchi” vale quindi p(E) = p({50, 100}) = p({50}) + p({100}) = 2 1 3 1 + = = = 0, 2 . 15 15 15 5 Nota che, dal momento che non vi `e pi` u equiprobabilit`a, la definizione classica non pu`o essere applicata (con 5 settori; lo si potrebbe per`o fare dividendo la ruota in 15 parti uguali...). Per altri esempi analoghi si vedano le pagine 69 e 70 (esempi 1) e 2)). Calcolo delle probabilit` a, corso scientifico (V0.1) 72 LiLu1, 3N (Luca Rovelli) Osservazione: se, come nel primo esempio, lo spazio campionario Ω = {e1 , e2 , . . . , en } `e equiprobabile, dobbiamo porre p(ei ) = n1 per ogni i. Per un evento E contenente k elementi vale quindi 1 1 1 k ”casi favorevoli” p(E) = + + . . . + = . n n n n ”casi possibili” | {z } k volte Per spazi equiprobabili finiti, la definizione assiomatica ci riconduce quindi forzatamente alla definizione Laplaciana! 5. Teoremi sulla probabilit` a Ricaviamo ora dagli assiomi di Kolmogorov alcune utili conseguenze. Teorema 2: sia Ω uno spazio campionario, e E ⊆ Ω. (i) (probabilit`a dell’evento impossibile) p(∅) = 0 ; (ii) (probabilit`a dell’evento complementare) p(E) = 1 − p(E). Dimostrazione: (i) Dato che Ω = Ω ∪ ∅ e Ω ∩ ∅ = 0, (cio`e: Ω `e l’unione disgiunta di Ω e ∅) per (p3 ) deve valere 1 = p(Ω) = p(Ω ∪ ∅) = p(Ω) + p(∅) = 1 + p(∅) ⇐⇒ 1 = 1 + p(∅) e quindi p(∅) = 0. (ii) Dato che Ω = E ∪ E e E ∩ E = 0, (cio`e: Ω `e l’unione disgiunta di E e E) per (p3 ) deve valere E Ω 1 = p(Ω) = p(E ∪ E) = p(E) + p(E) E e quindi p(E) = 1 − p(E) Esempi 1) Considera l’esperimento casuale ”lancio di due dadi” (equi), e l’evento E: ”la somma dei punti `e superiore a 10”. Allora potremmo scrivere E = {5 + 6, 6 + 5, 6 + 6}, e quindi 3 1 p(E) = 2 = ; 6 12 per l’evento E: ”la somma dei punti `e al massimo 10” varr`a quindi p(E) = 1 − p(E) = 1 − 1 11 = 12 12 . Come gi`a mostra il precedente esempio, la relazione tra p(E) e p(E) pu`o rivelarsi molto utile nei casi in cui la probabilit`a dell’evento complementare `e pi` u semplice da calcolare. Calcolo delle probabilit` a, corso scientifico (V0.1) 73 LiLu1, 3N (Luca Rovelli) 2) Lanciando 6 monete, qual `e la probabilit`a di ottenere almeno 2 volte ”testa”? Sia E l’evento ”almeno due volte testa”, e siano E2 , E3 ,. . . gli eventi ”esattamente due volte testa”, ”esattamente tre volte testa” e cos`ı via. Allora vale E = E2 ∪ E3 ∪ E4 ∪ E5 ∪ E6 (unione disgiunta), e quindi, ragionando direttamente, 6 6 6 6 6 p(E) = p(E2 ) + p(E3 ) + p(E4 ) + p(E5 ) + p(E6 ) = = 15 + 20 + 15 + 6 + 1 57 = 64 64 2 26 + 3 26 + 4 26 + 5 26 + 6 26 . Ragionando invece sul fatto che vale E: ”nessuna oppure una testa”, avremmo potuto calcolare innanzitutto la probabilit`a dell’evento complementare E = E0 ∪E1 : 6 6 7 1+6 = p(E) = p(E0 ) + p(E1 ) = 06 + 16 = 2 2 64 64 e quindi p(E) = 1 − 7 64 = 57 . 64 3) Un celebre esempio in cui conviene ricorrere alla probabilit`a dell’evento complementare `e il cosiddetto paradosso dei compleanni: in un gruppo di persone, qual `e la probabilit`a che almeno due festeggino il compleanno lo stesso giorno? Sia n ≤ 365 il numero di persone prese in considerazione6 . Per risolvere il problema, trascuriamo gli anni bisestili e supponiamo che un compleanno possa cadere con la stessa probabilit`a in un qualsiasi giorno. Sia E l’evento ”almeno due compleanni coincidono”; grazie alla definizione Laplaciana, per l’evento E: ”tutti gli n compleanni cadono in giorni diversi” vale p(E) = Dn365 365 Dn = 365 · 364 · . . . · (365 − n + 1) 365n (si tratta di distribuire n oggetti diversi su 365 posti). Quindi, la probabilit`a cercata `e pari a p(E) = 1 − p(E) = 1 − Dn365 365 Dn = 365n − 365 · 364 · . . . · (365 − n + 1) 365n . Per n = 20 vale p(E) ∼ = 0, 411; in una classe di 20 allievi `e quindi abbastanza probabile che (almeno) due compleanni coincidano. Inoltre, per n = 22 vale p(E) ∼ = 0, 476 e per n = 23 vale p(E) ∼ u = 0, 507: a partire da 23 persone, `e pi` probabile che due compleanni coincidano piuttosto che tutte le date siano differenti! Il grafico a destra mostra la probabilit`a di p(E) in funzione di n (con n ≤ 100); la sua crescita repentina `e evidente. 6 con n > 365 due compleanni coinciderebbero di sicuro, in virt` u del principio dei cassetti: se k + 1 oggetti sono riposti in k cassetti, un cassetto conterr`a pi` u di un oggetto Calcolo delle probabilit` a, corso scientifico (V0.1) 74 LiLu1, 3N (Luca Rovelli) Proseguiamo con un risultato di natura tecnica: Lemma 3: sia Ω uno spazio campionario, e A, B ⊆ S. Allora vale p(A \ B) = p(A) − p(A ∩ B) . Dimostrazione: dal momento che A = A \ B ∪ A ∩ B (unione disgiunta), vale p(A) = p A \ B + p A ∩ B A B Ω e la tesi segue immediatamente Occupiamoci ora, dati due eventi A e B, della probabilit`a che si avveri A oppure B (cio`e che almeno uno dei due eventi si verifichi). A B Ω L’intuizione ci fa supporre che la somma p(A) + p(B) contenga due volte la probabilit`a dell’intersezione A ∩ B (cio`e che si avverino entrambi gli eventi A e B). Ci`o ci conduce naturalmente al seguente risultato (di cui diamo comunque una dimostrazione formale): Teorema 4: siano A e B due eventi di uno spazio campionario Ω. Allora vale p(A ∪ B) = p(A) + p(B) − p(A ∩ B) . Dimostrazione: dato che A ∪ B = (A \ B) ∪ B e (A \ B) ∩ B = ∅, da(p3 ) ricaviamo, con l’ausilio del Lemma 3, p(A ∪ B) = p(A \ B) + p(B) = p(A) − p(A ∩ B) + p(B) Esempio: estraggo una carta da un mazzo di 52; siano A: ”la carta `e di picche” e B: ”la carta `e una figura”. Calcola la probabilit`a di C: ”la carta `e di picche oppure una figura”. 12 3 Qui vale chiaramente p(A) = 13 = 14 e p(B) = 52 = 13 ; per l’evento A ∩ B: ”la carta `e 52 3 una figura di picche” vale inoltre p(A ∩ B) = 52 , e infine p(C) = p(A ∪ B) = p(A) + p(B) − p(A ∩ B) = 1 3 3 13 + 12 − 3 22 11 + − = = = 4 13 52 52 52 26 . In effetti, 22 (= 13 + 12 − 3) carte del mazzo sono figure oppure carte di picche. Calcolo delle probabilit` a, corso scientifico (V0.1) 75 LiLu1, 3N (Luca Rovelli) 6. Probabilit` a condizionata e indipendenza Esempi introduttivi 1) Lancio un dado (equo). Sapendo che l’esito `e pari, con quale probabilit`a esso sar`a un numero primo? La risposta `e immediata: il fatto che l’esito sia pari riduce, per cos`ı dire, lo spazio campionario da {1, 2, 3, 4, 5, 6} a {2, 4, 6}. Tra gli eventi elementari rimasti, l’unico a rappresentare un numero primo `e {2}. Quindi, p = 13 . 2) Il paradosso del secondo figlio7 : ho due figli, e almeno uno di essi `e maschio; con che probabilit`a lo sono entrambi? Di primo acchito, potrebbe sembrare che l’informazione fornita non cambi la probabilit`a in questione. Consideriamo invece i sessi dei due figli in ordine di nascita: a priori, essi danno luogo allo spazio campionario {♂♂, ♂♀, ♀♂, ♀♀}, e l’informazione riduce tale spazio a {♂♂, ♂♀, ♀♂}. La probabilit`a cercata `e quindi pari a 13 . Pi` u in generale, siano A e B due eventi di uno spazio campionario Ω. Supponiamo di voler determinare la probabilit`a di B sapendo che A si `e verificato, indicata con p(B|A) (leggi ”B dato A”). Come sopra, ragionando sul fatto che la condizione ”A si `e verificato” attribuisce ad A il ruolo di ”nuovo” spazio campionario, possiamo motivare la seguente Ω B A A∩B Definizione 5: sia Ω uno spazio campionario, e A, B ⊆ Ω. Allora la probabilit` a condizionata di B dato A `e pari a p(B|A) = p(A ∩ B) p(A) . Altri esempi 1) Come cambia la probabilit`a del precedente es. 1 se il dado `e truccato in modo tale che le facce 1, 2 e 3 compaiano con frequenza doppia? Occorre innanzitutto definire una nuova misura di probabilit`a su Ω = {1, 2, 3, 4, 5, 6}; se x = p({4}) = p({5}) = p({6}) deve valere p({1})+p({2})+p({3})+p({4})+p({5})+p({6}) = 2x+2x+2x+x+x+x = 1 ⇐⇒ x = 1 , 9 quindi p({1}) = 2 2 2 1 1 1 , p({2}) = , p({3}) = , p({4}) = , p({5}) = , p({6}) = . 9 9 9 9 9 9 7 proposto nel 1959 dal matematico statunitense Martin Gardner (1914-2010) nella rubrica di giochi matematici di Scientific American (l’edizione americana di Le Scienze) Calcolo delle probabilit` a, corso scientifico (V0.1) 76 LiLu1, 3N (Luca Rovelli) Con A: ”l’esito `e pari” e B: ”l’esito `e primo” calcoliamo quindi p(A ∩ B) p({2}) p(B|A) = = = p(A) p({2}) + p({4}) + p({6}) 2 9 2 9 1 9 + + 1 9 = 1 2 . 2) Da un’urna contenente 10 sferette rosse e 5 verdi vengono effettuate 2 estrazioni (senza reimmissione). Sapendo che la prima estratta `e rossa, con quale probabilit`a la seconda sar`a verde? Con A: ”la prima estratta `e rossa” e B: ”la seconda estratta `e verde” vale p(A) = 2 3 , p(A ∩ B) = e p(B|A) = p(A ∩ B) = p(A) 10 · 5 50 5 = = 15 D2 210 21 5 21 2 3 = 5 3 5 · = 21 2 14 , . Potremmo (giustamente) obiettare che tale risultato `e ovvio, e non richiede certamente le operazioni aritmetiche effettuate: togliendo una sferetta rossa dall’urna, abbiamo ridotto a 14 il numero di sferette, di cui 5 verdi! In effetti, molto spesso `e il calcolo di p(A ∩ B) a risultare pi` u problematico, e quindi la legge della probabilit`a condizionata si rivela utile per quest’ultimo: Teorema 5 (Teorema del prodotto, o della probabilit`a composta): sia Ω uno spazio campionario, e A, B ⊆ Ω. Allora vale p(A ∩ B) = p(A) · p(B|A) . Esempio: una confezione di 12 lampadine ne contiene 4 difettose. Con quale probabilit`a due lampadine estratte a caso (senza reimmissione) saranno entrambe utilizzabili? Con A: ”la prima `e utilizzabile” e B: ”la seconda `e utilizzabile” vale A ∩ B: ”entrambe sono utilizzabili. Calcoliamo quindi p(A ∩ B) = p(A) · p(B|A) = dove p(B|A) = la prima lo `e. 7 11 8 7 14 · = 12 11 33 rappresenta la probabilit`a che la seconda sia utilizzabile sapendo che Naturalmente il teorema del prodotto `e generalizzabile all’intersezione di pi` u eventi: ad esempio p(A ∩ B ∩ C) = p (A ∩ B) ∩ C = p(A ∩ B) · p(C|A ∩ B) = p(A) · p(B|A) · p(C|A ∩ B) cio`e p(A ∩ B ∩ C) = p(A) · p(B|A) · p(C|A ∩ B) Calcolo delle probabilit` a, corso scientifico (V0.1) 77 LiLu1, 3N (Luca Rovelli) e, pi` u in generale, per una famiglia A1 , A2 , . . . , An di eventi p(A1 ∩ A2 ∩ A3 ∩ . . . ∩ An ) = p(A1 )p(A2 |A1 )p(A3 |A1 ∩ A2 ) . . . p(An |A1 ∩ A2 ∩ . . . ∩ An−1 ) (la dimostrazione rigorosa di questa affermazione fa uso del principio di induzione, vedi Cap. V). Esempio: nella situazione dell’esempio precedente, qual `e la probabilit`a di estrarre 2 lampadine funzionanti seguite da due difettose? Con A1 : ”la I `e OK”, A2 : ”la II `e OK”, A3 : ”la III `e difettosa”, A4 : ”la IV `e difettosa” vale p(A1 ∩ A2 ∩ A3 ∩ A4 ) = p(A1 )p(A2 |A1 )p(A3 |A1 ∩ A2 )p(A4 |A1 ∩ A2 ∩ A3 ) 28 ∼ 8 7 4 3 · · · = = = 0, 057 . 12 11 10 9 495 Consideriamo ora il caso in cui il verificarsi di un evento A non influenza il verificarsi di un ulteriore evento B. Allora `e chiaro che vale p(B|A) = p(B). Ci`o motiva la seguente Definizione 6: due eventi A e B sono detti stocasticamente indipendenti (o anche solo indipendenti) se vale p(A ∩ B) = p(A) · p(B) . Nota che la definizione, in linea con l’approccio assiomatico, fa riferimento soltanto alle propriet`a aritmetiche di p (e quindi non al modo in cui p viene definito concretamente); in realt`a, per la sua applicazione noi dedurremo spesso l’indipendenza dalla situazione concreta (dedurremo cio`e l’indipendenza stocastica da un’indipendenza causale). Tipicamente, vi `e indipendenza nel caso di estrazioni ripetute con reimmissione. Esempio: consideriamo nuovamente la situazione iniziale dell’esempio 3: un’urna contiene 15 sferette di cui 10 sono rosse e 5 verdi. a) Con che probabilit`a 2 sferette estratte di seguito con reimmissione sono entrambe rosse? Se poniamo A: ”la prima `e rossa” e B: la seconda `e rossa” possiamo supporre che gli eventi A e B siano indipendenti, e pertanto p(A ∩ B) = p(A) p(B) = 1 1 1 · = 3 3 9 . b) Estraggo, con reimmissione, 5 sferette. Con quale probabilit`a le prime 3 saranno verdi e le rimanenti due rosse? Anche in questo caso, l’indipendenza dei 5 eventi ”la prima `e verde”, ”la seconda `e verde” e cos`ı via ci conduce, per l’esito che potremmo indicare con V V V RR, a 3 2 1 1 1 2 2 1 2 22 4 ∼ p({V V V RR}) = · · · · = · = 5 = = 0, 016 . 3 3 3 3 3 3 3 3 243 Calcolo delle probabilit` a, corso scientifico (V0.1) 78 LiLu1, 3N (Luca Rovelli) c) Estraggo, con reimmissione, 5 sferette. Con quale probabilit`a esattamente 2 di esse saranno verdi? L’evento ”esattamente 2 sono verdi” si pu`o realizzare in 52 modi (come gli anagrammi di ”VVRRR”); ognuno di essi ha la probabilit`a calcolata al punto b), e trattandosi di eventi incompatibili le singole probabilit`a vanno sommate. Per l’evento E: ”esattamente 2 sono verdi” vale quindi 3 2 40 ∼ 5 1 2 4 = p(E) = · = 10 · = 0, 16 . 3 3 243 243 2 Osservazione: possiamo procedere in modo analogo ogni qual volta vi `e la ripetizione di un esperimento con due soli possibili esiti (fra loro complementari) in maniera tale che le prove ripetute diano luogo a eventi indipendenti. Pi` u tardi (IV.11), caratterizzeremo questo tipo di situazioni mediante la cosiddetta distribuzione binomiale. d) Quante sferette devo estrarre, con reimmissione, affinch´e la probabilit`a che almeno una di esse sia verde superi il valore 0,99? Sia En : ”in n estrazioni, almeno una sferetta `e verde”; allora vale En : ”in n estrazioni u semplice da calcolare; tutte le sferette sono rosse”. La probabilit`a di En `e molto pi` in effetti vale n 2 p(En ) = 1 − p(En ) = 1 − 3 e quindi p(En ) ≥ 0, 99 ⇐⇒ ⇐⇒ n 2 1− ≥ 0, 99 3 2 n log ≤ log 0, 01 3 ⇐⇒ ⇐⇒ n 2 ≤ 0, 01 3 −2 ∼ n≥ = 11, 4 . log 2 − log 3 Occorrono quindi almeno 12 estrazioni. A volte, l’indipendenza pu`o essere abbinata con il Teorema 4 (pag. 75). Esempio: un tiratore fa centro il 50% delle volte; un secondo tiratore fa centro il 40% delle volte. Se sparano entrambi sul bersaglio, ... a) ... con quale probabilit`a entrambi faranno centro? Possiamo supporre che gli eventi A: ”il primo fa centro” e B: ”il secondo fa centro” siano indipendenti; allora la probabilit`a cercata `e p(A ∩ B) = p(A) · p(B) = 1 2 1 · = = 0, 2 . 2 5 5 b) ... con quale probabilit`a almeno uno di loro far`a centro? Si tratta della probabilit`a dell’evento A ∪ B; con il Teorema 4 avremo 1 2 1 1 1 7 p(A∪B) = p(A)+p(B)−p(A∩B) = p(A)+p(B)−p(A)·p(B) = + − = + = = 0, 7 2 5 5 2 5 10 Calcolo delle probabilit` a, corso scientifico (V0.1) 79 LiLu1, 3N (Luca Rovelli) . 7. Il teorema della probabilit` a totale Esempio: ho due monete. La prima `e equa, mentre la seconda `e truccata in modo tale che l’esito ”testa” si verifichi con frequenza pari al 75%. Scelgo a caso una moneta e la lancio. Con quale probabilit`a l’esito sar`a ”croce”? Sia A: ”scelgo la moneta equa”, B: ”scelgo la moneta truccata”, T : ”l’esito `e testa” e C: ”l’esito `e croce”. Scrivendo C come unione disgiunta ricaviamo p(C) = p (C ∩ A) ∪ (C ∩ B) = p(C ∩ A) + p(C ∩ B) (ottengo croce se scelgo la prima moneta e ottengo croce oppure se scelgo la seconda e ottengo croce); grazie al Teorema 5 vale poi 1 1 1 1 1 1 3 p(C ∩ A) + p(C ∩ B) = p(A) p(C|A) + p(B) p(C|B) = · + · = + = = 0, 375 . 2 4 2 2 8 4 8 Osservazione: gli eventi A e B rappresentano una partizione dello spazio campionario, sono cio`e incompatibili e tali che Ω = A ∪ B. Essi inducono quindi un’unione disgiunta di ogni evento di Ω: Ω C ∩A C ∩B A C = (C ∩ A) ∪ (C ∩ B) B La situazione pu`o essere efficacemente rappresentata con l’ausilio di un diagramma ad albero; la scrittura al disopra dei rami delle corrispondenti probabilit`a facilita il calcolo di p(C): P mmm PPPPP 1 mmm PP2P m m m PPP mmm m PP m mm A@ B@ @@ 1 @@ 1 1 3 @@4 @@2 2 4 @@ @@ 1 2 T C T p(C) = 1 1 1 1 3 · + · = . 2 4 2 2 8 C L’idea pu`o essere facilmente generalizzata: se la collezione di eventi {A1 , A2 , . . . , An } rappresenta una partizione di uno spazio campionario, se vale cio`e Ω = A1 ∪ A2 ∪ . . . ∪ An con Ai ∩ Aj = ∅ per i 6= j allora ogni evento B ⊆ Ω viene ”partizionato” a sua volta: Ω A1 A2 ··· B Calcolo delle probabilit` a, corso scientifico (V0.1) An B = (B∩A1 )∪(B∩A2 )∪. . .∪(B∩An ) 80 LiLu1, 3N (Luca Rovelli) Assieme all’assioma (p3 ) e al Teorema 5 si ricava immediatamente il Teorema 6 (teorema della probabilit`a totale): sia Ω uno spazio campionario, {A1 , A2 , . . . , An } una sua partizione e B ⊆ Ω un evento. Allora vale p(B) = p(B ∩ A1 ) + p(B ∩ A2 ) + . . . + p(B ∩ An ) = p(A1 ) p(B|A1 ) + p(A2 ) p(B|A2 ) + . . . + p(An ) p(B|An ) . Esempio: un certo manufatto viene prodotto da 3 fabbriche; la prima delle tre garantisce il 50% della produzione, di cui il 93% di prima qualit`a; la seconda garantisce il 30% della produzione, di cui il 99% di prima qualit`a, la terza garantisce il 20% della produzione, di cui il 95% di prima qualit`a. Con che probabilit`a un manufatto scelto a caso tra l’intera produzione sar`a di prima qualit`a? Definiamo innanzitutto i 3 eventi A1 : ”il pezzo proviene dalla I fabbrica”, A2 : ”il pezzo proviene dalla II fabbrica”, A3 : ”il pezzo proviene dalla III fabbrica”. Allora vale p(A1 ) = 1 50 = 100 2 , p(A2 ) = 30 3 = 100 10 , p(A3 ) = 20 1 = 100 5 . Con B: ”il pezzo `e di prima qualit`a” sono altres`ı note le probabilit`a condizionate: p(B|A1 ) = 93 100 , p(B|A2 ) = 99 100 , p(B|A3 ) = 95 19 = 100 20 . Non ci resta che calcolare p(B) = p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + p(A3 )p(B|A3 ) 1 93 3 99 1 19 119 = · + · + · = = 0, 952 (= 95, 2%) . 2 100 10 100 5 20 125 E direttamente con un diagramma ad albero: eeeee YYYYYYYYYYY YYYYYY 15 eeeeee e e e e e 3 YYYYYY e e e e e YYYYYY 10 eee e e e e YYY e eee III fabbr. I fabbr. II fabbr. FF GG HH s 93 99 19 rr ss HH FF GG r s ss r s HH 100 ss 100 20 F G r s r s F G s HH r s F G s r s F G s HH r s FF GG s r s H 1 2 I qual. no p(”I qualit`a”) = no I qual. I qual. 1 93 3 99 1 19 119 · + · + · = = 0, 952 . 2 100 10 100 5 20 125 Calcolo delle probabilit` a, corso scientifico (V0.1) 81 LiLu1, 3N (Luca Rovelli) no 8. Il teorema di Bayes Ci occupiamo ora della cosiddetta probabilit`a delle cause, riutilizzando in parte gli esempi del paragrafo precedente. Iniziamo con un semplice risultato, che mette in relazione la probabilit`a condizionata di A dato B con la probabilit`a condizionata di B dato A: Lemma 7 : siano A e B due eventi di uno spazio campionario Ω. Allora vale p(A|B) = p(A) · p(B|A) p(B) risp. p(B|A) = p(B) · p(A|B) p(A) . Dimostrazione: segue da p(A ∩ B) = p(A) · p(B|A) = p(B) · p(A|B) Esempio: ho due monete. La prima `e equa, mentre la seconda `e truccata in modo tale che l’esito ”testa” si verifichi con frequenza pari al 75%. Scelgo a caso una moneta e la lancio. Ottengo ”testa”. Con quale probabilit`a si trattava della moneta truccata? Sia A: ”scelgo la moneta equa”, B: ”scelgo la moneta truccata”, T : ”l’esito `e testa” e C: ”l’esito `e croce”. Grazie al Lemma 7 possiamo ricondurre il calcolo di p(B|T ) (cio`e della probabilit`a che la moneta sia truccata sapendo che l’esito `e ”testa”) al calcolo di p(T |B) (cio`e della probabilit`a che l’esito sia ”testa” sapendo che la moneta `e truccata): p(B|T ) = p(B) · p(T |B) p(T ) . ` gi`a noto che vale p(B) = 1 e p(T |B) = 3 ; per il calcolo di p(T ) sfruttiamo un diaE 2 4 gramma ad albero (applichiamo cio`e implicitamente il Teorema 6): n RRRRR nnn RRR 21 n n RRR nn n RRR n n RRR n n n A; B ~ ;;; 1 ;; 1 1 3 ~ ;; 4 ;; 2 2 ~~ 4 ;; ;; ~~ ; ;; ~ ; 1 2 T C T p(T ) = 1 3 1 1 5 · + · = . 2 4 2 2 8 C (chiaro: si tratta dell’evento complementare all’evento C di pag. 80!). 1 1 · p(B) · p(T |B) 1 8 2 Vale quindi p(B|T ) = = 252 = · = . p(T ) 4 5 5 8 Osservazione: dal momento che gli eventi A e B rappresentano una partizione dello spazio campionario, avremmo potuto tener conto direttamente della ”formula” per la probabilit`a totale, e quindi calcolare p(B|T ) = p(B) · p(T |B) = p(A)p(T |A) + p(B)p(T |B) 1 2 · 1 1 · 2 2 3 + 12 4 · 1 2 = 2 5 (nota che il diagramma ad albero contiene tutte le informazioni necessarie!). Calcolo delle probabilit` a, corso scientifico (V0.1) 82 LiLu1, 3N (Luca Rovelli) Ragionando in modo analogo con una partizione qualsiasi ricaviamo immediatamente il seguente risultato: Teorema 8 : sia {A1 , . . . , Ak } una partizione di uno spazio campionario Ω, e sia B ⊆ Ω. Allora vale, per k = 1, . . . , n, p(Ak |B) = p(Ak ) · p(B|Ak ) p(Ak ) · p(B|Ak ) = p(B) p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + . . . + p(An )p(B|An ) . Esempio: un certo manufatto viene prodotto da 3 fabbriche; la prima delle tre garantisce il 50% della produzione, di cui il 93% di prima qualit`a; la seconda garantisce il 30% della produzione, di cui il 99% di prima qualit`a, la terza garantisce il 20% della produzione, di cui il 95% di prima qualit`a. Ho acquistato un manufatto scadente. Con che probabilit`a esso proveniva dalla prima fabbrica? Siano nuovamente A1 : ”il pezzo proviene dalla I fabbrica”, A2 : ”il pezzo proviene dalla II fabbrica”, A3 : ”il pezzo proviene dalla III fabbrica”, e sia B: ”il pezzo `e scadente”. La probabilit`a cercata `e p(A1 |B). Rappresentiamo la situazione con un diagramma ad albero: eeeee YYYYYYYYYYY YYYYYY 15 eeeeee e e e e e YYYYYY 3 eeee e e e YYYYYY 10 e e eee YYYY eeeeee I fabbr. II fabbr. III fabbr. II II II II 7 II 1 II 1 uu uu vv 93 99 19 u u v I I II20 100 vv 100 100 uu 100 20 uu I I I u u I v II I II I uu vv uu II u v u I uu vv uu I qual. I qual. I qual. scad. scad. scad. 1 2 Calcoliamo p(A1 |B) = = p(A1 ) · p(B|A1 ) p(A1 )p(B|A1 ) + p(A2 )p(B|A2 ) + p(A3 )p(B|A3 ) 1 2 · 7 100 + 1 · 7 2 100 3 · 1 10 100 1 5 + · 1 20 = 7 125 35 ∼ · = = 0, 73 . 200 6 48 Un altro celebre esempio relativo all’applicazione del teorema di Bayes `e il paradosso delle tre scatole, proposto dal matematico francese Joseph Bertrand nel suo Calcul des probabilit´es (1889): sono date tre scatole, ognuna delle quali contiene due monete. La prima contiene due monete d’oro, la seconda due d’argento e la terza una moneta d’oro ` d’oro. Con che e una d’argento. Scelgo a caso una scatola ed estraggo una moneta. E probabilit`a lo sar`a anche la seconda moneta della stessa scatola? Siano O: ”la moneta estratta `e d’oro”, A: ”la moneta estratta `e d’argento”, OO: ”ho scelto la prima scatola”, AA: ”ho scelto la seconda” e OA: ”ho scelto la terza”. La probabilit`a cercata `e p(OO|O), cio`e la probabilit`a che la scatola scelta sia la prima sapendo che la moneta estratta `e d’oro. Calcolo delle probabilit` a, corso scientifico (V0.1) 83 LiLu1, 3N (Luca Rovelli) Rappresentiamo la situazione per mezzo di un diagramma ad albero: gg WWWWWWW ggggg WWWWW 13 g g g g WWWWW 1 gg g g g g WWWWW 3 ggg g g WWW g g g OA AA> OO> { >> >> ~ ~ >>> 1 1 { ~ ~ >>1 >>0 >> 2 0 ~~ 1 {{{ 2 ~~ >> >> >> { ~~ ~~ > >> >> ~ ~ {{ > ~ ~ 1 3 O A O A O A e calcoliamo p(OO|O) = = p(OO) · p(O|OO) p(OO)p(O|OO) + p(AA)p(O|AA) + p(O)p(O|OA) 1 ·1 3 1 1 · 1 + · 0 + 13 · 12 3 3 = 1 1+ 1 2 = 2 3 . La probabilit`a che anche la seconda moneta sia d’oro `e pari a 23 . 9. Variabili aleatorie discrete Spesso le caratteristiche degli esiti di un esperimento casuale vengono espresse per mezzo di valori numerici, ad esempio: 1) il numero di esiti Testa nel lancio di n monete; 2) la somma dei punteggi nel lancio di n dadi; 3) la percentuale di pezzi difettosi prodotti da una fabbrica in un determinato lasso di tempo. Tali valori, associati ai rispettivi esiti, rappresentano funzioni aventi immagini nell’insieme R dei numeri reali. Definizione 7: sia Ω uno spazio campionario. Una funzione X : Ω −→ R `e detta variabile aleatoria (o variabile casuale, o anche variabile stocastica). Se Ω `e un insieme finito o enumerabile la variabile aleatoria si dice discreta. Le variabili aleatorie vengono solitamente indicate da lettere maiuscole (X, Y , Z, W , ...). Esempi 1) Consideriamo il lancio di 3 monete; allora possiamo porre Ω = {T T T, T T C, T CT, T CC, CT T, CT C, CCT, CCC}. Calcolo delle probabilit` a, corso scientifico (V0.1) 84 LiLu1, 3N (Luca Rovelli) Sia X(e) := il numero di T nell’esito e la variabile aleatoria che computa il numero di esiti Testa; vale X(T T T ) = 3 ; X(T T C) = X(T CT ) = X(CT T ) = 2 ; X(T CC) = X(CT C) = X(CCT ) = 1 ; X(CCC) = 0 . 2) Consideriamo il lancio di due dadi, e quindi Ω = {ij |1 ≤ i, j ≤ 6} = {11, 12, 13, . . . , 64, 65, 66} . Sia X(ij) := i + j la variabile aleatoria relativa alla somma dei due punteggi. Allora essa assumer`a valori nell’insieme {1, 2, . . . , 11, 12}; in particolare, X(11) = 2 , X(12) = X(21) = 3 , X(13) = X(22) = X(31) = 4 , X(14) = X(23) = X(32) = X(41) = 5 , X(15) = X(24) = X(33) = X(42) = X(51) = 6 , X(16) = X(25) = X(34) = X(43) = X(52) = X(61) = 7 , X(26) = X(35) = X(44) = X(53) = X(62) = 8 , X(36) = X(45) = X(54) = X(63) = 9 , X(46) = X(55) = X(64) = 10 , X(56) = X(65) = 11 , X(66) = 12 . 3) Considera il seguente esperimento: lancio una moneta fino al primo esito Testa. Ne risulta uno spazio campionario infinito (ma enumerabile): Ω = {T, CT, CCT, CCCT, CCCCT, . . .} . La variabile aleatoria X(C . CT}) := n | . .{z n rappresenta il ”tempo d’attesa”, cio`e il numero di lanci fino al primo esito T . Vale X(T ) = 1 , X(CT ) = 2 , X(CCT ) = 3 , X(CCCT ) = 4 , . . . Passiamo ora ad un’altra nozione fondamentale. Definizione 8: sia X : Ω → R una variabile aleatoria (discreta). La funzione reale definita da f (x) := p(X = x) che associa ad x ∈ R la probabilit`a che X assuma il valore x `e la distribuzione di probabilit` a della variabile aleatoria X. Se f (x) `e la distribuzione di X, si scrive anche X ∼ f (x). Calcolo delle probabilit` a, corso scientifico (V0.1) 85 LiLu1, 3N (Luca Rovelli) Esempi (v. sopra) 1) Per il lancio di tre monete, se X rappresenta il numero di esiti Testa, vale 1 3 , f (1) = p(X = 1) = , 8 8 3 1 f (2) = p(X = 2) = , f (3) = p(X = 3) = . 8 8 f (0) = p(X = 0) = La distribuzione pu` o efficacemente essere rappresentata per mezzo dell’istogramma a destra. 2) Sia X la somma dei punti nel lancio di tre dadi; tabelliamo i valori della sua distribuzione, e in seguito ne disegniamo l’istogramma: x p(X = x) 2 3 4 5 6 7 8 9 10 11 12 1 36 1 18 1 12 1 9 5 36 1 6 5 36 1 9 1 12 1 18 1 36 3) Sia X il numero di lanci necessari ad ottenere il primo esito Testa; otteniamo x 1 p(X = x) 12 2 3 4 5 1 4 1 8 1 16 1 32 ... ... x 1 e quindi p(X = x) = p({C . CT}}) = | . .{z 2 . x Calcolo delle probabilit` a, corso scientifico (V0.1) 86 LiLu1, 3N (Luca Rovelli) Osservazione: sia Ω uno spazio campionario e X una variabile aleatoria con insieme delle immagini Im(X) = {x1 , x2 , x3 , . . .}. Allora vale certamente (i) f (xi ) = p(X = xi ) ≥ 0 ∀ i (dal momento che rappresentano delle probabilit`a), X (ii) f (x) = f (x1 ) + f (x2 ) + f (x3 ) + . . . = 1 x ∈ Im(X) (dal momento che, complessivamente, gli eventi ”X = xi ” rappresentano la certezza). Tali propriet`a vengono utilizzate per definire assiomaticamente il concetto di distribuzione discreta di probabilit`a. Verifichiamo (ii) per gli esempi trattati sopra: X 1 3 3 1 1) p(X = xi ) = p(X = 0)+p(X = 1)+p(X = 2)+p(X = 3) = + + + = 1 8 8 8 8 x ∈ Im(X) X 2) p(X = xi ) = p(X = 2) + p(X = 3) + p(X = 4) + . . . + p(X = 12) x ∈ Im(X) = 3) 1 2 3 4 5 6 5 4 3 2 1 + + + + + + + + + + =1 36 36 36 36 36 36 36 36 36 36 36 X 1 1 1 1 1 p(X = xi ) = + + + + + ... ; 2 4 8 16 32 x ∈ Im(X) si tratta di una ”somma infinita”, per il cui studio necessiteremo della nozione di limite (in particolare, interpreteremo ”somme infinite” come limiti di somme finite). In questo caso, si tratta di una serie geometrica, cio`e di una somma i cui termini successivi hanno tra loro un rapporto costante ( 12 , qui). Come vedremo, nel nostro caso ci`o conduce a 12 + 41 + 18 + . . . = 1. Non `e difficile convincersi di ci`o suddividendo un segmento di lunghezza unitaria: 1 2 1 4 1 8 1 16 ... 10. Valore atteso e varianza Definizione 9: sia X : Ω → R una variabile aleatoria (discreta), con Im(X) = {x1 , x2 , x3 , . . .}. Il suo valore atteso (o speranza matematica) `e il numero reale indicato con E[X] (o anche con µX ) e definito da X E[X] = xi · p(X = xi ) = x1 · p(X = x1 ) + x2 · p(X = x2 ) + x3 · p(X = x3 ) + . . . i Se X ∼ f (x), possiamo anche scrivere E[X] = X xi f (xi ). i Calcolo delle probabilit` a, corso scientifico (V0.1) 87 LiLu1, 3N (Luca Rovelli) Esempi 1) Sia Ω = {1, 2, 3, 4, 5, 6} lo spazio campionario relativo all’esperimento casuale ”lancio di un dado equo”, e sia X la variabile aleatoria indicante il punteggio di un lancio. Allora vale E[X] = 6 X i · p(X = i) = 1 · p(X = 1) + 2 · p(X = 2) + . . . + 6 · p(X = 6) i=1 1 2 3 4 5 6 1+2+3+4+5+6 21 7 + + + + + = = = = 3, 5 . 6 6 6 6 6 6 6 6 2 = 2) Sia X il numero di esiti Testa nel lancio di tre monete (vedi pag. 84); allora vale E[X] = 4 X i · p(X = i) = 0 · p(X = 0) + 1 · p(X = 1) + 2 · p(X = 2) + 3 · p(X = 3) i=0 = 0· 3 3 1 0+3+6+3 12 3 1 +1· +2· +3· = = = = 1, 5 . 8 8 8 8 8 8 2 3) Sia X la somma dei punti nel lancio di due dadi (vedi pag. 85); allora E[X] = 12 X i · p(X = i) i=2 = 2 · p(X = 2) + 3 · p(X = 3) + . . . + 11 · p(X = 11) + 12 · p(X = 12) = 2 · 1 + 3 · 2 + 4 · 3 + . . . + 11 · 2 + 12 · 1 252 = =7 . 36 36 4) Sia X il numero di lanci di una moneta necessari per ottenere il primo esito Testa (vedi pag. 85); allora il valore atteso `e una ”somma infinita” E[X] = ∞ X i=1 ∞ X i 1 2 3 4 5 6 = + + + + + + ... i · p(X = i) = i 2 2 4 8 16 32 64 i=0 Il suo valore, cio`e il valore cui si avvicina indefinitamente la successione delle somme 4 finite 21 + 42 , 12 + 42 + 38 , 12 + 24 + 38 + 16 ecc. `e pari a 2. Osservazione: proviamo a considerare il valore atteso dal punto di vista frequentista; sia Ω uno spazio campionario finito, e sia X una variabile aleatoria su Ω con Im(X) = {x1 , x2 , . . . , xn } e siano p(X = x1 ) = fn1 , p(X = x2 ) = fn2 , . . . , p(X = x2 ) = fnn le probabilit`a stimate da n ripetizioni dell’esperimento casuale. Allora vale Calcolo delle probabilit` a, corso scientifico (V0.1) 88 LiLu1, 3N (Luca Rovelli) E[X] = n X xi · p(X = i) = i=1 ∞ X xi · i=1 f1 x1 + f2 x2 + . . . fn xn fi = n n . Evidentemente, si tratta della media ponderata degli esiti nelle n ripetizioni dell’esperimento. Per tale motivo, il valore atteso E[X] viene a volte chiamato semplicemente media. Pi` u rigorosamente, dalla legge dei grandi numeri (vedi IV.13) segue che il valore atteso pu`o essere interpretato come il valore a cui si avvicina la media degli esiti se un esperimento casuale viene ripetuto n volte con ”n tendente a infinito”. In particolare, E[X] non `e per forza un valore assumibile dalla variabile aleatoria X, come mostrano gli esempi precedenti (quindi, la denominazione ”valore atteso” non si rivela particolarmente felice...). Introduciamo ora una misura per la dispersione degli esiti in un esperimento casuale. Definizione 10: sia X : Ω → R una variabile aleatoria (discreta), con valore atteso E[X] = µX . (i) La variabile aleatoria (X − µX )2 `e detta scarto quadratico di X. (ii) Il valore atteso di quest’ultima `e la varianza Var(X) = E [(X − µX )2 ]. (iii) La deviazione standardp (o scarto tipo, o anche scarto quadratico medio) di X `e il numero reale S(X) = Var(X). 2 A volte, la deviazione standard viene indicata con σX , e quindi la varianza con σX . Nota che σX viene espressa con la stessa unit`a di misura di X, e ci`o ne rende a volte preferibile l’impiego. Dalla definizione segue immediatamente il Lemma 9: sia X : Ω → R una variabile aleatoria (discreta), con valore atteso E[X] = µ e Im(X) = {x1 , x2 , x3 , . . .}. Allora vale X Var(X) = (xi − µ)2 · p(X = xi ) i = (x1 − µ)2 · p(X = x1 ) + (x2 − µ)2 · p(X = x2 ) + (x3 − µ)2 · p(X = x3 ) + . . . Grazie al lemma (e agli esempi sottostanti) `e possibile intuire perch´e lo scarto quadratico (X −µX )2 `e preferibile al semplice scarto X −µX : utilizzando quest’ultimo la somma consisterebbe di addendi positivi e negativi che annullerebbero vicendevolmente i rispettivi contributi. A tal proposito sarebbe possibile impiegare anche lo scarto assoluto |X − µX |, ma la problematicit`a della funzione x 7→ |x| ne rende sconsigliabile l’utilizzo. Calcolo delle probabilit` a, corso scientifico (V0.1) 89 LiLu1, 3N (Luca Rovelli) Esempi (vedi sopra) 1) Lancio di un dado equo: Ω = {1, 2, 3, 4, 5, 6}, X rappresenta il punteggio di un lancio. Allora vale µX = 3, 5 e Var(X) = (1 − 3, 5)2 p(X = 1) + (2 − 3, 5)2 p(X = 2) + . . . + (6 − 3, 5)2 p(X = 6) 17, 5 ∼ 2, 52 + 1, 52 + 0, 52 + 0, 52 + 1, 52 + 2, 52 = = 2, 92 . 6 6 2 ∼ Quindi vale σX = 2, 92 e σX ∼ = 1, 71. = 2) Sia X il numero di esiti Testa nel lancio di tre monete; allora µX = 1, 5 e Var(X) = (0 − 1, 5)2 p(X = 0) + . . . + (3 − 1, 5)2 · p(X = 3) 1 · 1, 52 + 3 · 0.52 + 3 · 0.52 + 1 · 1, 52 6 3 = = = = 0, 75 . 8 8 4 2 Quindi vale σX = 0, 75 e σX = √ 0, 75 ∼ = 0, 87. 11. La distribuzione binomiale Esempio introduttivo: consideriamo l’esperimento casuale tre lanci di un dado equo. Ad ogni lancio, dichiariamo come un successo un esito 5 oppure 6 e come un insuccesso un esito inferiore a 5. Lo spazio campionario relativo all’esperimento pu`o essere scelto come segue: Ω = {iii, iis, isi, iss, sii, sis, ssi, sss} Sia X : Ω → R la variabile aleatoria indicante il numero di successi. Calcoliamo la distribuzione8 f (k) = p(X = k) di X, e rappresentiamone l’istogramma: k f (k) 8 2 3 3 0 ∼ = 0, 30 3 · 13 · 1 2 2 3 ∼ = 0, 44 3 · 1 2 3 2 · 23 ∼ = 0, 22 1 3 3 3 ∼ = 0, 04 a volte, se X assume valori interi, si preferisce indicarli con k piuttosto che con x Calcolo delle probabilit` a, corso scientifico (V0.1) 90 LiLu1, 3N (Luca Rovelli) Consideriamo ora lo stesso esperimento ma con 50 lanci. Allora per la distribuzione di X vale k 50−k 50 1 2 f (k) = p(X = k) = · · k 3 3 e l’istogramma ha l’aspetto seguente: (nota che il valore massimo di f (k) viene raggiunto per k ∼ = 13 · 50). L’esperimento considerato consiste in una successione di prove tra loro indipendenti aventi tutte la stessa probabilit`a di successo, un cosiddetto processo bernoulliano. Definizione 11 (i) Un esperimento casuale con due soli esiti tra loro complementari (successo e insuccesso) `e detto esperimento di Bernoulli. (ii) Una sequenza di n esperimenti di Bernoulli indipendenti tra loro dove la probabilit`a di successo `e costante `e detta processo di Bernoulli di lunghezza n. L’esempio standard di un processo bernoulliano `e costituito da una sequenza di n estrazioni con reimmissione (osserviamo immediatamente che avremmo potuto sostituire nell’esempio introduttivo il lancio di un dado con l’estrazione da un’urna contenente due palline nere e una bianca, dove quest’ultima rappresenta il ”successo”). Formalizziamo la situazione: sia Ω lo spazio campionario degli esiti di un processo bernoulliano di lunghezza n. Allora possiamo porre n o Ω = ω = ω1 ω2 . . . ωn | ωi ∈ {s, i} (in altre parole: l’insieme di tutte le ”parole” di n lettere scelte tra s e i). Sia inoltre X la variabile aleatoria che indica il numero di successi (che ”conta”, cio`e, il numero di s in una sequenza ω). Allora, vista l’indipendenza, la probabilit`a di k successi `e pari a pk (1 − p)n−k , e per la distribuzione di X possiamo scrivere n k f (k) = p(X = k) = p (1 − p)n−k . k Calcolo delle probabilit` a, corso scientifico (V0.1) 91 LiLu1, 3N (Luca Rovelli) Definizione 12: sia X una variabile aleatoria discreta; essa segue una distribuzione binomiale di parametri n e p se vale n k p(X = k) = Bn,p (k) = p (1 − p)n−k . k In questo caso scriveremo anche X ∼ Bn,p (k). ` immediato verificare che una legge di questo tipo soddisfa gli ”assiomi” per una diE stribuzione di probabilit`a menzionati a pagina 87 : innanzitutto `e chiaro che Bn,p (k) ≥ 0, e inoltre n n X X n k Bn,p (k) = p (1 − p)n−k = (p + 1 − p)n = 1n = 1 k k=0 k=0 per la formula binomiale (vedi Cap. III, pag. 60). Per il valore atteso e la varianza si ha quanto segue: Teorema 10: sia X ∼ Bn,p (x). Allora vale E[X] = np e Var(X) = np(1 − p) . Dimostramo soltanto la prima della due formule. Il valore atteso di X ∼ Bn,p (x) vale n X n k k p (1 − p)n−k k · Bn,p (k) = k · p(X = k) = E[X] = k k=1 k=1 k=0 n X n X (1) (si noti che il termine con k = 0 `e nullo). Trattiamo dapprima il termine k · nk : n n! n(n − 1)! (n − 1)! k = k· =k· =n· = k k!(n − k)! k(k − 1)!(n − k)! (k − 1)!(n − k)! (n − 1)! n−1 = n· =n· ; (k − 1)!((n − 1) − (k − 1))! k−1 inseriamo il risultato in (1); utilizzando il fatto che pk = p · pk−1 si ricava n n X X n−1 n − 1 k−1 k−1 n−k E[X] = n pp (1 − p) = np p (1 − p)n−k k − 1 k − 1 k=1 k=1 . Sostituiamo k − 1 con m (e quindi anche i limiti della sommatoria con 0 e n − 1, e n − k con n − (m + 1) = (n − 1) − m); con l’aiuto della formula binomiale si ottiene n−1 X n−1 m E[X] = np p (1 − p)(n−1)−m = np (p + 1 − p)n−1 = np {z } | m m=0 1 Calcolo delle probabilit` a, corso scientifico (V0.1) 92 LiLu1, 3N (Luca Rovelli) Osservazione: a dire il vero, se interpretiamo E[X] come una media, il risultato E[X] = np `e perfettamente comprensibile. Se p rappresenta la probabilit`a di successo in un esperimento bernoulliano, allora lo si pu`o interpretare (”frequentisticamente”) come la percentuale di successi nella sua ripetizione. In media, ci attenderemo quindi circa n · p successi in n esecuzioni dell’esperimento! Esempio: supponiamo che il 3% di tutti gli smartphone di un dato modello siano difet3 rappresenta la probabilit`a che la scelta di un cellulare a caso (un tosi. Allora p = 100 esperimento bernoulliano!) sia difettoso, e su una scelta di 1000 cellulari ci attenderemo 3 all’incirca 1000 · 100 = 30 pezzi difettosi (nota che, se la produzione `e sufficientemente vasta, potremmo considerare come praticamente indipendenti le estrazioni anche nel caso in cui non vi sia reimmmissione). 12. Altre distribuzioni discrete di probabilit` a Iniziamo dalla cosiddetta distribuzione ipergeometrica. Esempio: in un’urna sono presenti 7 palline bianche e 4 nere. Estraendone 5, qual `e la probabilit`a che esattamente 2 siano bianche? Utilizzando la definizione Laplaciana, computiamo il rapporto tra le estrazioni possibili di 2 bianche tra 7 e 3 nere da 4 e le estrazioni possibili di 5 palline da 11: 4 7 · 3 21 · 4 2 ∼ 2 = = p= = 0, 18 . 11 462 11 5 In generale, si considerano N oggetti, di cui R presentano una data caratteristica C. Estraendone n, senza reimmissione, la variabile aleatoria X indicante il numero di oggetti estratti aventi la caratteristica C segue una distribuzione data da N −R R · p(X = k) = HN,R,n (k) = k N n−k . n Definizione 13: una variabile aleatoria discreta X per cui vale X ∼ HN,R,n segue una distribuzione ipergeometrica di parametri N , R e n. Quindi, una distribuzione ipergeometrica si applica nel caso di estrazioni senza reimmissione. Esempi 1) Nell’esempio introduttivo, vale N = 11, R = 7 , n = 5; abbiamo calcolato 11−7 7 · 5−2 2 ∼ p(X = 2) = H11,7,5 (2) = = 0, 18 . 11 5 Calcolo delle probabilit` a, corso scientifico (V0.1) 93 LiLu1, 3N (Luca Rovelli) 2) quanto vale, nel Lotto svizzero a numeri (6 su 45), la probabilit`a di indovinare quattro numeri estratti? Tra i sei numeri di una griglia, 4 devono appartenere ai 6 estratti e 2 ai rimanenti 39. Quindi, se X indica i numeri azzeccati, vale 39 6 · 2 ∼ 4 = 0, 0014 . p(X = 4) = H45,6,6 (4) = 45 6 Per quanto riguarda valore atteso e varianza, vale il Teorema 11: sia X ∼ HN,R,n . Allora nR E[X] = N nR Var(X) = N e R 1− N N −n N −1 . Ad esempio, per quanto riguarda l’estrazione del lotto, se X rappresenta i numeri azzeccati vale n = 45, R = n = 6 e quindi E[X] = 6·6 = 0, 8. 45 Descriviamo ora un’ulteriore distribuzione discreta, definita per`o su uno spazio campionario infinito ma enumerabile. Esempio: lancio una moneta fino al primo esito Testa. Se X rappresenta il numero di lanci necessari, abbiamo gi`a mostrato (pag. 86) che vale p(X = k) = 21k . Pi` u in generale, si considera la ripetizione indipendente di un esperimento casuale (come un’estrazione senza reimmissione) avente probabilit`a di successo pari a p. Allora, se X rappresenta il ”tempo d’attesa”, cio`e il numero di ripetizioni necessarie al primo successo, vale p(X = k) = Gp (k) = (1 − p)k−1 p (dal momento che a k − 1 insuccessi deve far seguito un successo). Definizione 14: una variabile aleatoria discreta X per cui vale X ∼ Gp segue una distribuzione geometrica di parametro p. Esempio: quanto vale la probabilit`a di ottenere il primo esito 6 dopo 4 lanci di un dado? 5 5 Con p = 1 , calcoliamo p(X = 5) = G 1 (5) = 5 · 1 = 56 ∼ = 0, 067. 6 6 6 6 6 Teorema 12: sia X ∼ Gp . Allora vale E[X] = 1 p e Var(X) = 1−p p2 . Esempio: per quanto riguarda il ”tempo d’attesa” dell’esito 6 nel lancio di un dado, con p = 16 varr`a E[X] = 6 (in media, dovremo attendere 6 lanci). Calcolo delle probabilit` a, corso scientifico (V0.1) 94 LiLu1, 3N (Luca Rovelli) 13. La legge dei grandi numeri Per concludere, menzioniamo un risultato fondamentale che, come abbiamo gi`a fatto notare, attribuisce un significato ben preciso alla nozione di valore atteso. Per la sua comprensione, occorre ancora specificare che due variabili aleatorie X e Y sono dette indipendenti se vale p(X = x e Y = y) = p(X = x) · p(Y = y). Ci`o `e verificato ad esempio nel caso di un processo di Bernoulli, dove gli esperimenti non si influenzano a vicenda. Teorema 13 (la Legge forte dei grandi numeri) Siano X1 , X2 , X3 , . . . variabili aleatorie indipendenti e identicamente distribuite, con E[X1 ] = E[X2 ] = . . . = µ. Sia Sn la variabile aleatoria ottenuta sommando le prime n variabili Xi : n X Sn = X i = X1 + X2 + . . . + Xn . i=1 Allora vale Sn =µ p lim n→∞ n =1 , cio`e: la media delle variabili aleatorie Xi si avvicina al valore atteso µ con probabilit`a pari a 1. Proviamo ad applicare tale teorema nel caso di un processo di Bernoulli. Sia p la probabilit`a di successo e sia Xi la variabile aleatoria che assume il valore 1 se l’i-esimo esito `e un successo e il valore 0 in caso contrario. Allora vale E[Xi ] = 1 · p(Xi = 1) + 0 · p(Xi = 0) = p . {z } | 0 La variabile aleatoria Sn = X1 + . . . + Xn computa il numero complessivo di successi in n ripetizioni dell’esperimento; applicando il Teorema 14 ricaviamo Sn p lim =p =1 , n→∞ n cio`e, in poche parole, al crescere delle ripetizioni dell’esperimento, la frequenza dei successi si avviciner`a a p (con probabilit`a pari a 1). Calcolo delle probabilit` a, corso scientifico (V0.1) 95 LiLu1, 3N (Luca Rovelli)
© Copyright 2024 ExpyDoc