Bayes Inferenz Schätzen und Testen von Hypothesen Helga Wagner Bayes Statistik WS 2010/11 301 Bayes Punktschätzung Entscheidungstheoretischer Ansatz: Wahl des Punktschätzers ist eine Aktion, die möglicherweise mit einem Verlust verbunden ist Eine Verlustfunktion l(a, ϑ) quantifiziert den Verlust, der entsteht, wenn ϑ durch a geschätzt wird. Üblicherweise ist der Verlust 0, wenn a = ϑ, d.h. l(a, a) = 0. und l(a, ϑ) ist monoton wachsend in ϑ. Für gegebene Daten y sind ϑ und damit auch l(a, ϑ) Zufallsvariable. Helga Wagner Bayes Statistik WS 2010/11 302 Bayes Punktschätzung Der erwartete Verlust bezüglich der Posteriori-Verteilung ist E(l(a, ϑ)|y) = Z l(a, ϑ)p(ϑ|y) dϑ. Eine Aktion a∗, die den posteriori erwarteten Verlust minimiert, heisst BayesAktion. Ein Bayes-Schätzer ϑ̂(y) von ϑ minimiert den erwarteten Verlust E(l(ϑ̂(y), ϑ)|y). Helga Wagner Bayes Statistik WS 2010/11 303 Exkurs: Grundbegriffe der statistischen Entscheidungstheorie • Daten y: statistisches Modell mit Stichprobenverteilung p(y|ϑ) und ϑ ∈ Θ • Menge von Aktionen A • Verlustfunktion l(a, ϑ) l :A×Θ (a, ϑ) → → R l(a, ϑ) • Entscheidungsregel d(y), die den Stichprobenraum Y auf die Menge der Aktionen A abbildet d:Y y Helga Wagner Bayes Statistik → → A d(y) WS 2010/11 304 Exkurs: Grundbegriffe der statistischen Entscheidungstheorie Die Eigenschaften der Entscheidungsregel werden charakterisiert durch die Risikofunktion Z R(d, ϑ) = l(d(y), ϑ)p(y|ϑ)dy Da die Risikofunktion als Erwartungswert über den Stichprobenraum definiert ist, wird sie auch frequentistisches Risiko genannt. Mit einer apriori-Verteilung π(ϑ) auf dem Parameterraum Θ ist das Bayes-Risiko Z r(d, π) = R(d, ϑ)π(ϑ)dϑ Eine Entscheidungsregel, die das Bayes-Risiko minimiert, heisst Bayes-Regel, d.h. dπ = arg inf r(d, π) d∈D Die (frequentistische) Bayes-Regel bedingt auf Daten y ist die Bayes-Aktion. Helga Wagner Bayes Statistik WS 2010/11 305 Exkurs: Grundbegriffe der statistischen Entscheidungstheorie • Einen Schätzer, der das Bayes-Risiko r(d, π) minimiert, erhält man wegen r(d, π) = Z Z Y l(d(y), ϑ|y)π(ϑ|y)dϑ p(y)dy = Θ Z r(d, π|y)p(y)dy, Y wenn für jedes y ∈ Y, d(y) so gewählt wird, dass r(d, π|y) minimiert wird. • Reguläre Bayes-Schätzer sind zulässig, d.h. es gibt keinen weiteren Schätzer d∗(y) mit folgenden Eigenschaften: R(d∗, ϑ) ≤ R(d, ϑ) für alle ϑ ∈ Θ und es existiert mindestens ein ϑ∗ ∈ Θ mit R(d∗, ϑ) < R(d, ϑ). Helga Wagner Bayes Statistik WS 2010/11 306 Quadratische Verlustfunktion Für die quadratische Verlustfunktion 0 l(ϑ̂(y), ϑ) = (ϑ̂(y) − ϑ) (ϑ̂(y) − ϑ), ist der optimale Schätzer ϑ̂(y) ist der Posteriori Erwartungswert µ = E(ϑ|y). Helga Wagner Bayes Statistik WS 2010/11 307 Quadratische Verlustfunktion Beweis: Es ist 0 l(a, ϑ) = (a − µ − ϑ + µ) (a − µ − ϑ + µ) = 0 0 0 = (a − µ) (a − µ) − 2(ϑ − µ) (a − µ) + (ϑ − µ) (ϑ − µ), Der Erwartungswert bezüglich der Posteriori-Dichte ist 0 0 E(l(a, ϑ)|y) = (a − µ) (a − µ) + E((ϑ − µ) (ϑ − µ)|y). Das Minimum wird an der Stelle a = µ angenommen und das minimale Risiko ist gleich der Spur der Varianz-Kovarianz-Matrix tr (Var(ϑ|y)). Helga Wagner Bayes Statistik WS 2010/11 308 Lineare Verlustfunktionen Für die asymmetrische Verlustfunktion des Einparameter-Problems l(ϑ̂(y), ϑ) = ( cl(ϑ − ϑ̂(y)), cr (ϑ̂(y) − ϑ), ϑ̂(y) < ϑ, ϑ̂(y) > ϑ, mit postiven Konstanten cl, cr ist der optimale Schätzer das cl/(cr + cl)Perzentil der Posteriori-Verteilung. Spezialfall cl = cr = 1: Die Verlustfunktion ist die absolute Abweichung l(ϑ̂(y), ϑ) = |ϑ̂(y) − ϑ| und der optimale Punktschätzer ist der Posteriori-Median. Helga Wagner Bayes Statistik WS 2010/11 309 Lineare Verlustfunktionen Beweis: Bezeichne P (ϑ|y) die Verteilungsfunktion der Posteriori-Verteilung, dann ist E(l(a, ϑ)|y) = Z a cr (a − ϑ)p(ϑ|y)dϑ + −∞ Z ∞ cl (ϑ − a)p(ϑ|y)dϑ = a Wegen d dx Z b(x) g(x, t)dt = a(x) Z b(x) db(x) da(x) dg(x, t) dt + g(x, b(x)) − g(x, a(x)) dx dx dx a(x) ergibt Ableiten nach a : d E(l(a, ϑ)|y) = cr da Z a −∞ p(ϑ|y)dϑ + 0 − cl Z ∞ p(ϑ|y)dϑ − 0 = a = cr P (a|y) − cl (1 − P (a|y)) = 0. Helga Wagner Bayes Statistik WS 2010/11 310 Die Null-Eins-Verlustfunktion Der optimale Punktschätzer bezüglich der Null-Eins-Verlustfunktion l(ϑ̂(y), ϑ) = ( 0, 1, wenn |ϑ̂(y) − ϑ| ≤ ε, wenn |ϑ̂(y) − ϑ| > ε ist für eine unimodale Posteriori-Verteilung im Grenzfall ε → 0 der Modus ϑ? der Posteriori-Verteilung ( maximum aposteriori estimate = MAP). Beweis: E(l(a, ϑ)|y) = Z a−ε p(ϑ|y)dϑ + −∞ Z ∞ p(ϑ|y)dϑ = 1 − a+ε Z a+ε p(ϑ|y)dϑ a−ε Der erwartete Verlust ist minimal, wenn der Wert des Integrals maximal wird. Dies ist für eine unimodale Posteriori-Verteilung und kleines ε eine ε-Umgebung um den Modus der Verteilung. Helga Wagner Bayes Statistik WS 2010/11 311 Die Null-Eins-Verlustfunktion • Unter der flachen Priori-Verteilung ist der MAP gleich dem ML-Schätzer. • Wegen log p(ϑ|y) = c + log p(y|ϑ) + log p(ϑ) maximiert der MAP die pönalisierte Likelihood mit Penalty log p(ϑ). Helga Wagner Bayes Statistik WS 2010/11 312 Eigenschaften von Bayes Punktschätzern • Bayes Schätzer unter quadratischer Verlustfunktion sind i.A. nicht unverzerrt. Beispiel: Mittelwert der Normalverteilung mn = (1 − ω)m0 + ω ȳ Aber: Erwartungstreue bedeutet eine Mittelung über die Stichprobenverteilung • Posteriori-Modus und Posteriori-Erwartungswert sind nicht invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 313 HPD-Bereiche 100%(1 − α)- HPD-Bereiche • haben minimale Länge unter allen 100%(1 − α)-Kredibilitätsbereiche • müssen nicht zusammenhängend, d.h. ein Intervall, sein • sind nicht invariant bei streng monotonen Transformationen Gleichendige 100%(1 − α)-Kredibilitätsintervalle sind invariant bezüglich streng monotoner Transformation. Helga Wagner Bayes Statistik WS 2010/11 314 Testen von Hypothesen: Entscheidungstheoretischer Ansatz • Daten y: statistisches Modell mit Stichprobenverteilung p(y|ϑ) und ϑ ∈ Θ • Hypothesen: H0 : ϑ ∈ Θ0 und H1 : ϑ ∈ Θ1 Θ0 und Θ1 = Θc0 bilden eine Zerlegung des Parameterraumes Θ • Inferenz über δ = 1Θ1 (ϑ) • Aktionen A = {0, 1} • Verlustfunktion: Null-Eins-Verlust ( 0 l(δ, a) = 1 Helga Wagner Bayes Statistik a=δ a 6= δ WS 2010/11 315 Testen von Hypothesen: Entscheidungstheoretischer Ansatz • Posteriori erwarteter Verlust Z Z p(ϑ|y)dϑ + (1 − a) E(l(a, δ)) = a p(ϑ|y)dϑ = Θ1 Θ0 = aP (ϑ ∈ Θ0|y) + (1 − a)P (ϑ ∈ Θ1|y) Minimieren des posteriori erwarteten Verlustes: ( 1 ∗ a = 0 wenn P (ϑ ∈ Θ1|y) > 0.5 sonst Es wird also die Hypothese mit der größeren Wahrscheinlichkeit gewählt. Helga Wagner Bayes Statistik WS 2010/11 316 Testen von Hypothesen: Entscheidungstheoretischer Ansatz Bei unterschiedlichem Verlust der möglichen Fehler, d.h. der Verlustfunktion a=δ 0 l(a, δ) = c0 a = 1, δ = 0 c1 a = 0, δ = 1 ist der posteriori erwartete Verlust E(l(a, δ)) = c0aP (ϑ ∈ Θ0|y) + (1 − a)c1P (ϑ ∈ Θ1|y) Er wird minimiert durch ( 1 ∗ a = 0 Helga Wagner wenn P (ϑ ∈ Θ1|y) > c0 c0 +c1 = 1 1+c1 /c0 sonst Bayes Statistik WS 2010/11 317 Testen von exakten Hypothesen Testen von exakten Hypothesen, z.B.: H0 : ϑ = ϑ0 und H1 : ϑ 6= ϑ0 ist mit stetigen Priori-Verteilungen nicht möglich =⇒ Priori-Verteilung als Mischung eines Dirac Maßes δϑ0 (ϑ) auf ϑ0,und einer stetigen Komponente ξ(ϑ) p(ϑ) = πδϑ0 (ϑ) + (1 − π)ξ(ϑ) Die Posteriori-Wahrscheinlichkeit für ϑ = ϑ0 ist p(y|ϑ0)π 1 − π m1(y) −1 P (ϑ = ϑ0|y) = = 1+ p(y|ϑ0)π + (1 − π)m1(y) π p(y|ϑ0) R wobei m1(y) = p(y|ϑ)ξ(ϑ)dϑ ist. Helga Wagner Bayes Statistik WS 2010/11 318 Testen von exakten Hypothesen Beispiel: Test von H0 : µ = 0 für N µ, σ Priori-Verteilung: p(µ) = πδ0 + (1 − π)ξ(µ), 2 2 ξ(µ) = f (µ|N 0, τ ) Es gilt: 1 X p p(y|µ)p(µ) m1(y) = = (2πσ 2 )−n/2 Mn/τ 2 exp − ( yi2 /σ 2 − m2n/Mn) p(µ|y) 2 mit Helga Wagner Mn = (n/σ 2 + 1/τ 2)−1 Bayes Statistik und mn = Mnnȳ/σ 2 WS 2010/11 319 Testen von exakten Hypothesen und daher m1(y) = p(y|µ = 0) p Mn/τ 2 exp 1 2 (m2n/Mn) = r ȳ2n2τ 2 σ2 exp σ 2 + nτ 2 2σ 2(σ 2 + nτ 2 ) Für n = 1 gilt 1−π P (µ = 0|y) = 1 + π Helga Wagner Bayes Statistik r −1 σ2 y2τ 2 exp σ2 + τ 2 2σ 2(σ 2 + τ 2) WS 2010/11 320 Testen von exakten Hypothesen Tabelle 16: Einfluß der Priori-Varianz τ 2 : P (µ = 0|y, τ 2) für verschiedene Werte von y und τ 2 (π = 0.5, σ 2 = 1) τ2 1 10 100 105 0 0.586 0.768 0.901 0.997 z0.75=0.67 0.558 0.730 0.889 0.996 y z0.9=1.28 0.484 0.612 0.817 0.993 z0.975= 1.96 0.351 0.367 0.600 0.979 z0.995=2.58 0.212 0.140 0.274 0.920 Lindley-Paradoxon: lim P (µ = 0|y, τ 2 ) → 1 τ 2 →∞ Helga Wagner Bayes Statistik WS 2010/11 321 Bayes Inferenz Asymptotik Helga Wagner Bayes Statistik WS 2010/11 322 Diskrete Asymptotik Sei • ϑ ∈ Θ = {ϑ1, ϑ2, . . . , } mit Priori-Verteilung p(ϑi) = P (ϑ = ϑi) =: pi • ϑt der wahre Parameter. Die Kullbeck-Leibler-Diskrepanz zwischen p(y|ϑt) und p(y|ϑi) ist Z p(y|ϑt) p(y|ϑt) dy = E(log )>0 p(y|ϑt) log p(y|ϑi) p(y|ϑi) für alle i 6= t. Wenn y = (y1, . . . , yn) eine Stichprobe aus p(y|ϑt) ist, gilt lim p(ϑt|y) = 1 n→∞ lim p(ϑi|y) = 0 für alle i 6= t n→∞ Helga Wagner Bayes Statistik WS 2010/11 323 Diskrete Asymptotik Beweis: für festes n ist p(y |ϑ ) Qn pi j=1 p(yj |ϑi ) p(y|ϑi )pi j t =P p(ϑi|y) = = Q p(y |ϑ ) n j i p(y) j=1 p(y |ϑ ) i pi j mit Si = Pk exp(log(pi ) + Si ) =P i exp(log(pi ) + Si ) p(y |ϑ ) j i log j=1 p(y |ϑ ) . j t t Aus dem Gesetz der grossen Zahlen folgt 1 Si = n→∞ n lim Helga Wagner Z p(y|ϑt ) log Bayes Statistik p(y|ϑt ) dy p(y|ϑi ) ( = 0 für i = t < 0 für i 6= t WS 2010/11 324 Diskrete Asymptotik und daher lim Si n→∞ ( = 0 für j = t −∞ für i 6= t. Damit gilt aber lim p(ϑt|y) = n→∞ ( 1 für i = t 0 für i 6= t Ist ϑt ∈ / Θ dann konvergiert die Posteriori-Verteilung zu jenem ϑi ∈ Θ, das die kleinste Kullback-Leibler-Distanz zum wahren Modell hat. Helga Wagner Bayes Statistik WS 2010/11 325 Stetige Asymptotik θtrue=0.02 θtrue=0.25 60 20 N=25 N=25 40 10 20 0 0.02 0.04 0.06 0.08 0.1 60 0 0.2 0.4 0.6 20 N=100 N=100 40 10 20 0 0.02 0.04 0.06 0.08 0.1 60 0 0.2 0.4 0.6 20 N=400 N=400 40 10 20 0 0.02 0.04 0.06 0.08 0.1 0 0.2 0.4 0.6 Abbildung 35: Posteriori-Dichte eines Anteils ϑ bei verschiedenen Stichprobenumfängen unter der flachen Priori-Verteilung (volle Linie) und der B (2, 4)-Priori (strichliert) für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 326 Stetige Asymptotik θtrue=0.02 θtrue=0.25 3000 1000 N=1000000 N=1000000 900 2500 800 700 2000 600 1500 500 400 1000 300 200 500 100 0 0.01 0.015 0.02 0.025 0.03 0 0.2 0.25 0.3 Abbildung 36: Posteriori-Dichte eines Anteils ϑ für eine Stichprobe der Größe n = 106 unter der flachen Priori-Verteilung für zwei verschiedene Werte von ϑ Helga Wagner Bayes Statistik WS 2010/11 327 Stetige Asymptotik Für eine i.i.d. Stichprobe y = (y1, . . . , yn) mit Stichprobenverteilung p(y|ϑ) ist die logarithmierte Posteriori-Verteilung log p(ϑ|y) = log p(ϑ) + log p(y|ϑ) Taylor-Reihenentwicklung um Priori-Modus m0 bzw. ML-Schätzer ϑ̂: 1 log p(ϑ) ≈ log p(m0) − (ϑ − m0)0H0(ϑ − m0) 2 1 log p(y|ϑ) ≈ log p(y|ϑ̂) − (ϑ − ϑ̂)0H(ϑ̂)(ϑ − ϑ̂) 2 wobei H0 und H(ϑ̂) die jeweilige Hesse-Matrix am Modus bzw. an der Stelle des ML-Schätzers ist: 1 ∂ 2 log p(y|ϑ̂) H(ϑ) = − 2 ∂ϑi∂ϑj Helga Wagner Bayes Statistik WS 2010/11 328 Stetige Asymptotik Bem: H(ϑ̂) ist die beobachtete Fisher-Information Unter Regularitätsbedingungen ist dann asymptotisch wobei 1 0 p(ϑ|y) ∝ exp − (ϑ − mn) Hn(ϑ − mn) 2 Hn = H0 + H(ϑ̂) mn = H−1 n (H0m0 + H(ϑ̂)ϑ̂) Für großes n ist also die Posteriori-Verteilung annähernd eine Normalverteilung: ϑ|y ∼ N Helga Wagner Bayes Statistik mn, H−1 n WS 2010/11 329 Stetige Asymptotik Für großes n ist die (feste) Priori-Präzision klein im Vergleich zur beobachteten Fisher-Information, daher gilt ϑ|y ∼ N ϑ̂, H(ϑ̂)−1 Der ML-Schätzer kann also als asymptotischer Bayes-Schätzer interpretiert werden! Helga Wagner Bayes Statistik WS 2010/11 330 Stetige Asymptotik Weitere Approximationen: • Die beobachtete Fisher-Information kann durch die erwartete FisherInformation ersetzt werden: ϑ|y ∼ N ϑ̂, nI(ϑ̂) −1 • Ersetzen des ML-Schätzers durch den Posteriori Modus ϑ?: ? ? p(ϑ|y) ≈ N ϑ , (n · H(ϑ )) Helga Wagner Bayes Statistik −1 WS 2010/11 . 331 Stetige Asymptotik Bemerkungen: • Regularitätsbedingungen: Parameter ϑtrue liegt nicht am Rande des Parameterraums - garantiert, dass Informationsmatrix positiv definit ist • für kleine Stichproben ist die Priori-Verteilung nicht vernachlässigbar • asymptotische Normalverteilung oft erst für sehr große Stichproben • Umparameterisierung kann bessere Approximation ergeben Helga Wagner Bayes Statistik WS 2010/11 332 Posteriori Dichte eines Anteils Für einen Anteil ϑ ist die Likelihood p(y|ϑ) = ϑy (1 − ϑ)1−y und damit log p(y|ϑ) = y log ϑ + (1 − y) log(1 − ϑ), y 1−y d2 log p(y|ϑ) = − − . 2 2 2 dϑ ϑ (1 − ϑ) Die erwartete Fisher-Information ist Y 1−Y 1 d2 log p(Y |ϑ) . ) = Ey ( 2 + )= I(ϑ) = Ey (− dϑ2 ϑ (1 − ϑ)2 ϑ(1 − ϑ) Helga Wagner Bayes Statistik WS 2010/11 333 Posteriori Dichte eines Anteils θtrue=0.02 2 θtrue=0.25 N=25 1 0 0 −1 −1 0.1 0.2 0.3 N=100 3 N=25 1 0.1 0.3 1 1 0 0.4 N=100 2 2 0 0.2 −1 0.02 0.04 0.06 5 0.08 0.1 N=400 4 0.25 0.3 0.35 3 0.4 0.45 N=400 2 3 1 2 0 1 0.01 0.02 0.03 0.22 0.24 0.26 0.28 0.3 0.32 Abbildung 37: Logarithmus der Posteriori-Dichte eines Anteils ϑ (für zwei verschiedene Werte) für verschiedene Stichprobengrößen n bei flacher Prioriverteilung (volle Linie) im Vergleich zur quadrat. Approximation um den Posteriori-Modus (strichliert) Helga Wagner Bayes Statistik WS 2010/11 334 Empirische Bayes-Verfahren Empirische Bayes-Verfahren sind eine Kombination von Bayes und LikelihoodVerfahren, die insbesondere für Random Effects Modelle verwendet werden. Beispiel Eye Tracking: Modell P(Y = y|µ) = n Y i=1 P(Yi = yi|µi), Yi ∼ P (µi) . mit Priori-Verteilung µi ∼ G (a0, b0) Empirischer Bayes Ansatz: die Parameter der Heterogenitätsverteilung (PrioriVerteilung) werden nicht fixiert, sondern aus den Daten geschätzt. im Gegensatz dazu: vollständige Bayes-Analyse: Hyper-Priori-Verteilung auf Parameter der Priori-Verteilung Helga Wagner Bayes Statistik WS 2010/11 335 Beispiel: Eye Tracking Posteriori-Verteilung: yi ∼ NegBin (a0, b0) • Schätzer für die Parameter der Priori-Verteilung aˆ0 und bˆ0 werden durch numerische Maximierung der Posteriori-Verteilung bestimmt â0 = 0.3168 • Berechnung von Helga Wagner und b̂0 = 0.0899 E(µi|xi) = Bayes Statistik â0 + yi b̂0 + 1 WS 2010/11 336 25 * 20 * * 15 ** ** * 10 ** ** ** ** * *** *** *** ** **** ********* ************** ********************************************** 0 5 subjektspezifischer Parameter 30 35 Beispiel: Eye Tracking 0 20 40 60 80 100 Nr. der Person Abbildung 38: Eye Tracking, ML-Schätzer (Kreis, schwarz) und empirisische Bayes-Schätzer (Stern, blau) für die subjektspezifischen Parameter. Die blaue Linie gibt den ML-Schätzer des Priori-Erwartungswertes â0/b̂0 an. Helga Wagner Bayes Statistik WS 2010/11 337
© Copyright 2025 ExpyDoc