Bayes Inferenz Schätzen und Testen von Hypothesen

Bayes Inferenz
Schätzen und Testen von Hypothesen
Helga Wagner
Bayes Statistik
WS 2010/11
301
Bayes Punktschätzung
Entscheidungstheoretischer Ansatz: Wahl des Punktschätzers ist eine Aktion, die
möglicherweise mit einem Verlust verbunden ist
Eine Verlustfunktion l(a, ϑ) quantifiziert den Verlust, der entsteht, wenn ϑ
durch a geschätzt wird.
Üblicherweise ist der Verlust 0, wenn a = ϑ, d.h.
l(a, a) = 0.
und l(a, ϑ) ist monoton wachsend in ϑ.
Für gegebene Daten y sind ϑ und damit auch l(a, ϑ) Zufallsvariable.
Helga Wagner
Bayes Statistik
WS 2010/11
302
Bayes Punktschätzung
Der erwartete Verlust bezüglich der Posteriori-Verteilung ist
E(l(a, ϑ)|y) =
Z
l(a, ϑ)p(ϑ|y) dϑ.
Eine Aktion a∗, die den posteriori erwarteten Verlust minimiert, heisst BayesAktion.
Ein Bayes-Schätzer ϑ̂(y) von ϑ minimiert den erwarteten Verlust
E(l(ϑ̂(y), ϑ)|y).
Helga Wagner
Bayes Statistik
WS 2010/11
303
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie
• Daten y: statistisches Modell mit Stichprobenverteilung p(y|ϑ) und ϑ ∈ Θ
• Menge von Aktionen A
• Verlustfunktion l(a, ϑ)
l :A×Θ
(a, ϑ)
→
→
R
l(a, ϑ)
• Entscheidungsregel d(y), die den Stichprobenraum Y auf die Menge der
Aktionen A abbildet
d:Y
y
Helga Wagner
Bayes Statistik
→
→
A
d(y)
WS 2010/11
304
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie
Die Eigenschaften der Entscheidungsregel werden charakterisiert durch die Risikofunktion
Z
R(d, ϑ) = l(d(y), ϑ)p(y|ϑ)dy
Da die Risikofunktion als Erwartungswert über den Stichprobenraum definiert ist,
wird sie auch frequentistisches Risiko genannt.
Mit einer apriori-Verteilung π(ϑ) auf dem Parameterraum Θ ist das Bayes-Risiko
Z
r(d, π) = R(d, ϑ)π(ϑ)dϑ
Eine Entscheidungsregel, die das Bayes-Risiko minimiert, heisst Bayes-Regel, d.h.
dπ = arg inf r(d, π)
d∈D
Die (frequentistische) Bayes-Regel bedingt auf Daten y ist die Bayes-Aktion.
Helga Wagner
Bayes Statistik
WS 2010/11
305
Exkurs: Grundbegriffe der statistischen Entscheidungstheorie
• Einen Schätzer, der das Bayes-Risiko r(d, π) minimiert, erhält man wegen
r(d, π) =
Z Z
Y
l(d(y), ϑ|y)π(ϑ|y)dϑ p(y)dy =
Θ
Z
r(d, π|y)p(y)dy,
Y
wenn für jedes y ∈ Y, d(y) so gewählt wird, dass r(d, π|y) minimiert wird.
• Reguläre Bayes-Schätzer sind zulässig, d.h. es gibt keinen weiteren Schätzer
d∗(y) mit folgenden Eigenschaften:
R(d∗, ϑ) ≤ R(d, ϑ)
für alle ϑ ∈ Θ
und es existiert mindestens ein ϑ∗ ∈ Θ mit R(d∗, ϑ) < R(d, ϑ).
Helga Wagner
Bayes Statistik
WS 2010/11
306
Quadratische Verlustfunktion
Für die quadratische Verlustfunktion
0
l(ϑ̂(y), ϑ) = (ϑ̂(y) − ϑ) (ϑ̂(y) − ϑ),
ist der optimale Schätzer ϑ̂(y) ist der Posteriori Erwartungswert µ = E(ϑ|y).
Helga Wagner
Bayes Statistik
WS 2010/11
307
Quadratische Verlustfunktion
Beweis: Es ist
0
l(a, ϑ) = (a − µ − ϑ + µ) (a − µ − ϑ + µ) =
0
0
0
= (a − µ) (a − µ) − 2(ϑ − µ) (a − µ) + (ϑ − µ) (ϑ − µ),
Der Erwartungswert bezüglich der Posteriori-Dichte ist
0
0
E(l(a, ϑ)|y) = (a − µ) (a − µ) + E((ϑ − µ) (ϑ − µ)|y).
Das Minimum wird an der Stelle a = µ angenommen und das minimale Risiko
ist gleich der Spur der Varianz-Kovarianz-Matrix tr (Var(ϑ|y)).
Helga Wagner
Bayes Statistik
WS 2010/11
308
Lineare Verlustfunktionen
Für die asymmetrische Verlustfunktion des Einparameter-Problems
l(ϑ̂(y), ϑ) =
(
cl(ϑ − ϑ̂(y)),
cr (ϑ̂(y) − ϑ),
ϑ̂(y) < ϑ,
ϑ̂(y) > ϑ,
mit postiven Konstanten cl, cr ist der optimale Schätzer das cl/(cr + cl)Perzentil der Posteriori-Verteilung.
Spezialfall cl = cr = 1:
Die Verlustfunktion ist die absolute Abweichung l(ϑ̂(y), ϑ) = |ϑ̂(y) − ϑ| und der
optimale Punktschätzer ist der Posteriori-Median.
Helga Wagner
Bayes Statistik
WS 2010/11
309
Lineare Verlustfunktionen
Beweis: Bezeichne P (ϑ|y) die Verteilungsfunktion der Posteriori-Verteilung, dann ist
E(l(a, ϑ)|y) =
Z
a
cr (a − ϑ)p(ϑ|y)dϑ +
−∞
Z
∞
cl (ϑ − a)p(ϑ|y)dϑ =
a
Wegen
d
dx
Z
b(x)
g(x, t)dt =
a(x)
Z
b(x)
db(x)
da(x)
dg(x, t)
dt + g(x, b(x))
− g(x, a(x))
dx
dx
dx
a(x)
ergibt Ableiten nach a :
d E(l(a, ϑ)|y)
= cr
da
Z
a
−∞
p(ϑ|y)dϑ + 0 − cl
Z
∞
p(ϑ|y)dϑ − 0 =
a
= cr P (a|y) − cl (1 − P (a|y)) = 0.
Helga Wagner
Bayes Statistik
WS 2010/11
310
Die Null-Eins-Verlustfunktion
Der optimale Punktschätzer bezüglich der Null-Eins-Verlustfunktion
l(ϑ̂(y), ϑ) =
(
0,
1,
wenn |ϑ̂(y) − ϑ| ≤ ε,
wenn |ϑ̂(y) − ϑ| > ε
ist für eine unimodale Posteriori-Verteilung im Grenzfall ε → 0 der Modus ϑ?
der Posteriori-Verteilung ( maximum aposteriori estimate = MAP).
Beweis:
E(l(a, ϑ)|y) =
Z
a−ε
p(ϑ|y)dϑ +
−∞
Z
∞
p(ϑ|y)dϑ = 1 −
a+ε
Z
a+ε
p(ϑ|y)dϑ
a−ε
Der erwartete Verlust ist minimal, wenn der Wert des Integrals maximal wird. Dies ist für eine
unimodale Posteriori-Verteilung und kleines ε eine ε-Umgebung um den Modus der Verteilung.
Helga Wagner
Bayes Statistik
WS 2010/11
311
Die Null-Eins-Verlustfunktion
• Unter der flachen Priori-Verteilung ist der MAP gleich dem ML-Schätzer.
• Wegen
log p(ϑ|y) = c + log p(y|ϑ) + log p(ϑ)
maximiert der MAP die pönalisierte Likelihood mit Penalty log p(ϑ).
Helga Wagner
Bayes Statistik
WS 2010/11
312
Eigenschaften von Bayes Punktschätzern
• Bayes Schätzer unter quadratischer Verlustfunktion sind i.A. nicht unverzerrt.
Beispiel: Mittelwert der Normalverteilung
mn = (1 − ω)m0 + ω ȳ
Aber: Erwartungstreue bedeutet eine Mittelung über die Stichprobenverteilung
• Posteriori-Modus und Posteriori-Erwartungswert sind nicht invariant bezüglich
streng monotoner Transformation.
Helga Wagner
Bayes Statistik
WS 2010/11
313
HPD-Bereiche
100%(1 − α)- HPD-Bereiche
• haben minimale Länge unter allen 100%(1 − α)-Kredibilitätsbereiche
• müssen nicht zusammenhängend, d.h. ein Intervall, sein
• sind nicht invariant bei streng monotonen Transformationen
Gleichendige 100%(1 − α)-Kredibilitätsintervalle sind invariant bezüglich streng
monotoner Transformation.
Helga Wagner
Bayes Statistik
WS 2010/11
314
Testen von Hypothesen: Entscheidungstheoretischer Ansatz
• Daten y: statistisches Modell mit Stichprobenverteilung p(y|ϑ) und ϑ ∈ Θ
• Hypothesen: H0 : ϑ ∈ Θ0 und H1 : ϑ ∈ Θ1
Θ0 und Θ1 = Θc0 bilden eine Zerlegung des Parameterraumes Θ
• Inferenz über δ = 1Θ1 (ϑ)
• Aktionen A = {0, 1}
• Verlustfunktion: Null-Eins-Verlust
(
0
l(δ, a) =
1
Helga Wagner
Bayes Statistik
a=δ
a 6= δ
WS 2010/11
315
Testen von Hypothesen: Entscheidungstheoretischer Ansatz
• Posteriori erwarteter Verlust
Z
Z
p(ϑ|y)dϑ + (1 − a)
E(l(a, δ)) = a
p(ϑ|y)dϑ =
Θ1
Θ0
= aP (ϑ ∈ Θ0|y) + (1 − a)P (ϑ ∈ Θ1|y)
Minimieren des posteriori erwarteten Verlustes:
(
1
∗
a =
0
wenn P (ϑ ∈ Θ1|y) > 0.5
sonst
Es wird also die Hypothese mit der größeren Wahrscheinlichkeit gewählt.
Helga Wagner
Bayes Statistik
WS 2010/11
316
Testen von Hypothesen: Entscheidungstheoretischer Ansatz
Bei unterschiedlichem Verlust der möglichen Fehler, d.h. der Verlustfunktion


a=δ
0
l(a, δ) = c0
a = 1, δ = 0


c1
a = 0, δ = 1
ist der posteriori erwartete Verlust
E(l(a, δ)) = c0aP (ϑ ∈ Θ0|y) + (1 − a)c1P (ϑ ∈ Θ1|y)
Er wird minimiert durch
(
1
∗
a =
0
Helga Wagner
wenn P (ϑ ∈ Θ1|y) >
c0
c0 +c1
=
1
1+c1 /c0
sonst
Bayes Statistik
WS 2010/11
317
Testen von exakten Hypothesen
Testen von exakten Hypothesen, z.B.:
H0 : ϑ = ϑ0
und H1 : ϑ 6= ϑ0
ist mit stetigen Priori-Verteilungen nicht möglich =⇒ Priori-Verteilung als Mischung eines Dirac Maßes δϑ0 (ϑ) auf ϑ0,und einer stetigen Komponente ξ(ϑ)
p(ϑ) = πδϑ0 (ϑ) + (1 − π)ξ(ϑ)
Die Posteriori-Wahrscheinlichkeit für ϑ = ϑ0 ist
p(y|ϑ0)π
1 − π m1(y) −1
P (ϑ = ϑ0|y) =
= 1+
p(y|ϑ0)π + (1 − π)m1(y)
π p(y|ϑ0)
R
wobei m1(y) = p(y|ϑ)ξ(ϑ)dϑ ist.
Helga Wagner
Bayes Statistik
WS 2010/11
318
Testen von exakten Hypothesen
Beispiel: Test von H0 : µ = 0 für N µ, σ
Priori-Verteilung:
p(µ) = πδ0 + (1 − π)ξ(µ),
2
2
ξ(µ) = f (µ|N 0, τ )
Es gilt:
1 X
p
p(y|µ)p(µ)
m1(y) =
= (2πσ 2 )−n/2 Mn/τ 2 exp − (
yi2 /σ 2 − m2n/Mn)
p(µ|y)
2
mit
Helga Wagner
Mn = (n/σ 2 + 1/τ 2)−1
Bayes Statistik
und
mn = Mnnȳ/σ 2
WS 2010/11
319
Testen von exakten Hypothesen
und daher
m1(y)
=
p(y|µ = 0)
p
Mn/τ 2 exp
1
2
(m2n/Mn) =
r
ȳ2n2τ 2
σ2
exp
σ 2 + nτ 2
2σ 2(σ 2 + nτ 2 )
Für n = 1 gilt
1−π
P (µ = 0|y) = 1 +
π
Helga Wagner
Bayes Statistik
r
−1
σ2
y2τ 2
exp
σ2 + τ 2
2σ 2(σ 2 + τ 2)
WS 2010/11
320
Testen von exakten Hypothesen
Tabelle 16: Einfluß der Priori-Varianz τ 2 : P (µ = 0|y, τ 2) für verschiedene
Werte von y und τ 2 (π = 0.5, σ 2 = 1)
τ2
1
10
100
105
0
0.586
0.768
0.901
0.997
z0.75=0.67
0.558
0.730
0.889
0.996
y
z0.9=1.28
0.484
0.612
0.817
0.993
z0.975= 1.96
0.351
0.367
0.600
0.979
z0.995=2.58
0.212
0.140
0.274
0.920
Lindley-Paradoxon:
lim P (µ = 0|y, τ 2 ) → 1
τ 2 →∞
Helga Wagner
Bayes Statistik
WS 2010/11
321
Bayes Inferenz
Asymptotik
Helga Wagner
Bayes Statistik
WS 2010/11
322
Diskrete Asymptotik
Sei
• ϑ ∈ Θ = {ϑ1, ϑ2, . . . , } mit Priori-Verteilung p(ϑi) = P (ϑ = ϑi) =: pi
• ϑt der wahre Parameter.
Die Kullbeck-Leibler-Diskrepanz zwischen p(y|ϑt) und p(y|ϑi) ist
Z
p(y|ϑt)
p(y|ϑt)
dy = E(log
)>0
p(y|ϑt) log
p(y|ϑi)
p(y|ϑi)
für alle i 6= t.
Wenn y = (y1, . . . , yn) eine Stichprobe aus p(y|ϑt) ist, gilt
lim p(ϑt|y) = 1
n→∞
lim p(ϑi|y) = 0 für alle i 6= t
n→∞
Helga Wagner
Bayes Statistik
WS 2010/11
323
Diskrete Asymptotik
Beweis: für festes n ist
p(y |ϑ )
Qn
pi j=1 p(yj |ϑi )
p(y|ϑi )pi
j t
=P
p(ϑi|y) =
=
Q
p(y
|ϑ
)
n
j
i
p(y)
j=1 p(y |ϑ )
i pi
j
mit Si =
Pk
exp(log(pi ) + Si )
=P
i exp(log(pi ) + Si )
p(y |ϑ )
j i
log
j=1
p(y |ϑ ) .
j
t
t
Aus dem Gesetz der grossen Zahlen folgt
1
Si =
n→∞ n
lim
Helga Wagner
Z
p(y|ϑt ) log
Bayes Statistik
p(y|ϑt )
dy
p(y|ϑi )
(
= 0 für i = t
< 0 für i 6= t
WS 2010/11
324
Diskrete Asymptotik
und daher
lim Si
n→∞
(
= 0 für j = t
−∞ für i 6= t.
Damit gilt aber
lim p(ϑt|y) =
n→∞
(
1 für i = t
0 für i 6= t
Ist ϑt ∈
/ Θ dann konvergiert die Posteriori-Verteilung zu jenem ϑi ∈ Θ, das die
kleinste Kullback-Leibler-Distanz zum wahren Modell hat.
Helga Wagner
Bayes Statistik
WS 2010/11
325
Stetige Asymptotik
θtrue=0.02
θtrue=0.25
60
20
N=25
N=25
40
10
20
0
0.02
0.04
0.06
0.08
0.1
60
0
0.2
0.4
0.6
20
N=100
N=100
40
10
20
0
0.02
0.04
0.06
0.08
0.1
60
0
0.2
0.4
0.6
20
N=400
N=400
40
10
20
0
0.02
0.04
0.06
0.08
0.1
0
0.2
0.4
0.6
Abbildung 35: Posteriori-Dichte eines Anteils ϑ bei verschiedenen Stichprobenumfängen unter der flachen Priori-Verteilung (volle Linie) und der
B (2, 4)-Priori (strichliert) für zwei verschiedene Werte von ϑ
Helga Wagner
Bayes Statistik
WS 2010/11
326
Stetige Asymptotik
θtrue=0.02
θtrue=0.25
3000
1000
N=1000000
N=1000000
900
2500
800
700
2000
600
1500
500
400
1000
300
200
500
100
0
0.01
0.015
0.02
0.025
0.03
0
0.2
0.25
0.3
Abbildung 36: Posteriori-Dichte eines Anteils ϑ für eine Stichprobe der
Größe n = 106 unter der flachen Priori-Verteilung für zwei verschiedene
Werte von ϑ
Helga Wagner
Bayes Statistik
WS 2010/11
327
Stetige Asymptotik
Für eine i.i.d. Stichprobe y = (y1, . . . , yn) mit Stichprobenverteilung p(y|ϑ) ist
die logarithmierte Posteriori-Verteilung
log p(ϑ|y) = log p(ϑ) + log p(y|ϑ)
Taylor-Reihenentwicklung um Priori-Modus m0 bzw. ML-Schätzer ϑ̂:
1
log p(ϑ) ≈ log p(m0) − (ϑ − m0)0H0(ϑ − m0)
2
1
log p(y|ϑ) ≈ log p(y|ϑ̂) − (ϑ − ϑ̂)0H(ϑ̂)(ϑ − ϑ̂)
2
wobei H0 und H(ϑ̂) die jeweilige Hesse-Matrix am Modus bzw. an der Stelle des
ML-Schätzers ist:
1 ∂ 2 log p(y|ϑ̂) H(ϑ) = −
2
∂ϑi∂ϑj
Helga Wagner
Bayes Statistik
WS 2010/11
328
Stetige Asymptotik
Bem: H(ϑ̂) ist die beobachtete Fisher-Information
Unter Regularitätsbedingungen ist dann asymptotisch
wobei
1
0
p(ϑ|y) ∝ exp − (ϑ − mn) Hn(ϑ − mn)
2
Hn = H0 + H(ϑ̂)
mn = H−1
n (H0m0 + H(ϑ̂)ϑ̂)
Für großes n ist also die Posteriori-Verteilung annähernd eine Normalverteilung:
ϑ|y ∼ N
Helga Wagner
Bayes Statistik
mn, H−1
n
WS 2010/11
329
Stetige Asymptotik
Für großes n ist die (feste) Priori-Präzision klein im Vergleich zur beobachteten
Fisher-Information, daher gilt
ϑ|y ∼ N ϑ̂, H(ϑ̂)−1
Der ML-Schätzer kann also als asymptotischer Bayes-Schätzer interpretiert werden!
Helga Wagner
Bayes Statistik
WS 2010/11
330
Stetige Asymptotik
Weitere Approximationen:
• Die beobachtete Fisher-Information kann durch die erwartete FisherInformation ersetzt werden:
ϑ|y ∼ N ϑ̂, nI(ϑ̂)
−1
• Ersetzen des ML-Schätzers durch den Posteriori Modus ϑ?:
?
?
p(ϑ|y) ≈ N ϑ , (n · H(ϑ ))
Helga Wagner
Bayes Statistik
−1
WS 2010/11
.
331
Stetige Asymptotik
Bemerkungen:
• Regularitätsbedingungen: Parameter ϑtrue liegt nicht am Rande des Parameterraums - garantiert, dass Informationsmatrix positiv definit ist
• für kleine Stichproben ist die Priori-Verteilung nicht vernachlässigbar
• asymptotische Normalverteilung oft erst für sehr große Stichproben
• Umparameterisierung kann bessere Approximation ergeben
Helga Wagner
Bayes Statistik
WS 2010/11
332
Posteriori Dichte eines Anteils
Für einen Anteil ϑ ist die Likelihood
p(y|ϑ) = ϑy (1 − ϑ)1−y
und damit
log p(y|ϑ) = y log ϑ + (1 − y) log(1 − ϑ),
y
1−y
d2 log p(y|ϑ)
=
−
−
.
2
2
2
dϑ
ϑ
(1 − ϑ)
Die erwartete Fisher-Information ist
Y
1−Y
1
d2 log p(Y |ϑ)
.
) = Ey ( 2 +
)=
I(ϑ) = Ey (−
dϑ2
ϑ
(1 − ϑ)2
ϑ(1 − ϑ)
Helga Wagner
Bayes Statistik
WS 2010/11
333
Posteriori Dichte eines Anteils
θtrue=0.02
2
θtrue=0.25
N=25
1
0
0
−1
−1
0.1
0.2
0.3
N=100
3
N=25
1
0.1
0.3
1
1
0
0.4
N=100
2
2
0
0.2
−1
0.02
0.04
0.06
5
0.08
0.1
N=400
4
0.25
0.3
0.35
3
0.4
0.45
N=400
2
3
1
2
0
1
0.01
0.02
0.03
0.22
0.24
0.26
0.28
0.3
0.32
Abbildung 37: Logarithmus der Posteriori-Dichte eines Anteils ϑ (für zwei verschiedene
Werte) für verschiedene Stichprobengrößen n bei flacher Prioriverteilung (volle Linie) im
Vergleich zur quadrat. Approximation um den Posteriori-Modus (strichliert)
Helga Wagner
Bayes Statistik
WS 2010/11
334
Empirische Bayes-Verfahren
Empirische Bayes-Verfahren sind eine Kombination von Bayes und LikelihoodVerfahren, die insbesondere für Random Effects Modelle verwendet werden.
Beispiel Eye Tracking: Modell
P(Y = y|µ) =
n
Y
i=1
P(Yi = yi|µi),
Yi ∼ P (µi) .
mit Priori-Verteilung µi ∼ G (a0, b0)
Empirischer Bayes Ansatz: die Parameter der Heterogenitätsverteilung (PrioriVerteilung) werden nicht fixiert, sondern aus den Daten geschätzt.
im Gegensatz dazu: vollständige Bayes-Analyse: Hyper-Priori-Verteilung auf Parameter der Priori-Verteilung
Helga Wagner
Bayes Statistik
WS 2010/11
335
Beispiel: Eye Tracking
Posteriori-Verteilung:
yi ∼ NegBin (a0, b0)
• Schätzer für die Parameter der Priori-Verteilung aˆ0 und bˆ0 werden durch
numerische Maximierung der Posteriori-Verteilung bestimmt
â0 = 0.3168
• Berechnung von
Helga Wagner
und b̂0 = 0.0899
E(µi|xi) =
Bayes Statistik
â0 + yi
b̂0 + 1
WS 2010/11
336
25
*
20
*
*
15
**
**
*
10
**
**
**
**
*
***
***
***
**
****
*********
**************
**********************************************
0
5
subjektspezifischer Parameter
30
35
Beispiel: Eye Tracking
0
20
40
60
80
100
Nr. der Person
Abbildung 38: Eye Tracking, ML-Schätzer (Kreis, schwarz) und empirisische Bayes-Schätzer (Stern, blau) für die subjektspezifischen Parameter.
Die blaue Linie gibt den ML-Schätzer des Priori-Erwartungswertes â0/b̂0 an.
Helga Wagner
Bayes Statistik
WS 2010/11
337