Markovketten Monte-Carlo Methoden Dr. Daniel Rudolf 24. September 2015 Dieses Vorlesungsskript basiert auf der Lehrveranstaltung Markovketten Monte-Carlo Methoden, gehalten im Sommersemester 2015 an der Friedrich-Schiller-Universität Jena. Ich bedanke mich herzlich bei Stephan Wolf, der die Bilder erstellte und den Hauptteil des Textsatzes übernahm. Inhaltsverzeichnis 1 Motivation 2 2 Bedingter Erwartungswert und bedingte Verteilung 2.1 Bedingter Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Bedingte Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Bedingte Verteilungsdichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 13 15 3 Markovketten 3.1 Definitionen und erste Eigenschaften . . . . . . . . . . . 3.2 Grundlegende Algorithmen . . . . . . . . . . . . . . . . 3.2.1 Metropolis-Hastings Algorithmus . . . . . . 3.2.2 Hit-and-run-Algorithmus . . . . . . . . . . . . . 3.2.3 Gibbs sampler . . . . . . . . . . . . . . . . . . . 3.2.4 Slice sampling . . . . . . . . . . . . . . . . . . . 3.3 Markovoperator . . . . . . . . . . . . . . . . . . . . . . . 3.4 Klassische Konvergenzeigenschaften von Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 31 33 37 40 42 45 49 4 Markovketten Monte-Carlo Methoden 4.1 Fehlerabschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen 4.2.1 Doeblin-Bedingung . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Leitfähigkeit und Cheeger-Ungleichung . . . . . . . . . . . 4.3 Anwendungen und Beispiele . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Integration über konvexe Mengen . . . . . . . . . . . . . . . 4.3.2 Integration bezüglich nichtnormierter Dichtefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 56 68 68 70 80 80 86 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literatur 103 Index 104 1 1 Motivation • (Ω, F, P) Wraum ∗ • Sei G ⊂ Rd beschränkt, d ∈ N, λd d-dimensionales Lebesguemaß und 0 < λ(G) < ∞ (∗, da G beschränkt) • B(G) sei die σ-Algebra der Borelmengen (bzgl. Euklidischer Metrik) • (G, B(G)) messbarer Raum R • f : G → R messbar mit G |f (x)|dx < ∞ Ziel: Berechne S(f ) = 1 λd (G) Z f (x)dx G (S = Solution-Operator) für f ∈ F(G), wobei F(G) = {g : G → R : ∫G |g(x)|dx < ∞ + weitere Eigenschaften}. Bemerkung 1.1 S(f ) ist der Erwartungswert (EW) von f bezüglich der Gleichverteilung in G. Gegebene Informationen / Annahmen: (i) Wir besitzen eine „black box“ (auch Orakel genannt), die uns Funktionswerte von f liefert, d.h. für jedes x ∈ G können wir nach f (x) fragen. (ii) Wir nehmen an, dass wir einen Zufallszahlengenerator bezüglich der Gleichverteilung in G besitzen, d.h. wir haben eine Folge von unabhängig identisch verteilten (iid, bzw. uiv) Zufallsvariablen (ZVen) (Xi )i∈N , wobei Xi : (Ω, F, P) → (G, B(G)) mit PXi (A) = λd (A) , λd (G) A ∈ B(G). Und wir können für n ∈ N nach einer Realisierung xi = Xi (ω), i = 1, . . . , n fragen (ω ∈ Ω fest) und erhalten eine Antwort. Bemerkung 1.2 Die zweite Annahme wird meist durch die Transformation von Zufallsvariablen mit „einfachen“ Verteilungen sichergestellt. Beispiel (i) G = [0, 1]d . Sei x1 , . . . , xd ∈ [0, 1] eine Folge von Realisierungen von iid ZVen, die in [0, 1] gleichverteilt sind. Dann ist x = (x1 , . . . , xd ) ∈ [0, 1]d eine Realisierung der Gleichverteilung in G. Pd (ii) G = Bd := {x ∈ Rd : |x| := ( i=1 x2i )1/2 ≤ 1}. Wir benötigen folgende Notation: • Sd−1 = {x ∈ Rd : |x| = 1} = ∂Bd die Einheitssphäre (Rand der Einheitskugel) • σ Oberflächenmaß auf Sd−1 2 • d-dimensionale Polarkoordinaten-Transformationsformel: f : Rd → R sei integrierbar. Dann gilt Z Z∞ Z f (x)dx = f (θr)rd−1 σ(dθ)dr. x=θr 0 Sd−1 Rd (siehe [5, Satz 8 in Kapitel 14]) Lemma 1.3 Sei X : (Ω, F, P) → (Rd , B(Rd )) eine ZV mit rotationsinvarianter Lebesguedichte h : Rd → R, d.h. ∀x, y ∈ Rd : |x| = |y| =⇒ h(x) = h(y). Desweiteren sei U : (Ω, F, P) → ([0, 1], B([0, 1])) eine gleichverteilte ZV in [0, 1], unabhängig von X. Dann gilt P({|X| = 0}) = 0 und X (i) P( |X| ∈ A) = σ(A) σ(Sd−1 ) , X ∈ A) = (ii) P(U 1/d |X| für A ∈ B(Sd−1 ) (Gleichverteilung auf der Einheitssphäre). λd (A) λd (Bd ) , für A ∈ B(Bd ) (Gleichverteilung in der Einheitskugel). Notation: {X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} Beweis: Es gilt P({|X| = 0}) = P(X ∈ {0}) = 0, da {0} eine Nullmenge bezüglich des Lebesguemaßes ist. Im Folgenden beweisen wir die Aussagen (i) und (ii). (i) P(X/|X| ∈ A) = E[1{X/|X|∈A} ] Z = 1A (x/|x|)h(x)dx Rd Z∞ Z 1A (θ)h(θr)rd−1 σ(dθ)dr = 0 Sd−1 Z∞ Z 1A (θ)σ(dθ) · = h(θr)rd−1 dr (θ ∈ Sd−1 bel. wg. Rotat.inv.) 0 Sd−1 Z∞ = σ(A) h(θr)rd−1 dr. 0 Sei für den Moment A = Sd−1 . Dann gilt Z∞ 1 = σ(Sd−1 ) h(θr)rd−1 dr. 0 Dies führt für beliebiges A ∈ B(Sd−1 ) zu P(X/|X| ∈ A) = σ(A) . σ(Sd−1 ) 3 (ii) Es gilt P(U 1/d X/|X| ∈ A) = E[1{U 1/d X/|X|∈A} ] Z1 Z 1A (u1/d θ) = σ(dθ) du σ(Sd−1 ) 0 Sd−1 {z | Z1 1/d g(u = Z1 )du = 0 = } =g(u1/d ) d σ(Sd−1 ) dtd−1 g(t)dt 0 Z1 Z 1A (tθ)σ(dθ)td−1 dt 0 Sd−1 = d σ(Sd−1 ) Z∞ Z 1A (tθ)σ(dθ)td−1 dt 0 Sd−1 = d σ(Sd−1 ) Z 1A (x)dx = λd (A) · d σ(Sd−1 ) Rd λd (A) , = λd (Bd ) da λd (Bd ) = σ(Sd−1 ) . d (Zur Erinnerung: λd (Bd ) = π d/2 Γ(d/2+1) , d/2 π σ(Sd−1 ) = d Γ(d/2+1) , siehe [5, Kapitel 7, unter (7.4)].) Algorithmus zur Realisierung gleichverteilter ZV in Bd : (i) Sei x = (x1 , . . . , xd ) ∈ Rd , wobei die Folge der xi eine Realisierung von iid Standardnormal2 verteilten ZVen ist (ZV hat Dichte g(s) = √12π e−s /2 ). Da die Normalverteilung im Rd ein Produktmaß ist, ist x eine Realisierung der d-dimensionalen Standardnormalverteilung. Diese 2 ist rotationsinvariant (ZV hat die Dichte g(x) = (2π)1d/2 e−|x| /2 ). (ii) y = x/|x|, d.h. y ist Realisierung der Gleichverteilung in Sd−1 . (iii) Sei u ∈ [0, 1] eine Realisierung der Gleichverteilung in [0, 1], dann ist z = u1/d y eine Realisierung der Gleichverteilung in Bd . Bemerkung 1.4 Sei a ∈ Rd , r > 0 und B(a, r) = {x ∈ Rd : |x − a| ≤ r}. B(a, r) ist die Kugel mit Radius r um a. Dann x ist a + ru1/d |x| (mit u aus (iii) und x aus (i)) eine Realisierung einer gleichverteilten ZV in B(a, r). Zusammenfassend können wir sagen, dass die zweite Annahme für „gute“ Mengen G ⊂ Rd erfüllt ist. Klassische Monte-Carlo Methode Sei (Ω, F, P) Wahrscheinlichkeitsraum und X1 , . . . , Xn iidFolge von ZVen mit Xi : (Ω, F, P) → (G, B(G)) 4 und PXi (A) = P({Xi ∈ A}) = Dann ist λd (A) , λd (G) A ∈ B(G). n Sn (f ) = 1X f (Xi ) n i=1 die klassische Monte-Carlo Methode zur Approximation von Z 1 S(f ) = f (x)dx. λd (G) G Satz 1.5 (Starkes Gesetz der R großen Zahlen) Sei f : G → R mit kf k1 = G |f (x)| λddx (G) < ∞. Dann gilt P( lim Sn (f ) = S(f )) = 1. n→∞ Beweis: Siehe [4, Thm. 8.3.5]. Dies zeigt, dass die klassische Monte-Carlo Methode wohldefiniert ist. Die Approximation stellt einen „konsistenten“ Schätzer dar. Fragen: (i) Fehlerbegriff? (ii) Fehlerabschätzung? Sei An (f ) irgendeine Methode/Formel zur Approximation von S(f ), die n ZVen (nicht notwendigerweise iid) und n Funktionswerte von f benutzt. Dann betrachten wir folgenden Fehler: Definition 1.6 Der Fehler von An (f ) für f : G → R mit kf k1 < ∞ ist durch e(An , f ) := (E|An (f ) − S(f )|2 )1/2 gegeben (E bezüglich der Verteilung von ZV An (f )). Bemerkung 1.7 (i) e(An , f )2 ist der mittlere quadratische Fehler (mean square error, MSE). (ii) Es gilt e(An , f )2 = Var(An (f )) + Bias(An (f )), wobei Var(An (f )) = E|An (f ) − EAn (f )|2 , Bias(An (f )) = |EAn (f ) − S(f )|2 . Die klassische Monte-Carlo Methode Sn (f ) hat wegen Bias(Sn (f )) = 0 die Eigenschaft der Erwartungstreue, d.h. E(Sn (f )) = S(f ) und es gilt e(Sn , f ) = Var(Sn (f ))1/2 . 5 Satz 1.8 (Klassische Monte-Carlo Methode, Fehlerabschätzung) R 1/2 Sei f : G → R mit kf k2 := G |f (x)|2 λddx < ∞. Dann gilt (G) e(Sn , f ) = E|Sn (f ) − S(f )|2 1/2 kf k2 = (Var Sn (f ))1/2 ≤ √ . n Beweis (siehe [17, Abschnitt 3.2.2]): Da X1 , . . . , Xn iid ist, ist auch f (X1 ), . . . , f (Xn ) iid. Dann gilt n X 1 e(Sn , f )2 = Var f (Xj ) n j=1 = n 1 X Var(f (Xi )) Formel von Bienayme, siehe [4, Thm. 8.1.2] n2 i=1 = n 1 X kf − S(f )k22 n2 i=1 = kf k22 1 kf − S(f )k22 ≤ . n n Wobei die letzte Ungleichung wegen Folgendem gilt: Z dx kf − S(f )k22 = |f (x) − S(f )|2 λd (G) G Z = f (x)2 − 2f (x)S(f ) + S(f )2 dx λd (G) G = kf k22 − S(f )2 ≤ kf k22 . Jetzt: Modifizierte Informationen 1) Funktionsauswertungen von f 2’) G ⊂ Rd ist durch ein Orakel, ein „Membership“-Orakel, gegeben, d.h. für x ∈ Rd können wir nach ( 1 x∈G 1G (x) = 0 x∈ /G fragen und erhalten eine Antwort. Regularitätsannahme an G: Sei r ≥ 1 und Bd ⊆ G ⊆ rBd , wobei rBd = {x ∈ Rd : |x| ≤ r} und Bd = 1Bd . Bemerkung 1.9 D.h. G ist nicht beliebig groß und nicht beliebig klein. Um die klassische Monte-Carlo Methode anzuwenden müssen wir einen Zufallszahlengenerator konstruieren, der unter 2’) die Gleichverteilung erzeugt. 6 Erster Ansatz: Verwerfungsmethode i) Erzeuge z ∈ rBd gleichverteilt (siehe Bemerkung 1.4). ii) Falls z ∈ G, dann akzeptiere z, d.h. gebe z aus, ansonsten gehe zu i). • Was ist die Akzeptanzwahrscheinlichkeit in ii)? • Was ist die erwartete Anzahl von Orakelaufrufen von 1G ? Im schlechtesten Fall ist G = Bd . Dann ist die Akzeptanzwahrscheinlichkeit: λd (Bd ) = r−d , λd (rBd ) da λd (rBd ) = rd λd (Bd ). Die erwartete Anzahl von Aufrufen von 1G ist rd . Für große Dimensionen d ist r−d exponentiell klein und rd exponentiell groß. =⇒ Ansatz schlägt fehl. Vielleicht ist Schritt i) zu schlecht? √ Sei nun r = d und G = Bd Zweiter Ansatz: Ersetze i) durch i’): i’) Erzeuge x ∈ [−1, 1]d gleichverteilt. D.h. i’) ausführen und dann zu ii), falls x verworfen wurde, gehe wieder zu i’). Skizze: [−1, 1]d Bd rBd [−1, 1]d ist die kleinste Box, die Bd enthält. Die Akzeptanzwahrscheinlichkeit ist √ (d+1)/2 λd (Bd ) 2e eπ , was sich asymptotisch wie verhält. 2d π d+1 Dies ist exponentiell klein in d. Die erwartete Anzahl von Aufrufen von 1G ist nentiell groß in d. =⇒ Der Ansatz schlägt fehl. 2d λd (Bd ) . Das ist expo- Neue Idee: Markovketten Monte-Carlo Methoden Mittels einer Folge von nicht notwendigerweise unabhängigen ZVen, einer Markovkette, X1 , X2 , . . . , Xn+n0 wollen wir die Gleichverteilung in G approximieren, d.h. P(Xn0 ∈ A) −→ n0 →∞ Dann berechne für f : G → R λd (A) , λd (G) A ∈ B(G). (1) n Sn,n0 (f ) = 1X f (Xj+n0 ) n j=1 7 als Approximation von S(f ) = 1 λd (G) R G f (x)dx. Wir stellen uns nun u.a. folgende Fragen: 1) Konvergenz in (1) quantifizierbar, d.h. Abschätzung zw. dem „Abstand“ der Verteilungen? 2) Ist dieser Algorithmus / diese Methode Sn,n0 konsistent? (Starkes Gesetz der großen Zahlen) 3) Fehlerabschätzung? 4) Information ausreichend? Bzw. welche Information wird benötigt? 8 2 Bedingter Erwartungswert und bedingte Verteilung Dieser Abschnitt basiert im Wesentlichen auf [4, Kap. 10], siehe auch [1]. 2.1 Bedingter Erwartungswert Seien (Ω, F, P) Wraum, X : (Ω, F, P) → (R, B(R)), X ∈ L1 , d.h. R Ω |X|dP < ∞. Sei B ∈ F fest und P(B) > 0. Zur Erinnerung: Für A ∈ F ist P(A | B) = P(A ∩ B) . P(B) Es gilt Z P(A | B) = 1A∩B (ω) Ω d.h. dP(ω) , P(B) 1B (ω) dP(· | B) (ω) = . dP P(B) Dann ist der elementare bedingte EW (bedingt auf B) gegeben durch Z Z X(ω) E[1B X] E[X | B] = X(ω)dP(ω | B) = · 1B (ω)dP(ω) = . P(B) P(B) Ω Ω Verallgemeinerung: Erwarungswert unter der Bedingung E, wobei E ⊆ F σ-Algebra. Intuitiv: Der Erwartungswert von X unter E sollte die „beste Vorhersage“ von X sein, wenn uns die Information E zur Verfügung steht (EW als „Vorhersage“, zusätzliche Information sollte diesen präzisieren). Definition 2.1 (Bedingter Erwartungswert unter E) Eine ZV Z : (Ω, F, P) → (R, B(R)) heißt Version des bedingten EW von X unter E, falls I) Z ist E-messbar (d.h. ∀A ∈ B(R) : Z −1 (A) ∈ E), R R II) ∀A ∈ E : A ZdP = A XdP. Notation: E[X | E] = Z Satz 2.2 (Existenz und Eindeutigkeit P-f.s., [4, Thm. 10.1.1]) R Für beliebige X ∈ L1 (d.h. Ω |X|dP < ∞) und E ⊆ F σ-Algebra existiert eine Version des bedingten EW unter E und alle Versionen Z1 , Z2 erfüllen Z1 = Z2 P-f.s. Beispiel 2.3 B ∈ F, 0 < P(B) < 1, E := {∅, B, B c , Ω} die von B erzeugte σ-Algebra, Z(ω) := 1B (ω)E[X | B] + 1B c (ω)E[X | B c ]. Wir zeigen, dass E[X | E] = Z P-f.s. 9 2.1 Bedingter Erwartungswert I) Z ist E-messbar: Sei A ∈ B(R), Ω ∅ Z −1 (A) = B c B II) ∀A ∈ E : R A ZdP = R A E[X E[X E[X E[X | B], E[X | B c ] ∈ A | B], E[X | B c ] ∈ /A . | B] ∈ A, E[X | B c ] ∈ /A | B] ∈ / A, E[X | B c ] ∈ A XdP: A = ∅X, BX, B c X, ΩX. Spezialfall: Sei Y : (Ω, F, P) → (G, G) ZV, (G, G) messbarer Raum und sei Y −1 (G) = {Y −1 (B)|B ∈ G}. Desweiteren sei σ(Y ) die kleinste σ-Algebra bezüglich der Y messbar ist, d.h. σ(Y ) := σ(Y −1 (G)). Es gilt 1) Y −1 (G) ⊆ F σ-Algebra, 2) σ(Y ) = Y −1 (G). Verallgemeinerung: Seien Yi : (Ω, F, P) → (G, G) für i = 1, . . . , r ZVen. Es sei σ(Y1 , . . . , Yr ) die kleinste σ-Algebra bezüglich der Y1 , . . . , Yr messbar, d.h. σ(Y1 , . . . , Yr ) := σ({Yi−1 (A)|A ∈ G, i = 1, . . . , r}). Definition 2.4 E[X | Y ] := E[X | σ(Y )] und E[X | Y1 , . . . , Yr ] = E[X | σ(Y1 , . . . , Yr )]. Satz 2.5 (Faktorisierungslemma, siehe [4, Thm. 4.2.8]) Sei Z : (Ω, F, P) → (R, B(R)) eine σ(Y )-messbare ZV. Dann ex. eine messbare Abbildung F : (G, G) → (R, B(R)), s.d. Z = F (Y ). (Ω, F, P) Y (G, G) ∃F : Z = F (Y ) Z (R, B(R)) Folgerung 2.6 Es existiert eine Abbildung F : (G, G) → (R, B(R)), s.d. E[X | Y ] = F (Y ) P-f.s. und wenn F1 , F2 solche Funktionen sind, dann folgt F1 (Y ) = F2 (Y ) P-f.s.. Definition 2.7 Die Zahl F (y) heißt bedingter Erwartungswert von X unter der Bedingung Y = y, y ∈ G. Notation: E[X | Y = y] := F (y), E[X | Y = ·] = F (·). Vergleich der Definitionen 10 2.1 Z : (Ω, F, P) → (R, B(R)) Z = E[X | E], E ⊆ F σ-Algebra Bedingter Erwartungswert F : (G, G) → (R, B(R)) F (y) = E[X | Y = y] Zusammenhang: F (Y ) = Z und E = σ(Y ). Satz 2.8 Gegeben sei eine messbare Abbildung F : (G, G) → (R, B(R)). Dann gilt F (y) = E[X | Y = y] PY -f.s. (y ∈ G) genau dann, wenn Z ∀B ∈ G : Z F (y)PY (dy) = B XdP. Y −1 (B) Beweis: Zunächst sei bemerkt, dass F (Y ) : (Ω, F, P) → (R, B(R)) σ(Y )-messbar ist. Dies gilt, weil ∀A ∈ B(R) : (F (Y ))−1 (A) = Y −1 (F −1 (A)) ∈ σ(Y ). | {z } ∈G Weiter gilt F (y) = E[X | Y = y] PY -f.s. ⇐⇒ F (Y ) = E[X | Y ] P-f.s. ( I) F (Y ) σ(Y ) − messbar R R ⇐⇒ II) ∀A ∈ σ(Y ) A F (Y )dP = A XdP A=Y −1 (B), B∈G Z Z ⇐⇒ Z XdP = Y −1 (B) F (Y )dP = Y −1 (B) F (y)dPY (y) (Transf.-Satz) B Eigenschaften des bedingten EW: E1 E = {∅, Ω} =⇒ E[X | E] = E[X] Beweis: klar E2 Sei X E-messbar =⇒ E[X | E] = X P-f.s. Beweis: Z = X erfüllt I) und II). E3 E1 ⊆ E2 ⊆ F σ-Algebren =⇒ E[X | E2 ] ∈ L1 und E[E[X | E2 ] | E1 ] = E[X | E1 ] P-f.s. Beweis: Sei Z = E[X | E1 ]. Wir prüfen I) und II). Zu I: Z ist E1 messbar: klar, da Z = E[X | E1 ]. Zu II: ∀A ∈ E1 gilt Z Z A II Z E[X | E1 ] = ZdP = A XdP A =⇒ Z ist bedingter EW von E[X | E2 ] unter E1 . E1 ⊆E2 , A∈E2 ,II Z E[X | E2 ]dP. = A 11 2.1 Bedingter Erwartungswert E4 X ∈ L1 , Y E-messbar, XY ∈ L1 =⇒ E[XY | E] = Y · E[X | E] P-f.s. Beweis (Idee): Zu I: Klar, da Y · E[X | E] als Komposition von E-messbaren Funktionen wieder E-messbar. Zu II: (Standardbeweistechnik „Algebraische Induktion“) • Zeige Behauptung für Y = 1A , A ∈ F. • Zeige Behauptung für Y einf. Funktion. • Zeige Behauptung für Y pos. Funktion. • Zeige Behauptung für Y allg. Funktion. E5 E[X | E] ∈ L1 und E[E[X | E]] = E[X] Beweis: Sei E1 = {∅, Ω}, E2 = E. Dann gilt E1 E3 E1 E[E[X | E]] = E[E[X | E2 ] | E1 ] = E[X | E1 ] = E[X]. E6 Sei Y : (Ω, F, P) → (G, G) ZV und U : (Ω, F, P) → (E, E) ZV. Weiter sei Y (stochastisch) R unabhängig von U und F : (G × E, G ⊗ E) → (R, B(R)) messbar, mit Ω |F (Y, U )|dP < ∞. Dann gilt Z E[F (Y, U ) | Y ](ω) = F (Y (ω), U (ω))dP(ω) P-f.s. Ω Anders ausgedrückt: E[F (Y, U ) | Y = y] = E[F (y, U )], y ∈ G. Beweis (Idee): R Setze Z(ω) = Ω F (Y (ω), U (ω))dP(ω) und prüfe I) und II). Zu I: Z ist σ(Y )-messbar, wegen F (Y (ω), U (ω)) ist σ(Y )⊗σ(U )-messbar und dem Satz von Fubini (siehe [9, Satz 14.16]). Zu II: Sei A ∈ σ(Y ), d.h. A = Y −1 (B), B ∈ G. Wir erhalten Z Z Z ZdP = 1A (ω)Z(ω) dP(ω) = 1B (Y (ω))Z(ω) dP(ω) A Ω Ω Z Z 1B (Y (ω)) · F (Y (ω), U (ω)) dP(ω)dP(ω) = Ω Ω = E[1B (Y ) · F (Y, U )] (Unabhängigkeit von Y, U ) Z = 1B (Y (ω))F (Y (ω), U (ω)) dP(ω) Ω Z 1A (ω)F (Y (ω), U (ω)) dP(ω) = Ω Z F (Y, U ) dP. = A 12 2.2 Bedingte Verteilung 2.2 Bedingte Verteilung Sei (Ω, F, P) Wraum, E ⊆ F σ-Algebra. Es gilt: 1A ∈ L1 ∀A ∈ F, d.h. E[1A | E] ist definiert. Definition 2.9 P(A | E)(ω) := E[1A | E](ω) heißt Version der bedingten Wahrscheinlichkeit von A unter der Bedingung E. Satz 2.10 (siehe [4, Abschnitt 10.2]) 1) P(Ω | E) = 1 P-f.s. 2) ∀A ∈ F: P(A | E) ≥ 0 P-f.s. 3) ∀An ∈ F paarweise disjunkt gilt P ( S∞ n=1 An | E) = P∞ n=1 P(An | E) P-f.s. Bemerkung 2.11 Die Ausnahmemengen für die Gültigkeit von 2) und 3) sind abhängig von A bzw. An . Insbesondere ist P(A | E)(ω) im Allgemeinen kein Wmaß für alle ω ∈ Ω, auch nicht P-f.s.. Definition 2.12 (reguläre bedingte Wahrscheinlichkeit) Eine reguläre Version der bedingten Wahrscheinlichkeit von P unter E ist eine Funktion P E : Ω × F → [0, 1], s.d. (i) ∀A ∈ F : P E (·, A) E-messbar, (ii) ∀ω ∈ Ω : P E (ω, ·) Wmaß auf (Ω, F), (iii) ∀A ∈ F : P E (·, A) = P(A | E) P-f.s. (Aus (i) und (iii) folgt, dass P E eine Version der bedingten Wkt. von A unter E ist.) e A e ∈ G. Sei Y : (Ω, F, P) → (G, G) Zufallsvariable. Betrachte Ereignisse A = {Y ∈ A}, Definition 2.13 (reguläre bedingte Verteilung von Y unter E) Eine reguläre Version der bedingten Verteilung von Y unter der Bedingung E ist eine Funktion P Y |E : Ω × G → [0, 1], s.d. (i) ∀A ∈ G : P Y |E (· | A) E-messbar, (ii) ∀ω ∈ Ω : P Y |E (ω, ·) Wmaß auf (G, G), (iii) ∀A ∈ G : P Y |E (·, A) = P({Y ∈ A} | E) P-f.s. (Aus (i) und (iii) folgt, dass P Y |E eine Version der bedingten Wkt. von {Y ∈ A} unter E ist.) Im Folgenden betrachten wir nur noch reguläre Versionen von bedingten Verteilungen. Es folgt: Zusammenhang zwischen regulären, bedingten Verteilungen und dem bedingten Erwartungswert. Satz 2.14 (siehe [4, Thm 10.2.5]) Seien (Ω, F, P) Wraum, E ⊆ F σ-Algebra, Y : (Ω, F, P) → (G, G) ZV und P Y |E ist eine reguläre Version der bedingten Verteilung von Y unter E. Dann gilt für alle messbaren Funktionen g : 13 2.2 Bedingte Verteilung (G, G) → (R, B(R)) mit R G |g(y)|PY (dy) < ∞, dass g integrierbar bezüglich P Y |E (ω, ·) ist, d.h. Z |g(y)|P Y |E (ω, dy) < ∞ G für P-fast alle ω ∈ Ω, und Z E[g(Y ) | E](·) = g(y)P Y |E (·, dy), P-f.s.. G (D.h. R G g(y)P Y |E (·, dy) ist eine Version des bedingten EW von g(Y ) unter E.) Frage: Existieren reguläre Versionen der bedingten Verteilung? Eindeutigkeit? Satz 2.15 (siehe [4, Thm 10.2.2]) Seien (Ω, F, P) Wraum, E ⊆ F σ-Algebra, G metrischer, vollständiger, separablera Raum, B(G) die σ-Algebra der Borelmengen, und Y : (Ω, F, P) → (G, B(G)) ZV. Dann existiert eine reguläre Version der bedingten Verteilung von Y unter E und diese ist P-f.s. eindeutig. a Ein topologischer Raum heißt separabel, wenn es eine höchstens abzählbare Teilmenge gibt, die in diesem Raum dicht liegt. Für uns ist der folgende Spezialfall am wichtigsten: X : (Ω, F, P) → (H, H), wobei (H, H) messbarer Raum und E = σ(X). Definition 2.16 (reguläre bedingte Verteilung von Y unter X) Seien X : (Ω, F, P) → (H, H), Y : (Ω, F, P) → (G, G) ZVen. Dann heißt P Y |X : H × G → [0, 1] eine reguläre Version der bedingten Verteilung von Y unter X, falls (i) ∀A ∈ G : P Y |X (·, A) H-messbar, (ii) ∀x ∈ H : P Y |X (x, ·) Wmaß auf (G, G), (iii) ∀A ∈ G : P Y |X (·, A) = P({Y ∈ A} | X = ·) PX -f.s.. Satz 2.17 (teilweise Folgerung von Satz 2.14) Sei P Y |X eine reguläre Version der bedingten Verteilung von Y unter X. Dann gilt für alle messbaren R Funktionen g : (G, G) → (R, B(R)) mit G |g(x)|PY (dy) < ∞, dass g integrierbar bzgl. P Y |X (x, ·) ist und Z E[g(Y ) | X = x] = g(y)P Y |X (x, dy) (2) G für PX -fast alle x ∈ H. Desweiteren gilt für alle messbaren Funktionen ge : (H × G, H ⊗ G) → (R, B(R)) 14 2.3 Bedingte Verteilungsdichten mit E|g(X, Y )| < ∞, dass (i) ge(x, ·) integrierbar bzgl. P Y |X (x, ·) für PX -fast alle x ∈ H, R R (ii) E[e g (X, Y )]] = H G ge(x, y)P Y |X (x, dy)PX (dx), R (iii) E[e g (X, Y ) | X = x] = G ge(x, y)P Y |X (x, dy) für PX -fast alle x ∈ H. Beweis (Idee, bzw. Referenzen): • (2) ist Folgerung aus Satz 2.14. • (iii) folgt aus [8, Thm 5.4], siehe auch [1]. • (ii) folgt aus (iii) und E[e g (X, Y )] = E[E[e g (X, Y ) | X]] Z X|Y = E g(X(·), y)P (X(·), dy) Z ZG = g(x, y)P X|Y (x, dy)PX (dx) (Transformationssatz) H G • (i) folgt aus (ii) Bei der Anwendung von Satz 2.17 ist meist (H, H) = (G, G), d.h. X, Y : (Ω, F, P) → (G, G) ZVen. 2.3 Bedingte Verteilungsdichten Sei (Ω, F, P) Wraum, r ∈ N und Z : (Ω, F, P) → (Rr , B(Rr )) ein zufälliger Vektor, d.h. Z = (Z1 , . . . , Zr ) mit Zufallsvariablen Zi : (Ω, F, P) → (R, B(R)) für i = 1, . . . , r. Definition 2.18 (Verteilungsdichte) Eine messbare Funktion fZ : Rr → [0, ∞) heißt Verteilungsdichte (VD) von Z bzgl. (dem Lebesguemaß) λr , falls Z P(Z ∈ A) = fZ (z)λr (dz), A ∈ B(Rr ). A Seien s, d ∈ N und Y : (Ω, F, P) → (Rs , B(Rs )) X : (Ω, F, P) → (Rd , B(Rd )) mit Y = (Y1 , . . . , Ys ), X = (X1 , . . . , Xd ) und Xi , Yj : (Ω, F, P) → (R, B(R)) ZVen für i = 1, . . . , d und j = 1, . . . , s, d.h. X und Y zufällige Vektoren. Satz 2.19 Sei f(Y,X) : Rs × Rd → [0, ∞) eine VD von (Y, X) bezüglich λs+d . Dann gilt 15 2.3 Bedingte Verteilungsdichten (i) Z fY (y) = f(Y,X) (y, x)λd (dx), y ∈ Rs f(Y,X) (y, x)λs (dy), x ∈ Rd Rd ist VD von Y bzgl. λs und Z fX (x) = Rs ist VD von X bzgl. λd . (ii) Eine reguläre Version der bedingten Verteilung P X|Y von X unter Y ist gegeben durch Z P X|Y (y, A) = fX|Y =y (x)λd (dx) A für y ∈ Rs , A ∈ B(Rd ) mit (f (Y,X) (y,x) fX|Y =y (x) = fY (y) fX (x) fY (y) > 0 fY (y) = 0 , x ∈ Rd . Definition 2.20 fX|Y =y heißt bedingte Dichte von X unter Y = y. Beweis: Wir beweisen die Aussagen von (i) und (ii) separat: (i) fY : Rs → [0, ∞), fX : Rd → [0, ∞) sind messbar. Dies folgt aus der Messbarkeit von f(Y,X) und dem Satz von Fubini (siehe [9, Satz 14.16]). Für A ∈ B(Rs ) gilt Z Z f(Y,X) (y, x)λd (dx) λs (dy). P(Y ∈ A) = P((Y, X) ∈ A × Rd ) = A Rd | {z =fY (y) } Also fY VD von Y . Analog zeigt man mit dem Satz von Fubini für B ∈ B(Rd ), dass Z P(X ∈ B) = fX (x)λd (dx). B (ii) Ansatz: P X|Y (y, B) := Z fX|Y =y (x)λd (dx), y ∈ Rs , B ∈ B(Rd ) B X|Y Zu zeigen: P aus Def. 2.13. ist reguläre Version der bedingten Verteilung von X unter Y . D.h. prüfe (i)-(iii) (i) P X|Y (·, B) ist B(Rs )-messbar: Dies gilt, da fX|Y =y (x) in (y, x) eine B(Rs × Rd ) messbare Funktion ist (als Komposition messbarer Funktionen). Nun folgt (i) mit Fubini-Argument. (ii) P X|Y (y, ·) Wmaß: 16 2.3 Bedingte Verteilungsdichten a) Sicher ist P X|Y (y, ·) Maß, wegen Eigenschaften des Integrals. R Rd f(Y,X) (y,x)λd (dx) fY (y) 6= 0 = 1 fY (y) b) P X|Y (y, Rd ) = R f (x)λd (dx) fY (y) = 0 Rd X (da fX VD und Def. von fY ). (iii) Zu zeigen: ∀B ∈ B(Rd ) : P X|Y (·, B) = P({X ∈ B} | Y = ·) PY -f.s. Idee: Wende Satz 2.8 an. Sei dazu A ∈ B(Rs ). Es gilt Z Z Z P X|Y (y, B)PY (dy) = fX|Y =y (x)λd (dx)PY (dy) A A B Z Z fX|Y =y (x)λd (dx) · fY (y)λs (dy) = A B Z Z = f(Y,X) (y, x) λd (dx)fY (y)λs (dy) fY (y) A∩{fY 6=0} B Z f(Y,X) (y, x)λs+d (d(y, x)) = (Fubini) (A∩{fY 6=0})×B = P((Y, X) ∈ (A ∩ {fY 6= 0}) × B) = P((Y, X) ∈ A × B) Z = 1X∈B dP (da P((Y, X) ∈ {fY = 0} × B) = 0) {Y ∈A} =⇒ Mit Satz 2.8 folgt (iii). 17 3 Markovketten 3.1 Definitionen und erste Eigenschaften Seien (Ω, F, P) ein Wahrscheinlichkeitsraum und (G, G) ein messbarer Raum. (G ist eigentlich immer metrischer, separabler, vollständiger Raum und G = B(G). Zum Beispiel G ⊆ Rd und B(G) bezüglich der euklidischen Metrik.) Definition 3.1 (Übergangskern, Markovkern) Die Funktion K : G × G → [0, 1] heißt Markovkern oder Übergangskern, falls (i) ∀x ∈ G ist K(x, ·) Wmaß auf (G, G), (ii) ∀A ∈ G ist K(·, A) eine G-messbare Abbildung. Interpretation: Sei x1 ∈ G. Dann können wir eine Folge x1 , . . . , xn ∈ G, n ∈ N, erzeugen, indem für i ≥ 2, i ∈ N, xi bezüglich der Verteilung K(xi−1 , ·) gewählt wird. K beschreibt in diesem Sinne den Übergang zwischen xi−1 und xi . Definition 3.2 (Markovkette, Startverteilung) Eine Folge von Zufallsvariablen (Xn )n∈N mit Xi : (Ω, F, P) → (G, G) für i ∈ N heißt Markovkette mit Übergangskern K, falls für alle n ∈ N und A ∈ G gilt: (i) P(Xn+1 ∈ A | X1 , . . . , Xn ) = P(Xn+1 ∈ A|Xn ) P-f.s., (ii) P(Xn+1 ∈ A | Xn = x) = K(x, A) PXn -f.s. in x ∈ G. [Anders formuliert: P(Xn+1 ∈ A | Xn ) = K(Xn , A) P-f.s.] Die Verteilung ν(A) = P(X1 ∈ A), für A ∈ G, heißt Startverteilung. Bemerkung 3.3 a) Die Gleichheit (i) wird Markoveigenschaft (ME) genannt. Intuitiv: Die Verteilung der Zukunft (also von Xn+1 ) hängt nur von der Gegenwart (Xn ) ab und nicht von der Vergangenheit (X1 , . . . , Xn−1 ). b) Die Gleichheit in (ii) besagt, dass P Xn+1 |Xn (x, A) = K(x, A), n ∈ N, eine reguläre Version der bedingten Verteilung von Xn+1 unter Xn ist, und zwar für alle n ∈ N. c) Eine Folge von Zufallsvariablen (Xn )n∈N , die (i) und (ii) erfüllt, heißt auch homogene Markovkette (da in (ii) K unabhängig von n). d) Die Indexmenge in (Xn )n∈N sind die natürlichen Zahlen. Solche Markovketten werden auch zeitlich diskret genannt (zeitlich stetig (Indexmenge z.B. R, [0, 1]) heißt Markovprozess). Frage: Nun sei K ein Übergangskern und ν ein Wahrscheinlichkeitsmaß auf (G, G). Wie können wir eine Markovkette (Xn )n∈N mit Übergangskern K und Startverteilung ν bekommen? Definition 3.4 (Update-Funktion) Sei (E, E, µ) Wraum. Dann heißt eine messbare Abbildung Φ : G × E → G Update-Funktion von K, falls P(Φ(x, U ) ∈ A) = K(x, A), ∀x ∈ G, A ∈ G, 18 3.1 Definitionen und erste Eigenschaften wobei U : (Ω, F, P) → (E, E) eine Zufallsvariable mit Verteilung µ ist (PU = µ). Nun sei (Un )n∈N eine iid-Folge von Zufallsvariablen mit Ui : (Ω, F, P) → (E, E) und PUi = µ, i ∈ N. Φ sei eine Update-Funktion von K. Desweiteren sei die ZV X1 : (Ω, F, P) → (G, G) mit PX1 = ν, unabhängig von (Un )n∈N . Dann ist (Xn )n∈N gegeben durch n≥2 Xn = Φ(Xn−1 , Un ), eine Markovkette mit Übergangskern K und Startverteilung ν. Beweis (Begründung): Die Verteilung von X1 ist ν nach Definition. Zu (ii): P(Xn ∈ A|Xn−1 = x) = P(Φ(Xn−1 , Un ) ∈ A|Xn−1 = x) = E(1A (Φ(Xn−1 , Un ))|Xn−1 = x) E6 = E[1A (Φ(x, Un ))] = K(x, A) (Xn−1 , Un unabh., Abschn. 2.1) (Φ Update-Funktion). Zu (i): Intuitiv klar. Man argumentiert ähnlich, wie im Beweis von (ii). Frage: Wann existiert eine Update-Funktion von K? Satz 3.5 Sei G = R und G = B(R). Für jeden Übergangskern K auf (G, G) existiert eine Update-Funktion Φ : G × [0, 1] → G mit P(Φ(x, U ) ∈ A) = K(x, A), ∀x ∈ G, A ∈ B(G), wobei U : (Ω, F, P) → ([0, 1], B([0, 1])) Zufallsvariable und PU ist die Gleichverteilung in [0, 1]. Beweis: Seien x, y ∈ R. Setze F (x, y) := K(x, (−∞, y]) (mit x parametrisierte Verteilungsfunktion). Eigenschaften von F : 1) F (x, y) = limh→0+ F (x, y + h) (rechtsseitig stetig) 2) ∀y < z gilt F (x, y) ≤ F (x, z) (Monotonie) Nun sei Φ : G × [0, 1] → G gegeben durch Φ(x, u) = inf{y ∈ R : F (x, y) ≥ u} (verallg. Inverse von F (x, ·)) gegeben. Es gilt Φ(x, u) ≤ y ⇐⇒ F (x, y) ≥ u. (3) „⇐“ X „⇒“ z > y =⇒ Φ(x, u) < z =⇒ F (x, z) ≥ u und F (x, y) = lim+ F (x, y + h) ≥ u. {z } h→0 | ≥u 19 3.1 Definitionen und erste Eigenschaften Zur Messbarkeit von Φ: Es genügt zu zeigen, dass Φ−1 ((−∞, r]) ∈ B(R) ⊗ B([0, 1]) für alle r ∈ R gilt. Dazu sei g : R × [0, 1] → R gegeben durch g(x, u) := F (x, r) − u. Diese Abbildung ist messbar, als Komposition messbarer Abbildungen (F (·, r) messbar). Wir erhalten Φ−1 ((−∞, r]) = {(x, u) ∈ R × [0, 1] : Φ(x, u) ≤ r} (3) = {(x, u) ∈ R × [0, 1] : F (x, r) ≥ u} = {(x, u) ∈ R × [0, 1] : g(x, u) ≥ 0} = g −1 ([0, ∞)) ∈ B(R) ⊗ B([0, 1]) (g messbar) Nun zeigen wir, dass P(Φ(x, U ) ≤ r) = K(x, (−∞, r]) für alle r ∈ R gilt, d.h. die Verteilungsfunktion von Φ(x, U ) und K(x, (−∞, r]) stimmen überein. Damit folgt P(Φ(x, U ) ∈ A) = K(x, A), siehe dazu [4, Thm. 9.1.1 und Thm. 3.26] („Korrespondenzsatz“). Wir haben (3) P(Φ(x, U ) ≤ r) = P(F (x, r) ≥ U ) = F (x, r) = K(x, (−∞, r]). Bemerkung 3.6 Wir haben uns auf den Fall G = R beschränkt. Für G ⊆ Rd oder allgemeine metrische, separable, vollständige Räume gilt das Ergebnis analog. Man argumentiert dann zusätzlich mit einem „MessraumIsomorphismus“, siehe [9, S. 186, Def. 8.53 ff.]. Nun kommen wir zu Beispielen von Übergangskernen. Beispiel 3.7 Sei stets G ⊆ Rd , A ∈ B(G), x ∈ G. 0.) Sei ( 0 K(x, A) := 1A (x) = 1 x∈ /A , x∈A (beschreibt den Übergang, s.d. man immer in x verbleibt). Update-Funktion: Φ(x, u) = x (für eine beliebige Menge E und alle u ∈ E). 1.) Sei π Wmaß auf (G, G) = (G, B(G)). Wir nehmen an, dass wir einen Zufallszahlengenerator für die Verteilung π zur Hand haben. Nun sei K(x, A) = π(A). (D.h. eine Folge von iid ZVen mit Verteilung π bilden eine Markovkette.) Update-Funktion: Φ(x, u) = u, wobei u eine Realisierung einer π-verteilten ZV U : (Ω, F, P) → (G, G) darstellt. 2.) Jede Konvexkombination zweier Übergangskerne ist wieder ein Übergangskern. D.h. für alle λ ∈ [0, 1] ist K(x, A) = λK1 (x, A) + (1 − λ)K2 (x, A) ein Übergangskern für Übergangskerne K1 und K2 . Update-Funktion: Sei Φ1 eine Update-Fkt von K1 und Φ2 eine solche für K2 , wobei Φ1 , Φ2 : G × E → G. Sei u ∈ E und r ∈ [0, 1] zufällig gewählt, d.h. u ist eine Realisierung einer ZV mit 20 3.1 Definitionen und erste Eigenschaften Verteilung µ (siehe Def. 3.4) und unabhängig davon sei r eine Realisierung der Gleichverteilung in [0, 1]. Wir definieren Φ(x, (u, r)) = 1[0,λ) (r)Φ1 (x, u) + 1[λ,1] (r)Φ2 (x, u). Algorithmus Input: Output: x ∈ G, Φ1 , Φ2 y∈G a) Wähle r ∈ [0, 1] gleichverteilt und unabhängig von u bezüglich µ. b) Falls λ ≤ r, setze y := Φ2 (x, u), sonst y := Φ1 (x, u). 3.) Sei δ > 0 und B(x, δ) = {y ∈ Rd : |x − y| ≤ δ}. Dann ist der Übergangskern des δ ball walk gegeben durch λd (A ∩ B(x, δ)) λd (G ∩ B(x, δ)) Wδ (x, A) = + 1A (x) · 1 − . λd (B(0, δ)) λd (B(0, δ)) Skizze: 1. Fall: B(x1 , δ) ⊆ G, 2. Fall: B(x2 , δ) ∩ Gc 6= ∅. G δ x1 δ x2 Sei U : (Ω, F, P) → (Bd , B(Bd )) (wobei Bd = B(0, 1)) gleichverteilte ZV in Bd . Update-Funktion: u sei Realisierung von U (Lemma 1.3 ff.) ( x + δu x + δu ∈ G Φ(x, u) = . x x + δu ∈ /G 4.) Sei R ∈ Rd×d eine symmetrische, positiv definite Matrix und v ∈ Rd . Dann ist die d-dimensionale Normalverteilung mit Erwartungswertvektor v und Kovarianzmatrix R gegeben durch Z 1 1 −1 exp − hz − v, R (z − v)i dz, A ∈ B(Rd ), N (v, R)(A) := 2 (2π)d/2 |R|d/2 A wobei |R| = det R und h·, ·i das euklidische Skalarprodukt bezeichnet. Sei nun ein sogenannter „Gaußian random walk“ Kern auf G = Rd gegeben durch N (x, A) = N (x, s2 R)(A), wobei s > 0 ein zusätzlicher Parameter ist. √ e (x, A) = N ( 1 − s2 x, s2 R)(A) ist denkbar.) (Auch etwas wie N 21 3.1 Definitionen und erste Eigenschaften Update-Funktion: Sei U : (Ω, F, P) → (Rd , B(Rd )) standardnormalverteilte ZV, d.h. mit Verteilung N (0, Id ). (Diese kann aus d eindimensionalen standardnormalverteilten ZVen konstruiert werden.) Sei u ∈ Rd eine Realisierung von U . Dann ist Φ(x, u) = x + sR1/2 u eine Update-Funktion von N (Transformationssatz der Normalverteilung). Es gibt auch unendlich-dimensionale Hilberträume, die mit Gaußmaßen ausgestattet werden e ) auch denkbar. können. In diesem Fall ist ein Übergangskern der Form N (oder N 5.) „Hit-and-run“ Übergangskern. Sei G ⊆ Rd beschränkt, Sd−1 Einheitssphäre und θ ∈ Sd−1 , x ∈ G. Wir definieren L(x, θ) = {s ∈ R : x + sθ ∈ G} ⊆ R. (D.h. L(x, θ) ist die Menge der Parameter s, in der die Gerade x + sθ, mit Stützvektor x und Richtungsvektor θ, das Gebiet G schneidet.) Dann ist der Übergangskern vom „hit-and-run“-Algorithmus gegeben durch Z 1 Hθ (x, A)dσ(θ) H(x, A) = σ(Sd−1 ) Sd−1 mit Z Hθ (x, A) = 1A (x + sθ) ds . λ1 (L(x, θ)) L(x,θ) Skizze: x + sθ G x+θ x x + sθ für s ∈ L(x, θ) Update-Funktion als Algorithmus: Input: x ∈ G Output: y ∈ G a) Wähle θ ∈ Sd−1 gleichverteilt (siehe Lemma 1.3). b) Wähle s ∈ L(x, θ) gleichverteilt und setze y = x + sθ. 6.) „Random scan Gibbs sampler“ Sei G ⊆ Rd beschränkt und {e1 , . . . , ed } ⊆ Rd sei die Euklidische Einheitsbasis, d.h. ei = (0, . . . , 0, 1 ↑ i-te Stelle , 0, . . . , 0). Dann ist d R(x, A) = 22 1X He (x, A) d i=1 i 3.1 Definitionen und erste Eigenschaften ein Übergangskern, wobei die in 5.) eingeführte Notation benutzt wird. Update-Funktion als Algorithmus: Input: x ∈ G Output: y ∈ G a) Wähle i ∈ {1, . . . , d} bezüglich der Gleichverteilung. b) Wähle s ∈ L(x, ei ) gleichverteilt und setze y = x + sei . Bemerkung (zu 5.) und 6.)) Die Gleichverteilung in L(x, θ) für θ ∈ Sd−1 zu erzeugen, ist im Allgemeinen nicht einfach. Für konvexe Mengen G ⊆ Rd ist es unter Verwendung von Auswertungen von 1G („Membership-Orakel“) mittels einer eindimensionalen Verwerfungsmethode „vernünftig“ implementierbar. An den Beispielen haben wir unter anderem gesehen, wie man aus Übergangskernen neue Übergangskerne konstruiert. Beispielsweise ist die Konvexkombination von Übergangskernen wieder ein Übergangskern. Das ist soetwas wie die „Summe“ von Übergangskernen. Frage: Was ist mit dem Produkt? Im Folgenden seien K, K1 , K2 Übergangskerne auf (G, G). Definition 3.8 (Produkt von Übergangskernen) Sei x ∈ G, B ∈ G. Dann ist Z K1 K2 (x, B) = K2 (y, B)K1 (x, dy) G das Produkt von K1 und K2 . Eigenschaften E1 K1 K2 ist wieder ein Übergangskern. (Die Wmaß-Eigenschaft folgt aus K2 und Eigenschaften des Integrals. Zur Messbarkeit siehe [9, Satz 14.20]) E2 Setze K 0 (x, A) := 1A (x) und K n (x, A) := Z G K n−1 (y, A)K(x, dy) = Z K(y, A)K n−1 (x, dy). G E3 Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Dann gilt für alle x ∈ G, A ∈ G und n, k ∈ N, dass P(Xk+n ∈ A | Xk = x) = K n (x, A) PXk -f.s.. D.h. K n ist eine reguläre Version der bedingten Verteilung von Xk+n unter Xk . 23 3.1 Definitionen und erste Eigenschaften Beweis: Induktion über n ∈ N. Für n = 1, siehe Definition einer Markovkette. X Sei nun n ≥ 1. Es gilt P(Xk+n+1 ∈ A | Xk ) = E[1{Xk+n+1 ∈A} | Xk ] = E[E[1{Xk+n+1 ∈A} | X1 , . . . , Xk+n ] | Xk ] (E3 in 2.1) = E[P[Xk+n+1 ∈ A | X1 , . . . , Xk+n ] | Xk ] = E[P[Xk+n+1 ∈ A | Xk+n ] | Xk ] | {z } (Markoveigenschaft). K(Xk+n ,A) Mit dem Faktorisierungslemma folgt P(Xk+n+1 ∈ A | Xk = x) = E[K(Xk+n , A) | Xk = x]. Nun betrachten wir E[K(Xk+n , A) | Xk = x] Satz 2.17 Z = K(y, A)P Xk+n |Xk (x, dy). G Nach Induktionsvoraussetzung ist P Xk+n |Xk = K n und wir erhalten Z E[K(Xk+n , A) | Xk = x] = K(y, A)K n (x, dy) = K n+1 (x, A). G E4 Für alle m ∈ N gilt Z P(Xm+1 ∈ A) = K m (y, A)ν(dy). G Beweis: Es gilt P(Xm+1 ∈ A) = E[1{Xm+1 ∈A} ] = E[E[1{Xm+1 ∈A} | X1 ]] (E5 in Abschnitt 2.1) = E[P(Xm+1 ∈ A | X1 )] = E[K m (X1 , A)] (E3 in Abschnitt 2.1) Z = K m (y, A)PX1 (dy) G Z = K m (y, A)ν(dy). G m E5 Für jedes bezüglich K (x, ·) integrierbare f : G → R gilt Z E[f (Xm+1 ) | X1 = x] = f (y)K m (x, dy). G 24 3.1 Definitionen und erste Eigenschaften Beweis: Wir haben E[f (Xm+1 ) | X1 = x] Satz 2.17 Z = E3 f (y)P Xm+1 |X1 (x, dy) = G Z f (y)K m (x, dy). G E6 Für alle A, B ∈ G gilt Z P(X1 ∈ A, X2 ∈ B) = K(x, B)ν(dx). A Beweis: Es gilt P(X1 ∈ A, X2 ∈ B) = E[1{X1 ∈A,X2 ∈B} ] Z Z = 1A×B (x, y)P X2 |X1 (x, dy)PX1 (dx) (Satz 2.17 (iii)) G G Z K(x, B)ν(dx) = (E3). A Bemerkung Nn 3.9 Sei A ∈ i=1 G = G n , n ∈ N. Dann ist P((X1 , . . . , Xn ) ∈ A) ein Wahrscheinlichkeitsmaß auf (Gn , G n ) mit Z Z P(X1 ∈ A1 , . . . , Xn ∈ An ) = . . . K(xn−1 , dxn ) . . . K(x1 , dx2 )ν(dx1 ). A1 An Für einen Übergangskern K und ein Wmaß ν auf (G, G) benutzen wir im Folgenden für alle m ∈ N die Notation Z m νP (A) := K m (x, A)ν(dx). G (Dies ist das Produkt von K wieder ein Wmaß auf (G, G). m und ν, nach Definition 3.8.) Wegen E4 (oder auch Def. 3.8) ist νP m Lemma 3.10 Sei f : G → R integrierbar bezüglich νP m . Dann gilt Z Z Z f (y)νP m (dy) = f (y)K m (x, dy)ν(dx). G G G Beweis (Standardbeweistechnik der Integrationstheorie, Algebraische Induktion): 1. Schritt: f = 1A , für A ∈ G: Es gilt νP m (A) = Z G K m (x, A)ν(dx) = Z Z 1A (y)K(x, dy)ν(dx).X G G 25 3.1 Definitionen und erste Eigenschaften 2. Schritt: f = Pn i=1 ci 1Ai , für n ∈ N, ci ≥ 0, Ai ∈ G (also f nichtnegative, einfache Funktion): Die Behauptung gilt, wegen der Linearität des Integrals und dem 1. Schritt. 3. Schritt: f ≥ 0 messbar: Dann existiert Folge (fn ) von einfachen Funktionen mit fn ↑ f , d.h. fn ≤ fn+1 punktweise und limn→∞ fn = f . Nun gilt die Behauptung unter Anwendung des Satzen von der monotonen Konvergenz (Satz von Beppo Levi1 , siehe [4, Thm. 4.3.2]) und dem 2. Schritt. Es gilt Z f (x)νP m (dx) := lim Z n→∞ G fn (x)νP m (dx) ZG Z = lim n→∞ (Def. aus Integrationstheorie) fn (y)K m (x, dy)ν(dx) (2. Schritt) G G Z Z = f (y)K m (x, dy)ν(dx) (2-mal Satz von Beppo Levi). G G 4. Schritt: f integrierbar bezüglich νP m : Dann f = f + − f − , wobei f + (x) = max{f (x), 0} und f − (x) = max{−f (x), 0}. Die Behauptung gilt mit dem 3. Schritt und der Linearität des Integrals. D.h. Z Z Z f (x)νP m (dx) = f + (x)νP m (dx) − f − (x)νP m (dx) G G G Z Z + Z Z m f (y)K (x, dy)ν(dx) − = G G f − (y)K m (x, dy)ν(dx) G G Z Z m f (y)K (x, dy)ν(dx). = G G Bemerkung 3.11 Lemma 3.10 rechtfertigt die Notation Z K m (x, dy)ν(dx) = νP m (dy). G Definition 3.12 (stationäre Verteilung) Sei π ein Wmaß auf (G, G). Dann heißt π stationäre Verteilung (von Übergangskern K), falls Z π(A) = K(x, A)π(dx), A ∈ G. G 1g n ≥ 0 monoton wachsende Folge messbarer Funktionen. Dann gilt Z Z lim gn (x)ν(dx) = lim n→∞ 26 n→∞ gn (x)ν(dx). 3.1 Definitionen und erste Eigenschaften (D.h. π(A) = πP (A) für alle A ∈ G, also π = πP .) Interpretation: Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung π. Desweiteren sei π eine stationäre Verteilung von K. Dann gilt P(X1 ∈ A) = π(A) stationär = E4 πP (A) = P(X2 ∈ A). D.h. falls eine Markovkette eine stationäre Verteilung als Startverteilung besitzt, bleibt die Verteilung der Xi , für i ∈ N, gleich. Folgerung 3.13 Sei f : G → R integrierbar bezüglich einer stationären Verteilung π von K. Dann gilt für alle m ∈ N Z Z Z f (y)π(dy) = f (y)K m (x, dy)π(dx). G G G Bemerkung 3.14 Folgerung 3.13 rechtfertigt die Notation Z π(dy) = K m (x, dy)π(dx) G für alle m ∈ N, falls π eine stationäre Verteilung von K ist. Beispiel 3.15 Seien K1 und K2 Übergangskerne mit stationärer Verteilung π. Dann gilt a) π ist eine stationäre Verteilung bezüglich λK1 + (1 − λ)K2 für alle λ ∈ [0, 1], b) π ist eine stationäre Verteilung von K1 K2 und K2 K1 (man benutzt Folgerung 3.13). Definition 3.16 (Reversibilität) Sei π eine Verteilung auf (G, G). Dann heißt der Übergangskern K reversibel bezüglich π, falls Z Z K(x, B)π(dx) = K(x, A)π(dx), ∀A, B ∈ G. A B Interpretation: Sei (Xn )n∈N MK mit Übergangskern K und Startverteilung π. K sei reversibel bezüglich π. Dann gilt Z Z E6 rev. E6 P(X1 ∈ A, X2 ∈ B) = K(x, B)π(dx) = K(x, A)π(dx) = P(X1 ∈ B, X2 ∈ A). A B (Dies ist eine „gewisse“ Symmetrie in A und B.) Lemma 3.17 (i) Ist K reversibel bezüglich π, dann ist π eine stationäre Verteilung von K. (ii) Gilt für alle A, B ∈ G mit A ∩ B = ∅ Z Z K(x, B)π(dx) = K(x, A)π(dx), A B 27 3.1 Definitionen und erste Eigenschaften folgt bereits, dass K reversibel bezüglich π ist. (iii) Seien K reversibel bezüglich π, F : G × G → R und m ∈ N. Dann gilt Z Z Z Z F (x, y)K m (x, dy)π(dx) = F (y, x)K m (x, dy)π(dx), G G (4) G G falls eines der beiden Integrale existiert. Beweis: (i) Wir haben Z πP (A) = rev K(x, A)π(dx) = G A (ii) Seien A, B ∈ G. Dann folgt Z Z Z K(x, B)π(dx) = K(x, B)π(dx) + A Z Z (K(x, B \ A) + K(x, A ∩ B))π(dx) B A∩B Z Z Z K(x, A \ B)π(dx) + B K(x, A ∩ B)π(dx) + K(x, A ∩ B)π(dx) A∩B B\A Z Z K(x, A \ B)π(dx) + = =1 K(x, B)π(dx) K(x, A \ B)π(dx) + = K(x, G) π(dx) = π(A). | {z } A∩B A\B = Z B K(x, A ∩ B)π(dx) B Z K(x, A)π(dx). = B (iii) Wir beschränken uns auf den Fall m = 1. Für m ∈ N folgt die Aussage per Induktion. Wir wenden wieder die Standardbeweistechnik der Integrationstheorie und einen „kleinen Trick“ an. 0. Schritt Seien A, B ∈ G, F (x, y) = 1A (x) · 1B (y) = 1A×B (x, y). Dann gilt (4) wegen der Reversibilität, d.h. Z Z K(x, B)π(dx) = K(x, A)π(dx). A B e ∈ G ⊗ G = σ(G × G). Ziel: Zeige, dass (4) für F (x, y) = 1 (x, y) gilt. Wir 1. Schritt Sei A e A benutzen folgenden Satz. Satz 3.18 (Dynkin-System-Theorem) Seien Ω 6= ∅ und C, D ∈ P(Ω) = 2Ω . Weiterhin gelte a) A, B ∈ C =⇒ A ∩ B ∈ C (D.h. C ist ein π-System), 28 3.1 Definitionen und erste Eigenschaften b) 1) Ω ∈ D 2) A ∈ D =⇒ Ac ∈ D 3) An ∈ D paarweise disjunkt =⇒ S∞ n=1 An ∈ D (D.h. D ist ein Dynkin-System.), c) C ⊆ D. Dann folgt: σ(C) ⊆ D. Wir setzen C = G × G = {A × B : A, B ∈ G} und Z Z Z Z D = A ∈ σ(C) : 1A (x, y)K(x, dy)π(dx) = 1A (y, x)K(x, dy)π(dx) . G G G G Bedingung c) aus Satz 3.18 gilt wegen dem 0. Schritt. Weiterhin kann man zeigen, dass C ein π-System und D ein Dynkin-System ist. Dann folgt σ(C) = D und (4) ist für F (x, y) = 1Ae(x, y) erfüllt. C ist ein π-System: A, B ∈ C =⇒ A = A1 ×A2 und B = B1 ×B2 für A1 , A2 , B1 , B2 ∈ G. Also A ∩ B = (A1 ∩ B1 ) × (A2 × B2 ) ∈ C. | {z } | {z } ∈G ∈G D ist ein Dynkin-System: 1) G × G ∈ D, da 1 = 1. 2) Sei A ∈ D. Nutze 1Ac = 1 − 1A . Es folgt Ac ∈ D. 3) Seien An ∈ D paarweise disjunkt. Benutze 1S∞ P∞ 1An (da disjunkt) S∞ und Satz von Lebesgue zum Vertauschen von Limes und Integral. Es folgt n=1 An ∈ D. n=1 An = n=1 2. Schritt Für positive, einfache Funktionen F nutze man Schritt 1. 3. Schritt Sei F ≥ 0 messbar. Es existieren Fn ↑ F , einfache Funktionen mit Fn ≥ 0. Dann gilt mit Satz von B. Levi und 2. Schritt die Behauptung. 4. Schritt F messbar und integrierbar. Zerlege F = F + −F − und Schritt 3 liefert die gewünschte Aussage. Bemerkung 3.19 Lemma 3.17 (iii) rechtfertigt die Notation K(x, dy)π(dx) = K(y, dx)π(dy), für K reversibel bezüglich π. Beispiel 3.20 Sei G ⊆ Rd , G = B(Rd ), A ∈ G, x ∈ G. 29 3.1 Definitionen und erste Eigenschaften 0.) Sei K(x, A) = 1A (x). Dann ist K reversibel bezüglich jedem Wmaß ν auf (G, G): Es gilt Z Z K(x, B)ν(dx) = ν(A ∩ B) = K(x, A)ν(dx). A B Insbesondere ist jedes ν eine stationäre Verteilung von K. 1.) Sei π ein Wmaß auf (G, G) und K(x, A) = π(A). Dann ist K reversibel bezüglich π: Es gilt Z Z K(x, B)π(dx) = π(A)π(B) = K(x, A)π(dx). A B 2.) Seien K1 und K2 reversibel bezüglich π. Dann gilt λK1 + (1 − λ)K2 ist reversibel bezüglich π (Beweis leicht). Im Allgemeinen sind aber K1 K2 und K2 K1 nicht wieder reversibel bezüglich π. Reversibilität gilt jedoch, falls K1 K2 = K2 K1 (sogar gdw., dazu vielleicht später mehr). Beweis: Für A, B ∈ G erhalten wir Z Z Z K1 K2 (x, B)π(dx) = K2 (y, B)K1 (x, dy)π(dx) A A G Z Z 1A (x)K2 (y, B)K1 (x, dy)π(dx) = G G Z Z 1A (y)K2 (x, B)K1 (x, dy)π(dx) (Lemma 3.17 (iii)) = G G Z K2 (x, B)K1 (x, A)π(dx) = G .. . zurück argumentieren Z = K2 K1 (x, A)π(dx). B 3.) „δ-ball-walk“. Sei δ > 0 und G ⊆ Rd beschränkt. Zur Erinnerung: λd (G ∩ B(x, δ)) λd (A ∩ B(x, δ)) + 1A (x) 1 − Wδ (x, A) = λd (B(0, δ)) λd (B(0, δ)) x3 x2 x1 30 G 3.2 Grundlegende Algorithmen Ansatz: Raten (bzw. Intuition) liefert einen Kandidaten für π: Die stationäre Verteilung π ist gegeben durch die Gleichverteilung Beweis: Um dies zu beweisen, prüfen wir Reversibilität bezüglich dieser. Seien dazu C, D ∈ B(G) und C ∩ D = ∅. Dann gilt Z Z λd (D ∩ B(x, δ)) Wδ (x, D)dx = dx λd (B(0, δ)) C C Z Z 1 = 1B(x,δ) (y)dydx λd (B(0, δ)) C D Z Z 1 1B(y,δ) (x)dydx (da 1B(x,δ) (y) = 1B(y,δ) (x)) = λd (B(0, δ)) C D Z = Wδ (x, C)dx (Fubini). D Mit Lemma 3.17 (ii) erhalten wir, dass der δ-ball-walk reversibel bezüglich der Gleichverteilung ist. 3.2 Grundlegende Algorithmen Sei stets G ⊆ Rd , G = B(G) und ρ : G → (0, ∞) eine nichtnormierte Dichtefunktion, d.h. Z 0 < ρ(x)dx < ∞. G (Es gilt nicht notwendigerweise R G ρ(x)dx = 1.) Mittels der nichtnormierten Dichtefunktion kann man ein Wmaß πρ mittels R ρ(x)dx πρ (A) = RA , A∈G ρ(y)dy G definieren. Ziel: Konstruktion von Übergangskernen, die reversibel bezüglich πρ sind, oder zumindest πρ als stationäre Verteilung besitzen. Fragen: 1) Warum soll πρ eine stationäre Verteilung sein? Intuitiv: Falls πρ eine stationäre Verteilung von Übergangskern K ist, dann gilt πρ = πρ P . Das heißt πρ ist eine Art „Fixpunkt“ der linearen Abbildung ν 7→ νP (ν Wmaß). Die Idee ist dann, ein iteratives Verfahren zu starten, um den Fixpunkt zu approximieren. Falls P gewisse Eigenschaften erfüllt (Kontraktionseigenschaft, wie beim Banachschen Fixpunktsatz gefordert) sollte νP n , für n groß genug, „nahe“ an πρ liegen. 2) Warum gerade diese Form πρ ? 31 3.2 Grundlegende Algorithmen a) Sei G beschränkt und ρ(x) = 1G (x). Dann ist πρ die Gleichverteilung in G. Dies umfasst das Szenario aus Abschnitt 1. b) statistische Physik: Boltzmannverteilung, µβ (A) = 1 Zβ Z e−βH(x) dx, A wobei β die inverse Temperatur, H die Hamiltonfunktion und Zβ die Normierungskonstante ist. c) Bayesscher Ansatz in der Statistik: Gegeben sind Beobachtungen / Daten / Messwerte b ∈ Rs , s ∈ N. Diese werden modelliert, als Realisierungen von einem zufälligen Vektor B : (Ω, F, P) → (Rs , B(Rs )), B = (B1 , . . . , Bs ), Bi zufällige Größen. In der klassischen Statistik ist B ein zufälliger Vektor mit Verteilungsdichte f : Rs × Rd → (0, ∞), (b, x) 7→ f (b, x) wobei x ∈ Rd als fester Parameter angenommen wird. Die VD heißt auch Likelihoodfunktion. Zum Beispiel: Wir machen den Ansatz Bi iid N (m, v 2 ) (1-dimensional) normalverteilt, d.h. s Y (bi −m)2 1 e− 2v2 . f (b1 , . . . , bs , m, v 2 ) = 2 s/2 | {z } (2πv ) i=1 =x Nun bestimmt die Maximum-Likelihood-Methode der klassischen Statistik den Parametervektor x, sodass f (b, x) maximal wird. Intuitiv hat die Realisierung b die höchste Wahrscheinlichkeit. Bei dem Bayesschen Ansatz werden B und der Parameter X, hier gegeben durch X : (Ω, F, P) → (Rd , B(Rd )), als zufällige Vektoren mit gemeinsamer Verteilungsdichte p(x) · f (b, x) x ∈ Rd , b ∈ Rs angesehen. Dabei ist p : Rd → [0, ∞) die W-dichte der sogenannten Priorverteilung von X und f (·, x) die bedingte Dichte von B unter X = x. Nun ist die Posteriorverteilung von X unter B = b durch die bedingte Dichte (siehe Satz 2.16) πX|B=b (x) = R p(x) · f (b, x) p(y)f (b, y)dy Rd gegeben und von Interesse. In Kurzschreibweise (wobei ∝ für „proportional“ steht): posterior 32 ∝ prior × likelihood 3.2 Grundlegende Algorithmen Frage: Warum „Bayes“? In der Situation fX|B=b fB|X=x fX fB bedingte Dichte von X unter der Bedingung b, bedingte Dichte von B unter der Bedingung x, Dichte von X, Dichte von B, besagt der Satz von Bayes: fX|B=b (x) (Elementare Form: P(A | B) = 3.2.1 = Satz 2.16 fX (x) · fB|X=x (b) fB (b) P(A)P(B|A) .) P(B) Metropolis-Hastings Algorithmus Der Algorithmus wurde von Metropolis et al. in [14] vorgestellt und später von Hastings in [7] verallgemeinert. Spezialfall: „Unabhängiger Metropolis sampler“ Annahmen: • G beschränkt • Q sei die Gleichverteilung in G, d.h. Q(A) = λd (A) , λd (G) A ∈ B(G). Wir erläutern einen Übergangsmechanismus von xi zu xi+1 (x1 , x2 , . . . ∈ G). Algorithmus: Input: Output: xi (aktueller Zustand) und Q (Vorschlagskern) xi+1 (nächster Zustand) 1) Wähle voneinander unabhängig y bezüglich Q und u gleichverteilt in [0, 1]. 2) Setze Akzeptanzwahrscheinlichkeit ρ(y) α(xi , y) := min 1, . ρ(xi ) Falls u ≥ α(xi , y) setze xi+1 := xi , sonst setze xi+1 := y. 3) Ausgabe xi+1 . Skizze: 33 3.2 Grundlegende Algorithmen α = 1 ρ α = 1 α = 3/4 G = [a, b], y x5 x3 x4 x2 b = a x1 Folge der Realisierung Zustand in G x1 y1 x2 y2 x3 y3 x4 y3 x5 . y4 Warnung: Wir weisen auf den Unterschied zur Verwerfungsmethode zur Konstruktion von Zufallszahlengeneratoren hin (siehe Kapitel 1, Motivation). Bei dieser Verwerfungsmethode werden so lange Zustände erzeugt, bis einer akzeptiert wird, und letztlich werden nur akzeptierte Zustände ausgegeben. Beim Metropolis-Hastings Algorithmus wird der akzeptierte oder der aktuelle Zustand zurückgegeben. Zum allgemeinen Verfahren: Sei q : G × G → [0, ∞) und für alle x ∈ G sei q(x, ·) integrierbar (bzgl. dem Lebesguemaß) mit Z q(x, y)dy ≤ 1. G Dann ist Z Z q(x, y)dy + 1A (x) 1 − Q(x, A) = A q(x, y)dy G ein Übergangskern in (G, B(G)). (In der Literatur wird q auch als Übergangsdichte bezeichnet.) Wir nennen Q Vorschlagskern. Frage: Wie können/müssen wir Q modifizieren, sodass ein Übergangskern heraus kommt, der reversibel bezüglich πρ ist? Wir wollen also eine messbare Funktion kρ : G × G → [0, ∞) mit Z kρ (x, y)dy ≤ 1 G angeben, sodass Z kρ (x, y)dy + 1A (x) 1 − Kρ (x, A) = A ein bezüglich πρ reversibler Übergangskern ist. 34 Z kρ (x, y)dy G 3.2 Grundlegende Algorithmen Lemma 3.21 Ein Übergangskern der Form Kρ ist genau dann reversibel bezüglich πρ , wenn kρ (x, y)ρ(x) = kρ (y, x)ρ(y) f.ü. bzgl. Lebesguemaß. Beweis: Seien A, B ∈ B(G) beliebig und c = Z R G ρ(x)dx. Nun gilt: Z Kρ (x, B)πρ (dx) = A Kρ (x, A)πρ (dx) B Z Z ⇐⇒ kρ (x, y) Z ρ(x)dy dx + c Z 1 − A B A∩B Z Z Z kρ (x, y)dy ρ(x)dx c G Z ρ(x)dy 1 − kρ (x, y)dy ρ(x)dx dx + c c B A A∩B G Z Z Z Z ⇐⇒ kρ (x, y)ρ(x)dydx = kρ (x, y)ρ(x)dydx = kρ (x, y) A B B A Z Z ⇐⇒ Z Z kρ (x, y)ρ(x)dydx = A B kρ (y, x)ρ(y)dydx (Fubini) A B Z Z ⇐⇒ (kρ (x, y)ρ(x) − kρ (y, x)ρ(y)) dydx = 0 A B „⇐“ Trivial. „⇒“ Sei f (x, y) = kρ (x, y)ρ(x) − kρ (y, x)ρ(y). Dann gilt für alle A, B ∈ B(G) Z Z f (x, y)d(x, y) = 0. A B e ∈ B(G × G), dass Mit dem Satz 3.18 folgt dann für A Z f (x, y)d(x, y) = 0. e A e = {(x, y) ∈ G × G : f (x, y) ≥ 0} = {f ≥ 0} ∈ B(G × G). Es gilt Sei nun A Z Z 0= f dλ = f + dλ. f ≥0 G×G Und da f + ≥ 0 folgt f + = 0 λ-f.ü. Analog zeigt man f − = 0 λ-f.ü. Dies impliziert f = f + − f − = 0 λ-f.ü. Also kρ (x, y)ρ(x) = kρ (y, x)ρ(y) λ-f.ü. und die Behauptung ist bewiesen. 35 3.2 Grundlegende Algorithmen Das heißt, falls für alle x, y ∈ G gilt, dass q(x, y)ρ(x) = q(y, x)ρ(y), wären wir bereits fertig. Dann würden wir nämlich kρ = q setzen. Wie sollen wir kρ wählen, s.d. Kρ reversibel bezüglich πρ ist? Wir können o.B.d.A. annehmen, dass x, y ∈ G exisitieren, mit q(x, y)ρ(x) > q(y, x)ρ(y), (5) denn sonst läge bereits Reversibilität vor. (Intuitiv: Übergang von x zu y tritt zu häufig auf und Übergang von y zu x zu selten.) Wir modifizieren die linke Seite von (5): Wir multiplizieren diese mit einer Akzeptanzwahrscheinlichkeit 0 ≤ α(x, y) < 1, s.d. wir Gleichheit erhalten, d.h. α(x, y)q(x, y)ρ(x) = q(y, x)ρ(y) = α(y, x)q(y, x)ρ(y), (6) mit α(y, x) = 1. Wir setzen nun kρ (x, y) := α(x, y)q(x, y) und erhalten Reversibilität, da kρ (x, y)ρ(x) = α(x, y)q(x, y)ρ(x) = q(y, x)ρ(y) = α(y, x)q(y, x)ρ(y) = kρ (y, x)ρ(y). Wie sieht jetzt α(x, y) aus? Aus der ersten Gleichheit in (6) folgt α(x, y) = q(y, x)ρ(y) <1 q(x, y)ρ(x) und α(y, x) = 1. Zusammen ergibt das für alle x, y ∈ G n o ( q(y,x)ρ(y) min 1, q(x,y)ρ(x) q(x, y)ρ(x) 6= 0 α(x, y) := . 1 sonst Der Übergangskern ist dann Z Z α(x, y)q(x, y)dy + 1A (x) 1 − Kρ (x, A) = A α(x, y)q(x, y)dy G Z Z α(x, y)Q(x, dy) + 1A (x) 1 − = A denn Q(x, dy) = q(x, y)dy + 1dy (x)(1 − α(x, y)Q(x, dy) , G R q(x, z)dz) und Einsetzen in rechte Seite liefert Z Z Z α(x, y)q(x, y)dy + 1A (y) 1 − q(x, z)dz α(x, y) 1dy (x) | {z } =1 A G G Z Z Z + 1A (x) 1 − α(x, y)q(x, y)dy − 1 − q(x, z)dz α(x, y) 1dy (x) | {z } =1 G G G Z Z = α(x, y)q(x, y)dy + 1A (x) −q(x, z)dz 1 A G Z Z + 1A (x) 1 − α(x, y)q(x, y)dy − 1A (x) −q(x, z)dz . 1 G 36 G G 3.2 Grundlegende Algorithmen Im Prinzip folgt aus der vorherigen Betrachtung (der Wahl von α(·, ·)) folgendes Lemma. Lemma 3.22 Der Übergangskern Kρ , mit kρ = α(x, y)q(x, y), ist reversibel bezüglich πρ . Beweis: Da kρ (x, y)ρ(x) = kρ (y, x)ρ(y) und unter Verwendung von Lemma 3.21. Metropolis-Hastings-Algorithmus: Übergangskern von xi zu xi+1 : Eingabe: Ausgabe: xi (aktueller Zustand) Q (Vorschlagskern) xi+1 (nächster Zustand) 1) Wähle unabhängig voneinander y mit Verteilung Q(xi , ·) und u ∈ [0, 1] gleichverteilt. n o q(y,xi )ρ(y) 2) Berechne α(x, y) = min 1, q(x . ,y)ρ(x ) i i Falls u ≥ α(xi , y), setze xi+1 = xi , sonst setze xi+1 = y. 3) Ausgabe xi+1 . Bemerkung 3.23 a) Falls q(x, y) = q(y, x), für alle x, y ∈ G, so heißt Kρ Metropolis-Algorithmus oder MetropolisKern. b) Falls q(x, y) = η(y), für alle x, y ∈ G und eine Funktion η : G → (0, ∞), so heißt Kρ unabhängiger Metropolis-Algorithmus (siehe Spezialfall am Anfang dieses Abschnittes). c) Für den Metropolis-Hastings-Algorithmus benötigt man (bezüglich ρ) eigentlich nur Quotienten ρ(x) ρ(y) . Insbesondere spielt die Normierungskonstante keine Rolle. Funktionsauswertungen von ρ (bis auf einen konstanten Vorfaktor) reichen vollkommen aus. Bemerkung 3.24 In der Herleitung und Darstellung von Kρ taucht α : G × G → [0, 1] auf. Um das Ziel „Kρ reversibel bezüglich πρ “ zu erreichen, kann man α auch durch andere Funktionen, bzw. Akzeptanzwahrscheinlichkeiten α e : G × G → [0, 1] ersetzen. Zum Beispiel falls q(x, y) = q(y, x), für alle x, y ∈ G, führt die Wahl ρ(y) α e(x, y) = ρ(x) + ρ(y) auch zum Ziel. Der daraus resultierende Übergangsschritt, bzw. Übergangskern, wird Barkers Algorithmus genannt, siehe Barker [3]. Es gilt allerdings α e(x, y) ≤ α(x, y), für alle x, y ∈ G. 3.2.2 Hit-and-run-Algorithmus Seien G ⊆ Rd , G = B(G), ρ gegeben wie zu Beginn von Abschnitt 3 und R ρ(x)dx πρ (A) = RA . ρ(x)dx G (Für ρ(x) = 1G (x) siehe fünftes Beispiel in Bsp 3.7) 37 3.2 Grundlegende Algorithmen Idee: Übergang von x zu y durch hit-and-run-Schritt. ρ|{x+sθ∈G:s∈R} x + sθ G x+θ x Übergangskern ist Hρ (x, A) = Z 1 σ(Sd−1 ) Hθ,ρ (x, A)dσ(θ), Sd−1 wobei R∞ Hθ,ρ (x, A) = −∞ 1A (x + sθ)ρ(x + sθ)ds `ρ (x, θ) , mit Z∞ `ρ (x, θ) = 1G (x + sθ)ρ(x + sθ)ds. −∞ Wir schreiben auch kurz Hθ für Hθ,ρ und ` für `ρ . Bemerkung 3.25 Hθ (x, ·) ist die Verteilung, die durch ρ eingeschränkt auf {x + sθ ∈ G : s ∈ R} gegeben ist. Hit-and-run-Algorithmus: Übergang von xi zu xi+1 durch hit-and-run-Algorithmus: Input: Output: xi (aktueller Zustand) xi+1 (nächster Zustand) 1) Wähle θ ∈ Sd−1 gleichverteilt. 2) Wähle xi+1 bezüglich Hθ (xi , ·). Bemerkung 3.26 Schritt 2) ist unter Umständen nicht einfach zu implementieren. Idee für G beschränkt und konvex: • Bestimme Schnittpunkte von Gerade mit G (falls G konvex erhalte ich 2 Punkte), z.B. mit Bisektionsverfahren. • Bestimme globales Maximum ρmax von ρ, eingeschränkt auf dem Segment {x + sθ ∈ G : s ∈ R}. • Verwerfungsmethode auf 1-dimensionales Problem anwenden. Die auf dem Rechteck gleichverteilten Punkte werden unterhalb des Graphen von ρ akzeptiert und darüber verworfen. Wir haben die Hoffnung, dass hier die Akzeptanzwahrscheinlichkeit nicht zu klein ist. Skizze: 38 3.2 Grundlegende Algorithmen ρmax ρ|{x+sθ∈G:s∈R} Es ist nicht mehr so klar, welche Informationen wir von ρ für den Algorithmus benötigen. Reichen Funktionswerte von ρ aus? Unter weiteren Voraussetzungen kann man dies bejahen, z.B. G konvex, beschränkt und ρ log-konkav (d.h. log ρ konkav auf G). Frage: Ist Hρ reversibel bezüglich πρ ? Lemma 3.27 (i) ∀θ ∈ Sd−1 ist Hθ reversibel bezüglich πρ . (ii) Hρ ist reversibel bezüglich πρ . Beweis: (i) Sei c := R G ρ(x)dx, A, B ∈ B(G). Dann gilt Z Z∞ Z 1A (x)1B (x + sθ)ρ(x + sθ) ρ(x)dsdx c · `(x, θ) Hθ (x, B)πρ (dx) = Rd −∞ Z∞ Z A 1A (y − sθ)1B (y)ρ(y)ρ(y − sθ) dyds c · `(y − sθ, θ) = −∞ Rd Z Z∞ 1A (y − sθ)ρ(y − sθ) dsπρ (dy), `(y, θ) = B −∞ denn `(y − sθ, θ) = `(y, θ), wegen Z∞ `(y, θ) = Z∞ 1G (y + (t − s)θ)ρ(y + (t − s)θ)dt = `(y − sθ, θ). 1G (y + t̃θ)ρ(y + t̃θ)dt̃ = −∞ −∞ Mit −s = t folgt Z Z∞ Z Hθ (x, B)πρ (dx) = 1A (y + tθ)ρ(y + tθ) dtπρ (dy) `(y, θ) B −∞ A Z Hθ (y, A)ρ(dy). = B 39 3.2 Grundlegende Algorithmen (ii) Seien A, B ∈ B(G) beliebig. Dann gilt Z Z Hρ (x, B)πρ (dx) = A Z σ(dθ) πρ (dx) σ(Sd−1 ) Hθ (x, B) A Sd−1 Z 1 σ(Sd−1 ) = Z Hθ (x, B)πρ (dx) σ(dθ) Sd−1 A |R B {z } Hθ (x,A)πρ (dx) .. . zurückargumentieren Z = Hρ (x, A)πρ (dx). B 3.2.3 Gibbs sampler Wir unterscheiden 2 verschiedene Algorithmen, die unter dem Begriff „Gibbs sampler“ zusammengefasst werden. a) Random scan Gibbs sampler Dieser ist konzeptionell sehr ähnlich zum hit-and-run Algorithmus. Skizze: d = 2, G ⊆ R2 beschränkt e2 0 x x + e1 y Übergangskern d Rρ (x, A) = 1X He (x, A), d i=1 i wobei {e1 , . . . , ed } Euklidische Einheitsbasis im Rd ist, d.h. ei = (0, . . . , 0, und Hei (x, A) wie beim hit-and-run. 40 1 ↑ i-te Stelle , 0, . . . , 0), e1 3.2 Grundlegende Algorithmen Lemma 3.28 Rρ ist reversibel bezüglich πρ . Beweis: Analog zu Lemma 3.27 (ii). b) Deterministic scan Gibbs sampler Dρ (x, A) = He1 He2 . . . Hed (x, A), das Produkt von Übergangskernen. Skizze: d = 2, Übergang von x zu y: y x x + e1 Lemma 3.29 (a) Dρ ist im Allgemeinen nicht reversibel bezüglich πρ . (b) πρ ist eine stationäre Verteilung von Dρ . Beweis: (a) Konstruktion von nicht reversiblem Beispiel. Sei G = [0, 2] × [0, 2] \ [1, 2] × [1, 2] und ρ = 1G , d.h. d = 2 und πρ die Gleichverteilung auf G. Setze A1 = [0, 1] × [1, 2] und A2 = [1, 2] × [0, 1]. 2 A1 1 A2 0 Wir haben Z 1 dx He1 He2 (x, A2 ) 6= λ2 (G) A1 G 2 Z He1 He2 (x, A1 ) dx , λ2 (G) A2 denn für alle x ∈ A1 gilt He1 He2 (x, A2 ) = 0 und für alle x ∈ A2 gilt He1 He2 (x, A1 ) = =⇒ Im Allgemeinen ist Dρ nicht reversibel bezüglich πρ . 1 4. (b) Aus Lemma 3.27 (i) wissen wir, dass Hej für j = 1, . . . , d reversibel bezüglich πρ ist. Insbesondere ist πρ eine stationäre Verteilung von Hej (siehe Lemma 3.17 (i)). Deshalb gilt πρ D(A) = πρ He1 He2 . . . Hed (A) = πρ He2 . . . Hed (A) = . . . = πρ (A). | {z } πρ 41 3.2 Grundlegende Algorithmen Bemerkung 3.30 Die „Kosten“ von einem Schritt bezüglich Dρ sind so hoch wie von d Schritten mit Rρ . Ein Vorteil des „deterministic scan Gibbs sampler“ ist, dass er Produktstrukturen ausnutzen kann. Zum Beispiel: G = [0, 1]d und ρ = 1G . Bei diesem Beispiel erzeugt ein Schritt von Dρ genau die richtige Verteilung. 3.2.4 Slice sampling In diesem Abschnitt stellen wir den „simple slice sampler“ und eine Verallgemeinerung, den „hybriden Slice sampler“ vor. R Zur Erinnerung: G ⊆ Rd , ρ : G → (0, ∞) mit 0 < G ρ(x)dx < ∞. Und zusätzlich sei kρk∞ = supx∈G |ρ(x)| < ∞. Dies ist nicht unbedingt nötig, schließt aber im Wesentlichen nur uninteressante Beispiele aus. Für t ∈ [0, kρk∞ ] sei G(t) = {x ∈ G : ρ(x) ≥ t} die Levelmenge von ρ bezüglich t. Es sei bemerkt, dass aus Z∞ Z∞ Z λd (G(t))dt = 0 Z∞ Z 1G(t) (x)dxdt = 0 G Z ρ(x) < ∞ 1[0,ρ(x)] (t)dxdt = 0 G G folgt, dass λd (G(t)) < ∞ für fast alle t ∈ [0, kρk∞ ] bezüglich dem Lebesguemaß. Für t = 0 gilt dies nicht unbedingt, aber {0} ist Nullmenge. a) Simple slice sampler Idee/Skizze: Übergang von x zu y mit einem Schritt vom simple slice sampler: d = 1 ρ(x) t ρ x Skizze für d = 2: 42 y G(t) 3.2 Grundlegende Algorithmen ρ(x) t y x G(t) Übergangskern: Dazu sei Ut (A) = λd (A ∩ G(t)) , λ(G(t)) A ∈ B(G), die Gleichverteilung auf G(t). Das heißt (Ut )t>0 eine Folge von Übergangskernen/Verteilungen. Dann ist 1 U (x, A) = ρ(x) ρ(x) Z Ut (A)dt 0 der Übergangskern vom simple slice sampler. Algorithmus: Eingabe: Ausgabe: xi (aktueller Zustand) xi+1 (nächster Zustand) 1) Wähle t ∈ [0, ρ(xi )] bezüglich Gleichverteilung. 2) Wähle xi+1 gleichverteilt in G(t). Lemma 3.31 U ist reversibel bezüglich πρ . 43 3.2 Grundlegende Algorithmen Beweis: Seien A, B ∈ B(G) beliebig und c = Z R ρ(x)dx = U (x, A) c G ρ(x)dx. Dann gilt Z ρ(x) Z dx Ut (A)dt c B 0 Z∞ Z B = 0 B dxdt 1[0,ρ(x)] (t) Ut (A) c | {z } 1G(t) (x) Z∞ Ut (A)Ut (B) = λd (G(t))dt c 0 .. . zurück argumentieren Z = U (x, B)πρ (dx). A Bemerkung 3.32 Schritt 2) des Algorithmus ist problematisch, da das Erzeugen/ die Simulation der Gleichverteilung in einer d-dimensionalen Menge (zum Beispiel der Levelmenge G(t)) im Allgemeinen nicht in vernünftiger Zeit realisierbar ist. Diese Bemerkung stellt die Hauptmotivation für die folgende Verallgemeinerung, bzw. Modifikation, dar. b) Hybride slice sampler Sei (Qt )t>0 eine Folge von Übergangskernen, wobei Qt ein Übergangskern auf G(t) ⊆ Rd definiert. Wir setzen Qt auf (G, B(G)) wie folgt für x ∈ G, A ∈ B(G) fort: ( 0 x∈ / G(t) Qt (x, A) := . Qt (x, A ∩ G(t)) x ∈ G(t) Allerdings schreiben wir für Qt einfach Qt . Die Idee ist 2) im Algorithmus vom simple slice sampler durch einen Schritt mittels Qt zu ersetzen. Als Übergangskern ergibt sich für den hybriden slice sampler (basierend auf Qt ) 1 Q(x, A) = ρ(x) ρ(x) Z Qt (x, A)dt, x ∈ G, A ∈ B(G). 0 Frage: Unter welchen Voraussetzungen an Qt ist der Übergangskern Q reversibel bezüglich πρ ? Zur Vereinfachung der Notation definieren wir die Dichtefunktion λd (G(s)) w(s) = R ∞ , λd (G(t))dt 0 auf ([0, ∞), B([0, ∞))). 44 s ∈ [0, ∞), 3.3 Markovoperator Lemma 3.33 (siehe auch [10]) Q ist genau dann reversibel bezüglich πρ , wenn Z∞ Z Z∞ Z Qt (x, A)Ut (dx)w(t)dt = 0 B Qt (x, B)Ut (dx)w(t)dt 0 A für alle A, B ∈ B(G). Insbesondere: Falls Qt reversibel bezüglich Ut ist (für fast alle t bezüglich w), dann ist Q reversibel bezüglich πρ . Wir bemerken: Die Gleichung aus Lemma 3.33, welche die Reversibilität bezüglich πρ charakterisiert, kann als Reversibilitätsbedingung von Qt bezüglich Ut in Erwartung interpretiert werden, da Ew (Q(x, dy)U (dx)) = Ew (Q(y, dx)U (dy)), ∀x, y ∈ G. Beweis (des Lemmas): R R∞ Wir wissen bereits, dass c := G ρ(x)dx = 0 λd (G(t))dt (siehe Anfang dieses Abschnittes). Seien A, B ∈ B(G) beliebig. Wir erhalten Z Z ρ(x) Z dx Q(x, A)πρ (dx) = Qt (x, A)dt c B B 0 Z Z∞ = dx 1G(t) (x) Qt (x, A)dt c | {z } B 0 =1[0,ρ(x)] (t) Z∞ Z Qt (x, A) = 0 B dx λd (G(t)) dt λd (G(t)) | {z c } =w(t) Z∞ Z Qt (x, A)Ut (dx)w(t)dt. = 0 B Analog gilt Z∞ Z Z Q(x, B)πρ (dx) = A Qt (x, B)Ut (dx)w(t)dt. 0 A Damit folgt die Behauptung. 3.3 Markovoperator Sei (G, G) ein messbarer Raum und π Wmaß auf (G, G). Für p ∈ [1, ∞) sei Z 1/p Lp = f : G → R messbar : kf kp := |f (x)|p π(dx) <∞ G 45 3.3 Markovoperator und für p = ∞ sei L∞ = {f : G → R messbar : kf k∞ := ess supx∈G |f (x)| < ∞}.2 Die Funktionenräume Lp sind gegeben durch den Raum der Äquivalenzklassen [f ] =: f der π-f.ü. gleichen Funktionen mit Repräsentanten der Norm kf kp < ∞. Lp ist ein Banachraum für p ∈ [1, ∞], d.h. ein normierter, vollständiger Raum. Wichtige Ungleichungen: • Jensensche Ungleichung Sei f ∈ L1 und ϕ : [0, ∞) → R konvex, d.h. ∀λ ∈ [0, 1] ∀x, y ∈ [0, ∞) : ϕ(λx + (1 − λ)y) ≤ λϕ(x) + (1 − λ)ϕ(y). Dann gilt Z Z ϕ |f |dπ ≤ ϕ(|f |)dπ. G G • Höldersche Ungleichung Seien p, q ∈ [1, ∞] mit 1 p + 1 q = 1 und f ∈ Lp , g ∈ Lq . Dann gilt f · g ∈ L1 und kf · gk1 ≤ kf kp kgkq . Für den Beweis der Jensenschen Ungleichung siehe [9, Satz 7.9] und für den Beweis der Hölderschen Ungleichung siehe [9, Satz 7.16]. Folgerung 3.34 Sei p ≤ q und p, q ∈ [1, ∞]. Dann gilt kf kp ≤ kf kq und damit Lq ⊆ Lp . Beweis: Wir haben 1/q 1/p·q/q Z Z ≤ |f |p·q/p dπ = kf kq . kf kp = |f |p dπ G G Nun sei K Übergangskern auf (G, G) und π eine stationäre Verteilung von K. Definition 3.35 (Markovoperator) Sei f ∈ Lp . Dann ist der Markovoperator P gegeben durch Z P f (x) = f (y)K(x, dy). G 2 Zur Erinnerung: ess supx∈G |f (x)| = 46 inf sup |f (x)|. N ∈G G\N π(N )=0 3.3 Markovoperator Interpretation: Sei (Xn )n∈N Markovkette mit Übergangskern K. Dann gilt E[f (X2 ) | X1 = x] E5 aus 3.1 Z f (y)K(x, dy). = G Eigenschaften: E0 P ist ein linearer Operator. E1 Ist f (x) = 1 für alle x ∈ G, folgt P f (x) = f (x) = 1. (Gilt auch allgemeiner für konstante Funktionen.) R E2 f ∈ L1 =⇒ P(|f |)(x) = G |f (y)|K(x, dy) ist π-f.s. überall endlich. Beweis: Nach Folgerung 3.13 ist Z Z Z |f (y)|K(x, dy)π(dx) = G G |f (y)|π(dy) < ∞. G Wegen der Positivität des Integranden folgt die Behauptung. E3 P : Lp → Lp und k P kLp →Lp = 1 für p ∈ [1, ∞]. Beweis: Sei f ∈ Lp . Es gilt k P f kpp = Z | P f (x)|p π(dx) G = p Z Z f (y)K(x, dy) π(dx) G G Z Z ≤ = G G kf kpp |f (y)|p K(x, dy)π(dx) (E2 und Jensen, da p ≥ 1) (Folg. 3.13) Also haben wir k P f kp ≤ kf kp und k P 1kp = 1. k P kLp →Lp ist gegeben durch k P kLp →Lp := sup k P f kp . kf kp ≤1 Also 1 ≤ k P kLp →Lp ≤ 1 und somit k P kLp →Lp = 1. R E4 f ∈ Lp =⇒ Pm f (x) = G f (y)K m (x, dy), für m ∈ N. 47 3.3 Markovoperator Beweis: Induktion über m ∈ N. m = 1 X nach Definition. Weiterhin gilt Pm+1 f (x) = P(Pm f )(x) Z = P f (z)K m (·, dz) (x) G Z Z = f (z)K m (y, dz)K(x, dy) G G Z = f (z)KK m (x, dz) (Lemma 3.10 mit ν = K) G Z = f (z)K m+1 (x, dz). G E5 K reversibel bezüglich π ⇐⇒ P selbstadjungiert auf L2 . Bemerkung 3.36 L2 ist ein Hilbertraum mit Skalarprodukt Z hf, gi := f · g dπ, f, g ∈ L2 G und P heißt selbstadjungiert, falls hP f, gi = hf, P gi. Beweis (von E5): „⇐“ klar, da für A, B ∈ G gilt Z Z K(x, B)π(dx) = h1A , P 1B i = hP 1A , 1B i = K(x, A)π(dx). A B „⇒“ Es gilt für beliebige f, g ∈ L2 Z Z hP f, gi = f (y)g(x)K(x, dy)π(dx) G G Z Z f (x)g(y)K(x, dy)π(dx) = (Lemma 3.17 (iii)) G G = hf, P gi. Zur Erinnerung: Sei µ Wmaß auf (G, G). Dann ist Z m µ P (A) := K m (x, A)µ(dx), G auch ein Wmaß auf (G, G) (siehe E4 in Abschnitt 3.1). 48 A∈G 3.4 Klassische Konvergenzeigenschaften von Markovketten Bemerkung 3.37 Diese „Art von Operation“ lässt sich auch auf signierte Maße µ anwenden, d.h. auf σ-additive Funktionen µ : G → R mit µ(∅) = 0. Man kann dann auch zeigen, dass µ 7→ µ P einen linearen, beschränkten dµ dµ ∈ Lp induziert ( dπ verallgemeinerte Dichte von µ und π). Operator auf den signierten Maßen mit dπ Lemma 3.38 dµ ∈ L2 (d.h. µ besitzt eine Dichte bezüglich π und ∀A ∈ G gilt Sei µ ein Wmaß (G, G) mit dπ R dµ dµ µ(A) = A dπ dπ, sowie dπ ≥ 0). Sei K reversibel bezüglich π. Dann gilt d(µ Pm ) = Pm dπ dµ dπ π-f.s. Beweis: Wir zeigen m Z µ P (A) = m P dµ dπ dπ, A ∈ G. A Dann gilt mit dem Satz von Radon-Nycodim, siehe [9, Korollar 7.34], dass d Pm dπ = Pm dµ dπ π-f.s. Wir haben µ Pm (A) = Z K m (x, A)µ(dx) G Z Z = 1A (y)K m (x, dy) dµ (x)π(dx) dπ G G Z Z dµ (y)K m (x, dy)π(dx) dπ G G Z dµ m (x)π(dx). = P dπ 1A (x) = (Lemma 3.17 (iii)) A 3.4 Klassische Konvergenzeigenschaften von Markovketten Sei (Xn )n∈N eine Markovkette (auf messbaren Raum (G, G)) mit Übergangskern K und Startverteilung ν. Desweiteren sei K reversibel bezüglich π. n→∞ Frage: Wann gilt P(Xn ∈ A) −→ π(A), für beliebiges A ∈ G? | {z } =ν Pn−1 (A) Definition 3.39 Der totale Variationsabstand von 2 Wmaßen µ, ν auf (G, G) ist gegeben durch kµ − νktv = sup |ν(A) − µ(A)|. A∈G (m(µ, ν) = kµ − νktv ist in der Tat eine Metrik auf der Menge der Wmaße.) 49 3.4 Klassische Konvergenzeigenschaften von Markovketten Lemma 3.40 dµ Seien µ, ν Wmaße auf (G, G). Wir nehmen an, dass die Dichtefunktionen dπ (Dichte von µ bezüglich dν π) und dπ (Dichte von ν bezüglich π) existieren. Dann gilt Z 1 dν 1 dµ . kµ − νktv = sup f (x)(µ(dx) − ν(dx)) = − 2 kf k∞ ≤1 2 dπ dπ 1 G Beweis: Wir zeigen zunächst kµ − νktv = 1 2 R supkf k∞ ≤1 G f (x)(µ(dx) − ν(dx)). Es gilt kµ − νktv = sup |µ(B) − ν(B)| B∈G Z dµ dν = sup (x) − (x) π(dx) dπ dπ B∈G B Z dµ dν = sup 1B (x) (x) − (x) π(dx) . dπ dπ B∈G G | {z } (∗) dµ dν Für welches B wird (∗) am größten? Antwort: Der Integrand dπ − dπ sollte immer positiv oder negativ sein. D.h. für dµ dν A := x ∈ G : (x) ≥ (x) dπ dπ oder Ac wird obiges Integral betragsmäßig am größten und kµ − νktv = max{µ(A) − ν(A), ν(Ac ) − µ(Ac )} = µ(A) − ν(A). Andererseits ist aber Z Z 1 dν 1 dµ sup f (x)(ν(dx) − µ(dx) = sup f (x) (x) − (x) π(dx) . 2 kf k∞ ≤1 dπ dπ 2 kf k∞ ≤1 G G | {z } (?) Für welche Funktion f wird (?) am größten? Antwort: Mit obiger Menge A für ( −1 x ∈ A g(x) := . 1 x ∈ Ac Wir erhalten Z Z 1 dµ 1 dν sup f (dν − dµ) = g(x) (x) − (x) π(dx) 2 kf k∞ ≤1 dπ dπ 2 G G 1 = |ν(A) − µ(A) − ν(Ac ) + µ(Ac )| 2 = |ν(A) − µ(A)| = µ(A) − ν(A). 50 3.4 Klassische Konvergenzeigenschaften von Markovketten Damit haben wir die erste Gleichheit und eigentlich auch die zweite aufgrund der Wahl von A. Wir bieten aber auch eine alternative Argumentation an: R dν dµ Wir zeigen nun supkf k∞ ≤1 | G f (x)(µ(dx) − ν(dx))| = dπ − dπ . Es gilt 1 Z dν dν dµ dµ sup f − dπ ≤ sup kf k∞ − dπ dπ . dπ dπ kf k∞ ≤1 kf k∞ ≤1 1 G Weiterhin gilt Z dν dν dµ dµ dπ − dπ = dπ (x) − dπ (x) π(dx) 1 G Z dν dµ = g(x) (x) − (x) π(dx) dπ dπ G Z dν dµ ≤ sup f − dπ . dπ dπ kf k∞ ≤1 G n Nun fragen wir nach einer Abschätzung von kν P −πktv (K reversibel bezüglich π, ν Startverteilung). Es gilt d(ν Pn ) n 2 kν P −πktv = − 1 (Lemma 3.40) dπ 1 n dν (Lemma 3.38) = − 1 P dπ 1 n dν = (P −S) dπ − 1 , 1 R dν wobei S, wie üblich, der Solution Operator ist (S(f ) = G f dπ, S( dπ − 1) = 0, P 1 = 1.) Damit erhalten wir folgenden Satz. Satz 3.41 Sei ν ein Wmaß und K reversibel bezüglich π. Weiter sei Dann gilt dν (i) kν Pn −πktv ≤ 12 kPn −SkL1 →L1 dπ − 11 , | {z } dν dπ ∈ L1 und für f ∈ L1 sei S(f ) = R G f dπ. ≤2 n (ii) kν P −πktv ≤ 1 2 n dν kP −SkL2 →L2 dπ − 12 , falls dν dπ ∈ L2 . Beweis: Siehe Vorbetrachtung für Formel (i). Um (ii) zu zeigen wende Folgerung 3.34 an. Bemerkung 3.42 Falls ν = π, dann gilt kν Pn −πktv = 0, da π Pn = π. dν dν In den Abschätzungen (i) und (ii) kommt dπ − 11 bzw. dπ − 12 vor. Diese Größen sind für ν = π ebenfalls Null. D.h. falls die Markovkette bezüglich einer stationären Verteilung startet, dann sind die Abschätzungen scharf, also erhalten wir Gleichheit. 51 3.4 Klassische Konvergenzeigenschaften von Markovketten Sei nun L02 = {f ∈ L2 : S(f ) = 0}. Dies ist ein abgeschlossener Unterraum von L2 und somit wieder ein Hilbertraum (gleiches Skalarprodukt und Norm in L2 .) Desweiteren erhalten wir L2 = L02 ⊕ (L02 )⊥ , mit (L02 )⊥ = {f ∈ L2 : f ≡ c, c ∈ R}, das orthogonale Komplement von L02 , da für f ∈ L2 gilt f = f − S(f ) + S(f ) . | {z } | {z } ∈L02 ∈(L02 )⊥ Lemma 3.43 Sei π eine stationäre Verteilung von K, n ∈ N. Dann gilt P : L02 → L02 und kPn kL0 →L0 = kPn −SkL2 →L2 . 2 2 Beweis: Wir zeigen P : L02 → L02 . Sei g ∈ L02 . Zu zeigen: S(P g) = 0. Dies gilt wegen Z Z Z Folg. 3.13 g(y)K(x, dy)π(dx) = gdπ = S(g) = 0. G G G Nun zu den Operatornormen: Zunächst bemerken wir Z Pn (S(f )) = S(f )K n (x, dy) = S(f ), (7) G kf − 2 S(f )k2 = 2 kf k2 2 − (S(f )) ≤ kf k22 =⇒ kf − S(f )k2 ≤ 1, falls kf k2 ≤ 1. (8) Damit erhalten wir k Pn −SkL2 →L2 = sup k(Pn −S)f k2 kf k2 ≤1 (7) = sup k Pn (f − S(f ))k2 kf k2 ≤1 (8) ≤ sup k Pn gk2 kgk2 ≤1 g∈L02 = k Pn kL02 →L02 . Andererseits k Pn kL02 →L02 = sup k Pn g − S(g) k ≤ sup k Pn f − S(f )k2 = k Pn −SkL2 →L2 . |{z} kf k2 ≤1 kgk2 ≤1 g∈L02 =0 Damit folgt die Behauptung. Diese Vorbetrachtungen motivieren folgende Konvergenzbegriffe: 52 3.4 Klassische Konvergenzeigenschaften von Markovketten Definition 3.44 (L1 -exponentielle Konvergenz) Sei α ∈ [0, 1), M ∈ (0, ∞). Dann heißt der Übergangskern K L1 -exponentiell konvergent mit (α, M ), falls k Pn −SkL1 →L1 ≤ αn M, ∀n ∈ N. Eine Markovkette mit Übergangskern K heißt L1 -exponentiell konvergent, falls α und M existieren, s.d. K L1 -exponentiell konvergent mit (α, M ) ist. Definition 3.45 (absolute Spektrallücke) Ein Übergangskern K und der dazugehörige Markovoperator P haben eine (absolute) Spektrallücke (1 − β), falls β = k P kL02 →L02 < 1. Bemerkung 3.46 a) Falls P eine (absolute) Spektrallücke (1 − β) besitzt, folgt mittels der zwei vorherigen Resultate (Lemma 3.43 und Satz 3.41) n n dν − 1 kν P −πktv ≤ β . dπ 2 b) Der Name Spektrallücke kommt von folgender Interpretation: Mit σ(P | L2 ) bezeichnen wir das Spektrum von P : L2 → L2 . Wir wissen, dass P 1 = 1, d.h. 1 ∈ σ(P | L2 ) ist ein Eigenwert und (L02 )⊥ der dazugehörige Eigenraum. Desweiteren gilt k P kL02 →L02 = sup{|λ| : λ ∈ σ(P | L02 )}, siehe dazu [21, Korollar VII.1.2]. Da σ(P | L2 ) = σ(P | L02 ) ∪ {1} wissen wir, dass 1 ein isolierter Punkt im Spektrum von P ist, falls β = k P kL02 →L02 < 1. D.h. es existiert eine Lücke zur 1, die mit Spektrallücke bezeichnet wird. Satz 3.47 Seien α ∈ [0, 1) und M ∈ (0, ∞). Sei Übergangskern K reversibel bezüglich π. Dann gilt k Pn −SkL1 →L1 ≤ αn M =⇒ k P kL02 →L02 ≤ α Beweis (Idee. Details in [18, Prop. 3.24]): Es gilt wegen der Dualität von L1 und L∞ (wegen Reversibilität ist der duale Operator von P wieder P) die Äquivalenz k Pn −SkL1 →L1 ≤ αn M ⇐⇒ k Pn −SkL∞ →L∞ ≤ αn M. Der Satz von Riesz-Thorin liefert k Pn −SkL2 →L2 ≤ αn M. (9) (siehe Bennet, Sharpley „Interpolation of operators“ Kap. 4, Corollary 1.8) Weiter gilt Pn −S = (P −S)n , n ∈ N. Dies zeigen wir per Induktion. n = 1 X. Für n ≥ 1 gilt dann (P −S)n+1 = (P −S)(P −S)n = (P −S)(Pn −S) = Pn+1 − P S − S Pn +S 2 . 53 3.4 Klassische Konvergenzeigenschaften von Markovketten Wegen P(S(f )) = S(f ), S(S(f )) = S(f ) und Z Z Z n n S(P (f )) = P f (x)π(dx) = f (y)K n (x, dy)π(dx) = S(f ) G G G gilt Pn −S = (P −S)n für alle n ∈ N. Nun folgt die Behauptung mit der Spektralradiusformel k P kL02 →L02 = k P −SkL2 →L2 = (Lemma 3.43) 1/n lim k(P −S)n kL2 →L2 n→∞ (P − S selbstadj., siehe [21, VI.1.7]) (9) ≤ lim (αn M )1/n = α. n→∞ Wir führen einen weiteren Konvergenzbegriff ein. Definition 3.48 (gleichmäßig ergodisch) Seien α ∈ [0, 1) und M ∈ (0, ∞). Dann heißt der Übergangskern gleichmäßig ergodisch mit (α, M ), falls π-f.ü. kK n (x, ·) − πktv ≤ αn M, n ∈ N gilt. Eine Markovkette heißt gleichmäßig ergodisch, falls Konstanten α und M existieren, sodass der dazugehörige Übergangskern K gleichmäßig ergodisch mit (α, M ) ist. Unter der Annahme der Reversibilität bezüglich π haben wir folgende Beziehungen zwischen den verschiedenen Konvergenzbegriffen: kK n (x, ·) − πktv ≤ αn M (glm. erg. mit (α, M )) β = k P kL02 →L02 ≤ α Satz 3.47 k Pn −SkL∞ →L∞ ≤ 2M αn (L2 - Spektrallücke ≥ 1 − α) ( n k P −SkLp →Lp ≤ 54 22/p−1 α2n(p−1)/p 2(p−2)/p α2n/p p ∈ (1, 2) p ∈ [2, ∞) k Pn −SkL1 →L1 ≤ 2M αn (L1 -exp. konv. mit (α, 2M )) 4 Markovketten Monte-Carlo Methoden Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Sei K reversibel bezüglich π. Ziel: Approximation von Z S(f ) = f (y)π(dy), G für integrierbare Funktionen f . Approximationsschema: Markovketten Monte-Carlo Methode (MCMC) n Sn,n0 (f ) = 1X f (Xj+n0 ), n j=1 mit n, n0 ∈ N (n0 wird burn-in genannt). Zunächst wollen wir das „starke Gesetz der großen Zahlen“ für Sn,n0 formulieren und damit zeigen, dass Sn,n0 wohldefiniert ist. Satz 4.1 (Starkes Gesetz der großen Zahlen für MCMC) Sei K π-irreduzibel, d.h. ∀A ∈ G ∀x ∈ G ∃n ∈ N : π(A) > 0 =⇒ K n (x, A) > 0. Dann gilt für alle f ∈ L1 Px lim Sn,n0 (f ) = S(f ) = 1, n→∞ für π-fast alle x ∈ G. Hier zeigt x in Px an, dass die Startverteilung ν = δx (deterministischer Start in x ∈ G). Bemerkung 4.2 (i) Einen Beweis dieses Satzes findet man in [15, Thm. 17.17]. Einen einfacheren Zugang bietet die Arbeit [2] von Asmussen u. Glynn „Harris-Recurrence and MCMC: A simplified approach“. (ii) Die Bedingung der π-Irreduzibilität besagt, dass man jede Menge A ∈ G von jedem x ∈ G in endlich vielen Schritten mit der Markovkette erreichen kann, falls π(A) > 0 ist. Im Sinne von lokalen „random walks“ (z.B. ball walk) ist dies eine Zusammenhangsbedingung an G. Skizze: δ-ball walk δ - ball walk nicht π-irreduzibel Abstand > δ 55 4.1 Fehlerabschätzungen wahrscheinlich „schlechte Konvergenz“, ist aber π-irreduzibel Wir sind allerdings an expliziten Abschätzungen des Fehlers von Sn,n0 interessiert. 4.1 Fehlerabschätzungen Wir betrachten den Fehlerbegriff aus Definition 1.6 für Sn,n0 . Zur Erinnerung: eν (Sn,n0 , f ) = Eν,K |Sn,n0 (f ) − S(f )|2 1/2 . Hier zeigt ν, K in Eν,K an, dass in Sn,n0 eine Markovkette mit Übergangskern K und Startverteilung ν vorliegt. Folgendes Lemma wird bei der Fehlerananlyse hilfreich sein. Lemma 4.3 Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν, sowie i, j ∈ N mit j ≥ i. (a) Dann gilt Z Pj−1 (f · Pi−j f )dν(x). Eν,K [f (Xi )f (Xj )] = G (b) Insbesondere gilt Eπ,K [f (Xi )f (Xj )] = hf, Pi−j f i. Beweis: (b) folgt aus (a), der Stationarität (siehe Folgerung 3.13) und Z Z Lemma 3.10 Pj−1 (f Pi−j f )dν = f (x) Pi−j f (x)ν Pj−1 (dx). G G Es verbleibt also (a) zu zeigen. Es gilt Z Z Eν,K [f (Xi )f (Xj )] = f (x)f (y) PXi |Xj (x, dy)PXj (dx) (Satz 2.16 (ii)) G G Z Z = f (x)f (y)K i−j (x, dy) ν Pj−1 (dx) G G | Z = G 56 {z f (x) Pi−j f (x) Pj−1 (f Pi−j f )dν } (Lemma 3.10). (E3, E4 aus Abschnitt 3.1) 4.1 Fehlerabschätzungen Frage: Wie verhält sich der Fehler, falls die Startverteilung eine stationäre Verteilung ist? Satz 4.4 Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung π. Desweiteren sei π eine stationäre Verteilung von K und β = k P kL02 →L02 < 1. Dann gilt für f ∈ L2 √ 1+β eπ (Sn,n0 , f ) ≤ √ √ kf k2 . n 1−β Lemma 4.5 Sei α ∈ [0, 1). Dann gilt 1+2 n X αj ≤ j=1 2 1+α ≤ . 1−α 1−α Beweis: Mittels der geometrischen Reihe erhalten wir n X 1+α 1 1+2 −1 = . αj ≤ 1 + 2 1 − α 1−α j=1 Beweis (von Satz 4.4): Sei g(x) = f (x) − S(f ). Dann gilt eπ (Sn,n0 , f )2 = Eπ,K |Sn,n0 (f ) − S(f )|2 2 X 1 n = Eπ,K g(Xj+n0 ) n j=1 = n n−1 n 1 X 2 X X 2 E [g(X E[g(Xj+n0 )g(Xk+n0 )] ) ] + π,K j+n 0 n2 j=1 n2 j=1 k=j+1 n n−1 n 2 X X 1 X kgk22 + 2 hg, Pk−j gi (Lemma 4.3 (b)) = 2 n j=1 n j=1 k=j+1 n−1 X n−j X 1 2 kgk22 + 2 kgk2 k Pl gk2 n n j=1 l=1 n−1 n XX 1 2 ≤ kgk22 1 + βl n n j=1 l=1 ! n X 1 2 l β ≤ kgk2 1 + 2 n ≤ (Hölderungl. und Indexverschiebung) l=1 1+β 1 ≤ kgk22 1−β n (Lemma 4.5). Da kgk22 = kf k22 − (S(f ))2 ≤ kf k22 , gilt die Behauptung. 57 4.1 Fehlerabschätzungen Bemerkung 4.6 0.) n0 können wir Null setzen. 1.) Sei K(x, A) = π(A) für alle x ∈ G und für alle A ∈ G (siehe Beispiel 3.7.1)). Dann betrachten wir die klassische Monte-Carlo Methode (Erzeuge Xi iid bezüglich π). Es gilt Z P f (x) = f (y)π(dy) = S(f ) G und daraus folgt β := k P kL02 →L02 Lemma 3.43 = k P −SkL2 →L2 = 0. Wir erhalten eπ (Sn,n0 , f )2 ≤ 1 kf k22 n wie in Satz 1.8 (Fehlerabschätzung der klassischen Monte-Carlo Methode). Frage: Wie verhält sich der Fehler eν (Sn,n0 , f ) in Abhängigkeit von der Startverteilung? Idee: Zerlege den Fehler eν (Sn,n0 , f ) in geeigneter Form. Beispielsweise: Zerlegung in Bias |E[Sn,n0 (f )] − S(f )| und Varianz E|Sn,n0 (f ) − E[Sn,n0 (f )]|2 . Den Bias kann man gut abschätzen, die Varianz macht aber Probleme. Wir wollen Satz 4.4 benutzen und schlagen folgende Zerlegung vor: eν (Sn,n0 , f )2 = eπ (Sn,n0 , f )2 + REST. Das heißt REST = eν (Sn,n0 , f )2 − eπ (Sn,n0 , f )2 . Diesen REST wollen wir nun abschätzen. Lemma 4.7 Sei f ∈ L2 . Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν mit L∞ . Dann gilt eν (Sn,n0 , f )2 − eπ (Sn,n0 , f )2 = n n−1 n 1 X 2 X X 2 L (g ) + Lj+n0 −1 (g Pk−j g), j+n0 −1 n2 j=1 n2 j=1 k=j+1 dν wobei g = f − S(f ) und Li (h) = h(Pi −S)h, dπ − 1i für h ∈ L1 . 58 dν dπ ∈ 4.1 Fehlerabschätzungen Beweis: Wir haben 2 n X 1 2 eν (Sn,n0 , f ) = Eν,K g(Xj+n0 ) n j=1 = n n−1 n 1 X 2 X X 2 E [g(X ) ] + Eν,K [g(Xj+n0 )g(Xk+n0 )] ν,K j+n 0 n2 j=1 n2 j=1 k=j+1 = 1 n2 n Z X Pj+n0 −1 (g 2 )dν + j=1 G 2 n2 n−1 X Z n X Pj+n0 −1 (gP k−j g)dν, j=1 k=j+1 G wobei die letzte Gleichheit aus Lemma 4.3 (a) folgt. Für h ∈ L1 und i ∈ N betrachten wir Z Z Pi h(x)ν(dx) − Pi h(x)π(dx) G G Z dν i = P h(x) (x)π(dx) − Pi h(x)π(dx) dπ G G Z dν i (x) − 1 π(dx) = P h(x) dπ Z G dν dν =h(Pi −S)h, dπ − 1i (da hS(h), dπ − 1i = 0) Nun setzen wir einmal h = g 2 ∈ L1 (wegen g ∈ L2 ) und einmal h = g Pk−j g. Lemma 4.8 dν Sei h ∈ L1 , dπ ∈ L∞ und K sei L1 -exponentiell konvergent bezüglich (α, M ), für ein α ∈ [0, 1) und M ∈ (0, ∞). Dann gilt mit i ∈ N, dass Li (h) ≤ |h(Pi −S)h, dν dν − 1i| ≤ αn M khk1 k dπ − 1k∞ . dπ Beweis: Die rechte Ungleichung folgt mit der Hölder-Ungleichung. Wir haben jetzt alles beisammen um Fehlerabschätzungen für allgemeine Startverteilungen zu formulieren und zu beweisen. Satz 4.9 (Fehlerabschätzung) Sei f ∈ L2 . Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Sei K reversibel bezüglich π und L1 -exponentiell konvergent bezüglich (α, M ) mit einem α ∈ [0, 1) und M ∈ (0, ∞). Weiterhin sei dν dπ ∈ L∞ . Dann gilt |eν (Sn,n0 , f )2 − eπ (Sn,n0 , f )2 | ≤ 1+α dν − 1k∞ αn0 kf k22 . M k dπ − α)2 n2 (1 59 4.1 Fehlerabschätzungen Insbesondere gilt β ≤ α (siehe Satz 3.47), d.h. es existiert eine Spektrallücke und somit Satz 4.4 eν (Sn,n0 , f ) ≤ (1 + β)1/2 (1 + α)1/2 √ kf k + 2 n(1 − α) n(1 − β)1/2 q dν M k dπ − 1k∞ αn0 kf k2 . Beweis: Sei g(x) = f (x) − S(f ). Dann gilt |eν (Sn,n0 , f )2 − eπ (Sn,n0 , f )2 | ≤ n n n−1 1 X 2 X X 2 L (g ) + Lj+n0 −1 (g Pk−j g) j+n0 −1 n2 j=1 n2 j=1 (Lemma 4.7) k=j+1 ≤ n n−1 n X X k−j dν 1 X j+n0 −1 j+n0 −1 dν − 1 kgk22 + 2 g P g , α M − 1 α M 2 2 n j=1 dπ n dπ 1 ∞ j=1 k=j+1 wobei die letzte Ungleichung mit Lemma 4.8 folgt. Es gilt kg Pk−j gk1 ≤ kgk2 k Pk−j gk2 ≤ kgk22 k Pk−j kL02 →L02 Satz 3.47 ≤ kgk22 αk−j . dν Wir erhalten mit ε0 = αn0 M dπ − 1∞ somit |eν (Sn,n0 , f )2 − eπ (Sn,n0 , f )2 | n n n−1 2 X X 1 X j−1 2 ε0 kgk22 αk−1 ε α kgk + 0 2 n2 j=1 n2 j=1 k=j+1 n n n−1 2 X X X ε0 kgk2 = αk−1 αj−1 + 2 n2 j=1 j=1 k=j+1 n n−1 n 2 X X X kgk2 ε0 ≤ αj−1 + 2 αj−1+l n2 j=1 j=1 l=1 ! n X kgk22 ε0 1 1+2 αl ≤ n2 1 − α ≤ l=1 kgk22 ε0 1 + α ≤ n2 (1 − α)2 (Lemma 4.5.) Und wegen kgk2 ≤ kf k2 gilt die Behauptung. Bemerkung 4.10 1) Der burn-in von n0 Schritten ist sinnvoll um den Einfluss der Startverteilung zu verringern (oder gar zu eleminieren). Für n hinreichend groß verhält sich eν (Sn,n0 , f ) wie eπ (Sn,n0 , f ). 2) Falls ν = π erhalten wir die Abschätzung aus Satz 4.4. Intuitiv: Je besser die Startverteilung („ν nah an π“), umso näher ist eν (Sn,n0 , f ) an eπ (Sn,n0 , f ). 3) Falls K(x, A) = π(A), dann gilt mit α = 0 und M = 1 die L1 -exponentielle Konvergenz. Wir erhalten 0≤β 60 Satz 3.47 ≤ α ≤ 0. 4.1 Fehlerabschätzungen D.h. β = 0 und kf k2 eν (Sn,n0 , f ) ≤ √ n für n0 ≥ 1 (die rechte Seite der Ungleichung ist unabhängig von ν). Damit ist Satz 4.9 eine Verallgemeinerung der Fehlerabschätzung der klassischen Monte-Carlo Methode. 4) „Kritik“: Die Voraussetzung, dass K L1 -exponentiell konvergent ist, ist restriktiv. Frage: Gibt es eine ähnliche Abschätzung für Markovketten deren Übergangskern/Markovoperator „nur“ eine Spektrallücke besitzt? Wir geben folgendes Ergebnis ohne Beweis an. Satz 4.11 (siehe [18, Thm 3.41]) Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Sei π eine stationäre dν Verteilung von K und β = k P kL02 →L02 < 1. Dann gilt für f ∈ L4 und dπ ∈ L2 q √ √ dν − 1k2 128 β n0 k dπ 1+β eν (Sn,n0 , f ) ≤ √ √ kf k4 + kf k4 . n(1 − β) n 1−β Bemerkung 4.12 a) Bemerkung 4.10 lässt sich sinngemäß auch für Satz 4.11 formulieren. dν < ∞ folgt eine Fehlerabschätzung von b) Für f ∈ Lp mit p > 2 gilt: Falls β < 1 und dπ p/(p−2) Sn,n0 , die für p → 2 gegen unendlich strebt. Frage: Wie sollte man n0 wählen? Die Fehlerabschätzungen aus Satz 4.9 und Satz 4.11 von eν (Sn,n0 , f )2 haben im Wesentlichen für kf kp ≤ 1 (wobei p ∈ {2, 4}) mit α = β die Form 2 2Cν β n0 + 2 , n(1 − β) n (1 − β)2 dν mit einer Konstante Cν , die von M und/oder von dπ − 1p abhängt. Desweiteren sei N = n + n0 fest vorgegeben (N entspricht den verfügbaren Gesamtressourcen). e(n, n0 ) := Ziel: Minimiere e(n, n0 ) unter der Nebenbedingung N = n + n0 . Das ist äquivalent zum Bestimmen einer Minimalstelle von e(N − n0 , n0 ). Es gilt folgendes Ergebnis (siehe [18, Lemma 2.26]): Für alle η > 0 und N , sowie Cν groß genug, haben wir eine Minimalstelle nopt von e(N − n0 , n0 ) mit nopt Da log β −1 = (1 − β) + P∞ j=2 (1−β)j , j log Cν log Cν ∈ , (1 + η) . log β −1 log β −1 gilt für β ∈ (0, 1] log β −1 ≥ 1 − β 61 4.1 Fehlerabschätzungen und für β nahe bei 1 ist n0 = log Cν 1−β eine gute Wahl für n0 . Man kann sich auch andere Fehlerbegriffe anschauen. Insbesondere sind Konfidenzabschätzungen von Sn,n0 von Interesse. Ziel ist, für gegebenen Fehlerparameter ε ∈ (0, 1) und Konfidenzparameter δ ∈ (0, 1) eine Abschätzung der Form Pν,K (|Sn,n0 (f ) − S(f )| ≥ ε) ≤ δ. (K) Man erhält leicht folgenden Zusammenhang zum mittleren quadratischen Fehler. Satz 4.13 Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Dann gilt für ε ∈ (0, 1) Pν,K (|Sn,n0 (f ) − S(f )| ≥ ε) ≤ eν (Sn,n0 , f )2 . ε2 Falls K reversibel bezüglich π und L1 -exponentiell konvergent mit (α, M ), sowie f ∈ L2 und dν dπ ∈ L∞ erhalten wir für dν log(M k dπ − 1k∞ ) n0 ≥ log α−1 und n≥ 4kf k22 −2 −1 ε δ , 1−α dass (K) erfüllt ist. Folgendes Lemma ist hilfreich. Lemma 4.14 (Markov Ungleichung) Sei h : R → [0, ∞) monoton wachsend und Z Zufallsvariable mit Z : (Ω, F, P) → (R, B(R)). Dann gilt h(c)P(Z ≥ c) ≤ E[h(Z)], für c ∈ R. Beweis: Es gilt Z h(c)P(Z ≥ c) = h(c)1{Z≥c} (ω)dP(ω) Ω Z ≤ h(Z)1{Z≥c} (ω)dP(ω) (Monotonie von h) Ω ≤ E[h(Z)]. Beweis (von Satz 4.13): 62 4.1 Fehlerabschätzungen Wende Lemma 4.14 mit Z = |Sn,n0 (f ) − S(f )| und ( z2 h(z) = 0 z≥0 sonst an. Die Abschäztungen von n und n0 für L1 -exponentiell konvergente Markovketten folgen aus Satz 4.9. Für f ∈ L∞ und die klassische Monte-Carlo Methode erhält man unter Verwendung der Hoeffding-Ungleichung (siehe [17, Abschnitt 3.4] oder Abschnitt 8.2 in „A probabilistic theory of pattern recognition“ Devoyre et al.) ein „besseres“ Resultat. Satz 4.15 Sei f ∈ L∞ . Sei (Xn )n∈N eine iid-Folge von Zufallsvariablen mit PXn = π, für n ∈ N. Dann gilt P(|Sn,0 (f ) − S(f )| ≥ ε) ≤ 2e − nε2 2kf k2 ∞ . D.h. für n ≥ 2kf k2∞ log(2δ −1 )ε−2 erhält man (K). Bemerkung 4.16 Satz 4.15 impliziert ein „besseres“ Resultat als Satz 4.13, da in der unteren Schranke an n, um (K) zu garantieren, ein log δ −1 statt δ −1 auftaucht. Frage: Gilt eine ähnliche Abschätzung für allgemeine Sn,n0 , falls f ∈ L∞ . Satz 4.17 (Glynn und Ormoneit, siehe [6]) Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Für ein α ∈ [0, 1) und M ∈ (0, ∞). Sei k Pn −SkL∞ →L∞ ≤ αn M, n ∈ N ∪ {0} erfüllt. Für f ∈ L∞ gilt dann Pν,K (|Sn,0 (f ) − S(f )| ≥ ε) ≤ 2 exp − 2M 2 1−α kf k∞ ) 2nM 2 kf k2∞ (1 − α)2 (nε − ! (1 − α)ε nε(1 − α) ≤ 2 exp − −2 . M kf k∞ 2M kf k∞ D.h. für n≥2 M2 4kf k∞ M −1 kf k2∞ ε−2 log(2δ −1 ) + ε (1 − α)2 1−α ist (K) erfüllt. Folgendes Lemma ist hilfreich, um Satz 4.17 zu beweisen. Lemma 4.18 (Lemma 8.1 Devoyre et al.) Sei Z Zufallsvariable, d.h. Z : (Ω, F, P) → (R, B(R)) und EZ = 0, sowie a ≤ Z ≤ b, für a, b ∈ R. Dann gilt für c > 0 E{ecZ } ≤ e c2 (b−a)2 8 . 63 4.1 Fehlerabschätzungen Beweis: Die Funktion ψ(z) = ecz ist konvex, d.h. insbesondere ∀λ ∈ [0, 1] gilt e(λa+(1−λ)b)c ≤ λeac + (1 − λ)ebc . Die Wahl von λ = b−z b−a für z ∈ [a, b] liefert ecz ≤ b − z ac z − a bc e + e . b−a b−a Wegen EZ = 0 gilt E{ecZ } ≤ a bc b ac e − e . b−a b−a a . Dann erhalten wir Sei p = − b−a E{ecZ } ≤ (1 − p)eac + pebc = (1 − p + pe(b−a)c )eac = (1 − p + pe(b−a)c )e−pc(b−a) = eΦ(u) , mit u = c(b − a) und Φ(u) = −pu + log(1 − p + peu ). Wir erhalten Φ(0) = Φ0 (0) = 0 und Φ00 (u) = da rs (r+s)2 1 4 ≤ e−u (1 − p)p 1 ≤ , (p + (1 − p)e−u )2 4 für alle r, s ≥ 0 gilt. Mit dem Satz von Taylor gilt: ∃ξ ∈ [0, u], s.d. u Φ(u) = Φ(0) + Φ0 (0)u + Φ00 (ξ) . 2 Daraus folgt Φ(u) ≤ u2 c2 (b − a)2 = 8 8 und damit ist die Behauptung bewiesen. Beweis (von Satz 4.17): Sei g(x) = f (x) − S(x) und h(x) = P∞ k=0 Pk g(x). 1. Schritt: (Eigenschaften von h) Lemma 4.19 Es gilt khk∞ ≤ M kf k∞ 1−α und für M ≥ 2 auch khk∞ ≤ 2kf k∞ 64 log M/2 1 +1+ log α−1 1−α . 4.1 Fehlerabschätzungen Beweis (von Lemma 4.19): Wir erhalten wegen k Pk −SkL∞ →L∞ ≤ M αk folgendes: khk∞ ≤ ∞ X k Pk gk∞ = k=0 ∞ X k(Pk −S)f k∞ ≤ k=0 ∞ X kf k∞ k Pk −SkL∞ →L∞ ≤ k=0 kf k∞ M . 1−α Für M ≥ 2 ist es besser kP k − SkL∞ →L∞ ≤ min{2, αk M } zu benutzen. Für b k= l log M/2 log α−1 m gilt αbk M ≤ 2. Damit erhalten wir khk∞ ≤ ∞ X k Pk −SkL∞ →L∞ kf k∞ k=0 bkX ∞ −1 X = kf k∞ k Pk −SkL∞ →L∞ + k Pk −SkL∞ →L∞ k=0 k=b k ∞ X = kf k∞ 2b k+ αk M k=b k ≤ kf k∞ 2 ∞ log M/2 bk M X αk + 2 + α | {z } log α−1 k=0 ≤2 | {z } ≤(1−α)−1 Nun ist nach dem Satz von Lebesgue („Integral und Limes vertauschbar“) P h(x) = ∞ X Pk+1 g(x) = k=0 = g(x) − g(x) + ∞ X Pk g(x) k=1 ∞ X Pk g(x) = h(x) − g(x). k=1 Also g(x) = h(x) − P h(x). 2. Schritt: (Eigenschaften von n · Sn,0 (f ) − n · S(f )) 65 4.1 Fehlerabschätzungen Es gilt n · Sn,0 (f ) − n · S(f ) n X = g(Xj ) j=1 = n X h(Xj ) − P h(Xj ) (nach Schritt 1) j=1 = h(X1 ) + n X (h(Xj ) − P h(Xj−1 )) − P h(Xn ) + h(Xn+1 ) − h(Xn+1 ) j=2 = h(X1 ) − h(Xn+1 ) + n+1 X h(Xj ) − P h(Xj−1 ). j=2 Sei D(Xi−1 , Xi ) = h(Xi ) − P h(Xi−1 ). Nun gilt n · Sn,0 (f ) − n · S(f ) ≤ 2khk∞ + n+1 X D(Xj−1 , Xj ). (10) j=2 Und für i = 2, . . . , n + 1 haben wir E[D(Xi−1 , Xi ) | X1 , . . . , Xi−1 ] = E[D(Xi−1 , Xi ) | Xi−1 ] = E[h(Xi ) | Xi−1 ] − P h(Xi−1 ) = 0, sowie |D(Xi−1 , Xi )| ≤ 2khk∞ . Somit sind die Voraussetzungen von Lemma 4.18 für Z = D(Xi−1 , Xi ) erfüllt und wir erhalten 2 2 khk∞ 8 E[exp(cD(Xi−1 , Xi )) | X1 , . . . , Xi−1 ] ≤ ec , für c > 0. 3. Schritt: (Abschätzung von P(Sn,0 (f ) − S(f ) ≥ ε)) Es gilt P(Sn,0 (f ) − S(f ) ≥ ε) = P(nc(Sn,0 (f ) − S(f )) ≥ ncε) ≤ 66 E[ε(nc[Sn,0 (f ) − S(f )])] encε (Lemma 4.14 für h(z) = ez ), (11) 4.1 Fehlerabschätzungen für c > 0. Wir betrachten E[ε(nc[Sn,0 (f ) − S(f )])] " n+1 # X ≤ E exp c D(Xi−1 , Xi ) (mit (10)) i=2 " " ## n+1 X = exp(2ckhk∞ )E E exp c D(Xi−1 , Xi ) | X1 , . . . , Xn (E5, Abs. 2.1) i=2 " # X n = exp(2ckhk∞ )E exp c D(Xi−1 , Xi ) · E[exp(cD(Xn , Xn+1 )) | X1 , . . . , Xn ] {z } | i=2 ≤exp(c2 khk2∞ /2), wg. (11) " X # n 2 2 ≤ exp(2ckhk∞ + c khk∞ /2) · E exp c D(Xi−1 , Xi ) . i=2 Den letzten Abschätzungsschritt können wir iterativ durchführen und bekommen E[exp(nc[Sn,0 (f ) − S(f )])] ≤ exp(2ckhk∞ + nc2 khk2∞ /2). Damit erhalten wir für beliebiges c > 0 P(Sn,0 (f ) − S(f ) ≥ ε) ≤ exp(−ncε + 2ckhk∞ + nc2 khk2∞ /2). Wir minimieren den Exponenten Φ(c) = −ncε + 2ckhk∞ + nc2 khk2∞ /2 und erhalten die Minimalstelle cmin = nε − 2khk∞ . nkhk2∞ Einsetzen und Umformen liefert (nε − 2khk∞ )2 P(Sn,0 (f ) − S(f ) ≥ ε) ≤ exp − . 2nkhk2∞ (12) 4. Schritt: (Abschätzung von P(|Sn,0 (f ) − S(f )| ≥ ε)) Wir verwenden die Ungleichung (12) für f und −f . Es gilt P(|Sn,0 (f ) − S(f )| ≥ ε) = P(Sn,0 (f ) − S(f ) ≥ ε oder − Sn,0 (f ) + S(f ) ≥ ε) ≤ P(Sn,0 (f ) − S(f ) ≥ ε) + P(Sn,0 (−f ) − S(−f ) ≥ ε) (nε − 2khk∞ )2 ≤ 2 exp − . 2nkhk2∞ 2 M Da Ψ(v) = − (nε−2v) monoton wachsend ist, folgt mit khk∞ ≤ 1−α kf k∞ (Lemma 4.19) die 2nv 2 erste Ungleichung der Behauptung. Die zweite Ungleichung folgt aus Ψ(v) ≤ − vε ( nε 2v − 2). Bemerkung 4.20 67 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen a) Die Abschätzung von Satz 4.17 gilt für beliebige Startverteilungen, aber sie erlaubt keine Feineinstellung durch den burn-in. b) Die Konvergenzbedingung k Pn −SkL∞ →L∞ ≤ αn M ist für reversible Übergangskerne zur L1 -exponentiellen Konvergenz äquivalent (Übersicht Ende Abschnitt 3.4). c) Die untere Schranke für n (aus Satz 4.17) um (K) zu garantieren hängt von log δ −1 anstatt von δ −1 ab. Die Abhängigkeit von M ist im Vergleich zu Satz 4.13 „schlechter“. Diese kann verbessert werden, indem man die Ungleichung log M/2 1 + khk∞ ≤ 2kf k∞ 1 + 1−α log α−1 M aus Lemma 4.19, statt khk∞ ≤ kf k∞ 1−α benutzt. Als nächstes formulieren wir ein Ergebnis (ohne Beweis) für Markovketten mit L2 -Spektrallücke. Satz 4.21 (Miasojedow, siehe [16]) Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung ν. Sei π eine stationäre dν ∈ L2 und β := k P kL02 →L02 < 1. Dann gilt Verteilung von K, f ∈ L∞ , dπ dν 1 − β ε2 ·n . Pν,K (|Sn,0 (f ) − S(f )| ≥ ε) ≤ 2 exp − dπ 1 + β 2kf k2 2 D.h. für n≥ ∞ dν −1 1+β δ 4kf k2∞ ε−2 log 2 dπ 1−β 2 ist (K) erfüllt. Bemerkung 4.22 dν In Satz 4.21 ist wieder eine Integrabilitätsbedingung der Dichtefunktion dπ von nöten. Allerdings kann hier auch ein „burn-in“ zur Feineinstellung benutzt werden. Man betrachte dazu ν Pn0 , die Verteilung von Xn0 +1 , als Startverteilung. Falls der Übergangskern reversibel bezüglich π ist, gilt dann n0 d(ν Pn0 ) ≤ 1 + d(ν P ) − 1 dπ dπ 2 2 n dν 0 =1+ (Lemma 3.38) −1 P dπ 2 dν dν dν ≤ 1 + β n0 (S( dπ − 1) = 0, d.h. dπ − 1 ∈ L02 ). dπ − 1 2 Es ist schwierig explizite Konvergenzabschätzungen von Markovketten zu bekommen. Im folgenden lernen wir 2 mögliche Techniken dafür kennen. 4.2 4.2.1 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Doeblin-Bedingung Sei K ein Übergangskern und π eine stationäre Verteilung auf (G, G). 68 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Satz 4.23 Wir nehmen an, dass ein c > 0 existiert, s.d. ∀x ∈ G ∀A ∈ G : K(x, A) ≥ c · π(A). (D) Dann gilt k Pn −SkL1 →L1 ≤ 2(1 − c)n . Bemerkung 4.24 Die Bedingung, die in (D) formuliert ist, wird Doeblin-Bedingung genannt. Offensichtlich ist auch c ≤ 1. Wir benötigen folgendes Lemma. Lemma 4.25 Seien µ, ν Wahrscheinlichkeitsmaße auf (G, G) und für c > 0 gelte µ(A) ≥ c · ν(A), Dann exisitert die Dichtefunktion dν dµ ∀A ∈ G. und es gilt 0≤ dν 1 ≤ dµ c µ − f.s. Beweis (des Lemmas): Aus dem Satz von Radon-Nikodym (siehe [9, Korollar 7.34]) folgt, dass eine Dichtefunktion dν dν existiert. Wir zeigen dµ ≤ 1c µ-f.s. Sei dazu A = { dµ > 1c }. Angenommen µ(A) > 0, dann gilt Z ν(A) = dν dµ ≥0 1 dν dµ > µ(A) ≥ ν(A). dµ c A Also µ(A) = 0 und es folgt die Behauptung. Beweis (des Satzes 4.23): Aus Lemma 4.25 folgt, dass ∀x ∈ G eine Dichtefunktion dπ 1 ≤ dK(x, ·) c dπ dK(x,·) mit K(x, ·) − f.s. existiert. 69 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Sei g ∈ L1 und S(g) = 0. Dann gilt Z | P g(x)| = g(y)K(x, dy) G Z Z dπ = g(y)K(x, dy) − c g(y) (y)K(x, dy) dK(x, ·) G G | {z } =0 da S(g)=0 Z dπ = g(y) 1 − c (y) K(x, dy) dK(x, ·) {z } | G ≥0 nach Vor. dπ (y) K(x, dy) dK(x, ·) G Z Z = |g(y)|K(x, dy) − c |g(y)|π(dy). Z ≤ |g(y)| 1 − c G G Also folgt Z k P gk = | P g(x)|π(dx) π stat. ≤ kgk1 − ckgk1 = (1 − c)kgk1 . G n Da S(P g) = 0, falls S(g) = 0 (weil π stationäre Verteilung ist), können wir die letzte Ungleichung iterativ anwenden. D.h. k Pn gk1 ≤ (1 − c)k Pn−1 gk1 ≤ . . . ≤ (1 − c)n kgk1 . Schließlich folgt k Pn −SkL1 →L1 = sup k(Pn −S)f k1 kf k1 ≤1 = sup k Pn (f − S(f ))k1 kf k1 ≤1 ≤ sup (1 − c)n kf k1 ≤1 kf − S(f )k1 {z } | ≤kf k1 +|S(f )|≤2kf k1 n ≤ 2(1 − c) . 4.2.2 Leitfähigkeit und Cheeger-Ungleichung Sei K Übergangskern der reversibel bezüglich π ist. Desweiteren nehmen wir an, dass der Markovoperator P (von K) positiv semidefinit ist, d.h. ∀f ∈ L2 : hP f, f i ≥ 0. Wir nutzen folgende Darstellung von k P kL02 →L02 : 70 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Lemma 4.26 Sei K reversibel bezüglich π und P positiv semidefinit. Dann gilt k P kL02 →L02 = sup g∈L2 g6=0 hP g, gi . hg, gi Beweis: Diese Aussage folgt, da für selbstadjungierte, lineare Operatoren T : H → H (H Hilbertraum) kT kH→H = sup f ∈H f 6=0 hT f, f i hf, f i (13) gilt. Dies ist ein Standardresultat aus der Funktionalanalysis, siehe beispielsweise [21, Satz V.5.7]. Wir setzen H = L02 und somit folgt die Behauptung wegen der Reversibilität, (13) und hP g, gi ≥ 0. Nun kommen wir zu dem Begriff der Leitfähigkeit / conductance. Definition 4.27 (Leitfähigkeit) Sei K reversibel bezüglich π. Dann heißt R ϕ= A inf 1 π(A)∈(0, 2 ] K(x, Ac )π(dx) h1A , P 1Ac i = inf 1 π(A) π(A) π(A)∈(0, ] 2 Leitfähigkeit von K. Wir schreiben auch manchmal ϕ(K), statt ϕ. In der Literatur findet der englische Begriff „conductance“ (= Leitfähigkeit) Anwendung. Bemerkung (Interpretation) Sei (Xn )n∈N eine Markovkette mit Übergangskern K und Startverteilung π. Dann ist für π(A) > 0: R A K(x, Ac )π(dx) = P(X2 ∈ Ac | X1 ∈ A) π(A) (da PX1 = π). Es gibt in der Literatur verschiedene Versionen der Leitfähigkeit. Manche sind äquivalent zu obiger Definition. Insbesondere unterschiedet sich der Nenner im Quotienten in ϕ und die Bedingung im Infimum. Wir benötigen folgendes Lemma: Lemma 4.28 Sei (G, G, π) ein Wahrscheinlichkeitsraum und h : G → [0, ∞) eine Mengenfunktion mit h(A) = h(Ac ), für alle A ∈ G. Dann gilt inf π(A)∈(0,1/2] h(A) = inf h(A). π(A)∈(0,1) 71 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Beweis: Es gilt h(A) = inf{h(A) : π(A) ∈ (0, 1/2] ∪ [1/2, 1)} inf π(A)∈(0,1) = min {inf{h(A) : π(A) ∈ (0, 1/2]}, inf{h(A) : π(A) ∈ [1/2, 1)}} = min {inf{h(A) : π(A) ∈ (0, 1/2]}, inf{h(A) : π(Ac ) ∈ (0, 1/2]}} = min {inf{h(A) : π(A) ∈ (0, 1/2]}, inf{h(Ac ) : π(A) ∈ (0, 1/2]}} = h(A) inf (da h(A) = h(Ac )). π(A)∈(0,1/2] Folgerung 4.29 Es gilt ϕ= inf π(A)∈(0,1) h1A , P 1Ac i . min{π(A), π(Ac )} Beweis: Wir haben ϕ= inf π(A)∈(0, 12 ] h1A , P 1Ac i π(A) π(A)=min{π(A),π(Ac )} = inf π(A)∈(0, 12 ] h1A , P 1Ac i . min{π(A), π(Ac )} Da K reversibel bezüglich π ist, folgt die Selbstadjungiertheit von P (siehe E5 aus Abschnitt 3.3). Für h(A) = h1A , P 1Ac i min{π(A), π(Ac )} erhalten wir damit h(A) = h(Ac ). Somit gilt die Behauptung mit Lemma 4.29. Nun kommen wir zum Hauptergebnis dieses Abschnittes. Es folgt die Beziehung zwischen Leitfähigkeit und der Spektrallücke 1 − β = 1 − k P kL02 →L02 . Satz 4.30 (Cheeger-Ungleichung) Sei K reversibel bezüglich π und der dazugehörige Markovoperator P sei positiv semidefinit. Dann gilt ϕ2 ≤ 1 − k P kL02 →L02 ≤ 2ϕ. 2 Bemerkung 4.31 Die Ungleichung kann man im Allgemeinen nicht (wesentlich) verbessern. Siehe dazu [11]. Lemma 4.32 Sei g ∈ L2 und π({g 2 > 0}) ≤ 12 . Dann gilt Z Z (g(x) − g(y))2 K(x, dy)π(dx) ≥ ϕ2 kgk22 . G G Bemerkung 4.33 Sei (Xn )n∈N Markovkette mit Übergangskern K und Startverteilung π (K reversibel bezüglich π). 72 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Dann gilt Eπ,K |g(X1 ) − g(X2 )|2 = Z Z (g(x) − g(y))2 K(x, dy)π(dx). G G Beweis (von Lemma 4.32): O.B.d.A. sei g 6= 0, d.h. kgk2 6= 0. Es gilt nach 3. binomischer Formel und Hölder-Ungleichung (p = q = 2) Z Z 2 2 2 |g(x) − g(y) |K(x, dy)π(dx) G G Z Z ≤ (g(x) − g(y))2 K(x, dy)π(dx) · G G Z Z G G (g(x) + g(y))2 K(x, dy)π(dx). {z } | ≤2g(x)2 +2g(y)2 Nebenbetrachtung: Es gilt Z Z 2 (g(x) + g(y))2 K(x, dy)π(dx) = 2kgk22 + 2hP g 2 , 1i = 4kgk22 . G G Damit folgt Z Z (g(x) − g(y))2 K(x, dy)π(dx) ≥ G G 1 kgk22 2 |g(x)2 − g(y)2 |K(x, dy)π(dx) . Z Z (W) G G Nun sei A(t) = {x ∈ G : g(x)2 > t} die Levelmenge von g 2 (für t1 ≤ t2 gilt A(t2 ) ⊆ A(t1 )). Damit erhalten wir für x, y ∈ G 2 g(x) Z 2 (g(x) − g(y) )1A(g(y)2 ) (x) = 2 2 g(y) Z dt 1A(g(y)2 ) (x) dt − 0 Z∞ 0 (1[0,g(x)2 ) (t) − 1[0,g(y)2 ] (t))dt 1A(g(y)2 ) (x) = 0 Z∞ = 1[g(y)2 ,g(x)2 ) (t)dt 1A(g(y)2 ) (x) 0 Z∞ 1A(t) (x)1A(t)c (y)dt, = 0 denn es gilt ( 1[g(y)2 ,g(x)2 ) (t) = 1 0 g(y)2 ≤ t, g(x)2 > t = 1A(t) (x) · 1A(t)c (y). sonst Wir betrachten nun den Faktor Z Z |g(x)2 − g(y)2 |K(x, dy)π(dx) G G 73 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen aus (W). Es gilt Z Z |g(x)2 − g(y)2 |K(x, dy)π(dx) G G Z Z =2 (g(x)2 − g(y)2 )1A(g(y)2 ) (x)K(x, dy)π(dx) (Betrag symm. + Reversibilität) G G Z Z Z∞ 1A(t) (x)1A(t)c (y)dtK(x, dy)π(dx) =2 G G 0 Z∞ Z Z 1A(t) (x)1A(t)c (y)K(x, dy)π(dx)dt =2 (Fubini) 0 G G Z∞ = 2 h1A(t) , P 1A(t)c idt 0 Zt =2 ∗ h1A(t) , P 1A(t)c i π(A(t))dt, π(A(t)) 0 wobei t∗ := sup{t : π(A(t)) > 0}. Wegen π(A(t)) ≤ π(A(0)) = π({g 2 > 0}) ≤ Abschätzung: 1 2 gilt folgende ∗ Z Z |g(x)2 − g(y)2 |K(x, dy)π(dx) ≥ 2ϕ Zt π(A(t))dt 0 G G Z∞ Z 1A(t) (x)π(dx)dt = 2ϕ 0 G Z = 2ϕ g(x)2 π(dx) G = 2ϕkgk22 . Dies setzen wir in (W) ein und erhalten Z Z (g(x) − g(y))2 K(x, dy)π(dx) ≥ G G 2ϕ2 kgk42 = ϕ2 kgk22 . 4kgk22 Damit ist das Lemma bewiesen. Beweis (von Satz 4.30): 1. Teil: Wir beweisen zunächst ϕ2 ≤ 1 − k P kL02 →L02 . 2 74 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Es gilt ϕ2 ≤ 1 − k P kL02 →L02 2 hP f, f i ϕ2 ⇐⇒ sup ≤1− 2 f 6=0 hf, f i f ∈L02 ⇐⇒ ∀f ∈ L02 : hP f, f i ≤ ϕ2 1− 2 hf, f i ⇐⇒ ∀f ∈ L02 : 2h(I − P)f, f i ≥ kf k22 ϕ2 . Wobei I der Identitätsoperator (mit If = f ) ist. Sei f ∈ L02 und r (ein) Median von f bezüglich π, d.h. π({f > r}) ≤ 1 2 und π({f < r}) ≤ 1 . 2 Wir setzen für alle x ∈ G f+ (x) := max{f (x) − r, 0}, f− (x) := min{f (x) − r, 0}, es gilt f+ ≥ 0 und f− (x) ≤ 0. Wir erhalten 2 π({f+ > 0}) = π({f > r}) ≤ 1 , 2 2 π({f− > 0}) = π({f < r}) ≤ 1 , 2 da r ein Median ist. Somit gilt wegen Lemma 4.32 Z Z (f+ (x) − f+ (y))2 K(x, dy)π(dy) ≥ ϕ2 kf+ k22 (14) (f− (x) − f− (y))2 K(x, dy)π(dy) ≥ ϕ2 kf− k22 . (15) G G und Z Z G G 75 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Nun betrachten wir Z Z 2h(I − P)f, f i = (f (x) − f (y))2 K(x, dy)π(dx) (binom. Formel) G G Z Z [ f (x) − r | {z } = G G =f+ (x)+f− (x) Z Z = −( f (y) − r )]2 K(x, dy)π(dx) | {z } =f+ (y)+f− (y) [(f+ (x) − f+ (y)) + (f− (x) − f− (y))]2 K(x, dy)π(dx) G G Z Z ≥ ZG ZG + (f+ (x) − f+ (y))2 K(x, dy)π(dx) (f− (x) − f− (y))2 K(x, dy)π(dx) G G (wegen 2(f+ (x) − f+ (y))(f− (x) − f− (y)) ≥ 0) 2 ≥ ϕ [kf+ k22 + kf− k22 ] (mit (14) und (15)). Also 2h(I − P)f, f i ≥ ϕ2 [kf+ k22 + kf− k22 ] Z Z = ϕ (f (x) − r)2 π(dx) + {f >r} = ϕ2 Z (f (x) − r)π(dx) {f <r} (f (x) − r)2 π(dx) G = ϕ2 (kf k22 − 2 S(f ) r + r2 ) | {z } =0 = ≥ 2 ϕ (kf k22 ϕ2 kf k22 . 2 +r ) 2. Teil: Nun beweisen wir 1 − k P kL02 →L02 ≤ 2ϕ. Es reicht zu zeigen (Lemma 4.26) 1 − 2ϕ ≤ sup f ∈L02 f 6=0 hP f, f i . hf, f i f,f i Idee: Wähle eine einfache Funktion f ∈ L02 , f 6= 0 und berechne hP hf,f i . Damit erhalten wir eine untere Abschätzung von k P kL02 →L02 . Es gilt mit f = 1A − π(A) und π(A) ∈ (0, 12 ] sup f ∈L02 f 6=0 76 hP(1A − π(A)), 1A − π(A)i hP f, f i ≥ . hf, f i h1A − π(A), 1(A) − π(A)i 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Dabei ist h1A − π(A), 1(A) − π(A)i = π(A) − 2π(A)2 + π(A) = π(A)π(Ac ). Das heißt hP f, f i hP 1A , 1A i − 2hP 1A , π(A)i + π(A)2 ≥ hf, f i π(A)π(Ac ) sup f ∈L02 f 6=0 hP 1A , 1A i − π(A)2 π(A)π(Ac ) π(A) − hP 1Ac , 1A i − π(A)2 = (1A = 1 − 1Ac ) π(A)π(Ac ) hP 1Ac , 1A i =1− π(A)π(Ac ) hP 1Ac , 1A i ≥1−2 (π(Ac ) ≥ 1/2). π(A) = Wir nehmen das Supremum über alle A mit π(A) ∈ (0, 12 ] über die rechte Seite und erhalten sup f ∈L02 f 6=0 hP f, f i hP 1Ac , 1A i ≥1−2 inf = 1 − 2ϕ. 1 hf, f i π(A) π(A)∈(0, /2] Somit ist der Satz bewiesen. Bemerkung 4.34 Ist die Annahme, dass P positiv semidefinit ist, sehr restriktiv? Falls K reversibel bezüglich π und der dazugehörige Markovoperator P nicht positiv semidefinit ist (oder man kann die positive Semidefinitheit für P nicht zeigen), dann kann man sich den Übergangskern 1 e K(x, A) = (1A (x) + K(x, A)), x ∈ G, A ∈ G 2 e wird „lazy version“ von K genannt. Der Übergangskern K e ist wieder reversibel bezüglich anschauen. K e Letzteres gilt wegen π und induziert zusätzlich einen positiv semidefiniten Operator P. Z Z 1 e fi = hPf, f (x) + f (y)K(x, dy) f (x)π(dx) 2 G G 1 hP f, f i = kf k22 + 2 2 ≥ 0 (wg. |hP f, f i| ≤ k P f k2 kf k2 ≤ kf k22 ). Folgendes Lemma ist später hilfreich. Lemma 4.35 e Sei K reversibel bezüglich π und K(x, A) = 12 (1A (x) + K(x, A)) ist die „lazy version“ von K. Dann 77 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen gilt e = ϕ(K) 1 ϕ(K). 2 e wieder reversibel bezüglich π ist. Es gilt Beweis: Wir wissen bereits aus Bem. 4.31, dass K e = ϕ(K) e Ac i h1A , P1 π(A) π(A)∈(0,1/2] inf =0 z }| { 1 1 h1Ac , 1A i +hP 1Ac , 1A i = ϕ(K) = inf 1 π(A) 2 π(A)∈(0, /2] 2 Folgendes Resultat gibt eine hinreichende Bedingung für eine untere Schranke von ϕ. Satz 4.36 Sei K reversibel bezüglich π und κ > 0. Für beliebiges A ∈ G seien T1 (A, κ) := {x ∈ A : K(x, Ac ) < κ}, T2 (A, κ) := {y ∈ Ac : K(y, A) < κ}, T3 (A, κ) := G \ (T1 (A, κ) ∪ T2 (A, κ)). Für ein γ > 0 gelte für alle A ∈ G π(T3 (A, κ)) ≥ 2γ min{π(T1 (A, κ), π(T2 (A), κ))}. Dann folgt ϕ≥ κ min{1, γ}. 2 Skizze: G Ac A T1 (A, κ) T1 (A, κ) T2 (A, κ) T3 (A, κ) T3 (A, κ) T2 (A, κ) „Übergang von T1 (A, κ) zu Ac nicht so häufig.“ „Übergang von T2 (A, κ) zu A nicht so häufig.“ „Übergang von A nach Ac und zurück häufig.“ Intuitiv: Die Leitfähigkeit ist „groß“, falls Übergang von A zu Ac (bezüglich K) sehr häufig, für alle A ∈ G. Die Menge T3 (A, κ) sollte im Vergleich zu T1 (A, κ) und T2 (A, κ) ein großes Maß haben. 78 4.2 Hinreichende Bedingungen für explizite Konvergenzabschätzungen Beweis: Zur Vereinfachung der Notationen sei Ti := Ti (A, κ), i = 1, 2, 3. Wir machen eine Fallunterscheidung. 1. Fall: π(T1 ) < 21 π(A) Wir erhalten Z Z K(x, Ac )π(dx) ≥ A K(x, Ac )π(dx) A\T1 ≥ κ · π(A \ T1 ) = κ(π(A) − π(T1 )) κ ≥ π(A) (nach Fallunterscheidung) 2 κ ≥ min{π(A), π(Ac )}. 2 2. Fall: π(T2 ) < 12 π(Ac ) Wir erhalten Z K(x, Ac )π(dx) = Z K(x, A)π(dx) (Reversibilität) Ac A Z ≥ K(x, A)π(dx) Ac \T 2 ≥ κπ(Ac \ T2 ) = κ(π(Ac ) − π(T2 )) κ ≥ π(Ac ) (nach Fallunterscheidung) 2 κ ≥ min{π(A), π(Ac )}. 2 3. Fall: π(T1 ) ≥ π(A) 2 Wir erhalten Z und π(T2 ) ≥ π(Ac ) 2 K(x, Ac )π(dx) = 1 2 A Z K(x, Ac )π(dx) + 1 ≥ 2 K(x, A)π(dx) (Rev.) Ac A Z Z c Z K(x, A )π(dx) + A∩T3 K(x, A)π(dx) Ac ∩T3 1 κ (π(A ∩ T3 ) + π(Ac ∩ T3 )) = π(T3 ) 2 2 ≥ κγ min{π(T1 ), π(T2 )} κγ ≥ min{π(A), π(Ac )}. 2 ≥ Durch Zusammenfügen der Fälle und unter Verwendung von Folgerung 4.30 erhalten wir die Behauptung. 79 4.3 Anwendungen und Beispiele 4.3 4.3.1 Anwendungen und Beispiele Integration über konvexe Mengen Wir betrachten die Fragestellung aus Abschnitt 1. Sei r ≥ 1, d ∈ N und K := {G ⊆ Rd : G konvex, Bd ⊆ G ⊆ rBd }. Sei πG die Gleichverteilung in G ∈ K und Lp = Lp (πG ), für p ∈ [1, ∞]. Wir definieren FK,p := {(f, G) : G ∈ K, f ∈ Lp , kf kp ≤ 1}. Ziel: Berechne R S(f, G) = f (x)dx λd (G) G für beliebige (f, G) ∈ FK,p . Der hit-and-run Algorithmus auf G scheint zur Approximation von πG geeignet zu sein (siehe Beispiel 3.7.5 und oder Abschnitt 3.2.2). Der Übergangskern ist gegeben durch H(x, A) = 1 σ(Sd−1 ) Z ∫L(x,θ) 1A (x + sθ)ds σ(dθ), λ1 (L(x, θ)) Sd−1 mit L(x, θ) = {s ∈ R : x + sθ ∈ G}. Gegebene Informationen: 1) Für beliebiges x erhalten wir von einem Orakel den Funktionswert f (x) auf Anfrage. e θ) = {x + sθ : s ∈ R}, mit x ∈ rBd und θ ∈ Sd−1 , 2) Ein weiteres Orakel kann für jede Gerade L(x, e die Gleichverteilung in L(x, θ) ∩ G simulieren. (Diese Annahme passt zur Diskussion in Bemerkung 3.26.) MCMC Methode: Sei G ∈ K, (Xn )n∈N Markovkette mit Übergangskern H (auf G) und Startverteilung πBd (Gleichverteilung in Bd ). Berechne n Sn,n0 (f, G) = 1X f (Xj+n0 ). n j=1 Für die Anwendung der Fehlerabschätzungen, stellen sich für beliebiges G ∈ K folgende Fragen: • Ist H L1 -exponentiell konvergent mit (α, M )? Gibt es explizite Konstanten α und M ? • Explizite Abschätzungen der Spektrallücke? Oder explizite Abschätzung der Leitfähigkeit? • Ist H (als Markovoperator) positiv semidefinit in L2 ? Im Folgenden bezeichnen wir mit H auch den Markovoperator vom hit-and-run Algorithmus. Aus dem Kontext ist immer klar, ob wir Übergangskern oder Operator meinen. 80 4.3 Anwendungen und Beispiele Lemma 4.37 Für beliebige G ⊆ Rd gilt H(x, A) ≥ λd (G) 2 πG (A), σ(Sd−1 ) diam(G)d (16) wobei x ∈ G, A ∈ B(G) und diam(G) = supx,y∈G |x − y|. Außerdem gilt λd (Bd ) λd (G) (2r)λd−1 (Bd−1 ) ≤ inf ≤ . G∈K diam(G)d (2r)d (2r)d (17) D.h. für alle G ∈ K gilt ≥ H(x, A) σ(Sd−1 )=dλd (Bd ) und n 2 πG (A) d(2r)d kH − SkL1 →L1 2 ≤ 2 1− d(2r)d Satz 4.23 n . Beweis: Die erste Ungleichung in (17) ist sofort klar, da man Zähler und Nenner getrennt abschätzen kann. Für die zweite Ungleichung konstruieren wir eine Menge G ∈ K, die die Ungleichung erfüllt. Dazu betrachten wir die folgende Skizze in der Dimension d = 3: rBd Bd r G Bd−1 Nun gilt offenbar λd (G) ≤ (2r)λd−1 (Bd−1 ) und diam(G) = 2r. Dieses Argument funktioniert analog für beliebiges d, womit sich die zweite Ungleichung in (17) ergibt. Es genügt nun (16) zu zeigen, denn der Rest folgt daraus. 81 4.3 Anwendungen und Beispiele Für x ∈ G und A ∈ B(G) haben wir H(x, A) = 1 σ(Sd−1 ) Z∞ Z Sd−1 −∞ 1 = σ(Sd−1 ) Z 1 = σ(Sd−1 ) Z 1A (x + sθ) dsdσ(θ) λ1 (L(x, θ)) Z0 Sd−1 −∞ Z∞ Z 1A (x + sθ) dsdσ(θ) + λ1 (L(x, θ)) Z∞ 1A (x + sθ) dsdσ(θ) λ1 (L(x, θ)) Sd−1 0 1A (x − sθ) dsdσ(θ) + λ1 (L(x, θ)) Sd−1 0 Z∞ Z 1A (x + sθ) dsdσ(θ) , λ1 (L(x, θ)) Sd−1 0 wobei wir die letzte Umformung durch Substitution t = −s im ersten Summanden erhalten. Mit Polarkoordinatentransformation Z Z f (y)dy Rd Z∞ = y=rθ y y=|y| |y| Sd−1 0 f (rθ)rd−1 drσ(dθ) erhalten wir weiterhin 1 H(x, A) = σ(Sd−1 ) Z 1A (x − y) dy + λ1 (L(x, y/|y|))|y|d−1 Rd Z 1A (x + y) dy . λ1 (L(x, y/|y|))|y|d−1 Rd Wir substituieren im ersten Integral x − y = z, d.h. y = x − z, und im zweiten Integral x + y = z, d.h. y = z − x. Also Z Z 1 1A (z) 1A (z) H(x, A) = dz + dz . x−z z−x σ(Sd−1 ) λ1 (L(x, |x−z| λ1 (L(x, |z−x| ))|x − z|d−1 ))|z − x|d−1 Rd Rd Wegen λ1 (L(x, θ)) = λ1 (L(x, −θ)) folgt schließlich Z 1A (z) 2 dz H(x, A) = x−z σ(Sd−1 ) λ1 (L(x, |x−z| ))|x − z|d−1 Rd ≥ 2 λd (G) πG (A) σ(Sd−1 ) diam(G)d (wegen λ1 (L(x, θ)) ≤ diam(G)). Aus dem Lemma folgt, dass wir eigentlich jede Fehlerabschätzung für die MCMC Methode anwenden 2 können, da H L1 -exponentiell konvergent bezüglich (α, M ) mit α = 1 − d(2r) d und M = 2. Allerdings 2 taucht letztlich dann in jeder Abschätzung die Größe 1 − α = d(2r)d im Nenner auf. D.h. Lemma 3.27 impliziert Fehlerabschätzungen, die in der Dimension d exponentiell „schlecht“ sind. Im Wesentlichen wie bei der Konstruktion von Zufallszahlengeneratoren für πG , siehe Abschnitt 1. Folgendes Ergebnis ist hilfreich um Satz 4.36 anwenden zu können. 82 4.3 Anwendungen und Beispiele Lemma 4.38 (siehe [19]) (i) Der Markovoperator H ist positiv semidefinit auf L2 . (ii) Für alle G ∈ K und A ∈ B(G) beliebig gilt λd (T3 (A, 10−3 )) ≥ 1 min{λd (T1 (A, 10−3 )), λd (T2 (A, 10−3 ))}. d · 2r · 4000 Beweis: Wir beweisen nur Aussage (i) aus Lemma 4.38. Für die Aussage (ii) verweisen wir auf [12, Theorem 4.2]. e = Prθ (G) × R, mit Sei also g : G → R, G ⊆ Rd , θ ∈ Sd−1 , G Prθ (G) = {x ∈ Rd : x⊥θ, L(x, θ) ∩ G 6= ∅}. Skizze: x + sθ G x⊥θ θ Prθ (G) e G Z Z g(y)dy = G 1G (y)g(y)dy e G Z Z 1G (x + sθ)g(x + sθ)dsdx = Prθ (G) R nach Substitution y = x + sθ und Satz von Fubini. Damit folgt die Gleichung Z Z Z g(y)dy = g(x + sθ)dsdx. G (18) Prθ (G) L(x,θ) 83 4.3 Anwendungen und Beispiele Für f ∈ L2 bekommt man nun Z Z dy hf, Hf i = f (y)f (z)H(y, dz) λd (G) G G Z Z Z 1 f (y + tθ) = dr · f (y) dσ(θ)dy λd (G)σ(Sd−1 ) λ1 (L(y, θ)) G Sd−1 L(y,θ) {z | = 1 λd (G)σ(Sd−1 ) Z } =:gθ (y) Z gθ (y)dydσ(θ) Sd−1 G 1 = λd (G)σ(Sd−1 ) Z Z gθ (x + sθ)ds dxdσ(θ). Prθ (G) L(x,θ) | {z Ziel: ≥0 } Wir betrachten Z Z f (x + (r + s)θ) drf (x + sθ)ds λ1 (L(x + sθ, θ)) L(x,θ) L(x+sθ,θ) 1 = λ1 (L(x, θ)) ? Z Z f (x + (r + s)θ)drf (x + sθ)ds L(x,θ) L(x+sθ,θ) 1 = λ1 (L(x, θ)) Z Z f (x + sθ) L(x,θ) L(x+e r θ) 2 ≥ 1 λ1 (L(x, θ)) de rds (mit r + s = re) Z f (x + sθ)ds L(x,θ) ≥ 0. Wir begründen ?: Wir wollen λ(L(x + sθ, θ)) = λ1 (L(x, θ)) zeigen. Dies gilt wegen L(x + sθ, θ) = {r ∈ R : x + (r + s)θ ∈ G} + s = {r + s ∈ R : x + (r + s)θ ∈ G} = {t ∈ R : x + tθ ∈ G} = L(x, θ). Damit folgt die Behauptung hHf, f i ≥ 0. Nun sind wir in der Lage die Fehlerabschätzung vom mittleren quadratischen Fehler aus Satz 4.11 anzuwenden. Satz 4.39 Sei G ∈ K beliebig und (Xn )n∈N eine Markovkette mit Übergangskern H (auf (G, B(G))) und Startverteilung πBd (Gleichverteilung in Bd ). Mit n0 = d3 r2 log r · 2, 56 · 1014 84 4.3 erhalten wir sup (f,G)∈FK,4 eπBd (Sn,n0 , (f, G)) ≤ Anwendungen und Beispiele 3, 2 · 107 dr 5, 8 · 1015 d2 r2 √ + . n n Beweis: 1. Schritt: (Untere Schranke für Spektrallücke) Wegen Lemma 3.39 (i) wissen wir, dass H positiv semidefinit ist. D.h. wir können die Cheeger-Ungleichung (Satz 4.31) anwenden und erhalten mit β = kHkL02 →L02 , dass 1−β ≥ ϕ2 2 gilt. Aus Satz 4.36 und Lemma 3.38 (ii) folgt ϕ ≥ κ=10−3 1 1 min{1, (dr · 16000)−1 } = 2000 dr · 32 · 106 Somit gilt 1−β ≥ d−2 r−2 . 5, 12 · 10−14 2. Schritt: (Startverteilung) Es gilt Z πBd (A) = 1Bd (x) λd (G)πG (dx) λd (Bd ) A und wir haben dπBd 1Bd (x)λd (G) . (x) = dπG λd (Bd ) Daraus folgt 2 Z dπBd = − 1 dπG 2 2 1Bd (x) dx λ (G) − 1 λd (Bd ) d λd (G) G = λd (G) −1 λd (Bd ) ≤ rd − 1 ≤r (binom. Formel) (G ⊆ rBd ) d 3. Schritt: (Fehlerabschätzung) Bestimme n0 : dπ log dπBGd − 1 2 1−β d log rd2 r2 · 5, 12 · 1014 2 = 2, 56 · 1014 d3 r2 log r ≤ =: n0 . 85 4.3 Anwendungen und Beispiele Dann gilt unter Verwendung vom 1. Schritt und Satz 4.11 √ √ 2 128 sup eπBd (Sn,n0 (G, f )) ≤ √ + . 1/2 n(1 − β) n(1 − β) (f,G)∈FK,4 Damit folgt die Behauptung. Bemerkung 4.40 (a) Bemerkenswert ist, dass die Fehlerabschätzung polynomiell von d abhängt. (b) Die vorkommenden Konstanten sind sehr groß. D.h. aus praktischer Sicht ist die Fehlerabschätzung wahrscheinlich nicht brauchbar. Für kleine d und r ist es unter Umständen besser die aus Lemma 4.37 resultierende Fehlerabschätzung zu benutzen. (c) Man könnte auch Satz 4.21 anwenden und damit für f ∈ L∞ Aussage über Konfidenzabschätzungen treffen. 4.3.2 Integration bezüglich nichtnormierter Dichtefunktion Sei G ⊂ Rd beschränkt und fest. Sei ρ : G → (0, ∞) integrierbar bezüglich dem Lebesguemaß und R ρ(x)dx , A ∈ B(G). πρ (A) := RA ρ(x)dx G Für c ≥ 1 definieren wir die Menge Rc = {ρ : G → (0, ∞) | ∀x ∈ G : 1 ≤ ρ(x) ≤ c}. Lemma 4.41 (a) Für alle ρ ∈ Rc gilt supx∈G ρ(x) sup ρ = ≤ c. inf ρ inf x∈G ρ(x) (b) Sei ρ : G → (0, ∞) und sup ρ inf ρ ≤ c. Dann folgt c · ρ(x) ∈ Rc . kρk∞ Beweis: Teil (a) ist klar und Teil (b) folgt aus sup ρ ≤ ρ(x) ≤ sup ρ = kρk∞ . c Wir betrachten FRc ,2 = {(f, ρ) : ρ ∈ Rc , f ∈ L2 (πρ ), kf k2 ≤ 1}. Ziel: Berechne R S(f, ρ) = 86 f (x)ρ(x)dx = ρ(x)dx G GR Z f (x)πρ (dx) G 4.3 Anwendungen und Beispiele für ein beliebiges Paar (f, ρ) ∈ FRc ,2 . Wir betrachten hier den/einen „unabhängigen Metropolis sampler“ (siehe Spezialfall in Abschnitt 3.2.1). Dabei bezeichnen wir mit µG die Gleichverteilung in G. Der Vorschlagskern ist gegeben durch Q(x, A) = µG (A) := λd (A) , λd (G) A ∈ B(G) und der Metropoliskern mit Vorschlag µG und ρ ∈ Rc hat die Form Z Z ρ(y) dy ρ(y) dy . Mρ (x, A) = min 1, + 1A (x) 1 − min 1, ρ(x) λd (G) ρ(x) λd (G) A G Mit Mρ bezeichnen wir den Übergangskern und den zugehörigen Markovoperator. Gegebene / benötigte Informationen: 1) Wir haben ein Orakel welches uns Funktionswerte von f liefert und ein Orakel welches Funktionswerte von ρ liefert. 2) Wir haben einen Zufallszahlengenerator für die Gleichverteilung in G („G hat eine recht einfache Struktur.“). MCMC Methode Sei (f, ρ) ∈ FRc ,2 und (Xn )n∈N eine Markovkette mit Übergangskern Mρ und Startverteilung µG . Berechne n 1X f (Xj+n0 ) Sn,n0 (f, ρ) = n j=1 als Approximation von S(f, ρ). Lemma 4.42 Für alle ρ ∈ Rc , x ∈ G und A ∈ B(G) gilt Mρ (x, A) ≥ c−1 πρ (A). Das heißt unter Verwendung von Satz 4.23 folgt kMρn − SkL1 →L1 ≤ 2(1 − c−1 )n . Beweis: Wir haben ρ(y) dy min 1, ρ(x) λd (G) A R Z ρ(z)dz −1 −1 = min{ρ(y) , ρ(x) } G πρ (dy) λd (G) A Z Z Z ρ(z) ρ(z) πρ (dy) = min dz, dz ρ(y) ρ(x) λd (G) Z Mρ (x, A) ≥ A −1 ≥c G πρ (A) (wegen G ρ(z) ρ(y) ≥ inf ρ sup ρ ≥ c−1 ). 87 4.3 Anwendungen und Beispiele Wir können nun die Fehlerabschätzung aus Satz 4.9 für L1 -exponentiell konvergente Übergangskerne anwenden. Satz 4.43 Für ρ ∈ Rc sei (Xn )n∈N eine Markovkette mit Übergangskern Mρ und Startverteilung µG . Mit n0 = c log(2c) erhalten wir √ 2c 2c e(Sn,n0 , (f, ρ)) ≤ √ + . n n (f,ρ)∈FRc ,2 sup Beweis: 1. Schritt: (Konvergenzeigenschaft) Aus Lemma 4.42 und wegen der Reversibilität folgt, dass Mρ L1 -exponentiell konvergent mit (1 − c−1 , 2) und β := kMρ kL02 →L02 ≤ 1 − c−1 . 2. Schritt: (Startverteilung) Es gilt Z µG (A) = ρ(x) ρ(y)dy G R A und somit Wir erhalten R G ρ(y)dy dx = ρ(x) λd (G) Z R ρ(y)dy G πρ (dx) ρ(x)λd (G) A R ρ(y)dy dµG . (x) = G dπρ ρ(x)λd (G) dµG dπρ − 1 ∞ ≤ a,b≥0 |a−b|≤max{a,b} dµG max 1, ≤ c. dπρ ∞ 3. Schritt: (Fehlerabschätzung bzw. Wahl von n0 ) G log M dµ − 1 dπρ ∞ 1−α ≤ c · log(2c) =: n0 M =2 1−α=c−1 und wir erhalten mit Satz 4.9 die Behauptung. Bemerkung 4.44 Prinzipiell ist für ρ ∈ Rc die Konstruktion von Zufallszahlengeneratoren möglich. Die Akzeptanzwahrscheinlichkeit einer einfachen Verwerfungsmethode zur Simulation von πρ liegt mindestens bei c−1 . 88 4.3 Anwendungen und Beispiele Die obige Fehlerabschätzung ist unabhängig von d, solange c unabhängig von der Dimension ist. Dies ist unter Umständen nicht der Fall. Zum Beispiel mit α ≥ 0 und ρ(x) = exp(−α|x|2 ). √ Für G = Rd wäre dies die nichtnormierte Dichte von N (0, 2α−1 ). Falls nun G = Bd , dann ist exp(α) · ρ ∈ Rexp(α) , da supx∈Bd ρ(x) 1 ≤ −α = eα inf x∈Bd ρ(x) e und wegen Lemma 4.41. Und falls G = [−1, 1]d , so ist exp(αd) · ρ ∈ Rexp(αd) , da supx∈[−1,1]d ρ(x) 1 ≤ −αd = eαd . inf x∈[−1,1]d ρ(x) e Das heißt, abhängig von G, kann c exponentiell von d abhängen. Die Abhängigkeit von α ist in beiden Fällen exponentiell. Wir hätten gerne eine Fehlerabschätzung, die nur von log c abhängt. Für die Klasse FRc ,2 ist dies leider nicht möglich. Wir formulieren folgendes Ergebnis ohne Beweis. Satz 4.45 (folgt aus [13, Theorem 1]) Für jeden randomisierten Algorithmus Sn (Zufallsvariable Sn ), der n Funktionswerte von f und ρ benutzen darf, gilt sup e(Sn , (f, ρ)) = (f,ρ)∈FRc ,2 E|Sn (f, ρ) − S(f, ρ)|2 sup 2 (f,ρ)∈FRc ,2 √ 2 ≥ · 6 (p c 2n 3c c+2n−1 2n ≥ c − 1 . 2n < c − 1 Die Klasse FRc ,2 ist einfach zu groß! Wir betrachten daher eine kleinere Klasse von Dichtefunktionen. Wir beginnen dafür mit der Definition und Eigenschaften von log-konkaven Funktionen auf Rd . Definition 4.46 Eine Funktion f : Rd → [0, ∞) heißt log-konkav, falls f (x) = exp(−ϕ(x)), x ∈ Rd für eine konvexe Funktion ϕ : Rd → (−∞, ∞] gilt (e−∞ = 0). Weiterhin sei für f : Rd → [0, ∞) supp f = {x ∈ Rd : f (x) > 0} der Support von f , auch Träger genannt, und für t ≥ 0 sei Lt (f ) = {x ∈ Rd : f (x) ≥ t} die Levelmenge von f zu Level t. 89 4.3 Anwendungen und Beispiele Beispiel 4.47 1) Sei G ⊆ Rd konvex und λd (G) ∈ (0, ∞), dann ist die Dichte der Gleichverteilung in G ρe(x) = 1G (x) λd (G) log-konkav. Dies gilt, da ρe(x) = exp(−ϕ(x) − λd (G)) ( 0 für ϕ(x) = ∞ x∈G x∈ /G gilt. 2 2) Die Funktion ρe(x) = exp(−α|x| ), mit α > 0 ist log-konkav. Diese Funktion ist die nichtnormierte √ −1 Dichtefunktion von N (0, 2α Id ). Allgemein gilt, dass die Dichte von N (µ, R) mit µ ∈ Rd und Kovarianzmatrix R (symmetrisch, positiv definit) log-konkav ist. Eigenschaften log-konkaver Funktionen Sei ρe : Rd → [0, ∞). E1: Folgende Aussagen sind äquivalent (a) ρe ist log-konkav, (b) ∀x, y ∈ Rd ∀λ ∈ [0, 1] : ρe(λx + (1 − λ)y) ≥ ρe(x)λ ρe(y)1−λ , (c) supp ρe ist konvex und log ρe ist konkav auf supp ρe. Beweis: (a) =⇒ (b) ρe log-konkav =⇒ ∃ϕ : Rd → (−∞, ∞] konvex mit ρe(x) = exp(−ϕ(x)). Wegen ϕ konvex, folgt ∀x, y ∈ Rd ∀λ ∈ [0, 1] : −ϕ(λx + (1 − λ)y) ≥ −λϕ(x) − (1 − λ)ϕ(y). Damit folgt ∀x, y ∈ Rd ∀λ ∈ [0, 1] : e−ϕ(λx+(1−λ)y) ≥ e−λϕ(x) e−(1−λ)ϕ(y) . Die Definition von ϕ liefert schließlich die Behauptung ∀x, y ∈ Rd ∀λ ∈ [0, 1] : ρe(λx + (1 − λ)y) ≥ ρe(x)λ ρe(y)(1−λ) . (b) =⇒ (c) supp ρe ist konvex, da ∀x, y ∈ supp ρe ∀λ ∈ [0, 1] gilt (b) ρe(λx + (1 − λ)y) ≥ ρe(x)λ ρe(y)1−λ > 0. x,y∈supp e ρ D.h. reicht es genügt nun zu zeigen, dass log ρe konkav auf supp ρe. Seien x, y ∈ supp ρe und λ ∈ [0, 1] beliebig. Dann haben wir (b) ρe(λx + (1 − λ)y ) ≥ ρe(x)λ ρe(y)1−λ | {z } ∈supp e ρ ⇐⇒ log ρe(λx + (1 − λ)y) ≥ λ log ρe(x) + (1 − λ) log ρe(y). Also ist log ρe konkav auf supp ρe. 90 4.3 Anwendungen und Beispiele (c) =⇒ (a) Da log ρe konkav auf supp ρe, ist − log ρe konvex auf supp ρe und wir haben ρe(x) = exp(−ϕ(x)) mit ( − log ρe(x) x ∈ supp ρe . ϕ(x) = ∞ sonst E2: Falls ρe auf supp ρe konkav und supp ρe konvex, dann ist ρe log-konkav. Beweis: Wegen E1 g.z.z., dass log ρe konkav auf supp ρe. Wir haben für x, y ∈ supp ρe, λ ∈ [0, 1] log{e ρ(λx + (1 − λ)y)} ≥ log{λe ρ(x) + (1 − λ)e ρ(y)} ≥ λ log ρe(x) + (1 − λ) log ρe(y). E3: Sind ρe1 , ρe2 log-konkav, dann auch ρe1 ρe2 und min{e ρ1 , ρe2 } log-konkav. E4: ρe log-konkav =⇒ ∀t ∈ (0, ∞) ist Lt (e ρ) konvex. Beweis: Seien x, y ∈ Lt (e ρ), λ ∈ [0, 1]. Dann ist E1 (b) ρe(λx + (1 − λ)y) ≥ ρe(x)λ ρe(y)1−λ ≥ tλ t1−λ = t. Bemerkung 4.48 Funktionen deren Levelmengen konvex sind, werden auch quasi-konvex gennant. quasi-konvex nicht quasi-konvex In der Literatur wird manchmal der Begriff „unimodal“ für quasi-konvex verwendet. „Unimodal“ kann aber auch heißen, dass eine Funktion nur einen „Mode = Modus“ hat, d.h. die Maximalstellen bilden eine konvexe Menge. Folgendes Resultat über log-konkave Funktionen ist sehr wichtig. 91 4.3 Anwendungen und Beispiele Lemma 4.49 (Isoperimetrische Ungleichung) Sei ρe log-konkav mit beschränktem „support“, d.h. D := diam(supp ρe) = sup |x − y| < ∞. x,y∈supp e ρ Es sei T1 , T2 , T3 eine paarweise disjunkte Zerlegung von supp ρe. Dann gilt 2 πe (T ) ≥ inf |x − y| · min{πe (T ), πe (T )}. ρ 3 ρ 1 ρ 2 D x∈T1 y∈T2 Beweis: Einen Beweis dieser Behauptung und weitere Ungleichungen dieser Art finden sich in [20]. Wir wollen nun eine Klasse von Dichtefunktionen mit zusätzlicher Struktur einführen. Für α ≥ 0 sei nun ρ ∈ Lα , falls ρ : G → (0, ∞), G ⊆ Rd , G konvex und a) Es existiert eine log-konkave Funktion ρe mit supp ρe = G und ρ = ρe auf G. b) Für alle x, y ∈ G gilt | log ρ(x) − log ρ(y)| ≤ α|x − y|. Wir können sagen, dass Lα log-konkave, log-Lipschitz-stetige, nichtnormierte Dichtefunktionen enthält. Nun betrachten wir FLα ,4 = {(f, ρ) : ρ ∈ Lα , f ∈ L4 (πρ ), kf k4 ≤ 1}. Ziel: Für geeignete Mengen G berechne R Z f (x)ρ(x)dx S(f, ρ) = GR = f (x)πρ (dx), ρ(x)dx G (f, ρ) ∈ FLα ,4 . G Gegebene Informationen: 1) Funktionsauswertungen von f 2) Funktionsauswertungen von ρ 3) Zufallszahlengenerator zur Simulation der Gleichverteilung in G. Als Markovkette schauen wir uns einen Metropolis-Algorithmus mit „ball-walk“ als Vorschlagskern an. Für δ > 0 ist der Übergangskern des „δ-ball-walk“ gegeben durch λd (G ∩ B(x, δ)) λd (A ∩ B(x, δ)) + 1A (x) 1 − Wδ (x, A) = , λd (B(0, δ)) λd (B(0, δ)) für A ∈ B(G) und x ∈ G. Und der Metropoliskern mit Vorschlag Wδ sowie ρ ∈ Lα hat die Form Z Z ρ(y) ρ(y) Mρ,δ (x, A) = min{1, ρ(x) }Wδ (x, dy) + 1A (x) 1 − min{1, ρ(x) }Wδ (x, dy) . A G fρ,δ (x, A) = 1 (Mρ,δ (x, A) + 1A (x)) die „lazy version“ von Mρ,δ . Wir betrachten M fρ,δ um sicherSei M 2 zustellen, dass der Markovoperator positiv semidefinit ist, siehe Abschnitt 4.2.2. 92 4.3 Anwendungen und Beispiele fρ,δ , Markovoperator und Markovkern. Notation: Wir bezeichnen mit Mρ,δ , bzw. M fρ,δ und MCMC Methode: Sei (f, ρ) ∈ FLα ,4 und (Xn )n∈N eine Markovkette mit Übergangskern M Startverteilung µG (Gleichverteilung in G). Berechne n Sn,n0 (f, ρ) = 1X f (Xj+n0 ) n j=1 als Approximation von S(f, ρ). Wir benötigen einige Eigenschaften des „δ-ball-walk“. Zunächst definieren wir für einen allgemeinen Übergangskern K die local conductance `K (x) = K(x, G \ {x}). Interpretation: Sei r > 0 und Ar := {x ∈ G : `K (x) < r} und π(Ar ) ∈ (0, 1/2], sowie K reversibel bezüglich π. Dann gilt R K(x, Ac )π(dx) A ϕ= inf π(A) π(A)∈(0,1/2) Z π(dx) ≤ K(x, Acr ) π(Ar ) Ar Z π(dx) ≤ K(x, G \ {x}) | {z } π(Ar ) Ar <r < r. D.h., intuitiv, falls r sehr klein und Ar genügend groß (π(Ar ) ∈ (0, 1/2]) haben wir kleines ϕ. Für Wδ und Mρ,δ zeigen wir die Umkehrung. Ziel: Falls `Wδ (x) ≥ ` > 0, bzw. `Mρ,δ (x) ≥ ` > 0 für alle x ∈ G und ` „groß genug“, dann ist auch ϕ(Wδ ) bzw. ϕ(Mρ,δ ) „groß“. Für Wδ erhalten wir `Wδ (x) = λd (G ∩ B(x, δ)) λd (B(0, δ)) Skizze: x1 G x2 `Wδ (x1 ) = 1/4 `Wδ (x2 ) = 1/2 `Wδ (x3 ) = 1 x3 93 4.3 Anwendungen und Beispiele Im Folgenden benutzen wir öfter die Ungleichung λd−1 (Bd−1 ) ≤ λd (Bd ) r d+1 . 2π (BR) Für einen Beweis siehe [13]. (BR) folgt im Wesentlichen aus Γ(z + 1/2) √ ≤ z, Γ(z) mit der Gammafunktion Γ(z) = R∞ 0 tz−1 e−t dt. Lemma 4.50 1 , G = Bd und beliebiges x ∈ Bd gilt `Wδ (x) ≥ 0, 3. Für δ ≤ √d+1 Beweis: Es ist klar, dass `Wδ (x) für x ∈ ∂Bd = Sd−1 am kleinsten ist. Es sei H die Tangentialhyperebene am Punkt x bezüglich Bd . Dann halbiert diese B(x, δ). H Bd h x B(x, δ) Grundfläche von Z(h) Z(h) Desweiteren sei Z(h) der d-dimensionale Zylinder, der die (d − 1)-dimensionale Kugel um x mit Radius δ als Grundfläche besitzt. Die Höhe h des Zylinders ergibt sich aus dem Abstand von H und der Hyperebene, die durch Bd ∩ ∂B(x, δ) bestimmt wird. Diese Höhe h kann man mit Hilfe des Satzes von Thales und einer Verhältnisungleichung genau berechnen. 94 4.3 Anwendungen und Beispiele C δ h A h B δ 2 ∆ABC liegt auf Halbkreis über AB, also liegt nach Satz des Thales bei C ein rechter Winkel. Damit 2 folgt mit Strahlensatz hδ = 2δ , also h = δ2 . Nach obiger Konstruktion können wir `Wδ (x) wie folgt abschätzen `Wδ (x) = Da λd (Z(h)) = h · λd−1 (δBd−1 ) = λd (B(x, δ) ∩ Bd ) 1 λd (Z(h)) ≥ − . λd (B(0, δ)) 2 λd (B(0, δ)) δ 2 d−1 λd−1 (Bd−1 ) 2 δ erhalten wir 1 hδ d−1 λd−1 (Bd−1 ) − 2 δ d λd (B2 ) 1 λd−1 (Bd−1 ) = 1−δ 2 λd (Bd ) √ 1 d−1 ≥ (mit (BR)). 1−δ √ 2 2π `Wδ (x) ≥ √ Für δ ≤ 1/ d+1 bekommen wir `Wδ (x) ≥ 1 √ (1 − 1/ 2π) ≥ 0, 3 2 und damit ist der Beweis abgeschlossen. Wir benötigen 2 weitere technische Lemmas über Wδ . Lemma 4.51 Sei δ > 0 und t ∈ (0, 1). Falls x, y ∈ Rd mit √ 2π |x − y| ≤ tδ √ , d+1 dann ist λd (B(x, δ) ∩ B(y, δ)) ≥ (1 − t)λd (B(0, δ)). 95 4.3 Anwendungen und Beispiele Beweis: Sei u := |x − y|. Falls u < δ, dann ist das Lebesguemaß von B(x, δ) ∩ B(y, δ) gleich dem Lebesguemaß von B(0, δ) ohne Mittelstück mit Breite u. Skizze: Mittelstück der Breite u x u u y Grundfläche δBd−1 von Zylinder Das Lebseguemaß dieses Mittelstückes kann nach oben durch das Lebesguemaß des Zylinders mit Grundfläche δBd−1 und Höhe u abgeschätzt werden. Das führt zu λd (B(x, δ) ∩ B(y, δ) ≥ λd (δBd ) − uλd−1 (Bd−1 ) λd−1 (δBd−1 ) = λd (δBd ) 1 − u λd (δBd ) u λd−1 (Bd−1 ) = λd (Bd ) 1 − δ λd (Bd ) ! r u d+1 (mit (BR)) ≥ λd (δBd ) 1 − δ 2π p ≥ (1 − t)λd (δBd ) (wegen u ≤ tδ 2π/d+1). Lemma 4.52 Für Wδ auf G sei `Wδ (x) ≥ ` für alle x ∈ G, d.h. ` ist eine untere Schranke für die „local conductance“. Dann gilt für alle t ∈ (0, `) und A ∈ B(G) mit A1 := {x ∈ A : Wδ (x, Ac ) < 21 (` − t)}, A2 := {y ∈ Ac : Wδ (y, A) < 21 (` − t)}, dass r inf |x − y| > tδ x∈A1 y∈A2 2π . d+1 Beweis: Der Beweis erfolgt mit Widerspruch. Angenommen r 2π . inf |x − y| ≤ tδ x∈A1 d+1 y∈A2 96 4.3 Anwendungen und Beispiele Dann folgt λd (B(x, δ) ∩ B(y, δ) ∩ G) = λd ((B(x, δ) ∩ G) \ (B(x, δ) \ B(y, δ))) (wegen A ∩ B ∩ C = (A ∩ B) \ (A \ C)) ≥ λd (B(x, δ) ∩ G) − λd (B(x, δ) \ B(y, δ)) = λd (B(x, δ) ∩ G) − λd (B(x, δ) \ [B(x, δ) ∩ B(y, δ)]) = λd (B(x, δ) ∩ G) − λd (δBd ) − λd (B(x, δ) ∩ B(y, δ)). Wegen obiger Annahme können wir Lemma 4.51 anwenden. Damit und mit `Wδ = λd (Bx,δ ∩ G) ≥` λd (B(0, δ)) folgt λd (B(x, δ) ∩ B(y, δ) ∩ G) ≥ `λd (δBd ) − λd (δBd ) + (1 − t)λd (δBd ). (19) Nun gilt B(x, δ) ∩ B(y, δ) ∩ G ⊆ (B(x, δ) ∩ G ∩ Ac ) ∪ (B(y, δ) ∩ G ∩ A). Wegen der Monotonie des Lebesguemaßes folgt λd (B(x, δ) ∩ B(y, δ) ∩ G) ≤ λd ((B(x, δ) ∩ G ∩ Ac ) ∪ (B(y, δ) ∩ G ∩ A)) ≤ λd (B(x, δ) ∩ G ∩ Ac ) + λd (B(y, δ) ∩ G ∩ A). Aus (19) und vorheriger Ungleichung folgt λd (B(x, δ) ∩ G ∩ Ac ) + λd (B(y, δ) ∩ G ∩ A) ≥ (` − t)λd (B(0, δ)). Mit Wδ ausgedrückt ergibt dies Wδ (x, Ac ) + Wδ (y, A) ≥ ` − t. Dies ist ein Widerspruch zu x ∈ A1 und y ∈ A2 . Folgerung 4.53 Für Wδ auf G ⊆ Rd sei `Wδ (x) ≥ ` für alle x ∈ G. Desweiteren sei G konvex und beschränkt mit D := diam(G). Dann gilt für d ≥ 6 und δ < D r 2π `2 δ . ϕ(Wδ ) ≥ 8 D d+1 Insbesondere ist für G = Bd √ 9 π 1 . ϕ(Wd ) ≥ √ 2 · 800 d + 1 Beweis: Mit Lemma 4.52 erhalten wir für t ∈ (0, `) und A ∈ B(G) mit A1 := {x ∈ A : Wδ (x, Ac ) < 21 (` − t)}, A2 := {y ∈ Ac : Wδ (y, A) < 21 (` − t)}, dass r inf |x − y| > tδ x∈A1 y∈A2 2π . d+1 97 4.3 Anwendungen und Beispiele Da G konvex ist, folgt 1G (x) λd (G) ist log-konkav. Aus Lemma 4.49 folgt mit A3 = G \ (A1 ∪ A2 ) 2 µG (A3 ) ≥ tδ D r 2π min{µG (A1 ), µG (A2 )}. d+1 Da Wδ reversibel bezüglich µG erhalten wir mit Satz 4.36 ( ) r tδ 2π `−t min 1, ϕ(Wδ ) ≥ 2 D d+1 r ` − t tδ 2π ≥ (wegen d ≥ 6, δ ≤ D, t ∈ (0, `) und ` ≤ 1) 2 D d+1 r `2 δ 2π = (wegen t(` − t) maximal für tmax = `/2). 8 D d+1 Der letzte Teil folgt mit Lemma 4.35. Wir können dieses Ergebnis verallgemeinern. Satz 4.54 Sei ρ ∈ Lα , `Wδ ≥ ` für alle x ∈ G und D := diam(G) < ∞. Dann gilt r π `δ `e−αδ √ min 1, . ϕ(Mρ,δ ) ≥ 8 2 D d+1 Beweis: 1. Schritt: (Mρ,δ (x, A) ≥ e−αδ Wδ (x, A)) Für ρ ∈ Lα gilt mit y ∈ B(x, δ), x ∈ G und der log-Lipschitz-Bedingung, dass n o ρ(y) min 1, = min 1, elog ρ(y)−log ρ(x) ≥ e−α|x−y| ≥ e−αδ . ρ(x) Damit erhalten wir Z Mρ,δ (x, A) ≥ ρ(y) min 1, ρ(x) Wδ (x, dy) A ρ(y) Wδ (x, dy) = 1B(x,δ) (y) min 1, ρ(x) A Z ≥ e−αδ 1B(x,δ) (y)Wδ (x, dy) Z A = e−αδ Wδ (x, A). 2. Schritt: (Verallgemeinerung von Lemma 4.52) Für A ∈ B(G) sei T1 := 98 c −αδ x ∈ A : Mρ,δ (x, A ) < e ` 4 , 4.3 T2 := y ∈ Ac : Mρ,δ (y, A) < e−αδ Anwendungen und Beispiele ` 4 . Wir zeigen T1 ⊆ A1 und T2 ⊆ A2 mit A1 , A2 aus Lemma 4.52 und t = `/2. Es gilt für x ∈ T1 , dass ` 4 eαδ Mρ,δ (x, Ac ) < ≤ Wδ (x, A) x∈T1 1. Schritt und somit x ∈ A1 . Analog zeigt man T2 ⊆ A2 . Damit erhalten wir r Lemma 4.52 ` 2π inf |x − y| ≥ inf |x − y| > δ . x∈T1 x∈A1 2 d+1 y∈T2 y∈A2 3. Schritt: (Anwendung isoperimetrischer Ungleichung, Lemma 4.49) Es sei T3 := G \ (T1 ∪ T2 ) und da ρ log-konkav, folgt mit Lemma 4.49 und dem 2. Schritt, dass r 2 ` 2π δ min{πρ (T1 ), πρ (T2 )}. πρ (T3 ) ≥ D2 d+1 4. Schritt: (Anwendung von Satz 4.36) Da Mρ,δ reversibel bezüglich πρ und mit den Schritten 1 bis 3 erhalten wir unter Verwendung von Satz 4.36 ( ) r 2π ` −αδ ` δ ϕ(Mρ,δ ) ≥ e min 1, 8 2D d+1 und die Behauptung des Satzes ist bewiesen. Folgerung 4.55 Es sei ρ ∈ Lα mit G = Bd und δ ≤ (d + 1)−1/2 . Dann gilt r 9δe−αδ π √ . ϕ(Mρ,δ ) ≥ 2 1600 · d + 1 Um ϕ(Mρ,δ ) zu maximieren, setzen wir δ ∗ := min und erhalten r ϕ(Mρ,δ ) ≥ √ 1 1 , d+1 α π 9e−1 1 √ min 2 1600 d + 1 √ 1 1 , d+1 α . Beweis: Die Aussagen sind direkte Folgerungen aus Satz 4.54 und Lemma 4.50. Nun haben wir alles Beisammen um eine Fehlerabschätzung für die MCMC Methode basierend auf fρ,δ („lazy version“ von Mρ,δ ) zu formulieren und zu beweisen. M 99 4.3 Anwendungen und Beispiele Satz 4.56 Für G = Bd , ρ ∈ Lα und δ ∗ = min{(d + 1)−1/2 , α−1 } sei (Xn )n∈N eine Markovkette mit Übergangsfρ,δ∗ und Startverteilung µB . Mit kern M d n0 := 1189362 α(d + 1) max{d + 1, α2 } erhalten wir √ 1543 √ 13456095 eµBd (Sn,n0 , (f, ρ)) ≤ √ d + 1 max{ d + 1, α} + (d + 1) max{d + 1, α2 }. n n (f,ρ)∈FLα ,4 sup Beweis: 1. Schritt (Konvergenzeigenschaft) Mit Lemma 4.35, Folgerung 4.40 und der Wahl von δ ∗ erhalten wir fρ,δ∗ ) = ϕ(Mρ,δ∗ ) ≥ ϕ(M 2 r π 9 1 √ · min 2 3200 e d + 1 1 1 √ , α d+1 Mit der Cheeger-Ungleichung (Satz 4.31) erhalten wir dann 81 1 fρ,δ kL0 →L0 ≥ 1 π min 1 − kM 2 2 2 2 |2 2 3200 {z e } d + 1 1 1 , 2 d+1 α ≈0,841·10−6 2. Schritt (Startverteilung) Es gilt Z µBd (A) = R A ρ(A) · ρ(y)dy Bd Z Z ρ(y)dy = R Bd ρ(y)dy ρ(x) dx λd (Bd ) 1 πρ (dx) ρ(x)λd (Bd ) A Bd und somit dµBd 1 (x) = · dπρ ρ(x) Z ρ(y) Bd 100 dy . λd (Bd ) . . 4.3 Mit c := R Bd Anwendungen und Beispiele ρ(y)dy folgt 2 Z dµBd = − 1 dπρ 2 Bd 2 c ρ(x) −1 ρ(x) − 1 λd (Bd ) c dx | {z } Z = πρ (dx) 2 2 1 c c −2 +1 λd (Bd )2 ρ(x) λd (Bd )ρ(x) ρ(x) dx c Bd Z c dx − 1 λd (Bd )2 ρ(x) Bd Z Z dy ρ(y) dx ≤ ρ(x) λd (Bd ) λd (Bd ) = (c einsetzen) Bd Bd (?) ≤ e2α , wobei (?) wegen ρ(y) = exp(log(ρ(y)) − log(ρ(x))) ≤ eα|x−y| ρ(x) ≤ e2α x,y∈Bd gilt. Das heißt dµBd α dπρ − 1 ≤ e . 2 3. Schritt (Fehlerabschätzung, Anwendung von Satz 4.11) Bestimme n0 : Es gilt dν log(k dπ − 1k) ρ 1−β 1. und 2. Schritt ≤ α(d + 1) max{d + 1, α2 } · 1189362. Dann gilt unter Verwendung vom 1. Schritt und Satz 4.11 die Fehlerabschätzung. 101 LITERATUR Literatur [1] G. Alsmeyer. Wahrscheinlichkeitstheorie (Vorlesungsskript). http://www.math.uni-muenster. de/statistik/lehre/SS13/WT/Skript/WT-Buch_8.pdf, 2013. [Online; Zugriff am 31.07.2015]. [2] S. Asmussen and P. Glynn. A new proof of convergence of MCMC via the ergodic theorem. Statist. Probab. Lett., 81:1482–1485, 2011. [3] A. Barker. Monte Carlo calculations of the radial distribution functions for a proton-electron plasma. Aust. J. Phys., 18:119–133, 1965. [4] R. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revised reprint of the 1989 original. [5] O. Forster. Analysis 3: Maß- und Integrationstheorie, Integralsätze im Rn und Anwendungen. Wiesbaden: Springer Spektrum, 7th revised ed. edition, 2012. [6] P. Glynn and D. Ormoneit. Hoeffding’s inequality for uniformly ergodic Markov chains. Statist. Probab. Lett., 56(2):143–146, 2002. [7] W. Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, 57(1):97–109, 1970. [8] O. Kallenberg. Foundations of Modern Probability. Probability and its Applications. SpringerVerlag, New York, Second edition, 2002. [9] A. Klenke. Wahrscheinlichkeitstheorie. Springer, 2006. in German. [10] K. Łatuszyński and D. Rudolf. Convergence of hybrid slice sampling via spectral gap. http://arxiv.org/abs/1409.2709, 2014. [11] G. Lawler and A. Sokal. Bounds on the L2 spectrum for Markov chains and Markov processes: a generalization of Cheeger’s inequality. Trans. Amer. Math. Soc., 309(2):557–580, 1988. [12] L. Lovász and S. Vempala. Hit-and-run from a corner. SIAM J. Comput., 35(4):985–1005, 2006. [13] P. Mathé and E. Novak. Simple Monte Carlo and the Metropolis algorithm. J. Complexity, 23(4-6):673–696, 2007. [14] N. Metropolis, A. Rosenbluth, M. Rosenbluth, A. Teller, and E. Teller. Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21(6):1087–1092, 1953. [15] S. Meyn and R. Tweedie. Markov chains and stochastic stability. Cambridge University Press, second edition, 2009. [16] B. Miasojedow. Hoeffding’s inequalities for geometrically ergodic markov chains on general state space. Preprint, Available at http://arxiv.org/abs/1201.2265, 2012. [17] T. Müller-Gronbach, E. Novak, and K. Ritter. Monte Carlo-Algorithmen. Springer, 2012. in German. [18] D. Rudolf. Explicit error bounds for Markov chain Monte Carlo. Dissertationes Math., 485:93 pp., 2012. [19] D. Rudolf and M. Ullrich. Positivity of hit-and-run and related algorithms. Electron. Commun. Probab., 18:1–8, 2013. 102 LITERATUR [20] S. Vempala. Geometric random walks: A survey. Combinatorial and computational geometry, 52:573–612, 2005. [21] D. Werner. Funktionalanalysis. Springer Verlag, 2005. 103 INDEX Index L1 -exponentielle Konvergenz, 53 δ ball walk, 21 π-irreduzibel, 55 log-konkav, 89 Übergangsdichte, 34 Übergangskern, 18 Gibbs sampler Deterministic scan Gibbs sampler, 41 Random scan Gibbs sampler, 40 bedingte Dichte, 16 bedingter Erwartungswert, 10 burn-in, 55 Doeblin, 69 Fehler, 5 Gibbs sampler, 40 gleichmäßig ergodisch, 54 Markovprozess, 18 quasi-konvex, 91 reguläre Version, 13 reguläre Version der bedingten Verteilung, 13, 14 Reversibilität, 27 Slice sampling, 42 Hybride slice sampler, 44 Simple slice sampler, 42 Spektrallücke, 53 Startverteilung, 18 stationäre Verteilung, 26 Support, 89 totaler Variationsabstand, 49 Träger, 89 homogene Markovkette, 18 Update-Funktion, 18 Leitfähigkeit, 71 Levelmenge, 42 local conductance, 93 Version der bedingten Wahrscheinlichkeit, 13 Version des bedingten Erwartungswertes, 9 Verteilungsdichte, 15 Vorschlagskern, 34 Markoveigenschaft, 18 Markovkern, 18 Markovkette, 7, 18 Markovoperator, 46 104 zeitlich diskret, 18 zeitlich stetig, 18 zufällige Vektoren, 15
© Copyright 2025 ExpyDoc