Teil I Unrestringierte Probleme 2 Geg.: f : Rn → R, f ∈ C 1 (Rn ; R) Ziel: suche Minimierer von f 3 Kapitel 1 Abstiegsverfahren 1.1 Allgemeine Abstiegsverfahren Definition 1.1: Sei x ∈ Rn . d ∈ Rn heißt Abstiegsrichtung für f bei x, falls ∃t > 0 s.d. f (x + td) < f (x) ∀t ∈ (0, t) Satz 1.2: Sei f ∈ C 1 (Rn , R), d ∈ Rn mit ∇ f (x) · d < 0. Dann gilt: d ist Abstiegsrichtung. Beweis:: X 2 Algorithmus 1.3 (allgemeines Absteigsverfahren): (S0) wähle x0 , setze k := 0 (S1) while (xk erfüllt nicht Abbruchkrit.) do { (S2) wähle Abstiegsrichtung dk von f in xk (S3) wähle Schrittweite tk > 0 mit f (xk + tk dk ) < f (xk ) (S4) xk+1 := xk + tk dk ; k := k + 1 } Beobachtung: Eine von Algorithmus 1.3 erzeugte Folge muss nicht gegen Minimierer von f 4 konvergieren. ~ Konvergenz könnte dadurch erreicht werden, dass die tk schnell klein werden! Es ist also nötig, das Konzept des “hinreichend großen Abstiegs” einzuführen. Definition 1.4 (Schrittweitenstrategie, Effizienz): Rn | d ist in Abstiegsrichtung für f in x } • Sei A := {(x, d) ∈ Rn × • Für jedes (x, d) ∈ A sei T (x, d) ∈ R+ nicht leer. Wir nennen T “Schrittweitenregel”. • Eine Schrittweitenregel T heißt effizient, falls es θ > 0 gibt, sodass ∀(x, d) ∈ A ∇ f (x)d f (x + td) ≤ f (x) − θ kdk !2 ∀t ∈ T (x, d) Beispiel 1.5 (Armijo-Regel): Sei σ ∈ (0, 1). Dann ist für (x, d) ∈ A T Armi jo (x, d) := {t > 0 | f (x + td) ≤ f (x) + σt∇ f (x)d} , ∅ Der Einsatz effizienter Schrittweitenregeln bei Abstiegsverfahren führt auf (lokale) Minima: Satz 1.6: Sei f ∈ C 1 (Rn ; R) und (xk )∞ k=0 eine von Algorithmus 1.3 erzeugte Folge. Es gelte zudem: (i) − ∇ f (xk ) · dk ≥c>0 k∇ f (xk )k kdk k ∀k (1.1) ~ “Winkelbedingung” (ii) die Schrittweiten tk sind effizient, d.h. ∇ f (xk ) · dk f (xk+1 ) ≤ f (xk ) − θ kdk k !2 ∀k Dann gilt: Jeder Häufungspunkt von (xk )k ist stationärer Punkt von f . 5 (1.2) Beweis: • Sei x∗ Häufungspunkt von (xk )∞ k=0 ∗ • Weil ( f (xk ))∞ k=0 monoton ↓ und eine TF gegen f (x ) konvergiert, konvergiert die gesamte Folge: lim f (xk ) = f (x∗ ) k→∞ • aus Effizienz und Winkelbedingung folgt !2 ∇ f (xk ) · d x f (xk+1 ) ≤ f (xk ) − θ kdk k |∇ f (xk ) · dk |2 = f (xk ) − θ kdk k2 | {z } ≥c2 k∇ f (xk )k2 ≤ f (xk ) − θc2 k∇ f (xk )k2 ⇒ 0 ≤ θc2 k∇ f (xk )k2 ≤ f (x ) − f (x ) | k {z k+1} → f (x∗ )− f (x∗ )=0 für k→∞ ⇒ lim k∇ f (xk )k2 = 0 ⇒ ∇ f (x∗ ) = 0 k→∞ 2 Bemerkung 1.7: Die Effizienzbedingung stellt den maximalen Abstieg dar, den man realistischerweise erwarten kann. Um das zu sehen, betrachte ein quadratisches f : 1 T x Qx + cT x + γ mit Q S PD, c ∈ Rn , γ ∈ R 2 Sei d eine Abstiegsrichtung für f ∈ x Dann gilt: 1 f (x + td) = f (x) + t ∇ f (x) · d + t2d T Qd, t ∈ R | {z } 2 f (x) := <0 Der maximale Abstieg ergibt sich für t mit ϕ′ (t) = 0, wobei ϕ(t) = f (x + td). Also 2 2 0 = ∇ f (x) · d + td T Qd ⇒ f (x + td) = f (x) − 12 t d T Qt = f (x) − 12 ∇dfT(x)·d Qd weil Q SPD ist, gilt für den extremen Eigenwert von Q λmin kdk2 ≤ d T Qd ≤ λmax kdk2 . Damit folgt, dass man nicht mehr als Abstieg erwarten kann als das, was die Effizienzabschätzung gibt. 6 1.2 Schrittweitenstrategien Sei d Abstiegsrichtung für f bei x. Die nächstliegenden Wahlen für Schrittweiten t > 0 sind: 1. “Minimierungsregel”: wähle tmin so, dass f (x + tmin d) = mint≥0 f (x + td) ~ globales Minimum auf Strahl {x + td | t ≥ 0} 2. “Curry-Regel”: wähle tc als tc := min{t > 0 | ∇ f (x + td) · d = 0} ~ x + tc d ist also das erste Minimum von f auf den Strahl {x + td | t > 0} Diese Regeln sind in der Praxis nicht einfach realisierbar. Oft werden deshalb die folgenden Strategien verwendet. Definition 1.8 (Armijo-Regel): Sei β ∈ (0, 1), σ ∈ (0, 1), d Abstiegsrichtung von f bei x. Dann ist die ArmijoSchrittweite t definiert als T Ami jo (x, d) = max{βl | l ∈ N0 und f (x + βl d) ≤ f (x) + σβl ∇ f (x) · d} Bemerkung: • in der obigen Notation ist T Armi jo(x, d) eindeutig • T Armi jo ist numerisch einfach zu bestimmen: man probiert l = 0, 1, . . . aus bis man βl gefunden hat, welches f (x + βl d) ≤ f (x) + σβl∇ f (x) · d liefert. Wegen σ < 1 und ∇ f (x) · d < 0 gibt es ein solches l. Illustration: • die Armijo-Regel erzwingt Abstieg, dies ist aber nicht notwendig effizient im Sinne von Definition 1.4. Sei ϕ(t) := f (x + td). Die Armijo-Regel sucht t > 0, sodass ϕ(t) ≤ ϕ(0) + tσϕ′(0). Im Hinblick auf die Minimierungsregel bzw. Curry-Regel, scheint es sinnvoll, t > 0 so zu bestimmen, dass |ϕ′ (t)| klein ist. Definition 1.9 (Strenge Wolfe-Powell-Regel): Sei d Abstiegsrichtung von f in x. Sei σ ∈ (0, 12 ), ρ ∈ (σ, 1). 7 hier kommt die Illustration her T S W P (x, d) := {t > 0| f (x+td) ≤ f (x)+tσ∇ f (x)·d und |∇ f (x+td)·d| ≤ −ρ∇ f (x)·d} Illustration: hier kommt die Illustration her Satz 1.10 (Wohldefiniertheit und Effizienz von SWP): Sei f ∈ C 1 (Rn , R), σ ∈ (0, 21 ), ρ ∈ (σ, 1). Sei x0 ∈ Rn und L(x0 ) := {x ∈ Rn | f (x) ≤ f (x0 )}. Sei d Abstiegsrichtung von f in x ∈ L(x0 ) und T S W P (x, d) = {t > 0 | f (x+td) ≤ f (x)+tσ∇ f (x)·d und |∇ f (x+td)·d| ≤ −ρ∇ f (x)·d} Dann gilt: (i) Ist f nach unten beschränkt, dann ist T S W P (x, d) , ∅ (ii) Ist ∇ f auf L(x0 ) Lipschitzstetig, so existiert θ > 0 (unabhängig von x ∈ L(x0 ) und d) mit ∇ f (x) · d f (x + td) ≤ f (x) − θ kdk !2 ∀t ∈ T S W P (x, d) Beweis: ad(i): Sei ϕ(t) := f (x + td) und ψ(t) := f (x) + tσ∇ f (x) · d. z.z.: ∃t > 0 mit ϕ(t) ≤ ψ(t) ∧ |ϕ′ (t)| ≤ −ρϕ′ (0) 1. Schritt: wegen ϕ′ (0) < ψ′ (0), limt→∞ ψ(t) = −∞, ϕ nach unten beschränkt, existiert t∗ > 0 mit a) ϕ(t) ≤ ψ(t) ∀t ∈ [0, t∗] b) ϕ(t∗ ) = ψ(t∗ ) Insbesondere folgt ϕ′ (t∗ ) − ψ′ (t∗ ) ≥ 0 2. Schritt: betrachte die Fälle ϕ′ (t∗ ) < 0 und ϕ′ (t∗ ) > 0 Schritt 2a: Sei ϕ′ (t∗ ) < 0. Dann gilt: • ϕ(t∗ ) = ψ(t∗ ) • |ϕ′ (t∗ )| = −ϕ′ (t∗ ) ≤ −ψ′ (t∗ ) = −σϕ′ (0) ≤ −ρϕ′ (0) also ist t∗ ∈ T S W P (x, d) 8 hier kommt eine Illustration her Schritt 2b: Sei ϕ′ (t∗ ) ≥ 0. Wegen ϕ′ (0) < 0 existiert dann t∗∗ ∈ (0, t∗ ) mit ϕ′ (t∗∗ ) = 0 und, nach 1. Schritt, ϕ(t∗∗ ) ≤ ψ(t∗∗ ). Also ist t∗ ∈ T S W P (x, d). ad(ii): Sei t ∈ T S W P (x, d). Dann gilt: • f (x + td) ≤ f (x) + tσ∇ f (x) · d ≤ f (x) ⇒ x + td ∈ L(x0 ) • ρ∇ f (x) · d ≤ −|∇ f (x + td) · d)| ≤ +∇ f (x + td) · d ⇒ (ρ − 1)∇ f (x) · d ≤ (∇ f (x + td) − ∇ f (x)) · d ≤ k∇ f (x + td) − ∇ f (x)k ||d|| bezeichnet L die Lipschitzkonstante von ∇ f auf L(x0 ), so folgt wg x, x + td ∈ L(x0 ): (ρ − 1)∇ f (x) · d ≤ Lktdk kdk, das heißt t≥ (ρ − 1)∇ f (x) · d Lkdk2 und somit ∇ f (x) · d σ (1 − ρ) f (x + td) ≤ f (x) + σ∇ f (x) · dt ≤ f (x) − L kdk |{z} !2 =:θ>0 2 Bemerkung 1.11: Warum σ ∈ (0, 21 )? Auf diese Weise wird garantiert, dass für quad. ϕ (also z.B. für quad. f ) das exakte Minimum in T S W P liegt: Es gilt für t : ϕ′ (t) = 0, das heißt ϕ′ (0) + tϕ′′(0) = 0 = die “kritische” Gerade geht durch (0, ϕ(0)) und (t, ϕ(t)). Ihre Steigung ist ϕ(t)−ϕ(0) t 1 ′ 1 ′′ 1 ′ ϕ (0) + 2 tϕ (0) = 2 ϕ (0). Damit muss σ < 2 sein. 1.3 Numerische Realisierung der Schrittweitenregel Laut Definition 1.8 ist die Armijo-Regel bereits realisierbar. Ziel einer alg. Realisierung der strengen Wolfe-Powell-Regel ist die Konstruktion eines t ∈ T S W P (x, d). Der Erfolg der Algorithmen basiert auf folgendem Lemma: 9 hier kommt eine Illustration her Lemma 1.12: Bezeichne ha, bi = [min{a, b}, max{a, b}] ein Interval mit Endpunkten a und b und a , b. Es gelte ϕ′ (a)(b − a) ≤ 0. Dann gilt: Es gibt t ∈ ha, bi mit |ϕ′ (t)| < σ|ϕ′(0)|, falls eine der folgenden zwei Bedingungen erfüllt ist: (i) ϕ(a) ≤ ϕ(b) (ii) ϕ(a) ≤ ϕ(0) + aσϕ′ (0) UND ϕ(b) ≥ ϕ(0) + bσϕ′(0) Beweis: Im Fall (i) sieht man elementar, daß es sogar ein t ∈ ha, bi gibt mit ϕ′ (t) = 0 (Fallunterscheidung a < b und b > a!; BILD). Im Fall (ii) mit b < a (BILD), folgt aus ϕ′ (a)(b − a) ≤ 0, daß ϕ′ (a) ≤ 0. Weiters ist, weil ϕ′ (0) < 0, ϕ(b) > ϕ(a). Damit muß es ein t ∈ (b, a) geben mit ϕ′ (t) = 0. Im Fall (ii) mit a < b (BILD), folgt aus ϕ′ (a)(b − a) ≤ 0, daß ϕ′ (a) < 0. Aus ϕ(a) ≤ ϕ(0) + aσϕ′ (0) und ϕ(b) ≥ ϕ(0) + bσϕ′(0) folgt, daß es einen Schnittpunkt t′ ∈ [a, b] von ϕ mit der Gerade gibt. Damit muß es zwischen a und t′ einen Punkt t geben, für den |ϕ′ (t)| < σ|ϕ′(0)| ist. 2 Algorithmus 1.13 (Realisierung der SWP-Regel, I): % input: σ ∈ (0, 1), ρ ∈ (σ, 1), γ > 1, x ∈ Rn , d ∈ Rn Abstiegsrichtung % output: t∗ > 0 mit t ∈ T S W P (x, d) t0 := 0, wähle tmax > 0 und t1 ∈ (0, tmax ); i := 1 % z.B. tmax so, daß ϕ(tmax ) ≥ ϕ(0) + tmax σϕ′(0) while (TRUE) { if (ϕ(ti ) ≥ ϕ(0) + σti ϕ′ (0)) or (ϕ(ti ) ≥ ϕ(ti−1 ) and i > 1) then { t∗ := zoom(ti−1 , ti ); stop} if |ϕ′ (ti )| ≤ −ρϕ′ (0) then { t∗ := ti ; stop} if ϕ′ (ti ) ≥ 0 then { t∗ := zoom(ti , ti−1 ); stop} wähle ti+1 ∈ (ti , tmax ); i := i + 1 % z.B. ti+1 := Mittelwert oder was Besseres } Algorithmus 1.14 (Realisierung der SWP-Regel, II): % input: intervall ha, bi, welches die Voraussetzungen von Lemma 1.12 erfüllt. function t∗ = zoom(a, b) while (TRUE) { 10 wähle t ∈ ha, bi if ϕ(t) ≥ ϕ(0) + σtϕ′ (0) or ϕ(t) ≥ ϕ(a) then { b := t } else if |ϕ′(t)| ≤ −ρϕ′ (0) then { t∗ := t; stop } if ϕ′ (t)(b − a) < 0 then { b := a } a := t } } % z.B. Mittelwert Lemma 1.15: Sei f ∈ C 1 (Rn , R) nach unten beschränkt. Sei d ∈ Rn Absteigsrichtung von f in x. Dann gilt: Algorithmus 1.13 ist wohldefiniert, das heißt liefert ein Ergebnis, falls tmax > 0 so gewählt wird, daß ϕ(tmax )−(ϕ(0)+tmax σϕ′ (0)) ≥ 0 und wenn die Punkte t in Alg. 1.14 im Nichtabbruchfall immer so gewählt werden, daß die entstehenden Intervalle ha, bi schnell schrumpfen. Beweis: Wir skizzieren nur den Beweis. Die Beweisidee ist, daß mittels Alg. 1.13 ein Intervall ha, bi gefunden wird, welches die Voraussetzungen von Lemma 1.12 erfüllt. Die Anwendung der Funktion zoom (Alg. 1.14) findet dann eine hinreichend genaue Approximation durch eine Art Bisektionsverfahren. 1. Schritt: Alg. 1.13 erzeugt eine monoton wachsende Folge ti . 2. Schritt: Alg. 1.13 erzeugt ein Intervall ha, bi, welches die Vorausetzungen von Lemma 1.12 erfüllt. Zudem ist a so, daß ϕ(a) ≤ ϕ(0) + aσϕ′ (0). Wir gehen die verschiedenen Fälle durch: • i = 1 und ϕ(t1 ) ≥ ϕ(0) + t1 σϕ′ (0): dann ist a = t0 = 0 und b = t1 > 0 sowie ϕ′ (a)(b − a) ≤ 0. • i > 1 und ϕ(ti ) ≥ ϕ(ti−1 ): Dann ist a = ti−1 und b = ti . Wegen ϕ′ (ti−1 ) < 0 (kein Abbruch im vorangegangen Schritt!) ist also ϕ′ (a)(b − a) < 0. • i > 1 und ϕ(ti ) ≥ ϕ(0) + ti σϕ′(0): Es muss gelten ϕ(ti−1 ) < ϕ(0) + ti−1 σϕ′(0) und ϕ′ (ti−1 ) < 0 (kein Abbruch im vorangegangen Schritt!). Damit wieder die Voraussetzungen von Lemma 1.12 mit a = ti−1 und b = ti . • i ≥ 1 und ϕ′ (ti ) ≥ 0: Wegen ϕ′ (ti−1 ) < 0 (kein Abbruch!) sowie ϕ(ti ) < ϕ(ti−1 ) leistet die Wahl a = ti und b = ti−1 auch hier das Gewünschte. 3. Schritt: Wir analysieren die Funktion zoom: Wir behaupten: in jedem Schritt (der nicht zum Abbruch führt) wir ein Intervall ha, bi erzeugt, welches die Voraussetzungen von Lemma 1.12 erfüllt. Da die entstehende Folge von Intervallen gegen einen Punkt konvergiert (zumindest, wenn die Punkte t immer so gewählt 11 werden, daß die Intervallänge signifikant schrumpft) ergibt sich damit aus Lemma 1.12 die Existenz von t∗ mit der gewünschten SWP-Eigenschaft. Sei ha, bi so, daß ϕ′ (a)(b − a) < 0, ϕ(a) ≤ ϕ(0) + aσϕ′ (0). Gelte zusätzlich einer beiden Fälle in Lemma 1.12. Wir betrachten die möglichen Fälle: • ϕ(t) > ϕ(0) + tσϕ′ (0): dann ist die neue Wahl ha, ti OK. • ϕ(t) ≥ ϕ(a): Dann ist die neue Wahl ha, ti OK. • ϕ(t) ≤ ϕ(0) + tσϕ′ (0) UND ϕ(t) < ϕ(a): – für ϕ′ (t)(b − a) ≥ 0 ist dann das Intervall ht, ai OK, – für ϕ′ (t)(b − a) < 0 ist dann das Intervall ht, bi OK. 2 Bemerkung: Die Aussage “wähle” in Alg. 1.13 und 1.14 kann z.B. einfach durch Mittelwertbildung bestimmt werden. Cleverer sind geeignete Extrapolationen. 1.4 Gradientenverfahren (“steepest descent”) Das “klassische” Gradientenverfahren wählt als Suchrichtung dk := −∇ f (xk ) und verwendet die Armijo-Regel aus Definition 1.8. Diese Kombination führt bereits auf “Konvergenz”: Satz 1.16 (Gradientenverfahren): Sei f ∈ C 1 (Rn , R). Sei (xk )∞ k=0 durch Algorithmus 1.3 mit dk := −∇ f (xk ) und Armijo-Regel (Def. 1.8) erzeugt. Dann gilt: Jeder Häufungspunkt von (xk ) ist stationärer Punkt von f . Beweis: ∗ ′ ′ ′ • Sei x∗ = Häufungspunkt von (xk )∞ k=0 , (xk )k TF mit xk → x • limk→∞ f (xk ) = f (x∗ ) : ( f (xk ))∞ k=0 ist monoton fallend und eine TF konvergiert gegen f (x∗ ) • limk→∞ tk k∇ f (xk )k2 = 0: folgt aus Armijo-Regel: f (xk+1 ) ≤ f (xk ) + σtk ∇ f (xk ) · dk ⇒ σtk k∇ f (xk )k2 ≤ f (xk ) − f (xk+1 ) → 0 12 (1.3) • Annahme: ∇ f (x∗ ) , 0. Dann folgt aus (1.3) tk → 0. Da bei der Armijoregel tk = βl für ein l ∈ N0 , folgt also l ≥ 1 für hinreichend große k. Insbesondere impliziert damit die Wahl von tk in der Armijoregel, daß für hinreichend große k′ : f (xk′ + β−1 tk′ dk′ ) Armijo: tk′ β−1 < 1 wurde abgelehnt! > f (xk′ ) + σtk′ β−1 ∇ f (xk′ ) · dk′ , Taylor f (xk′ + β−1 tk′ dk′ ) = f (xk′ ) + β−1 tk′ ∇ f (xk′ ) · dk′ + o(tk′ ). Kombination der beiden Aussagen liefert wegen dk′ = −∇ f (xk′ ) und ∇ f (xk′ ) , 0, weil ∇ f (x∗ ) , 0 und xk′ nahe bei x∗ : β−1 σtk′ ∇ f (xk′ ) · dk′ > f (xk′ + β−1 tk′ dk′ ) − f (xk′ ) = β−1 tk′ ∇ f (xk′ ) · dk′ + o(tk′ ). Wegen ∇ f (xk′ ) , 0 und dk′ = −∇ f (xk′ ) ergibt sich k′ → ∞, σ > 1 + o(1), Widerspruch! 2 1.5 Gradientenverfahren bei quadratischen Zielfunktionen Ziel: Abschätzen der Konvergenzgeschwindigkeit des Gradientenverfahrens Idee: • Betrachte quadratisches f : 1 f (x) = γ + cT x + xT Qx 2 (1.4) für geg. γ ∈ R, c ∈ Rn , Q S PD ~ beachte: in der Nähe des Minimums von f ist f nach Taylor in guter Näherung quadratisch • Verwende die Minimierungsregel anstelle von Armijo, weil das Minimum bestimmt werden kann: der Minimierer t von t 7→ π(t) := f (x + td) für eine Abstiegsrichtung d ist: t=− ∇ f (x) · d d T Qd 13 denn 1 π(t) = f (x + td) = f (x) + t∇ f (x) · d + t2 d T Qd 2 π′ (t) = ∇ f (x) · d + td T Qd → Minimum t ist t = − ∇dfT(x)·d Qd damit ist ein Schritt des Gradientenverfahrens: xk+1 = xk + tdk = xk − ∇ f (xk ) · dk · dk dkT Qdk Satz 1.17: Sei f gegeben durch (1.4). Es werde xk+1 aus xk mit Minimierungsregel und dk := −∇ f (xk ) bestimmt. Sei x∗ das globale Minimum von f . Seien 0 < λmin < λmax der extremalen Eigenwerte von Q. Dann gilt: −λ 2 max min ( f (xk ) − f (x∗ )) (i) f (xk+1 ) − f (x∗ ) ≤ λλmax +λmin −λ 2 min kxk − x∗ k2Q mit kzk2Q = zT Qz (ii) kxk+1 − x∗ k2Q ≤ λλmax max +λmin Für den Beweis benötigen wir Lemma 1.18 (Kantorovitch): Sei Q SPD mit extremalen Eigenwerten λmin , λmax . Dann gilt 4λmin λmin (xT x)2 ≥ T T −1 x Qx x Q x (λmax + λmin )2 Beweis: siehe Literatur (z.B. Buch von Dietrich Braess) Beweis von Satz 1.17: – Erinnerung: dk := −∇ f (xk ) – x∗ ist gegeben durch −c = Qx∗ – −dk = ∇ f (xk ) = Qxk + c 14 – Taylor liefert: Taylor f (x) − f (x∗ ) = 1 1 (x − x∗ )T ∇2 f (x∗ )(x − x∗ ) = kx − x∗ k2Q ∀x | {z } 2 2 =Q (1.5) 1 Taylor f (x∗ ) − f (xk ) = ∇ f (xk ) · (x∗ − xk ) + (x∗ − xk )T ∇2 f (xk )(x∗ − xk ) | {z } 2 =Q 1 = −dk · (x∗ − xk ) + kx∗ − xk k2Q 2 (1.6) – (1.5), (1.6) liefern f (xk ) − f (x∗ ) = 21 dk · (x∗ − xk ) – aus x∗ = −Q−1 c und xk = Q−1 (−dk − c) folgt x∗ − xk = Q−1 dk – daraus folgt f (xk ) − f (x∗ ) = 21 dkT Q−1 dk – mit tk = |dk |2 /(dkT Qdk ) ist xk+1 = xk + |dk |2 dk dkT Qdk 1 1 |dk |4 f (xk+1 ) = f (xk + tk dk ) = f (xk ) − tk |dk |2 + tk2 dkT Qdk = f (xk ) − 2 2 dkT Qdk ⇒ 1 |dk |4 = 2 dkT Qdk 1 |dk |4 2( f (xk ) − f (x∗ )) f (xk ) − f (x∗ ) − 2 dkT Qdk dkT Q−1 dk ! |dk |4 ( f (xk ) − f (x∗ )) 1− T dk Qdk dkT Q−1 dk !! 4λmin λmax ( f (xk ) − f (x∗ )) 1− λmin + λmax !2 λmax − λmin ( f (xk ) − f (x∗ )) λmax + λmin f (xk+1 ) − f (x∗ ) = f (xk ) − f (x∗ ) − = = ≤ = Beweis von (ii) folgt aus (i) und (1.5) Bemerkungen 1. Konv. linear 2. λmax −λmin λmax +λmin = κ−1 κ+1 mit κ = λmax λmin 15 3. Obwohl Satz 1.17 eine Abschätzung nach oben liefert, spiegelt sie das Verhalten in der Praxis gut wider 4. “Vorkond.” Gradientenverfahren: Wählt man als Suchrichtung dk = −H −1 ∇ f (xk ), so kann man zeigen: ! λmax (H −1 Q) − λmin (H −1 Q) ∗ kxk − x∗ kQ kxk+1 − x kQ ≤ λmax (H −1 Q) + λmin (H −1 Q) 5. Optimale Wahl von H ist H = Q = ∇2 f (xk ). Dann ist dk = −H −1 ∇ f (xk ) gerade die Newtonsuchrichtung. 16
© Copyright 2024 ExpyDoc