4.4 Lokale Extrema und die Hessesche Form

74
Kapitel 4. Differentialrechnung in mehreren Variablen
4.4
Lokale Extrema und die Hessesche Form
Sei jetzt wieder U ⊂ Rn offen und f : U → R eine Funktion. Unter einem lokalen
Extremum der Funktion f verstehen wir folgendes:
4.28 Definition Die Funktion f hat an der Stelle p ∈ U ein isoliertes lokales
Maximum (bzw. Minimum), wenn es ein ǫ > 0 gibt mit f (v) < f (p) (bzw. f (v) >
f (p)) für alle p 6= v ∈ Kǫ (p) ⊂ U. Man spricht von einem nichtisolierten Maximum
bzw. Minimum, wenn statt der strikten Ungleichungen jeweils nur ≤ bzw. ≥ gelten.
Ein notwendiges Kriterium für lokale Extrema lautet:
4.29 Satz Sei f : U → R auf U partiell differenzierbar. Hat f an der Stelle p ∈ U
ein lokales Extremum, dann ist ∂xj f (p) = 0 für alle j = 1, . . . , n.
Beweis. Nehmen wir an, f hat bei p ein lokales Maximum. Wählen wir jetzt eine
Koordinatenrichtung ej aus. Dann gilt insbesondere f (p + tej ) ≤ f (p) für genügend
kleine t. Also hat die Zuordnung t 7→ f (p + tej ) bei t = 0 ein lokales Maximum und
daher folgt aus der eindimensionalen Theorie
∂xj f (p) =
Dies gilt für alle j = 1, . . . , n.
d
f (p + tej )|t=0 = 0 .
dt
q.e.d.
Diejenigen Punkte p, bei denen die partiellen Ableitungen verschwinden, sind
also Kandidaten für lokale Extrema. Man nennt sie deshalb auch die kritischen
Punkte von f . Ist p ein kritischer Punkt, in dem weder ein lokales Maximum noch
ein lokales Minimum vorliegt, so spricht man von einem Sattelpunkt.
Wir fassen jetzt die partiellen Ableitungen von f an der Stelle p zu einem Vektor
in Rn zusammen. Man spricht hier auch vom Gradienten von f an der Stelle p und
verwendet die folgende Schreibweise:
∇f (p) = (∂x1 f (p), . . . , ∂xn f (p)) für p ∈ U.
4.30 Beispiele
1. f (x, y) = x2 + y 2 für x, y ∈ R. Dann ist ∇f (x, y) = (2x, 2y).
Das Differential von f verschwindet nur im Nullpunkt, und dort hat f ein
isoliertes lokales (und absolutes) Minimum, denn x2 + y 2 > 0 für alle (x, y) 6=
(0, 0).
2. f (x, y) = xy für x, y ∈ R. Hier ist ∇f (x, y) = (y, x). Wiederum verschwindet
das Differential nur im Nullpunkt. Dort hat f aber weder ein lokales Minimum
noch ein lokales Maximum, sondern einen Sattelpunkt. Denn zu jedem ǫ > 0
finden wir Punkte pǫ = 21 (ǫ, ǫ) und qǫ = 12 (ǫ, −ǫ) in Kǫ (0) mit f (pǫ ) = 41 ǫ2 > 0
und f (qǫ ) = − 14 ǫ2 < 0. In Richtung der Winkelhalbierenden liegt also ein
lokales Minimum, in Richtung der Antidiagonalen ein lokales Maximum vor.
4.4. Lokale Extrema und die Hessesche Form
75
3. Ein Sattelpunkt kann auch eine andere Gestalt haben. Die Funktion f (x, y) =
x3 + y 2 zum Beispiel hat im Nullpunkt ebenfalls einen Sattelpunkt. Aber hier
haben wir in y-Richtung ein lokales Minimum und in x-Richtung einen (eindimensionalen) Sattel.
4. f (x, y) = x3 − 32 x2 + y 2 für x, y ∈ R. Hier ist ∇f (x, y) = (3(x2 − x), 2y), es
gibt also zwei kritische Punkte, nämlich (0, 0) und (1, 0). Im Nullpunkt liegt
ein Sattelpunkt vor (denn in x-Richtung haben wir hier ein lokales Maximum
und in y-Richtung ein lokales Minimum). An der Stelle (1, 0) befindet sich ein
lokales Minimum, denn sowohl in x-Richtung, als auch in y-Richtung ist hier
ein lokales Minimum.
5. f (x, y) = 1 − (x2 − 1)2 − y 2 für x, y ∈ R. Dann ist
∇f (x, y) = (−4(x2 − 1)x, −2y) .
Hier gibt es drei kritische Punkte, nämlich (±1, 0) und (0, 0). In den Punkten (±1, 0) hat f jeweils ein isoliertes lokales Maximum. Denn offenbar ist
f (x, y) ≤ 1, und Gleichheit gilt genau dann, wenn x2 = 1 und y = 0 ist.
Im Nullpunkt liegt ein Sattelpunkt vor. Denn für 0 < t2 < 1 ist einerseits
f (t, 0) = 1 − (t2 − 1)2 > 0 und andererseits f (0, t) = −t2 < 0.
6. f (x, y) = cos x für x, y ∈ R. Der Gradient lautet ∇f (x, y) = (− sin x, 0),
kritische Stellen sind also die Punkte pk = (kπ, y) (k ∈ Z, y ∈ R). Ist k
gerade, so liegt bei pk ein nichtisoliertes Maximum vor. Ist k ungerade, so hat
f bei pk ein nichtisoliertes Minimum.
7. Die Funktion f (x, y) = (x2 y − x − 1)2 + (x2 − 1)2 hat genau zwei kritische
Punkte bei p1 = (1, 2) und p2 = (−1, 0). Denn
∇f (x, y) = (2(x2 y − x − 1)(2xy − 1) + 2(x2 − 1)2x, 2x2 (x2 y − x − 1)) = (0, 0)
genau dann, wenn x2 y − x − 1 = 0 und x2 = 1. Bei p1 und p2 nimmt f
jeweils sein Minimum an. Hier gibt es also zwei isolierte Minima und weder
Sattelpunkte noch lokale Maxima. Im eindimensionalen Fall wäre so etwas
unmöglich.
Mithilfe der zweiten Ableitungen kann man - wie bei Funktionen in einer Variablen - in den meisten Fällen entscheiden, ob an einer bestimmten kritischen Stelle
ein lokales Maximum, ein lokales Minimum oder ein Sattelpunkt vorliegt. Wir nehmen dazu jetzt an, die ersten partiellen Ableitungen von f seien wiederum partiell
differenzierbare Funktionen. Durch nochmaliges partielles Ableiten erhält man die
zweiten partiellen Ableitungen an der Stelle a ∈ U:
∂2f
∂ ∂f
(a) :=
(
(v))|v=a
∂xk ∂xj
∂xk ∂xj
und
∂2f
∂ ∂f
(
(v))|v=a .
(a) :=
2
∂xk
∂xk ∂xk
Es wird auch die Bezeichnung ∂k ∂j f (a) verwendet. Für die Wahl der Zahlenpaare
(k, j) gibt es insgesamt n2 Möglichkeiten und entsprechend viele zweite partielle
Ableitungen, die zu einer quadratischen Matrix zusammengestellt werden.
76
Kapitel 4. Differentialrechnung in mehreren Variablen
4.31 Definition Die n × n-Matrix
Hf (a) :=
∂2f
(a)
∂xi ∂xj
i,j
wird als Hessesche Matrix von f bei a bezeichnet.
Nehmen wir jetzt zusätzlich an, dass die zweiten partiellen Ableitungen von f
überall stetig sind. Man schreibt dafür f ∈ C 2 (U).
4.32 Lemma Sei f ∈ C 2 (U). Dann gilt
die Matrix Hf (a) ist symmetrisch.
∂2f
(a)
∂xi ∂xj
=
∂2f
(a)
∂xj ∂xi
für alle i, j. Das heisst,
Auf den Beweis verzichten wir hier.
1. f (x, y) = x2!+ y 2 für x, y ∈ R. Dann ist ∇f (x, y) = (2x, 2y)
∂2f
∂2f
2 0
∂x2
∂x∂y
=
.
und Hf (x, y) =
∂2f
∂2f
0 2
2
4.33 Beispiele
∂y∂x
∂y
2. f (x, y) = xy für x, y ∈ R. Hier ist ∇f (x, y) = (y, x) und Hf (x, y) =
0 1
.
1 0
3. f (x, y) = 1 − (x2 − 1)2 − y 2 für x,y ∈ R. Dann erhalten
wir ∇f (x, y) =
2
−12x
+
4
0
(−4(x2 − 1)x, −2y) und Hf (x, y) =
.
0
−2
Um nun das notwendige Kriterium für lokale Extrema formulieren zu können,
brauchen wir die im vorigen Kapitel untersuchten Eigenschaften quadratischer Formen.
4.34 Definition Eine symmetrische, reelle n × n-Matrix A heisst positiv definit,
wenn die entsprechende quadratische Form qA (ausser bei 0) nur positive Werte
annimmt, das heisst
qA (v) = v T Av > 0 für alle v ∈ Rn , v 6= 0.
Entsprechend heisst A negativ definit, wenn qA (ausser bei 0) nur negative Werte
annimmt.
Wie im vorigen Kapitel gezeigt, können wir diese Eigenschaft folgendermassen
charakterisieren:
4.35 Satz Eine symmetrische Matrix A ist genau dann positiv definit, wenn all ihre
Eigenwerte positiv sind. Sie ist genau dann negativ definit, wenn all ihre Eigenwerte
negativ sind. Hat die Matrix A sowohl negative als auch positive Eigenwerte, dann
nennen wir A indefinit.
4.36 Bemerkung Eine symmetrische invertierbare 2 × 2-Matrix A ist genau dann
indefinit, wenn det A < 0 ist. Sie ist positiv (bzw. negativ) definit, wenn det A > 0
und Spur(A) > 0 (bzw. Spur(A) < 0) ist.
4.4. Lokale Extrema und die Hessesche Form
77
Hier nun das gewünschte Kriterium:
4.37 Satz Sei f ∈ C 2 (U) für eine offene Teilmenge U ⊂ Rn . Sei a ∈ U eine kritische
Stelle von f . Dann gilt:
1. Ist die Hessesche Matrix Hf (a) positiv definit, so hat f bei a ein isoliertes
lokales Minimum.
2. Ist die Hessesche Matrix Hf (a) negativ definit, so hat f bei a ein isoliertes
lokales Maximum.
3. Ist Hf (a) indefinit, so hat f bei a kein lokales Extremum, sondern einen Sattelpunkt.
Für n = 1 ist ∇f (a) = (f ′ (a)), kritische Stellen sind also gerade die Nullstellen
von f ′ . Ausserdem hat die Hessesche Matrix dann den Typ 1 × 1 und ist genau dann
positiv (bzw. negativ) definit, wenn f ′′ (a) positiv (bzw. negativ) ist. Also verallgemeinert dieser Satz das bekannte Kriterium für Funktionen einer Variablen. Für
den Beweis des Satzes benötigt man einen anderen Zugang zur Differenzierbarkeit
und eine Taylorentwicklung im Mehrdimensionalen. Diese Dinge werden im nächsten
Kapitel nachgetragen.
Überprüfen wir nun zunächst die Aussagen des Satzes an den oben angegebenen
Beispielen.
1. f (x, y) = x2 + y 2 für x, y ∈ R. Die Hessesche Matrix im Null2 0
punkt lautet Hf (0, 0) =
. Diese Matrix hat den doppelten Eigenwert
0 2
2, ist also positiv definit. Deshalb hat f im Nullpunkt ein isoliertes Minimum,
wie wir bereits oben direkt gesehen haben.
4.38 Beispiele
2. f (x, y) = xy für x, y ∈R. Dieeinzige kritische Stelle ist wiederum der Null0 1
punkt und Hf (0, 0) =
. Diese Matrix hat die Eigenwerte ±1, ist also
1 0
indefinit. Und tatsächlich hat f im Nullpunkt einen Sattelpunkt.
3. f (x, y) = 1 − (x2 − 1)2 − y 2 für x,y ∈ R. Die Hessesche
Matrix an einer
−12x2 + 4 0
. Für den Nullpunkt
Stelle (x, y) lautet hier Hf (x, y) =
0
−2
4 0
erhalten wir Hf (0, 0) =
. Diese Matrix ist indefinit, denn sie hat
0 −2
die Eigenwerte 4 und −2. Also hat f im Nullpunkt einen Sattelpunkt.
An den
−8 0
beiden anderen kritischen Stellen haben wir Hf (±1, 0) =
. Hier
0 −2
ist die Hessesche Matrix negativ definit und deshalb hat f dort jeweils isolierte
Maxima, in Übereinstimmung mit dem früheren Ergebnis.
4. Sei jetzt f (x, y) = −x3 + xy + y 2 für x, y ∈ R. Der Gradient von f lautet
∇f (x, y) = (−3x2 + y, x + 2y). Er verschwindet genau dann, wenn x = −2y
78
Kapitel 4. Differentialrechnung in mehreren Variablen
und −12y 2 + y = 0 sind. Die Funktion f hat also zwei kritische Punkte:
1
). Die Hessematrix an der Stelle (x, y) lautet:
p1 = (0, 0) und p2 = (− 61 , 12
−6x 1
Hf (x, y) =
.
1
2
Für den Nullpunkt erhalten wir
Hf (0, 0) =
0 1
1 2
.
Diese Matrix hat die Spur 2 und Determinante −1, also müssen die Eigenwerte verschiedenes Vorzeichen haben und Hf (0, 0) ist indefinit. Also liegt im
Nullpunkt ein Sattelpunkt vor. Für den zweiten kritischen Punkt ist
1 1
Hf (p2 ) =
.
1 2
Hier ist die Spur gleich 3 und die Determinante ist gleich 1. Also sind beide
Eigenwerte positiv, Hf (p2 ) ist positiv definit und an der Stelle p2 liegt ein
Minimum vor.
− cos x 0
5. Für f (x, y) = cos x ist ∇f (x, y) = (− sin x, 0) und Hf (x, y) =
.
0
0
− cos kπ 0
An den kritischen Stellen pk = (kπ, 0) ist Hf (kπ, 0) =
=
0
0
(−1)k+1 0
. Die Hessesche Matrix ist hier also weder positiv noch negativ
0
0
definit, noch indefinit, und über diesen Fall macht der Satz keine Aussage.
4.39 Bemerkung Ist a ein kritischer Punkt von f und ist Hf (a) positiv semidefinit, das heisst, sind sämtliche Eigenwerte von Hf (a) grösser oder gleich Null und ist
mindestens ein Eigenwert positiv, dann kann f bei a ein isoliertes oder nichtisoliertes lokales Minimum oder einen Sattelpunkt haben. Aber ein lokales Maximum ist
ausgeschlossen.
• Die Funktion
f(x, y) = x2 + y 3 hat im Nullpunkt einen Sat
2 0
telpunkt und Hf (0, 0) =
.
0 0
4.40 Beispiele
2
• Die Funktion f (x, y) = x
+ y 4 hat
im Nullpunkt ein isoliertes Minimum, und
2 0
wiederum ist Hf (0, 0) =
.
0 0