Matrizeneigenwertaufgaben

Kapitel 7
Matrizeneigenwertaufgaben
7.1
Aufgabenstellung, Vorbemerkungen
Gegeben sei A ∈ IRN ×N bzw. A ∈ CN ×N . Gesucht sind die Eigenwerte λ ∈ C
und die zugehörigen Eigenvektoren ϕ ∈ CN (ϕ 6= 0), so daß Aϕ = λϕ.
Die Bestimmung von λ und ϕ ist i.a. ein nichtlineares (also infinites) Problem (λ und ϕ werden miteinander multipliziert): G(λ, ϕ) = Aϕ − λϕ = 0. Die
Lösung dieses Problems ist nicht eindeutig bestimmt. Es gibt i.a. mehr als einen
Eigenwert, und jeder Eigenvektor ist nur bis auf eine Konstante bestimmt (man
kann z.B. zusätzlich kϕk = 1 fordern).
Falls ein Eigenwert λ bekannt ist, ist die Bestimmung eines zugehörigen
Eigenvektors ein lineares Problem. Man erhält ihn durch Lösung des unterbestimmten linearen Gleichungssystems (A − λI)ϕ = 0.
Bei bekanntem Eigenvektor ϕ ergibt sich der Eigenwert λ bereits durch
Betrachtung einer einzelnen (skalaren) Gleichung von Aϕ = λϕ.
Bemerkung 7.1 (Charakteristisches Polynom). PA (λ) := det(A − λI) ist
das charakteristische Polynom von A. Es ist ein Polynom N -ten Grades. Die
Nullstellen von PA (λ) sind gerade die Eigenwerte von A: PA (λ) = 0 ⇔ λ ist
Eigenwert von A.
Die Bestimmung der Nullstellen des charakteristischen Polynoms ist eine
Möglichkeit, die Eigenwerte einer Matrix A zu berechnen (z.B. mit dem NewtonVerfahren). Dieser Zugang ist in der Regel jedoch numerisch nicht besonders
interessant.
I
Beim Ansatz von Verfahren zur Bestimmung der Eigenwerte einer Matrix sollte
man die Aufgabenstellung und die eventuell bekannten Eigenschaften der Matrix
berücksichtigen.
Typische Aufgabenstellungen:
1. Gesucht ist ein spezieller Eigenwert (z.B. betraglich größter oder kleinster
Eigenwert) und der zugehörige Eigenvektor (vgl. Abschnitt 7.2).
2. Gesucht sind mehrere Eigenwerte (vgl. Abschnitt 7.3).
3. Gesucht sind alle Eigenwerte (vgl. Abschnitt 7.4, 7.5).
179
180
Matrizeneigenwertaufgaben
In der Praxis typischerweise auftretende Matrizen:
Praktisch auftretende Matrizen sind oft diagonalisierbar, z.B. reell-symmetrisch,
positiv definit o.ä. Hierfür gibt es sehr effiziente Spezialverfahren. Häufig weisen die Matrizen auch eine spezielle Struktur auf und werden zur numerischen
Lösung einer Eigenwertaufgabe bei Differentialgleichungen benötigt. Ein (triviales, numerisch uninteressantes) Beispiel ist:
−u00 = λu
(0 ≤ x ≤ 1),
u(0) = u(1) = 0.
Durch Diskretisierung von −u00 (s. Abschnitt 1.2.4) entsteht eine Matrixeigenwertaufgabe. Typischerweise erhält man dünnbesetzte (“sparse”) Matrizen.
Typische Anwendungsbereiche, in denen Eigenwertaufgaben eine Rolle spielen, sind etwa
– Strukturmechanik (Vibrationen, Resonanz)
– Akustik
– elektrische Netze
– Quantenmechanik (Schrödinger-Gleichung, Eigenzustände)
– Stabilität (dynamischer Systeme, Chaostheorie, Bifurkation) oder
– chemische Reaktionen.
Ein Beispiel einer Brücke (Tacoma Narrows Bridge), die durch Wind in Eigenschwingungen gerät und zusammenstürzt, findet man im Web z.B. unter
http://www.morgenthal.org/index.html.
Bemerkung 7.2 (Diagonalisierbare Matrizen). Wir betrachten spezielle
Typen diagonalisierbarer Matrizen (vgl. Lineare Algebra):
A diagonalisierbar ⇔ Die Jordansche Normalforn besteht nur aus der
Hauptdiagonalen.
⇔ Es gibt eine Basis aus Eigenvektoren (weitere
Hauptvektoren gibt es nicht).
A normal
⇔ A∗ A = AA∗ (A∗ : konjugiert adjungierte Matrix
von A )
A normal
⇒ A diagonalisierbar
A normal
⇔ Es gibt eine Orthonormalbasis aus Eigenvektoren.
Mit anderen Worten: Ist A normal, so ist A “unitär diagonalisierbar”, d.h. es
existiert eine unitäre Matrix U , so daß U ∗ AU eine Diagonalmatrix ist.
A hermitesch (selbstadjungiert) ⇔ A = A∗ (⇒ nur reelle Eigenwerte und
A ist normal)
A reell-symmetrisch
⇔
A = A∗ = AT ∈ IRN ×N
(⇒ nur reelle Eigenwerte)
A unitär
⇔
A∗ = A−1
(⇒ |λ| = 1 für alle Eigenwerte λ). I
Bemerkung 7.3 (Vorbehandlung von Matrizen). Vor der Berechnung der
Eigenwerte einer Matrix überführt man die Matrix typischerweise in eine geeignetere Form. Die Bestimmung der Jordanschen Normalform ist hierbei ungeeignet, da dies ein nichtlineares Problem darstellt. Jede hermitesche Matrix A
ist allerdings (finit, d.h. nach endlich vielen Schritten) durch Ähnlichkeitstransformationen in eine tridiagonale Matrix überführbar, jede quadratische Matrix
181
Matrizeneigenwertaufgaben
ist (finit) in Hessenbergform (vgl. Abb. 7.1) überführbar. Für solche Transformationen sind effiziente Algorithmen verfügbar.
I
0
*
Abbildung 7.1: Hessenbergform einer Matrix
7.2
Vektoriteration und Varianten
Wir betrachten das Problem Aϕ = λϕ. Dabei sei A diagonalisierbar und habe
die Eigenwerte λ1 , . . . , λN mit zugehörigen Eigenvektoren ϕ1 , . . . , ϕN . λ1 sei
“dominierend”, d.h. es gelte
|λ1 | > |λ2 | ≥ |λ3 | ≥ · · · ≥ |λN | ≥ 0.
7.2.1
Vektoriteration
Zu gegebenem x(0) 6= 0 bezeichnet man die Iteration
x(n+1) = Ax(n)
(7.1)
als Vektoriteration (oder Potenzmethode, engl. power method).
Satz 7.1 (Vektoriteration). An x(0) sei ϕ1 beteiligt, d.h. in der Entwicklung
x(0) = c1 ϕ1 + · · · + cN ϕN sei c1 6= 0. Dann gilt:
(i)
x(n) = λ1 n (c1 ϕ1 + r(n) ) mit r(n) → 0 für n → ∞.
³ ´n
³¯ ¯n ´
³ ´n
¯ ¯
λN
λ2
(n)
ϕN = O ¯ λλ21 ¯ .
wobei r = c2 λ1 ϕ2 + · · · + cN λ1
(n+1)
(ii)
x(i)
(n)
x(i)
³¯ ¯n ´
¯ ¯
= λ1 + O ¯ λλ21 ¯
(n+1)
D.h.
x(i)
(n)
x(i)
für alle i = 1, . . . , N mit (ϕ1 )(i) 6= 0.
¯ ¯
¯ ¯
→ λ1 für n → ∞ mit dem Konvergenzfaktor ¯ λλ21 ¯.
Die Vektoriteration liefert also einen zu ϕ1 proportionalen Vektor gemäß (i)
und den Eigenwert λ1 gemäß (ii).
Beweis: zu (i):
x(n) = An x(0) = An (c1 ϕ1 + . . . + cN ϕN )
= λn1 c1 ϕ1 + . . . + λnN cN ϕN = λn1 (c1 ϕ + r(n) ).
182
Matrizeneigenwertaufgaben
zu (ii):
(n+1)
x(i)
(n)
x(i)
³
´P
³ ´n
³³
´
´
PN ³ λj ´n
λj
λj
N
λn+1
c
ϕ
+
c
ϕ
−
1
c
ϕ
+
1
1
j
j
j
j
1
j=2 λ1
j=2 λ1
λ1
(i)
(i)
´
³
³ ´n
=
P
λj
N
n
λ1 c1 ϕ1 + j=2 λ1 cj ϕj
(i)
µ
µ¯ ¯n ¶¶
¯ λ2 ¯
.
= λ1 1 + O ¯¯ ¯¯
λ1
¥
Beachte: Die Forderung c1 6= 0 ist numerisch unerheblich, denn falls c1 = 0 sein
sollte, bewirken Rundungsfehler i.d.R., dass c1 6= 0 bei x(1) , x(2) , etc.
7.2.2
Skalierungen
Die dauernde Veränderung der Größenordnung von x(n) um den asymptotischen
Faktor λ1 kann durch geeignete Skalierungen vermieden werden.
Durch y (n) := x(n)1 x(n) erhält man eine Skalierung der i-ten Komponente
( )(i)
(n)
von x
auf 1 (im Falle (ϕ1 )(i) 6= 0 ist für alle hinreichend großen n auch
©
¡ (n) ¢
ª
6= 0). Wir bilden daher die Folge y (n) gemäß
x
(i)
y (n+1) =
=
mit µ(n+1) =
¡
¡
1
Ax(n)
1
Ay (n)
1
(Ay(n) )(i)
¢
(i)
¢
Ax(n) = ¡
Ay (n) =
(i)
und y (0) =
x(n)
1
³
´
1
(n)
¡
¢
x
Ax(n)
(n)
(i)
Ax
(i)
(i)
¢
µ(n+1)
Ay (n)
x(0)
.
x
( (0) )(i)
Hierfür lauten die Aussagen des Satzes 7.1
y
(n)
µ(n)
µ¯ ¯n ¶
¯ λ2 ¯
1
=
ϕ1 + O ¯¯ ¯¯
(ϕ1 )(i)
λ1
Ã¯ ¯
!
¯ λ2 ¯n−1
= λ1 + O ¯¯ ¯¯
.
λ1
In der Praxis am günstigsten ist die Division durch die betraglich größte Komponente.
Allgemeine Skalierungsmöglichkeiten:
(n)
(n+1)
,`
i
Andere Skalierungen erhält man, wenn man in (7.2) µ(n+1) = hAx
mit
hx(n) ,`(n) i
©
ª
einem konstanten Vektor `(n+1) = ` oder einer Folge `(n) wählt. Der Wahl
in (7.2) entspricht ` = ei , denn
¡ (n) ¢
³
´
Ax
hAx(n) , ei i
(i)
(n)
=
Ay
= ¡ (n) ¢
.
(i)
hx(n) , ei i
x
(i)
Ein weiterer gebräuchlicher Spezialfall ist `(n+1) = ` = x(0) :
183
Matrizeneigenwertaufgaben
A sei hermitesch und ϕ1 , . . . , ϕN sei eine Orthonormalbasis aus Eigenvektoren.
Dann ergibt sich
µ(n+1) =
a(n+1)
hAx(n) , x(0) i
=
= q (n)
hx(n) , x(0) i
a(n)
mit den Schwarzschen Konstanten a(n) und den Schwarzschen Quotienten q (n) .
Da A hermitesch ist, gilt
a(n) = hAx(n−1) , x(0) i = hAk x(0) , Am x(0) i mit
k + m = n.
Man beachte hierbei, dass zur Bestimmung von q (2n) nur x(n) benötigt wird:
q (2n) =
a(2n+1)
hAx(n) , x(n) i
=
=: R(n)
a(2n)
hx(n) , x(n) i
mit dem Rayleighquotienten R(n) . Analog zu Satz 7.1 (ii) läßt sich zeigen
Ã¯ ¯ !
¯ λ2 ¯2n
(n)
.
R = λ1 + O ¯¯ ¯¯
λ1
¯ ¯2
¯ ¯
Man hat also jetzt einen Konvergenzfaktor von ¯ λλ12 ¯ .
Als dritten Spezialfall betrachten wir noch `(n+1) = x(n+1) :
A sei wieder hermitesch und ϕ1 , . . . , ϕN eine Orthonormalbasis aus Eigenvektoren. Dann erhält man
hAx(n) , Ax(n) i
a(2n+2)
=
= q (2n+2) q (2n+1)
hx(n) , x(n) i
a(2n)
³¯ ¯´
¯ ¯
= λ21 + O ¯ λλ21 ¯ .
µ(n+1) =
und damit µ(n)
7.2.3
Shiftstrategien
¯ ¯
¯ ¯
Wir wollen uns nun mit der Frage beschäftigen, wie der Konvergenzfaktor ¯ λλ12 ¯
verbessert werden kann. Hierzu ist folgende einfache Überlegung hilfreich:
Aϕ = λϕ
⇔ (A − αI)ϕ = (λ − α)ϕ
↑
↑
Eigenwerte von A
Eigenwerte von A − αI
λ1 , . . . , λN
λ1 − α, . . . , λN − α
Konvergenzbeschleunigung erreicht man hiermit leicht, falls z.B. A hermitesch und positiv definit ist und falls gilt
λ1 > λ2 ≥ λ3 ≥ . . . ≥ λN > 0.
Dann bestimmt man α so, daß
¯
¯ λ2 − α
¯
¯ λ1 − α
¯
¯
¯
¯
¯ < ¯ λ2
¯ λ1
¯
¯
¯
¯.
¯
184
Matrizeneigenwertaufgaben
(n+1) = (A − αI)x(n) konvergiert dann mit dem KonvergenzDas Verfahren
¯ x
¯ ¯
¯
¯ −α ¯
(n+1) = Ax(n) (Konvergenzfaktor ¯ λ2 ¯).
und
damit
schneller
als
x
faktor ¯ λλ12 −α
¯
¯ λ1 ¯
Konvergenzerzeugung ist z.B. im Fall
|λ1 | = λ1 = −λ2 > |λ3 | ≥ . . .
möglich, in dem keine Dominanz von λ1 vorliegt. Durch eine geeignete Wahl
von α (α ≈ λ2 ) wird λ1 − α dominierend.
7.2.4
Inverse Iteration
Für die Berechnung des betraglich kleinsten Eigenwertes setzen wir voraus, dass
|λ1 | ≥ |λ2 | ≥ . . . ≥ |λN −1 | > |λN | > 0. Dann gelten für die inverse Iteration
Ax(n+1) = x(n)
(7.2)
alle obigen Aussagen und Überlegungen für λN statt λ1 , denn λN ist der betragsgrößte Eigenwert von A−1 . Praktisch wird man A nicht invertieren, sondern
in jedem Schritt das Gleichungssystem (7.2) lösen (etwa mit fester LR-Zerlegung
und sich ändernden rechten Seiten x(n) ). Insbesondere kann A−1 für dünnbesetzte Matrizen A vollbesetzt sein, so daß der Aufwand über die Berechnung
der Inversen viel zu hoch wäre.
Die Idee der Verschiebung ist auch bei der inversen Vektoriteration anwendek bekannt (z.B. berechnet). Dann
bar (Wieland). Für λk sei eine Näherung λ
e
wählt man α = λk und iteriert gemäß
(A − αI)x(n+1) = x(n) .
ek ≈ λk ist 1 (sehr)
Ein Eigenwert von (A−αI)−1 ist dann λk1−α . Wegen α = λ
λk −α
groß und daher in der Regel stark dominierend. Man darf also sehr günstige
Konvergenz erwarten und kann so schnell eine verbesserte Näherung für λk
berechnen.
7.3
Deflation, Treppeniteration
In diesem Abschnitt betrachten wir den Fall, dass wir nicht nur einen sondern
mehrere Eigenwerte berechnen wollen.
Wir wollen zunächst λ2 berechnen. Hierzu sei A hermitesch und ferner gelte
|λ1 | > |λ2 | > |λ3 | ≥ · · · ≥ |λN | ≥ 0.
Berechne zunächst λ1 , ϕ1 und bilde dann
x
e(n+1) := Ax(n)
x(n+1) = x
e(n+1) − he
x(n+1) , ϕ1 iϕ1 ,
(7.3)
das heißt x(n+1) ist orthogonal zu ϕ1 , also ist ϕ1 nicht an x(n+1) beteiligt.
185
Matrizeneigenwertaufgaben
Wie sieht jetzt die Konvergenz gegen ϕ2 bzw. λ2 aus? Wir können schreiben
x(n+1) = Ax(n) − hAx(n) , ϕ1 iϕ1 = Ax(n) − λ1 hx(n) , ϕ1 iϕ1
= (A − λ1 ϕ1 ϕ1 T ) x(n) .
|
{z
}
=:W
Die Matrix W ist ebenfalls hermitesch. Offenbar gilt
W ϕ1 = 0,
W |[ϕ2 ,...,ϕN ] = A|[ϕ2 ,...,ϕN ] ,
das heißt W hat die Eigenwerte 0, λ2 , . . . , λN . Die Vektoritertion mit der
¯
¯ Matrix
¯ ¯
W liefert also λ2 und ϕ2 gemäß Satz 7.1 mit dem Konvergenzfaktor ¯ λλ32 ¯.
Beim obigen Vorgehen wird erst ϕ1 , λ1 berechnet und dann ϕ2 , λ2 . Besser ist
es, beide gleichzeitig zu berechnen. Dazu setzen wir in (7.3) statt ϕ1 selbst die
jeweils bekannte Näherung für ϕ1 ein. Mit Skalierung ergibt sich dann folgendes
Verfahren:
y (n+1)
=
w(n+1) =
1
µ(n+1)
1
σ (n+1)
Ay (n)
¡
(→ ϕ1 , λ1 )
Aw(n) − hAw(n) , y (n+1) iy (n+1)
¢
(→ ϕ2 , λ2 ).
Bemerkung 7.4 (Treppeniteration). Die Fortführung obiger Idee wird als
Treppeniteration bezeichnet. Falls A hermitesch und |λ1 | > |λ2 | > · · · > |λN | >
0, dann lassen sich so alle Eigenwerte berechnen.
I
7.4
LR- und QR-Algorithmus
LR- und QR-Algorithmen sind die am meisten verwendeten Algorithmen zur
Berechnung sämtlicher Eigenwerte einer Matrix A. Jedoch werden sie in der
Regel nicht direkt auf beliebige Matrizen A angewendet, sondern die Matrix
wird zunächst vorbehandelt und in eine Form gebracht, die für Konvergenz und
Algorithmik vorteilhaft ist.
7.4.1
Der LR-Algorithmus
Der LR-Algorithmus wird hier beschrieben, ohne genaue Voraussetzungen anzugeben. Implizit wird angenommen, daß der Algorithmus (auch ohne Pivotwahl)
durchführbar ist.
Ist
A = A0 = L0 R0
die LR-Zerlegung der Matrix A, so bilden wir
A1 := R0 L0
durch einfache Matrixmultiplikation und führen für A1 wieder eine LR-Zerlegung
A1 = L1 R1
186
Matrizeneigenwertaufgaben
durch usw. Allgemein erhalten wir damit
An = Ln Rn
An+1 = Rn Ln
Satz 7.2 (LR-Algorithmus). Es sei A ∈ CN ×N . Der LR-Algorithmus sei
durchführbar. Für die Eigenwerte von A gelte
|λ1 | > |λ2 | > . . . > |λN |.
(7.4)
Für die Matrizen φ, φ−1 , durch die A auf die Jordansche Normalform


λ1
0


−1
..
D=
= φ Aφ
.
0
λN
transformiert wird, gebe es Dreieckszerlegungen
φ = Lφ Rφ ,
φ−1 = Lφ−1 Rφ−1 .
Dann konvergieren die Matrizen An , Ln und Rn :

λ1
∗ 


..
lim An = lim Rn = 
,
.
n→∞
n→∞
0
λN
lim Ln = I.
n→∞
¯ ¯
¯ ¯
Die Konvergenz ist linear und hängt vom Verhalten der Quotienten ¯ λλki ¯ ab.
Beweis: vgl. Stoer-Bulirsch.
¥
Bemerkung 7.5 (Bezug zur Treppeniteration). Der LR-Algorithmus ist
theoretisch äquivalent zur Treppeniteration.
I
Bemerkung 7.6 (Erläuterungen zu Satz 7.2).
(1) Die Voraussetzung (7.4) ist abschwächbar.
(2) Falls keine LR-Zerlegung möglich ist, dann kann man u.U. mit Pivotisierung weiterkommen.
(3) Bei symmetrisch positiv definiten Matrizen ist statt der LR-Zerlegung
auch eine entsprechende Cholesky-Variante möglich und sinnvoll (weniger
Rechenaufwand).
(4) Eine Konvergenzbeschleunigung ist durch Verschiebungen A → A +
− αI
( Shift-Techniken“) erreichbar.
”
(5) Der LR-Algorithmus ist für vollbesetzte Matrizen sehr rechenaufwändig.
Daher ist es ratsam, den LR-Algorithmus nicht auf die ursprüngliche Matrix A anzuwenden, sondern diese zunächst vorzubehandeln (z.B. diese
mit den Verfahren von Givens (vgl. Abschnitt 7.5.2) oder Householder
auf Tridiagonal- oder Hessenbergform zu transformieren).
(6) Die numerische Problematik (Stabilität) von LR-Zerlegungen schlägt sich
auch beim LR-Algorithmus nieder.
I
187
Matrizeneigenwertaufgaben
Der QR-Algorithmus
7.4.2
Eine Weiterentwicklung des LR-Algorithmus ist der QR-Algorithmus, der auf
orthogonalen Zerlegungen einer Matrix beruht.
Der QR-Algorithmus zur Eigenwertberechnung lautet
A0 = A
An = Qn Rn
An+1 = Rn Qn
(7.5)
(n = 0, 1, 2, . . .)
mit
Q∗n Qn = I


∗
.. 
. 
∗
∗ ···

..
R=
.
(d.h. Qn ist unitär) und
0
Beim QR-Verfahren verwenden wie also eine QR-Zerlegung statt einer LRZerlegung. Die Berechnung der QR-Zerlegung erfolgt mit Householder-Transformationen wie in Abschnitt 6.2 erläutert.
Satz 7.3 Die im QR-Verfahren auftretenden Matrizen An sind alle ähnlich zur
Matrix A.
Beweis:
Qn An+1 Q∗n = Qn Rn Qn Q∗n = Qn Rn = An .
(7.6)
Eine wiederholte Anwendung obiger Beziehung liefert die Behauptung.
¥.
Den folgenden Satz beweisen wir für den Fall reell symmetrischer Matrizen.
Ähnliche, verallgemeinerte Aussagen sind auch für komplexe unsymmetrische
Matrizen möglich.
Satz 7.4 (QR-Algorithmus). Sei A ∈ IRN ×N symmetrisch. A habe N Eigenwerte λ1 , . . . , λN mit
|λ1 | > |λ2 | > · · · > |λN | > 0.
(7.7)
³
(n)
Die An , Qn , und Rn seien wie in (7.5). Dann gilt mit An = aij
(i)
lim Qn = I,
n→∞
(ii)
lim Rn = Λ = diag (λ1 , . . . , λN ),
n→∞
(iii)
(n)
aij
µ¯ ¯n ¶
¯ λi ¯
= O ¯¯ ¯¯
λj
für
i > j.
´
i,j=1,...,N
:
188
Matrizeneigenwertaufgaben
Beweis: Wir zeigen zunächst per vollständiger Induktion die Beziehung
An = Q1 · · · Qn Rn · · · R1
| {z } | {z }
n = 1, 2, . . .
(7.8)
=:Un
=:Pn
Der Fall n = 1 ist klar wegen A = A1 = Q1 R1 .
Außerdem gilt
An+1 =
=
=
=
=
Qn+1 Rn+1
QTn An Qn
QTn QTn−1 An−1 Qn−1 Qn
QTn · · · QT1 AQ1 · · · Qn
Pn −1 APn
(wegen (7.6))
(wieder wegen (7.6))
(wieder wegen (7.6))
(wegen (7.8))
und deshalb APn = Pn An+1 .
Mit dieser Beziehung können wir jetzt den Induktionsschritt durchführen.
Es ist
An+1 = AAn = APn Un = Pn An+1 Un = Pn Qn+1 Rn+1 Un = Pn+1 Un+1 .
(7.9)
Damit haben wir die Beziehung (7.8) bewiesen. Weil Pn orthogonal und Un
rechte obere Dreiecksmatrix ist, bedeutet dies, dass wir die QR-Zerlegung von
An = Pn Un von An durch die QR-Zerlegungen der A1 , . . . , An ausdrücken
können. Weiter gilt
An = QΛn QT
mit Λn = diag(λn1 , . . . , λnN ).
Wir nehmen nun der Einfachheit halber an, QT hätte eine LR-Zerlegung mit
diag(L) = (1) (sonst können wir dies erreichen, indem wir A geeignet permutieren). Dann ist
An = QΛn LR = Q (Λn LΛ−n )(Λn R)
| {z }
³ ´n
(Λn LΛ−n )ij = lij λλji
→ 0 für
n → ∞, j > i,
(7.10)
denn L ist untere Dreiecksmatrix, und für i > j (die Nichtdiagonalelemente)
ist nach Voraussetzung λj > λi . Damit haben wir
Λn LΛ−n = I + En
mit En → 0 für n → ∞.
Einsetzen in (7.10) liefert
An = Q(I + En )Λn R.
Nun wenden wir auch auf In + En (formal) eine QR-Zerlegung
en R
en
I + En = Q
en positiv seien. Aus der Eindeutigkeit der
an, wobei die Diagonalelemente von R
QR-Zerlegung und limn→∞ En = 0 folgt
en , R
en → I
Q
für n → ∞.
189
Matrizeneigenwertaufgaben
Damit haben wir eine zweite QR-Zerlegung von An hergeleitet, da
e n )(R
en Λn R).
An = (QQ
Bis auf die Vorzeichen in der Diagonalen gilt daher (Vergleich mit (7.8))
e n , Un = R
en Λn R.
Pn = QQ
Für n → ∞ folgt
T
Qn = QTn−1 · · · QT1 Q1 · · · Qn−1 Qn = Pn−1
Pn
| {z }
=I
|
{z
}
=I
e Tn−1 QT QQ
en = Q
e Tn−1 Q
en → I
= Q
−1
⇒ (i),
−1
Rn = Rn · · · R1 R1 · · · Rn−1 = Un Un−1 −1
en Λn RR−1 Λ−(n−1) R
e−1 = R
e n ΛR
e−1 → Λ
= R
n−1
n−1
⇒ (ii).
Schließlich ergibt sich (iii) aus
lim An = lim Qn Rn = lim Rn = Λ
n→∞
n→∞
n→∞
zusammen mit (7.10).
¥
Bemerkung 7.7 Es gilt ferner unter den gleichen Voraussetzungen wie in
Satz 7.4:
(1) A symmetrisch ⇒ An symmetrisch.
(2) A symmetrisch und tridiagonal ⇒ An symmetrisch und tridiagonal.
Einen Beweis hierfür findet man z.B. in Deuflhard/Hohmann.
I
Bemerkung 7.8 (Erläuterungen zu Satz 7.4).
(1) Die Voraussetzung (7.4) ist abschwächbar.
(2) Eine geeignete Shiftstrategie (mit mehreren Shiftparametern) liefert quadratische Konvergenz.
(3) Der Rechenaufwand ist bei der QR-Zerlegung pro Schritt etwa doppelt so
groß wie bei der LR-Zerlegung.
(4) Die Konvergenz des QR-Verfahrens ist im Normalfall doppelt so schnell
wie die des LR-Verfahrens. Die numerischen Eigenschaften des QR-Verfahrens sind in der Regel besser.
(5) Auch die QR-Zerlegung sollte man nicht naiv anwenden, sondern erst
nach Vorbehandlung von A, indem man A zunächst in Tridiagonal- oder
Hessenberggestalt bringt. Der Aufwand ist sonst zu hoch.
I
190
Matrizeneigenwertaufgaben
7.5
Die Verfahren von Jacobi und Givens
A ∈ IRN ×N sei symmetrisch. Sowohl das Verfahren von Jacobi als auch das
Verfahren von Givens beruht auf orthogonalen Transformationen mithilfe von
Givensrotationen, vgl. Abschnitt 6.2.3.
7.5.1
Die Idee des Verfahrens von Jacobi
Das Verfahren von Jacobi besteht darin, Givensrotationen durchzuführen, z.B.
in der Reihenfolge
Ω12 , Ω13 , · · ·
Ω1N
Ω23 , · · ·
Ω2N
..
..
.
.
ΩN −1,N
mit zyklischer Wiederholung. Letztere ist notwendig, weil die in den vorangegangenen Schritten erzeugten Nullen nicht erhalten bleiben. Bei zyklischer
Wiederholung der Schritte gilt


λ1
0


..
A(n) → D = 
.
.
0
λN
Die Quadratsumme der Nichtdiagonalelemente
X (n)
S(A(n) ) =
|ak` |2
k6=`
ist ein Maß für die Konvergenz dieses Verfahrens. Aus den Formeln für die
Einträge c, s der Givensrotationen (s. (6.3)) folgert man
(n)
0 ≤ S(A(n+1) ) = S(A(n) ) − 2|ak` |2 ≤ S(A(n) ).
Wir haben also eine monoton fallende Folge. Ohne Beweis vermerken wir:
S(A(n) ) → 0.
Unter besonderen Umständen (A hat nur einfache Eigenwerte) erhält man sogar quadratische Konvergenz. Eine Variante dieses Verfahrens besteht darin, die
Schritte nicht in einer festen Reihenfolge mit zyklischer Wiederholung durchzuführen, sondern stattdessen jeweils das betragsgrößte Element ak` mit k 6= `
zu Null zu machen. Dieser Ansatz führt zu einer Konvergenzbeschleunigung.
7.5.2
Die Idee des Verfahrens von Givens
Das Verfahren von Givens ist ein finites Verfahren. Es beruht auf der gleichen
Idee wie das Jacobi-Verfahren, aber hier sorgt man dafür, daß einmal erzeugte
Nullen nicht wieder ungleich Null werden. Damit besteht das Verfahren nur aus
endlich vielen Schritten. Bei diesem Verfahren gelangt man allerdings nicht zu
191
Matrizeneigenwertaufgaben
einer Diagonalmatrix, sondern nur zu einer Tridiagonalmatrix. Die Reihenfolge
der Rotationen bei diesem Verfahren ist
Ω23 , Ω24 , · · ·
Ω34 , · · ·
..
.
Ω2N
Ω3N
..
.
.
ΩN −1,N
Allerdings wird hier durch die Transformation mit Ωk` nicht das Element ak` zu
Null transformiert, sondern (durch geeignete Wahl von θ) das Element a`,k−1
und damit auch ak−1,` (im reell-symmetrischen Fall).
Eine Verfeinerung des Verfahrens von Givens ist das Householder-Verfahren
(vgl. Stoer-Bulirsch).
Beispiel 7.1 Als Beispiel betrachten wir

a11 a12
 a21 a22
A=
 a31 a32
a41 a42
Die Reihenfolge der Rotationen ist dann
den Fall einer 4 × 4-Matrix

a13 a14
a23 a24 
.
a33 a34 
a43 a44
Ω23 , Ω24
.
Ω34
Durch die Transformation mit Ω23 werden die Matrixelemente a31 und a13 auf
Null gebracht, Ω24 führt dann auf eine Matrix der Gestalt


∗ ∗ 0 0
 ∗ ∗ ∗ ∗ 


 0 ∗ ∗ ∗ .
0 ∗ ∗ ∗
Ω34 bringt dies dann auf Tridiagonalgestalt

∗ ∗ 0 0
 ∗ ∗ ∗ 0

 0 ∗ ∗ ∗
0 0 ∗ ∗


.

Allgemein entsteht bei diesem Verfahren im Sinne der obigen Reihenfolge eine
−2)
Schritten.
J
Tridiagonalmatrix nach (N −1)(N
2
7.6
Eigenwertabschätzungen
Eigenwertabschätzungen können theoretisch sehr ausführlich behandelt werden
(vgl. z.B. Stoer/Bulirsch). Sie sind in vielen Feldern, darunter Funktionalanalysis und Quantenmechanik von grundsätzlicher Bedeutung. Auch wir haben im
192
Matrizeneigenwertaufgaben
Zusammenhang mit dem Spektralradius bereits einige Eigenwertabschätzungen
kennengelernt. So war etwa für eine Iterationsmatrix M
p
ρ(M ) = lim n kM n k
n→∞
= inf {kM k : k · k passend}
ρ(M ) ≤ kM k ,
7.6.1
oder
k · k passend.
Der klassische Satz von Gerschgorin
Die Diagonalelemente einer Matrix sind Näherungen für die Eigenwerte, und
zwar umso besser, je stärker diagonaldominant die Matrix ist. Dies ist die zentrale Aussage des Satzes von Gerschgorin. Genau lautet er:
Satz 7.5 (Satz von Gerschgorin). Es sei A ∈ CN ×N . Bilden wir die Kreise
von Gerschgorin
Zi := {µ ∈ C : |µ − aii | ≤ zi }
Sj := {µ ∈ C : |µ − ajj | ≤ sj }
mit
zi
=
X0
k
sj
=
X0
N
X
|aik |,
|aik | =
k=1
k6=i
|akj | =
k
N
X
|akj |,
k=1
k6=j
dann gilt:
(1) Jeder Eigenwert von A liegt in Z :=
SN
i=1 Zi .
(2) Jede Zusammenhangskomponente von Z enthält so viele Nullstellen des
charakteristischen Polynoms von A, wie Kreise Zi an ihr beteiligt sind.
S
(3) Diese Aussagen gelten entsprechend für Sj , S := N
j=1 Sj .
Beweis: Wir zeigen hier nur (1); für (2) und (3) vgl. etwa Stoer/Bulirsch.
Sei λ Eigenwert von A und k · k = k · k∞ . Sei ϕ ein zugehöriger Eigenvektor
zum Eigenwert λ. D bezeichne die “Diagonalmatrix” von A. Ferner sei λ 6= aii
(für alle i). Dann ist
(A − D)ϕ = (λI − D)ϕ mit (λI − D) regulär wegen λ 6= aii .
Es gilt
(λI − D)−1 (A − D)ϕ = ϕ.
Der Übergang zur Norm liefert
k(λI − D)−1 (A − D)k∞ kϕk∞ ≥ kϕk∞
(mit k · k passend), d.h.
k(λI − D)−1 (A − D)k∞ ≥ 1.
193
Matrizeneigenwertaufgaben
Hieraus folgt sofort
max
1≤i≤N
P0
k |aik |
≥ 1.
|λ − aii |
Da λ Eigenwert ist, existiert ein i, so daß
|λ − aii | ≤
0
X
|aik |.
k
Dies bedeutet, λ liegt in einem der Gerschgorin-Kreise, und hieraus folgt die
Aussage (1) des Satzes.
Die Aussage (2) folgt mit Stetigkeitsargumenten. Man betrachtet dazu die
Schar von Matrizen
At = D + t(A − D) mit
At=0 = D
und At=1 = A
und benutzt die Tatsache, daß die Eigenwerte stetig von t abhängen (vgl. Stoer/Bulirsch II).
¥
Bemerkung 7.9 Im Falle lauter disjunkter Kreise liefert der Satz brauchbare
Abschätzungen. Diese sind z.B. anwendbar, wenn A bereits eine gute Näherung
für eine Diagonalmatrix ist. Man kann diese Aussagen auch als Abbruchkriterium verwenden (z.B. im Jacobi-Verfahren).
I
7.6.2
Rayleigh-Quotienten
Satz 7.6 (ohne Beweis).
A ∈ CN ×N sei hermitesch. Die (reellen) Eigenwerte von A seien so angeordnet,
daß
λ1 ≥ λ 2 ≥ · · · ≥ λ N .
Dann ist
hAx, xi
x6=0 hx, xi
hAx, xi
.
=
min
x∈CN , x6=0 hx, xi
λ1 =
λN
max
x∈CN ,
und
Allgemeiner gilt sogar
λk+1 =
7.7
min
y1 ,...,yk
∈CN
max
x∈CN , x6=0
(x,yκ )=0 für κ≤k
hAx, xi
.
hx, xi
Rekapitulation
Bzgl. eines zusammenfassenden Überblicks auf Verfahren zu Eigenwertberechnungen verweisen wir auf Abbildung 7.2. Insgesamt können wir die folgenden
prinzipiellen Zugänge zu Eigenwertberechnungen unterscheiden:
194
Matrizeneigenwertaufgaben
A:
H:
T:
D:
D’:
D'
Ausgangsmatrix (allgemeine quadratische Matrix)
Hessenbergform
Tridiagonalform
Dreiecksmatrix
Diagonalmatrix
A
< He >
(LR)
(QR)
H
LR
QR
La
LR
QR
D
La
: Verf. setzt A als hermitesch voraus
> : finites Verfahren
Ho :
He :
La :
Gi :
Ja :
Verfahren
Verfahren
Verfahren
Verfahren
Verfahren
von
von
von
von
von
<
T
Householder (vgl. Stoer-Bulirsch)
Hessenberg
Lanczos
Givens
Jacobi
Abbildung 7.2: Überblick über klassische Verfahren zur Bestimmung von Eigenwerten einer Matrix A.
• Berechung über das charakteristische Polynom (i.a. völlig ineffizient, kann
aber für vorbehandelte Matrizen, die in Tridiagonal- oder Hessenbergform
gebracht wurden, durchaus von Interesse sein),
• Berechnung über Ähnlichkeitstransformationen,
• Berechnung über Lösung des nichtlinearen Gleichungssystems
G(λ, ϕ) = Aϕ − λϕ = 0 ,
kϕk = 1
(das Jacobi-Verfahren läßt sich z.B. auch als ein solches Lösungsverfahren
deuten),
• Berechnung über die Vektoriteration (Potenzmethode) und Varianten.

Download Report