Survival Analysis (Modul: Lebensdaueranalyse)

Survival Analysis
(Modul: Lebensdaueranalyse)
R OLAND R AU
Universität Rostock, Sommersemester 2015
07. April 2015
c Roland Rau
Survival Analysis
1 / 22
Ankündigung — kein (!) Aprilscherz
Vortrag von Griffith Feeney am 14. April 2015 um 16h am MPI
http://www.demogr.mpg.de/en/news_press/news_1917/six_
outstanding_problems_in_developing_country_demography_4050.htm
c Roland Rau
Survival Analysis
2 / 22
Formalia & Übersicht
Seminar: wöchentlich um 09:15 in Raum 227 (PC-Pool) der Ulmenstr. 69
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
Datum
07. April
14. April
21. April
28. April
05. Mai
12. Mai
19. Mai
26. Mai
02. Juni
09. Juni
16. Juni
23. Juni
30. Juni
07. Juli
14. Juli
TBA
evtl. Besonderheiten
heute
RR ⇒ PAA
“Teams & Themen”
Projektwoche
Testat
(Referate)
Referate
Referate
Termin zur Abgabe
der Hausarbeiten
c Roland Rau
geplante Themen (in eventuell veränderter Reihenfolge)
• Was ist Survival Analyse?
• Die elementaren Funktionen: S(x), h(x) [= µ(x)], H(x), f (x)
• Zensierung & Trunkierung
• Vorstellung: Datensatz zur Erstellung der
Seminararbeiten (wird bei studip.uni-rostock.de liegen)
• typische Datenstruktur für Survival-Analyse
• Einfache, parametrische Survival-Modelle
• Likelihood Konstruktion & deren Schätzung
• “Nichtparametrische” Schätzung
• Kaplan-Meier-Verfahren
(incl. Konfidenzintervallen und -bändern)
• Log-Rank Test
• Odd-Aalen Schätzer
• Vergleich von Kaplan-Meier- und Odd-Aalen-Verfahren
• Was sind “Proportional Hazards” Modelle?
• Unterschiede zu “AFT” Modellen
• Einfache parametrische Modelle mit Kovariaten
• Vergleich zur Sterbetafel
• Semiparametrische Survival-Regression: Das Cox Modell
• Überprüfung der Proportionalitätsannahme im Cox-Modell
• stratifiziertes Cox-Modell
• zeitabhängige Kovariaten im Cox-Modell
• evtl.: “piecewise-constant model”
• evtl.: Datensimulation bei der Survival-Analyse
(die Umsetzung am Computer erfolgt mittels der Sprache R
— siehe www.r-project.org)
Survival Analysis
3 / 22
Formalia & Übersicht
Gelegentlich gibt es kleinere Hausaufgaben. Diese sollten Ihnen zum besseren
Verständnis dienen, auch wenn sie nicht benotet werden.
Arbeiten Sie hierfür gerne in Teams!
Zwei Prüfungsleistungen
1
Testat: Semesterbegleitende Prüfung, vermutlich 02. Juni 2015; Prüfungsdauer:
30 Minuten. Inhalt: Theorie der Survival-Analyse
2
Hausarbeit: Einzeln oder in Zweier-Gruppen basierend auf einem von mir
vorbereiteten Teil des National Health Interview Surveys (NHIS) der USA. Nach
Absprache mit mir können aber auch gerne eigene Daten verwendet werden!
Umfang der Hausarbeit: max. 20–25 Seiten (bei 12pt Schriftgröße und
1,5-fachen Zeilenabstand)
Hausarbeit sollte wie ein wissenschaftlicher Artikel sein, den man bei einer
Zeitschrift einreicht.
Bekanntgabe der Teammitglieder (sofern Zweier-Gruppe) und der/den
selbstgewählten Forschungsfrage(n) am 19. Mai.
In den letzten beiden Sitzungen des Semesters stellen die Teams erste
(vorläufige) Ergebnisse ihrer Analyse vor.
c Roland Rau
Survival Analysis
4 / 22
Literatur
Klein and Moeschberger (2003): Survival Analysis:
Techniques for Censored and Truncated Data, Springer
Kleinbaum and Klein (2005): Survival Analysis. A
Self-Learning Text, Springer
Anmerkung: Es gibt auch eine neuere Ausgabe aus dem Jahr 2012,
welche R-Code enthalten soll.
Cox and Oakes (1984): Analysis of Survival Data,
Chapman & Hall
Collett (1994): Modelling Survival Data in Medical
Research, Chapman & Hall
c Roland Rau
Survival Analysis
5 / 22
Begriffsklärung:
Ich verwende die Begriffe:
Ereignis(daten)analyse
Survival Analyse
Event History Analysis
synonym.
c Roland Rau
Survival Analysis
6 / 22
Was ist das besondere der Survival Analyse?
Statistische Datenanalyse
Zentrales Element der Analyse:
Zeitdauer bis zu einem Ereignis
in aller Regel auch: welchen Einfluss üben Kovariaten auf die Dauer bis zum
Eintritt dieses Ereignisses aus?
Beispiele für Zeitdauern und Ereignisse: . . .
c Roland Rau
Survival Analysis
7 / 22
Was ist das besondere der Survival Analyse?
Statistische Datenanalyse
Zentrales Element der Analyse:
Zeitdauer bis zu einem Ereignis
in aller Regel auch: welchen Einfluss üben Kovariaten auf die Dauer bis zum
Eintritt dieses Ereignisses aus?
Beispiele für Zeitdauern und Ereignisse:
Zeitdauer
Zeit seit Geburt
Zeit seit Diagnose mit Krankheit x
Alter bei Beginn der Erwerbstätigkeit
Zeit seit Studienbeginn
Zeit seit dem 15. Geburtstag
...
Ereignis
Tod
Tod aufgrund von Krankheit x
Renteneintritt
Ende des Studiums
Geburt des ersten Kindes
...
Es ist also wichtig, dass gleich zu Beginn klar definiert
wird, was die Prozesszeit ist, und um welches Ereignis es
sich handelt!
c Roland Rau
Survival Analysis
8 / 22
Was ist das besondere der Survival Analyse?
Warum brauchen wir hierfür besondere Methoden, warum nicht einfach “ne normale
lineare Regression drüberjagen”?
yZeitdauer = a + bxkovariate
Hauptsächlich zwei Gründe:
“normale lineare Regression” beruht auf der Normalverteilungsannahme mit
dem Wertebereich [−∞, ∞]. Zeitdauern sind aber notwendigerweise im
Wertebereich [0, ∞],
Manche Ereignisse werden gar nicht beobachtet. Aber es ist bekannt, wie lange
eine Person dem Risiko ausgesetzt war, das Ereignis zu erfahren.
c Roland Rau
Survival Analysis
9 / 22
Die elementaren Funktionen der Survival-Analyse
vgl. für die formalen Aspekte:
Kapitel 2 in Klein and Moeschberger (2003)
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
(z.B. Geburt eines zweiten Kindes seit dem ersten Kind, Zeit seit Infektion bis
zum Ausbruch einer Krankheit, Zeitdauer seit 1968 bis der 1. FC Nürnberg
wieder einmal deutscher Meister wird, . . . .)
Wichtige definitorische Frage nicht nur: “Was ist das Ereignis?”
sondern auch: “Wann ist der Nullpunkt der Prozesszeit?”
(z.B. bei Beispiel Geburt eines zweiten Kindes seit dem ersten Kind: Ein zweites
Kind kann nicht einen Monat nach der Geburt eines anderen Kindes geboren
werden.)
c Roland Rau
Survival Analysis
10 / 22
Die elementaren Funktionen der Survival-Analyse
vgl. für die formalen Aspekte:
Kapitel 2 in Klein and Moeschberger (2003)
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
Die Survival- / Survivor- /Überlebensfunktion ist definiert als:
S(x) = Pr(X > x)
Sofern es sich bei X um eine kontinuierliche Zufallsvariable handelt, so
ist S(x) eine kontinuierliche, monoton fallende Funktion.
Ist X eine diskrete Zufallsvariable, so handelt es sich bei S(x) um eine
abfallende Treppenfunktion.
c Roland Rau
Survival Analysis
11 / 22
0.0
0.2
0.4
S(x)
0.6
0.8
1.0
hypothetische Beispiele für Survival-Kurven
0
5
10
15
20
25
30
Prozesszeit x
c Roland Rau
Survival Analysis
12 / 22
interaktives Beispiel: S(x) für Frauen, Deutschland-Ost
survivalanimation2015.r
http://demo07.wiwi.uni-rostock.de/ ⇒
http://demo07.wiwi.uni-rostock.de/apps/
SurvivalAnalysis-SurvivalCurves/
c Roland Rau
Survival Analysis
13 / 22
Die elementaren Funktionen der Survival-Analyse
vgl. für die formalen Aspekte:
Kapitel 2 in Klein and Moeschberger (2003)
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
Die Survival- / Survivor- /Überlebensfunktion ist definiert als:
S(x) = Pr(X > x)
Die komplementäre Funktion ist die (kumulative) Verteilungsfunktion
F(x) mit der dazugehörigen Dichtefunktion f (x):
Zx
F(x) = Pr(X ≤ x) = 1 − S(x) =
f (t)dt
0
Daraus resultiert natürlich:
Z∞
Zx
S(x) = 1 − F(x) = 1 −
f (t)dt =
0
f (t)dt
x
Und:
f (x) = −
c Roland Rau
dS(x)
dx
Survival Analysis
14 / 22
Die elementaren Funktionen der Survival-Analyse
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
Die Survival- / Survivor- /Überlebensfunktion ist definiert als:
S(x) = Pr(X > x)
Die komplementäre Funktion ist die (kumulative) Verteilungsfunktion F(x) mit der
dazugehörigen Dichtefunktion f (x):
Zx
F(x) = Pr(X ≤ x) = 1 − S(x) =
f (t)dt
0
Daraus resultiert natürlich:
Z∞
Zx
S(x) = 1 − F(x) = 1 −
f (t)dt =
0
f (t)dt
x
Und:
f (x) = −
dS(x)
dx
Frage:
Welchen Funktionen entsprechen S(x) und f (x) in der
Sterbetafel?
Hilft dies beim Verständnis der Gleichung: f (x) = − dS(x)
dx ?
c Roland Rau
Survival Analysis
15 / 22
interaktives Beispiel: f(x) für Frauen, Deutschland-Ost
survivalanimationdx2015.r
http://demo07.wiwi.uni-rostock.de/ ⇒
http://demo07.wiwi.uni-rostock.de/apps/
SurvivalAnalysis-DensityCurves/
c Roland Rau
Survival Analysis
16 / 22
Die elementaren Funktionen der Survival-Analyse
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
S(x) = Pr(X > x)
F(x), f (x):
Statistische Modelle beziehen sich neben der Survival-Funktion S(x)
hauptsächlich auf eine weitere Funktion: die hazard function, hazard rate, force
of mortality, intensity, conditional failure rate, Übergangsrate, Hazardrate, . . .
Sie ist definiert als:
h(x) = lim
∆x→0
Pr(x ≤ X < x + ∆x | X ≥ x)
∆x
(In der Demographie wird anstatt von h(x) häufig µ(x) verwendet.)
für eine kontinuierliche Zufallsvariable X gilt damit:
h(x) =
f (x)
S(x)
dS(x)
und da f (x) = −
c Roland Rau
− dx
dS(x)
⇒ h(x) =
dx
S(x)
Survival Analysis
=
−d ln S(x)
dx
17 / 22
interaktives Beispiel: f(x) für Frauen, Deutschland-Ost
survivalanimationhx2015.r
http://demo07.wiwi.uni-rostock.de/ ⇒
http://demo07.wiwi.uni-rostock.de/apps/
SurvivalAnalysis-HazardCurves/
c Roland Rau
Survival Analysis
18 / 22
Die elementaren Funktionen der Survival-Analyse
X sei die Zeitdauer/Prozesszeit bis zu einem spezifizierten Ereignis
S(x) = Pr(X > x)
F(x), f (x):
h(x) = lim∆x→0
Pr(x≤X<x+∆x | X≥x)
∆x
für eine kontinuierliche Zufallsvariable X gilt damit: h(x) =
f (x)
S(x)
=
−d ln S(x)
dx
damit lässt sich auch die cumulative hazard function definieren:
Zx
H(x) =
h(u)du
und daher auch H(x) = − ln S(x)
0
Umgedreht:
−H(x)
S(x) = e
−
=e
Rx
h(u)du
0
Gerade letztere Gleichung sieht man häufiger in der mathematischen
−
Demographie in der Form von: l(a) = l(0)e
c Roland Rau
Ra
µ(t)dt
0
Survival Analysis
19 / 22
Literatur
Collett, D. (1994). Modelling Survival Data in Medical Research. Texts in
Statistical Science. London, UK: Chapman & Hall.
Cox, D. and D. Oakes (1984). Analysis of Survival Data. London, UK:
Chapman & Hall.
Klein, J. P. and M. L. Moeschberger (2003). Survival Analysis : Techniques
for Censored and Truncated Data. Statistics for Biology and Health. New
York, NY: Springer.
Kleinbaum, D. G. and M. Klein (2005). Survival Analysis. A Self-Learning
Text. New York: Springer.
c Roland Rau
Survival Analysis
20 / 22
Lizenz
This open-access work is published under the terms of the Creative
Commons Attribution NonCommercial License 2.0 Germany, which
permits use, reproduction & distribution in any medium for non-commercial
purposes, provided the original author(s) and source are given credit.
Für ausführlichere Informationen:
http://creativecommons.org/licenses/by-nc/2.0/de/ (Deutsch)
http://creativecommons.org/licenses/by-nc/2.0/de/deed.en (English)
c Roland Rau
Survival Analysis
21 / 22
Kontakt
Universität Rostock
Institut für Soziologie und Demographie
Lehrstuhl für Demographie
Ulmenstr. 69
18057 Rostock
Germany
Tel.: +49-381-498 4044
Fax.: +49-381-498 4395
Email: [email protected]
Sprechstunde im Sommersemester 2015: Mittwochs, 09:00–10:00
(und nach Vereinbarung)
c Roland Rau
Survival Analysis
22 / 22