Handout zum Datensatz Atemwegserkrankung

Beispiel zur multivariaten Regression
Atemwegserkrankung von Schulkindern
Der Datensatz enthält Daten, welche von der Universität Innsbruck für eine Studie über Lungenfunktion und Atemwegserkrankungen bei Schulkindern erhoben wurden. Von Interesse war,
ob sich die industriell bedingte Umweltbelastung im Raum Brixlegg / Tirol schädlich auf die
Gesundheit von Kindern, insbesondere auf deren Atemwege auswirkt. Hierzu wurde eine Querschnittsstudie an allen Pflichtschülern in der größeren Umgebung von Brixlegg durchgeführt.
Neben der Umweltbelastung wurden noch weitere potentielle Einflußgrößen wie das elterliche
Rauchen und der Bildungsstand der Eltern erfasst. Die Datei enthält die Daten von 1549
Schulkindern, fehlende Werte sind mit ’-1’ kodiert.
1 Variablenbeschreibung
Einflußvariablen:
zone: Umweltbelastung am Wohnort. 1=stark belastet, 2=eher wenig belastet, 3=erhöhte
Ozonbelastung durch Hochlage
aller: Allergische Erkrankung der Atemwege wie Asthma, Heuschnupfen (j/n)
kehle: Kehlkopfentzündung (j/n)
raumu: Mutter Raucherin (j/n)
rauva: Vater Raucher (j/n)
schnu: Häufiges Auftreten von Schnupfen (j/n)
huste: Häufiges Auftreten von Husten (j/n)
gross: Körpergrösse
sex: Geschlecht: 1=männlich, 2=weiblich
gewi: Körpergewicht
lubro: Krankreit der Lungen oder Bronchien (j/n)
Response-Variablen:
fvc: Vitalkapazität=ausgeatmete Luftmenge nach maximaler Einatmung in Litern
pef: Maximaler Ausatemstrom
fef50: Ausatemstrom nach 50% -iger Ausatmung
fef75: Ausatemstrom nach 75% -iger Ausatmung
1
2 Lineares Modell mit allen Variablen
n 1549: Anzahl der Beobachtungen
q 4: Anzahl der Response-Variablen
p 12: Anzahl der Einflussvariablen
Lineares Modell: Y X B
wobei:
dim Y n q dim X n p 1 dim B p 1 q dim E n q E
Die S-Plus Funktion ’lm’ liefert für die einzelnen Response-Variablen:
fvc:
Variable
Konstante
zone
aller
kehle
raumu
rauva
schnu
huste
gross
sex
gewi
lubro
Schätzung
4 22
0 02
0 02
0 02
0 19
0 03
0 34
0 08
0 04
0 29
0 01
0 04
P Wert
2e 16
0 64
0 79
0 82
0 01
0 71
5 81e 5
0 47
2e 16
1 33e 6
0 002
0 52
pef:
Variable
Konstante
zone
aller
kehle
raumu
rauva
schnu
huste
gross
sex
gewi
lubro
Schätzung
6 72
0 07
0 09
0 07
0 24
0 09
0 64
0 02
0 08
0 39
0 01
0 14
2
P Wert
8 66e 16
0 41
0 60
0 71
0 09
0 49
3 28e 5
0 31
2e 16
0 0003
0 10
0 25
fef50:
Variable
Konstante
zone
aller
kehle
raumu
rauva
schnu
huste
gross
sex
gewi
lubro
Schätzung
3 78
0 07
0 003
0 06
0 04
0 009
0 37
0 08
0 04
0 13
0 01
0 08
fef75:
Variable
Konstante
zone
aller
kehle
raumu
rauva
schnu
huste
gross
sex
gewi
lubro
Schätzung
2 18
0 05
0 003
0 03
0 03
0 01
0 23
0 02
0 02
0 05
0 005
0 02
P Wert
6 34e 11
0 21
0 98
0 62
0 66
0 92
0 0005
0 56
2e 16
0 09
0 04
0 32
P Wert
1 28e 09
0 15
0 97
0 68
0 60
0 84
0 0006
0 78
8 76e 15
0 31
0 16
0 74
3 Testen
Alle Testprobleme sind Spezialfälle der allgemeinen multivariaten linearen Hypothese:
H0 : C B Γ
3.1 Overall-Test (Goodness of fit-Test)
H0 : B 1 0 p q (Modell M̃),
wobei B 1 für B ohne die erste Zeile steht.
Mit den Matrizen:
H0 : C B 0 p q
3
wobei:
0
C 0
1
1
1
1
M 0 534 λ Λ SSP
q n p 1 p;α α (P-Wert 0)
SSP M̃ H0 kann abgelehnt werden.
3.2 Test auf Signifikanz einer unabhängigen Variable
Hier wollen wir testen, ob die i-te Variable (i 1 p) signifikant zur Erklärung beiträgt:
H0 : β Ti βi1 βiq 0 H1 : β Ti 0
Teststatistik:
Sei aii das i-te Diagonalelement von X T X 1 . Dann ist unter H0
Fi N p q
T 1
βˆ i Σ̂ βˆ i F q N p q q N p 1 aii Es ergeben sich die folgenden P-Werte:
Variable
zone
aller
kehle
raumu
rauva
schnu
huste
gross
sex
gewi
lubro
F Statistik
1 48
0 58
0 96
6 27
0 90
4 60
0 85
278 4
20 6
14 4
1 84
4
P Wert
0 21
0 68
0 43
5 29e 5
0 46
0 001
0 49
0
1 11e 16
1 51e 11
0 12