Beispiel zur multivariaten Regression Atemwegserkrankung von Schulkindern Der Datensatz enthält Daten, welche von der Universität Innsbruck für eine Studie über Lungenfunktion und Atemwegserkrankungen bei Schulkindern erhoben wurden. Von Interesse war, ob sich die industriell bedingte Umweltbelastung im Raum Brixlegg / Tirol schädlich auf die Gesundheit von Kindern, insbesondere auf deren Atemwege auswirkt. Hierzu wurde eine Querschnittsstudie an allen Pflichtschülern in der größeren Umgebung von Brixlegg durchgeführt. Neben der Umweltbelastung wurden noch weitere potentielle Einflußgrößen wie das elterliche Rauchen und der Bildungsstand der Eltern erfasst. Die Datei enthält die Daten von 1549 Schulkindern, fehlende Werte sind mit ’-1’ kodiert. 1 Variablenbeschreibung Einflußvariablen: zone: Umweltbelastung am Wohnort. 1=stark belastet, 2=eher wenig belastet, 3=erhöhte Ozonbelastung durch Hochlage aller: Allergische Erkrankung der Atemwege wie Asthma, Heuschnupfen (j/n) kehle: Kehlkopfentzündung (j/n) raumu: Mutter Raucherin (j/n) rauva: Vater Raucher (j/n) schnu: Häufiges Auftreten von Schnupfen (j/n) huste: Häufiges Auftreten von Husten (j/n) gross: Körpergrösse sex: Geschlecht: 1=männlich, 2=weiblich gewi: Körpergewicht lubro: Krankreit der Lungen oder Bronchien (j/n) Response-Variablen: fvc: Vitalkapazität=ausgeatmete Luftmenge nach maximaler Einatmung in Litern pef: Maximaler Ausatemstrom fef50: Ausatemstrom nach 50% -iger Ausatmung fef75: Ausatemstrom nach 75% -iger Ausatmung 1 2 Lineares Modell mit allen Variablen n 1549: Anzahl der Beobachtungen q 4: Anzahl der Response-Variablen p 12: Anzahl der Einflussvariablen Lineares Modell: Y X B wobei: dim Y n q dim X n p 1 dim B p 1 q dim E n q E Die S-Plus Funktion ’lm’ liefert für die einzelnen Response-Variablen: fvc: Variable Konstante zone aller kehle raumu rauva schnu huste gross sex gewi lubro Schätzung 4 22 0 02 0 02 0 02 0 19 0 03 0 34 0 08 0 04 0 29 0 01 0 04 P Wert 2e 16 0 64 0 79 0 82 0 01 0 71 5 81e 5 0 47 2e 16 1 33e 6 0 002 0 52 pef: Variable Konstante zone aller kehle raumu rauva schnu huste gross sex gewi lubro Schätzung 6 72 0 07 0 09 0 07 0 24 0 09 0 64 0 02 0 08 0 39 0 01 0 14 2 P Wert 8 66e 16 0 41 0 60 0 71 0 09 0 49 3 28e 5 0 31 2e 16 0 0003 0 10 0 25 fef50: Variable Konstante zone aller kehle raumu rauva schnu huste gross sex gewi lubro Schätzung 3 78 0 07 0 003 0 06 0 04 0 009 0 37 0 08 0 04 0 13 0 01 0 08 fef75: Variable Konstante zone aller kehle raumu rauva schnu huste gross sex gewi lubro Schätzung 2 18 0 05 0 003 0 03 0 03 0 01 0 23 0 02 0 02 0 05 0 005 0 02 P Wert 6 34e 11 0 21 0 98 0 62 0 66 0 92 0 0005 0 56 2e 16 0 09 0 04 0 32 P Wert 1 28e 09 0 15 0 97 0 68 0 60 0 84 0 0006 0 78 8 76e 15 0 31 0 16 0 74 3 Testen Alle Testprobleme sind Spezialfälle der allgemeinen multivariaten linearen Hypothese: H0 : C B Γ 3.1 Overall-Test (Goodness of fit-Test) H0 : B 1 0 p q (Modell M̃), wobei B 1 für B ohne die erste Zeile steht. Mit den Matrizen: H0 : C B 0 p q 3 wobei: 0 C 0 1 1 1 1 M 0 534 λ Λ SSP q n p 1 p;α α (P-Wert 0) SSP M̃ H0 kann abgelehnt werden. 3.2 Test auf Signifikanz einer unabhängigen Variable Hier wollen wir testen, ob die i-te Variable (i 1 p) signifikant zur Erklärung beiträgt: H0 : β Ti βi1 βiq 0 H1 : β Ti 0 Teststatistik: Sei aii das i-te Diagonalelement von X T X 1 . Dann ist unter H0 Fi N p q T 1 βˆ i Σ̂ βˆ i F q N p q q N p 1 aii Es ergeben sich die folgenden P-Werte: Variable zone aller kehle raumu rauva schnu huste gross sex gewi lubro F Statistik 1 48 0 58 0 96 6 27 0 90 4 60 0 85 278 4 20 6 14 4 1 84 4 P Wert 0 21 0 68 0 43 5 29e 5 0 46 0 001 0 49 0 1 11e 16 1 51e 11 0 12
© Copyright 2025 ExpyDoc