2. Vorlesung - EAH-Jena

Fachhochschule Jena
University of Applied Sciences Jena
Mehrdimensionale Merkmale
Fachhochschule Jena
University of Applied Sciences Jena
Mehrdimensionale Merkmale
Werden am gleichen Objekt mehrere Merkmale gemessen, interessiert man sich meist
dafür, ob es zwischen ihnen eine Abhängigkeit bzw. einen Zusammenhang gibt.
Diskrete Merkmale
Kontingenztabelle
Zusammenhangsmaße: Chi-Quadrat-Maß, Kontingenzkoeffizienten
Beispiel 1
100 zufällig ausgewählten Passanten wurden zum Tempolimit in der Innenstadt befragt.
Es waren 70 gegen Tempolimit, 30 dafür.
Unter den Gegnern waren 25 Frauen, unter den Befürwortern 20.
Stetige Merkmale
Streudiagramm (Scatterplot)
Zusammenhangsmaße: Pearson-Korrelation, Spearman-Korrelation
Lineare Regression: Parameterschätzung, Anpassungsgüte
Beispiel 2
Bei einer Verkehrskontrolle wurde bei straffälliger Höhe der Geschwindigkeitsüberschreitung
( ab 20 km/h) auch das Alter des Fahrers protokolliert.
Alter
Überschreitung
20
22
23
22
24
40
59
23
55
34
26
22
32
22
29
21
43
28
38
27
31
25
36
29
Beispiel 1 enthält nominale Merkmale, Beispiel 2 metrische Merkmale.
Für die Untersuchung der Abhängigkeit muss man das passende Verfahren entsprechend
dem Skalenniveau wählen.
SS 2016
Prof. Dr. J. Schütze
Deskr2
1
SS 2016
Prof. Dr. J. Schütze
Deskr2
Fachhochschule Jena
University of Applied Sciences Jena
Abhängigkeit nominaler Merkmale
Fachhochschule Jena
University of Applied Sciences Jena
Abhängigkeit nominaler Merkmale
Empirische Randverteilungen
Zwei diskrete Merkmale X, Y werden am gleichen Objekt gemessen,
X mit p verschiedenen möglichen Ausprägungen, Y mit q Ausprägungen.
Die Anzahl der Objekte mit der Kombination ( xi , y k ) sei nik
Die Randsummen entsprechen den eindimensionalen Verteilungen.
Aus den Zeilensummen erhält man die Verteilung von X.
Kontingenztabelle
Y
X
x1
y1
y2
n11
n12
...
2
Y
yq
X
x1
n1q
y1
y2
n 11
n 12
...
yq
Randverteilung von
X (Zeilensummen)
n 1q
n 1 . =  n 1k
q
k =1
x2
n21
n22
n2q
x2
n 22
n 2q
q
n 2. =  n 2 k
k =1

xp
n 21

np1
np2
npq
xp
n p1
n p2
n pq
q
n p . =  n pk
k =1
2.1
SS 2016
Prof. Dr. J. Schütze
Deskr2
3
SS 2016
Prof. Dr. J. Schütze
Deskr2
4
Fachhochschule Jena
University of Applied Sciences Jena
Abhängigkeit nominaler Merkmale
Fachhochschule Jena
University of Applied Sciences Jena
Abhängigkeit nominaler Merkmale
Empirische Randverteilungen
Die Randsummen entsprechen den eindimensionalen Verteilungen.
Empirische Randverteilungen
Aus den Spaltensummen erhält man die Verteilung von Y.
Verteilung von X
Absolute Häufigkeiten
Y
X
x1
y1
y2
n 11
n 12
...
yq
Randverteilung von
X (Zeilensummen)
n 1q
n 1 . =  n 1k
Relative Häufigkeiten
Verteilung von Y
Absolute Häufigkeiten
q
k =1
x2
n 21
n 22
n 2q
q
n 2. =  n 2 k
Relative Häufigkeiten
k =1
q
ni . = h ( xi ) =  nik
f ( xi ) = h ( xi ) / n
k =1
p
n. k = h ( y k ) =
f ( yk ) = h ( yk ) / n
n
ik
i =1

xp
n p1
n p2
Randverteilung von Y
(Spaltensummen)
n. 1 =  n i 1
n pq
q
n p . =  n pk
k =1
p
i =1
SS 2016
p
n.2 =  ni 2
i =1
p
n. q =  niq
i =1
p
q
n =   n ik
i =1 k =1
Prof. Dr. J. Schütze
Deskr2
5
SS 2016
Prof. Dr. J. Schütze
Fachhochschule Jena
University of Applied Sciences Jena
Abhängigkeit nominaler Merkmale
Zusammenhänge untersucht man durch Vergleich der einzelnen Spalten/Zeilen,
sie enthalten die bedingten Häufigkeiten nach Kategorien des anderen Merkmals
(unter der Bedingung der entsprechenden Ausprägung im Spalten-/Zeilenkopf).
berechnet aus Spalte
SS 2016
X = xi
Für einen Zusammenhang zwischen den Merkmalen spricht, dass sich die
bedingten Verteilungen von der Randverteilung unterscheiden.
Ist der Anteil der Befürworter unter den Frauen dagegen so hoch wie
unter den Männern, hat das Geschlecht keinen Einfluss auf die Meinung.
nik nim
=
n. k n.m
Gleiche Anteile in allen Spalten finden sich dann auch auf dem Rand wieder.
n ⋅n
nik ni .
 nik = i . . k
=
n
n. k
n
X = xi
Die Merkmale X, Y sind empirisch unabhängig, falls für alle i, k gilt
n ⋅n
nik = i . .k
n
, normiert mit Spaltensumme h ( X = xi ) = ni .
Prof. Dr. J. Schütze
Fachhochschule Jena
University of Applied Sciences Jena
Y = yk
berechnet aus Spalte Y = y k , normiert mit Spaltensumme h (Y = y k ) = n. k
Bedingte relative Häufigkeiten von Y unter Bedingung
f (Y = y k / X = xi ) = nik / ni .
6
Abhängigkeit nominaler Merkmale
Aus den eindimensionalen Verteilungen kann man keine Rückschlüsse über
einen Zusammenhang zwischen den Merkmalen ziehen.
Bedingte relative Häufigkeiten von X unter Bedingung
f ( X = xi / Y = y k ) = nik / n.k
Deskr2
Deskr2
7
SS 2016
Prof. Dr. J. Schütze
Deskr2
8
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße bei nominalen Merkmalen
Zusammenhangsmaße bei nominalen Merkmalen
Aus den Differenzen zwischen der beobachteten Zellenbesetzung nik
n ⋅n
und der bei Unabhängigkeit erwarteten Zellenbesetzung nˆ ik = i . . k
n
erhält man ein Maß für die Stärke des Zusammenhangs.
Da die Größe des Chi-Quadrat-Maßes auch von der Dimension der Tabelle
und dem Stichprobenumfang abhängt, gibt es daraus abgeleitete Maße,
die diese Einflüsse durch Normierung ‚herausrechnen‘.
Zusammenhangsmaße für diskrete Merkmale
p
Dabei quadriert man die Abweichungen, damit sich positive und negative
Differenzen nicht kompensieren,
und normiert mit den erwarteten Häufigkeiten.
p
Chi-Quadrat-Maß
( nik − nˆik ) 2
nˆik
k =1
( nik − nˆik ) 2
nˆik
k =1
q
Chi-Quadrat-Maß
χ2 =  
Kontingenzkoeffizient
C=
i =1
q
χ2 =  
i =1
Fachhochschule Jena
University of Applied Sciences Jena
χ2
χ2 + n
Korrigierter Kontingenzkoeffizient C korr = C
d
d −1
mit d = min(p,q), p Zeilenanzahl, q Spaltenanzahl der Kontingenztabelle
SS 2016
Prof. Dr. J. Schütze
Deskr2
9
SS 2016
Prof. Dr. J. Schütze
Deskr2
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße bei nominalen Merkmalen
10
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
Beispiel 2 (Fortsetzung)
Interpretation
Bei Unabhängigkeit der Merkmale sind die beobachtetet Zellhäufigkeiten gleich
den bei Unabhängigkeit zu erwartenden Häufigkeiten,
es gilt nik = nˆik , damit sind alle Maße Null.
Alter
Überschreitung
20
22
23
22
24
40
59
23
55
34
26
22
32
22
29
21
43
28
38
27
31
25
36
29
Streudiagramm (Scatterplot)
Je stärker die Abhängigkeit ist, desto größer ist die Abweichung von Null.
Das Chi-Quadratmaß ist nach oben nicht beschränkt, die abgeleiteten Maße sind
auf Werte kleiner als 1 normiert.
Da die abgeleiteten Maße den Stichprobenumfang bzw. die Tabellendimension
‚herausrechnen‘, erlauben sie den Vergleich von Abhängigkeiten zwischen Tabellen
mit verschiedenen Stichprobenumfängen bzw. verschieden vielen Ausprägungen.
y = 26, 25
x = 34, 67
SS 2016
Prof. Dr. J. Schütze
Deskr2
11
SS 2016
Prof. Dr. J. Schütze
Deskr2
12
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
Für einen linearen Zusammenhang der Merkmale würde
sprechen, dass alle Punkte im ersten und dritten bzw.
zweiten und vierten ‚Quadranten‘ liegen, wobei man
die Quadranten nach Lage der Mittelwerte der beiden
Merkmale unterteilt.
y
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
4. Quadr.
3. Quadr.
1. Quadr.
2. Quadr.
Äquivalente Darstellungen der Pearson-Korrelation
r=
x
=
Steigende Tendenz: xi < x , yi < y oder xi > x , yi > y, somit (xi − x )( yi − y ) > 0
Fallende Tendenz:
xi < x , yi > y oder xi > x , yi < y, somit (xi − x )( yi > y ) < 0
=
Sind die Punkte über alle Quadranten verteilt, liegt keine lineare Tendenz vor.
(xi − x )( yi − y ) bilden Kernstück für Zusammenhangsmaß
Produkte
=
1 n
Kovarianz Cov( x, y ) =
 (xi − x )( yi − y )
n − 1 i =1
Korrelationskoeffizient nach Pearson
r=
Basisformeln für Umrechnung
nX =  X
i
Σ ( X i − X ) Σ (Yi − Y )
2
2
 (X − X ) =  (X − 2X X + X )
=  X − 2 X  X + nX
=  X − 2 X ⋅ nX + nX =  X − nX
2
Σ ( X i − X )(Yi − Y )
2
i
Σ X iYi − nXY
 (X
nΣ X iYi − Σ X i Σ Yi
i
2
− X )(Yi − Y ) =
Prof. Dr. J. Schütze
Deskr2
13
SS 2016
Prof. Dr. J. Schütze
XY
i i
2
− nXY
Deskr2
Interpretation der Pearson-Korrelation
Beispiel 2 (Fortsetzung)
Berechnung des Pearsonschen Korrelationskoeffizienten
Der Korrelationskoeffizient von Pearson misst, wie eng der lineare Zusammenhang
zwischen X und Y ist.
X
Klassifizierung
keine Korrelation
schwache Korrelation
mittlere Korrelation
starke Korrelation
perfekte Korrelation, d.h. alle Punkte liegen auf einer Geraden
22
22
40
23
34
22
22
21
28
27
25
29
315
Es gibt statistische Tests, die Abweichungen von 0 auf Signifikanz prüfen.
r=
X2
Y
20
23
24
59
55
26
32
29
43
38
31
36
416
Es gilt stets: −1 ≤ r ≤ 1
Bei r = 1 liegen alle Messwertpaare auf einer steigenden Geraden.
Bei r = -1 liegen alle Messwertpaare auf einer fallenden Geraden.
Bei r = 0 ist keine lineare Tendenz erkennbar.
14
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
Prof. Dr. J. Schütze
2
i
( nΣ X i2 − ( Σ X i ) 2 )( nΣ Yi 2 − ( Σ Yi ) 2 )
Zusammenhangsmaße für metrische Merkmale
SS 2016
2
i
2
i
2
i
( Σ X − nX 2 )( Σ Yi 2 − nY 2 )
2
i
Fachhochschule Jena
University of Applied Sciences Jena
r=0
0 < r < 0.5
0.5 ≤ r < 0.8
0.8 ≤ r < 1
r =1
2
i
i
Eigenschaften
Hat die Punktwolke eine steigende Tendenz, ist r > 0.
Bei einer fallenden Tendenz ist r < 0.
Σ ( X i − X ) 2 Σ (Yi − Y ) 2
SS 2016
Cov ( X , Y )
Var X ⋅ Var Y
Σ ( X i − X )(Yi − Y )
Y2
400
529
576
3481
3025
676
1024
841
1849
1444
961
1296
16102
XY
484
484
1600
529
1156
484
484
441
784
729
625
841
8641
440
506
960
1357
1870
572
704
609
1204
1026
775
1044
11067
n  XY −  X  Y
( n  X − (  X ) )( n  Y − (  Y ) )
2
2
2
2
=
12 ⋅ 11067 − 416 ⋅ 315
(12 ⋅ 16102 − 416 2 )(12 ⋅ 8641 − 315 2 )
= 0.1858
d.h. schwache Korrelation
Deskr2
15
SS 2016
Prof. Dr. J. Schütze
Deskr2
16
Fachhochschule Jena
University of Applied Sciences Jena
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
Zusammenhangsmaße für metrische Merkmale
Bei ordinalen Merkmalen oder kardinalen Merkmalen mit Ausreißern rechnet man
anstelle der Werte mit ihren Platznummern.
Korrelationskoeffizient nach Spearman
Platznummer von xi bei aufsteigend geordneten Werten von X
R ( xi )
Platznummer von yi bei aufsteigend geordneten Werten von Y
R ( yi )
Mehrfach auftretende Werte erhalten den gleichen mittleren Rang (Bindungen).
Beispiel 2 (Fortsetzung)
Korrelationskoeffizient nach Spearman
Σ ( R ( xi ) − R )( R ( yi ) − R )
rs =
Σ ( R ( xi ) − R ) Σ ( R ( y i ) − R )
2
2
Σ R ( xi ) R ( yi ) − nR
=
2
R=
( Σ R ( xi ) − nR )( Σ R ( yi ) − nR )
2
2
2
2
n +1
2
xi
20
23
24
59
55
26
32
29
43
38
31
36
yi
22
22
40
24
34
22
22
21
28
27
25
29
R ( xi )
1
2
3
12
11
4
7
5
10
9
6
8
Liegen keine Bindungen vor, vereinfacht sich die Berechnung zu
rs = 1 −
6 d i2
n(n 2 − 1)
mit d i = R( xi ) − R( yi )
Der Korrelationskoeffizient nach Spearman misst einen monotonen Zusammenhang,
Bei rs = 1 folgen alle Messwertpaare einer monoton steigenden Tendenz.
Bei rs = -1 folgen alle Messwertpaare einer monoton fallenden Tendenz.
Bei rs = 0 ist keine monotone Tendenz erkennbar.
SS 2016
Prof. Dr. J. Schütze
Deskr2
17
SS 2016
Prof. Dr. J. Schütze
Deskr2
Fachhochschule Jena
University of Applied Sciences Jena
18
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße für metrische Merkmale
Zusammenhangsmaße für metrische Merkmale
Korrelationskoeffizient nach Spearman
Korrelationskoeffizient nach Spearman
xi
20
23
24
59
55
26
32
29
43
38
31
36
xi
20
23
24
59
55
26
32
29
43
38
31
36
yi
22
22
40
24
34
22
22
21
28
27
25
29
yi
22
22
40
24
34
22
22
21
28
27
25
29
R ( xi )
1
2
3
12
11
4
7
5
10
9
6
8
R ( xi )
1
2
3
12
11
4
7
5
10
9
6
8
R( yi )
3.5
3.5
12
6
11
3.5
3.5
1
9
8
7
10
R ( yi )
3.5
3.5
12
6
11
3.5
3.5
1
9
8
7
10
Der Wert 22 tritt bei y viermal auf, auf den Plätzen 2, 3, 4, 5.
Anstelle dieser Platzzahlen bekommt jeder der 4 Werte den Durchschnittsrang 3.5,
Durchschnittsrang =
2+3+ 4+5
= 3.5
4
Σ ( R ( x i )) 2 = 6 5 0,
rs =
danach wird mit Platz 6 weiter nummeriert.
SS 2016
Prof. Dr. J. Schütze
n ( n + 1) 1 2 ⋅ 1 3
1 n ( n + 1) 1 3
=
= 7 8, R =
=
= 6 .5,
2
2
n
2
2
2
Σ ( R ( y i )) = 6 4 5, Σ R ( x i ) R ( y i ) = 5 6 7
n = 1 2, Σ R ( x i ) = Σ R ( y i ) =
Σ R ( xi ) R ( y i ) − n R 2
( Σ R ( x i ) − n R )( Σ R ( y i ) − n R )
2
2
2
2
=
5 6 7 − 1 2 ⋅ 6 .5 2
(6 5 0 − 1 2 ⋅ 6 .5 2 )(6 4 5 − 1 2 ⋅ 6 .5 2 )
= 0 .4 2 7
2.2
Deskr2
19
SS 2016
Prof. Dr. J. Schütze
Deskr2
20
Fachhochschule Jena
University of Applied Sciences Jena
Zusammenhangsmaße
Lineare Regression
Bei hoher Pearson-Korrelation stehen die metrischen Merkmale X, Y in engem
linearen Zusammenhang, der durch eine Geradengleichung modelliert werden kann.
Zusammenhangsmaße in Abhängigkeit vom Skalenniveau
C=
Kontingenzkoeffizient
Nominale Merkmale
Ordinale Merkmale
Fachhochschule Jena
University of Applied Sciences Jena
Spearman-Korrelation
rs =
χ2
χ +n
Ansatz: y = a 0 + a1 x
2
Σ ( R ( xi ) − R )( R ( yi ) − R )
Die Parameter a0 , a1 dieser Regressionsfunktion bestimmt man nach dem
Optimalitätskriterium (Methode der kleinsten Quadrate MKQ)
n
 ( y − (a
Σ R ( xi ) − R 2 ) Σ ( R ( y i ) − R 2 )
i
i =1
r=
Pearson-Korrelation
Metrische Merkmale
+ a1 xi ) ) → min .
2
0
Σ ( X i − X )(Yi − Y )
Σ ( X i − X ) 2 Σ (Yi − Y ) 2
3
2
Bei Merkmalen mit unterschiedlichem Skalenniveau kann man unter
Informationsverlust den Koeffizienten des niedrigeren Niveaus nehmen.
In speziellen Anwendungen gibt es weitere Koeffizienten, vgl. z.B.
Hedderich, Sachs, Statistische Verfahren
SS 2016
Prof. Dr. J. Schütze
1
0
-1
1
2
x
3
4
5
Residuen yi − ( a 0 + a1 xi )
sind die vertikalen Abweichungen
der Messpunkte von der Geraden
Die Quadratsumme der Residuen wird
im Optimalitätskriterium minimiert.
-1
Deskr2
21
SS 2016
Prof. Dr. J. Schütze
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Fachhochschule Jena
University of Applied Sciences Jena
Beispiel 8
f (a0 , a1 ) =  ( yi − (a0 + a1 xi ) ) → min
2
i =1
Man berechnet die partiellen Ableitungen von f nach den Parametern und setzt sie
gleich Null. Daraus entstehen nach Umformung der Summen die
Normalengleichungen
y
x y
= a0 ⋅ n +
i
i
i
22
Lineare Regression
Bestimmung der Parameter der Regressionsfunktion aus Optimalitätskriterium
n
Deskr2
x
1
2
4
5
y
3
2
1
1
2.3
a1  xi
= a0  xi + a1  xi2
Regressionsfunktion
y = 3.25 – 0.5 x
Als Lösung dieses linearen Gleichungssystems in a0 und a1 erhält man die
y = a 0 + a1 x
Parameterschätzungen des linearen Modells
a1 =
SS 2016
n  xi y i −  xi  y i
n  xi 2 −
( x )
2
1
a0 =
n
( y
i
− a1  x i
)
i
Prof. Dr. J. Schütze
Deskr2
23
SS 2016
Prof. Dr. J. Schütze
Deskr2
24
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Beurteilung der Anpassungsgüte der Regressionsfunktion
Regressionsfunktion
y = 3.25 – 0.5 x
Die so berechnete Regressionsfunktion
passt nach dem verwendeten Kriterium
optimal zu den Punkten.
Residuen: vertikale Abweichungen der Punkte von der Regressionsgeraden
Aus ihnen definiert sich die Restvariation.
Residuen
yi − ( a0 + a1 xi )
Da das Kriterium die Quadratsumme der
Abweichung der Punkte zur Geraden
minimiert, nennt man das Verfahren
MKQ-Regression
(Methode der kleinsten Quadrate).
Restvariation
SSR =
 ( y − (a
i
0
+ a1 xi ) )
2
2.4
SSR =  ( yi − ( a 0 + a1 xi ) ) = 0.25
2
SS 2016
Prof. Dr. J. Schütze
Deskr2
25
SS 2016
Prof. Dr. J. Schütze
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Deskr2
26
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Gesamzvariation
Als erklärte Variation SSE bezeichnet man die Variation der Werte auf der
Regressionsfunktion a0 + a1 xi an den Stellen xi um den Mittelwert y
2
SSE =  ( y − ( a0 + a1 xi ) )
SSY =  ( y − yi )
2
Erklärte Variation
2
SSE =  ( y − ( a 0 + a1 xi ) )
Restvariation
2
SSR =  ( yi − ( a 0 + a1 xi ) )
Erklärte Variation
y = 1.75
SSY = SSE + SSR
SSE SSR
+
1=
Nach Division durch SSY
SSY SSY
SSE
SSR
R2 =
=1−
Bestimmtheitsmaß:
SSY
SSY
Das Bestimmtheitsmaß ist der Anteil der erklärten Variation an der Gesamtvariation.
Es gilt die Zerlegung:
2.5
SS 2016
Prof. Dr. J. Schütze
Deskr2
27
SS 2016
Prof. Dr. J. Schütze
Deskr2
28
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Lineare Regression
Beispiel 9 (Fortsetzung Bsp.2)
Bestimmtheitsmaß der linearen Regression
R
2
(Y − ( a + a X
=
 (Y − Y )
0
1
2
i
i
))
2
Fachhochschule Jena
University of Applied Sciences Jena
X
erklärte Variation
=
Gesamtvariation
Interpretation
Bei perfekter Anpassung liegt keine Restvariation vor, dann ist die erklärte
Variation gleich der Gesamtvariation, das Bestimmtheitsmaß ist gleich 1.
Weisen die Punkte keine lineare Tendenz auf, ist die erklärte Variation gleich Null
damit ist auch das Bestimmtheitsmaß ist gleich Null.
a1 =
Zusammenhang zum Pearsonschen Korrelationskoeffizienten r
1
a0 =
n
2.6
r2 = R2
SS 2016
Prof. Dr. J. Schütze
Deskr2
29
22
22
40
23
34
22
22
21
28
27
25
29
315
n xi yi −  xi  yi
Im Allgemeinen ist seine Größe gleich dem Anteil an Variation der y-Werte,
der durch die Regression erklärt wird.
Es gilt:
X2
Y
20
23
24
59
55
26
32
29
43
38
31
36
416
n xi 2 −
( y
i
(
 xi
)
2
)
− a1  x i =
400
529
576
3481
3025
676
1024
841
1849
1444
961
1296
16102
=
Y2
484
484
1600
529
1156
484
484
441
784
729
625
841
8641
XY
440
506
960
1357
1870
572
704
609
1204
1026
775
1044
11067
Bestimmtheitsmaß
R 2 = r 2 = 0.035
R 2 = 0.18582 = 0.035
Regressionsfunktion erklärt
nur 3.5 % der Variation von y.
12 ⋅ 11067 − 416 ⋅ 315
= 0.087
12 ⋅ 16102 − 4162
1
(315 − 0.087 ⋅ 416) = 23.218
12
Regressionsfkt.: Y = 0.087x + 23.218
SS 2016
Prof. Dr. J. Schütze
Deskr2
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Elimination eines ‚Ausreißers‘ bewirkt folgende
Änderung der Regressionsfunktion und der Güte der Anpassung nach
Die Güte der Anpassung der linearen Regression ist stark davon abhängig, ob Ausreißer
im Datensatz vorhanden sind.
SS 2016
30
Prof. Dr. J. Schütze
Regressionsfkt.
Y = 0.087x + 23.218
Regressionsfkt.
Y = 0.197x + 17.971
Bestimmtheitsmaß
0.035
Bestimmtheitsmaß
0.365
Deskr2
31
SS 2016
Prof. Dr. J. Schütze
Deskr2
32
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Fachhochschule Jena
University of Applied Sciences Jena
Lineare Regression
Die unkritische Elimination von 'Ausreißern' täuscht strenge Zusammenhänge vor, die oft nur
Wunschvorstellung sein können!
Besserer Weg: mehr Daten erheben!
Elimination eines weiteren ‚Ausreißers‘ bewirkt folgende
Änderung der Regressionsfunktion und der Güte der Anpassung nach
Regressionsfkt.
Y = 0.375x + 12.717
Bestimmtheitsmaß
0.831
SS 2016
Prof. Dr. J. Schütze
Deskr2
33
Regressionsfkt.
Y = 0.087x + 23.218
Regressionsfkt.
Y = 0.197x + 17.971
Regressionsfkt.
Y = 0.375x + 12.717
Bestimmtheitsmaß
0.035
Bestimmtheitsmaß
0.365
Bestimmtheitsmaß
0.831
SS 2016
Prof. Dr. J. Schütze
Deskr2
34