3 Kapitel 7 Skalierungsverfahren 7.1 Einführung in die Problemstellung und Übersicht; Daten- und Distanzmatrizen In diesem Kapitel werden verschiedene Skalierungsverfahren behandelt, wobei grundsätzlich zwischen zwei Typen von Verfahren unterschieden werden muß. Zum einen spricht man bei der Zuordnung reeller Zahlen zu den Ausprägungen nominaler und ordinaler Merkmale von Skalierung (Skalierung von Merkmalsausprägungen), zum anderen nennt man auch die Zuordnung eines reellen Vektors zu Objekten Skalierung (multidimensionale Skalierung, MDS). Typen von Skalierungsverfahren Die meisten Verfahren der Statistik, insbesondere der multivariaten Statistik, sind auf stetige Merkmale zugeschnitten. In vielen Bereichen wie z.B. der Markt- und Meinungsforschung werden jedoch Merkmale erhoben, die lediglich ordinal oder nominal sind. Diese Merkmale können dann durch Skalierung ihrer Ausprägungen in metrische Merkmale transformiert werden, so daß sie den statistischen Verfahren für stetige Merkmale zugänglich sind. Skalierung von Merkmalsausprägungen Im Abschnitt 2 beschäftigen wir uns zunächst mit der Skalierung von Ausprägungen eines ordinalen Merkmals. Hier werden das Prozentrangverfahren, das vielfach in der Psychologie zur Auswertung von Testergebnissen (z.B. zur Bestimmung von Intelligenzquotienten) verwandt wird, und das Verfahren der marginalen Normalisierung, das bereits auf Fechner (1860) zurückgeht, vorgestellt. Skalierung ordinaler Ausprägungen 4 KAPITEL 7. SKALIERUNGSVERFAHREN Skalierung nominaler Ausprägungen Für die Skalierung von Ausprägungen nominaler Merkmale sind diese Verfahren nicht mehr geeignet, da sie eine ordinale Rangfolge der Ausprägungen benutzen. Man geht hier so vor, daß zwei kategoriale Merkmale an n Objekten beobachtet werden, so daß die Beobachtungsdaten in Form einer zweidimensionalen Kontingenztafel dargestellt werden können, und skaliert dann die Ausprägungen des einen Merkmals so, daß sie das andere möglichst gut linear erklären, und umgkehrt. Ein adäquates Verfahren hierfür wird in Abschnitt 3 dargestellt. multidimensionale Skalierung (MDS) In Abschnitt 4 werden dann zwei Verfahren der multidimensional Skalierung (MDS) vorgestellt. Bei der klassischen Haupt-Koordinaten-Methode, vgl. Togerson (1952, 1958), müssen die Ähnlichkeiten bzw. Verschiedenheiten von n interessierenden Objekten bekannt sein (metrische MDS, MMDS), beim Verfahren von Kruskal, vgl. Kruskal (1964), benötigt man lediglich eine Rangfolge der Ähnlichkeiten aller Objektpaare (nichtmetrische MDS, NMDS). Aufgrund der Ähnlichkeitsinformation wird dann jedem Objekt ein q-dimensionaler, reeller Vektor zugeordnet, derart, daß die euklischen Abstände der Vektoren die Ähnlichkeiten der Objekte widerspiegeln. Die Dimension q des Repräsentationsraums ist hierbei eine frei wählbare, natürliche Zahl und eine Wahl q ≤ 3 ermöglicht die grapische Darstellung der n Objekte im Repräsentationsraum. Bevor wir die einzelnen Skalierungsverfahren konkret behandeln, sollen an dieser Stelle noch die Begriffe Datenmatrix und Distanzmatrix erläutert werden, die sowohl in diesem Kapitel als auch in allen nachfolgenden benötigt werden. Datenmatrizen Werden an n Objekten jeweils p Merkmale beobachtet, so werden die Beobachtungsdaten häufig in Form einer n × p-Datenmatrix 0 y1 y11 y12 . . . y1p y0 y21 y22 . . . y2p 2 Y= . = . .. .. . . . . . . y0 n yn1 yn2 . . . ynp gemischte Datenmatrix dargestellt. In der j-ten Zeile dieser Datenmatrix steht der p-dimensionale Beobachtungsvektor für das j-te Objekt, j = 1, . . . , n, und die k-te Spalte beinhaltet die Beobachtungsdaten für das k-te Merkmal k = 1, . . . , p. Sind alle p Merkmale quantitativ, so spricht man von einer quantitativen Datenmatrix, sind alle Merkmale qualitativ, so spricht man von einer qualitativen Datenmatrix, und sind einige Merkmale quantitativ, andere qualitativ, so heißt Y eine gemischte Datenmatrix. Distanzmatrix Eine Distanzmatrix quantitativen Datenmatrix qualitativen Datenmatrix für n Objekte ist eine symmetrische n × n-Matrix 7.1. PROBLEMSTELLUNG; DATEN- UND DISTANZMATRIZEN 5 mit nichtnegativen Elementen, deren Hauptdiagonalelemente alle gleich Null sind: 0 d(1, 2) d(1, 3) . . . d(1, n) d(1, 2) 0 d(2, 3) . . . d(2, n) D= . .. .. .. ; .. . . . d(1, n) d(2, n) d(3, n) . . . 0 ein Element d(i, j) der Distanzmatrix D gibt des Grad der Verschiedenheit der Objekte i und j an, i, j = 1, . . . , n, i < j. Zu jeder beliebigen Datenmatrix Y läßt sich nun durch Skalierung von Merkmalsausprägungen eine quantitative Datenmatrix gewinnen. Außerdem kann zu jeder Datenmatrix Y eine Distanzmatrix D für n Objekte bestimmt werden. Entweder quantifiziert man zu diesem Zwecke die Datenmatrix und verwendet als Abstandsmaß eine Lr -Distanz p X d(i, j) = ( | yik − yjk |r )1/r für i, j = 1, . . . , n, i < j Gewinnung von Distanzmatrizen aus Datenmatrizen Lr -Distanz k=1 Im Fall r = 1 ergibt sich der sogenannte City-Block-Abstand d(i, j) = p X City-Block-Abstand | yik − yjk |, k=1 im Falle r = 2 gerade der euklidische Abstand v u p uX d(i, j) = t (yik − yjk )2 . euklidischer Abstand k=1 Für r = ∞ definiert man den sogenannten Tschebyscheff-Abstand als d(i, j) = max{| yi1 − yj1 |, . . . , | yip − yjp |, } = max {| yik − yjk |} k∈{1,...,p} In der nachfolgenden Abbildung 7.1 sind die speziellen Abstände für die Vektoren yi = (2, 1)0 und yj = (6, 4)0 graphisch angegeben. Man erhält: • City-Block-Abstand: P2 k=1 | yik − yjk |=| 2 − 6 | + | 1 − 4 |= 7 qP p 2 2 • Euklidischer Abstand: (2 − 6)2 + (1 − 4)2 = k=1 (yik − yjk ) = 5 • Tschebyscheff-Abstand: max {| yik − yjk |} = max{| 2 − 6 |, | 1 − 4 |} = 4 k∈{1,2} Tschebyscheff-Abstand 6 KAPITEL 7. SKALIERUNGSVERFAHREN Abbildung 7.1: Euklidischer Abstand, City-Block-Abstand und Tschebyscheffscher Abstand im zweidimensionalen Raum Häufig wird auch der Mahalanobis-Abstand verwendet, der ein mit der empirischen Kovarianzmatrix n n i=1 i=1 1X 1 X (yi − y)(yi − yj )0 , y = yi , S= n−1 n der p Merkmale gewichteter euklidischer Abstand ist: d(i, j) = ((yi − yj )0 S−1 (yi − y))1/2 für i, j = 1, . . . , n, i < j. Bei den Lr -Metriken hängt ein Distanzindex also lediglich von den Beobachtungsvektoren yi und yj ab, wohingegen der Mahalanobis-Abstand auch die Kovarianzen, die Abhängigkeiten, der p beobachteten Merkmale berücksichtigt. Verschiedenheitsrelation Eine andere Möglichkeit besteht darin, die Objektdistanzen bez. qualitativer Merkmale vermittels einer Verschiedenheitsrelation zu definieren, man vgl. hierzu z.B. Opitz (1980), Pfanzagl (1972). Gewinnung einer quantitativen Datenmatrix aus einer Distanzmatrix Umgekehrt läßt sich aus jeder Distanzmatrix auch dann, wenn lediglich die größenmäßige Reihenfolge der Objektdistanzen bekannt ist, mittels multi-
© Copyright 2024 ExpyDoc