Zur Trennschärfe der two-way-layout Rangvarianzanalyse Joachim

Zur Trennschärfe der two-way-layout
Rangvarianzanalyse
Joachim Häusler & Klaus D. Kubinger
Arbeitsbereich Psychologische Diagnostik
Institut für Psychologie, Wien
Abstract
Spätestens in den 80er Jahren war in der Mathematischen Statistik der Trend zu beobachten,
insbesondere für Anwendungsfächer parameterfreie bzw. verteilungsunabhängige statistische Tests zu
entwickeln, die als alternative, „homologe“ Verfahren zu den paramterischen Mittelwertsvergleichen (vor
allem Students t-Test und Varianzanalyse) eingesetzt werden könnten. Beachtenswert war in diesem
Zusammenhang der Ansatz von Berchtold (1979), der die ansonsten gegebene Trennschärfe des MannWhitney-(Wilcoxon)-U-Tests von 95.5% (gemessen am optimalen t-Test) durch ein besonderes RangplatzScoring auf 99.2% anwachsen lässt. In diese Zeit fällt auch die Entwicklung von Rangvarianzanalysen
zweifaktorieller Versuchspläne (englisch: two-way-layout) in Verallgemeinerung des bekannten KruskalWallis-H-Tests; Interaktionseffekte zwischen zwei experimentellen Bedingungen sollten damit
parameterfrei prüfbar sein. Während der Ansatz von Hildebrand (1980) dabei intervallskalierte Variablen
voraussetzt, ist der Ansatz von Kubinger (1986; als Standardmethode genau beschrieben in Bortz, Lienert
& Boehnke, 1990) auch für ordinalskalierte Variablen geeignet. In der Zwischenzeit haben umfangreiche
Studien von Rasch (2003) zwar nachdrücklich gezeigt, dass die parametrischen Verfahren robust genug
sind, um auch bei groben Verletzungen der Verteilungsvoraussetzungen der untersuchten Variablen zu
Prüfgrößen vom behaupteten Verteilungstyp zu führen; allerdings hilft dies nicht für den Fall
ordinalskalierter Variablen. Im Referat werden die Ergebnisse einer Simulationsstudie vorgestellt, die die
Trennschärfe der two-way-layout Rangvarianzanalyse nach Kubinger (1986) gemessen am Idealfall
(intervallskalierte, normalverteilte Variable) nachweisen soll, um dem Anwender die Brauchbarkeit dieses
Ansatzes für ordinalskalierte Daten zu demonstrieren. Im Zuge dessen wird auch ein Computerprogramm
für seine Anwendung vorgestellt, welches unentgeltlich auf der Homepage der Autoren bereitgestellt wird.
Theorie
Mehrfaktorielle Rangvarianzanalytische Tests (Hildebrand, 1980) basieren auf dem Verfahren des rankingafter-alignement, was nichts anderes bedeutet als dass bevor nach einer Hauptwirkung getestet wird, die
Effekte zuerst um die andere Hauptwirkung und die Wechselwirkung bereinigt werden. Rechnerisch wird
dieses durch Subtrahieren von mittleren Rangplätzen durchgeführt. Daraus ergibt sich:
Alignierte Hauptwirkung A
Alignierte Hauptwirkung B
x'ijm = xijm − AB ij + B j
x'ijm = xijm − AB ij + Ai
Alignierte Wechselwirkung
x'ijm = xijm − Ai − B j + 2G
Aus den alignierten Rangplätzen wird in Folge analog zum H-Test (Kruskal & Wallis, 1952) eine chi²
verteilte Prüfgröße berechnet.
Speziell für Wechselwirkungen ist die Annäherung an eine chi² Verteilung zweifelhaft (Brunner &
Neumann, 1984). Kubinger (Kubinger, 1986) zeigt auf, dass durch die hier durchgeführte
Rangtransformation artifizielle Wechselwirkungseffekte generiert werden können und bietet eine Korrektur
für diese Probleme an.
*
H AxB
=
p q
12
* ∑∑ ( AB ij − Ai − B j + G )
p * q * ( N + 1) i =1 j =1
Ebenfalls existiert ein Ansatz zur Berechnung von Kovarianzeffekten (Keith & Cooper, 1974). Hierbei wird
die Wirkung der Kovariaten als Rangkorrelation (Spearman, 1904) ermittelt; anschließend wird von einem
Rangplatz jeweils der mit der obigen Korrelation gewichtete Rangplatz hinsichtlich der Kovariaten
subtrahiert.
Mit diesem parameterfreien Analogon zu Residuen können schließlich nach nochmaliger Rangreihung
weitere Analysen durchgeführt werden.
Durchführung
Es wurden unter verschiedenen Simulationsbedingungen Daten in varianzanalytischen unabhängigen 2 x 2
Designs mit jeweils 200 Fällen (50 pro Gruppe) erstellt.
Dabei wurde die Testentscheidung (sig. / n.sig.) von 2000 Simulationsdurchgängen als Funktion des
Hypothesenabstandes - in 17 Abstufungen zwischen 0.05 und 0.6 Standardabweichungen vorliegend dargestellt. Gesondert wurden die Ergebnisse bei Geltung der Nullhypothese betrachtet.
Zur weiteren Aggregierung des Datenmaterials wurde eine logistische Kurvenanpassung der jeweils 17
Messpunkte durchgeführt, sodass die resultierende logistische Reciever Operating Characteristic Kurve auf
den Ergebnissen von insgesamt 36000 Varianzanalysen basiert.
Diese Prozedur wurde für parametrische Verfahren (dem univariaten ALM der Software SPSS) und
nichtparametrische Verfahren (der multiplen Rangvarianzanalyse der Software mKVA) durchgeführt.
Die zwei resultierenden ROC Kurven wurden innerhalb jeder Versuchsbedingung verglichen und daraus
spezifische Kennwerte für das Machtverhältnis der zu vergleichenden Verfahren gebildet – insbesondere
die asymptotische relative Macht (ARE) (Pitmann, 1948) und die minimale relative Macht des
parameterfreien Tests. Da der ARE Kennwert die gesamte Information beider zu vergleichender Kurven
verwendet kann er als das Macht-Verhältnis zweier Tests unabhängig vom jeweiligen Hypothesenabstand
interpretiert werden.
Zur Berechnung der ARE Kennwerte wurde eine numerische Integration der ROC Kurven unter
Verwendung der Trapezregel durchgeführt.
Alpha Analysen
Mit
überlagerndem
Kovarianz Effekt
Hauptwirkung
Mit
überlagerndem
Haupteffekt
Wechselwirkung
Hauptwirkung
Ohne
überlagernde
Effekte
Wechselwirkung
Hauptwirkung
Wechselwirkung
Beta Analysen
Mit
überlagerndem
Kovarianz Effekt
Ohne
überlagerndem
Kovarianz Effekt
Hauptwirkung
Hauptwirkung
Wechselwirkung
Hauptwirkung +
Wechselwirkung
Messpunkte jeweils bei
Hypothesenabstand [s]
0.05
0.1
0.15
0.2
0.22
0.25
0.27
0.3
0.32
0.35
0.37
0.4
0.42
0.45
0.5
0.55
0.6
Wechselwirkung
Hauptwirkung +
Wechselwirkung
Ergebnisdarstellung – Alpha Präservation
Überprüfung der Alpha Präservation ohne störende Einflüsse
Effekt
Alpha Fehler
Eine Verteilung ohne Hauptwirkungen bzw Wechselwirkungen wird auf ihr Macht
Niveau untersucht. Alle 4 Gruppen haben identen Mittelwert und dieselbe
Standardabweichung.
Es ergibt sich für Haupt- und Wechselwirkung keine Abweichung von der
geforderten α Präservation.
Haupteffekt
.05 [.046; .054]
Wechselwirkung
Hildebrand
.049 [.045; .053]
Wechselwirkung
Kubinger
.049 [.045; .053]
Effekt
Alpha Fehler
Haupteffekt
.047 [.043; .052]
Wechselwirkung
Hildebrand
.06 [.055; .065]
Wechselwirkung
Kubinger
.049 [.045; .053]
Effekt
Alpha Fehler
Haupteffekt
.053 [.049; .057]
Wechselwirkung
Hildebrand
.048 [.044; .052]
Wechselwirkung
Kubinger
.048 [.044; .052]
Überprüfung der Alpha Präservation bei einer vorhandenen
starken Hauptwirkung
Eine Verteilung mit 1 starken Hauptwirkung (Effektstärke = 1) wird auf das
Machtniveau der anderen Hauptwirkung und der Wechselwirkung untersucht.
Die Testung auf Wechselwirkungen nach Hildebrand überschreitet nachweislich
das geforderte α Niveau.
Überprüfung der Alpha Präservation bei einer vorhandenen
starken Kovarianz
Eine Verteilung ohne Hauptwirkungen bzw Wechselwirkungen wird mit einem
starken linearen Kovarianzeffekt überlagert. Alle 4 Gruppen behalten aber
identen Mittelwert und dieselbe Standardabweichung.
Es ergibt sich für Haupt- und Wechselwirkung auch hier keine Abweichung von
der geforderten α Präservation.
Ergebnisdarstellung – Relative Macht
Relative Macht bei isolierten Haupteffekten
Die relative Macht bei einer einzelnen Hauptwirkung wurde gemessen.
min
ARE
94.0 %
96.7 %
min
ARE
WW Hildebrand
96.9 %
98.2 %
WW Kubinger
96.5 %
97.9 %
min
ARE
Hauptwirkung
95.5 %
97.2 %
WW Hildebrand
94.7 %
96.7 %
WW Kubinger
93.6 %
96.0 %
min
ARE
Hauptwirkung
82.5 %
90.0 %
WW Hildebrand
84.8 %
91.0 %
WW Kubinger
84.1 %
90.6 %
Hauptwirkung
Relative Macht bei isolierten Wechselwirkungen
Die relative Macht bei einer einzelnen Wechselwirkung wurde gemessen.
Relative Macht bei Haupt und Wechselwirkungen
Die relative Macht von
nebeneinander gemessen.
Haupt-
und
Wechselwirkungen
wurde
Relative Macht bei Haupt und Wechselwirkungen
überlagert durch eine starke Kovarianzwirkung
Die relative Macht von Haupt- und Wechselwirkungen wurde
nebeneinander gemessen, wobei zuvor nach einer Kovarianzwirkung
bereinigt wurde.
Diskussion
Es zeigt sich deutlich, dass parameterfreie Verfahren – auch im Bereich mehrfaktorieller bzw.
kovarianzanalytischer Designs – den parametrischen nur unwesentlich nachstehen. Insbesondere die
Methode des ranking-after-alignment birgt keinen merklichen zusätzlichen relativen Machtverlust
gegenüber Tests für einfachere Designs wie dem Kruskal-Wallis H-Test.
Das macht mehrfaktorielle Rangvarianzanalysen zum optimalen Test für Messgrössen mit zweifelhafter
Intervallskaleneigenschaft.
Ebenfalls ist der β Fehler, den die hier vorgestellten Verfahren bergen, nicht größer als der Fehler, der beim
Vertrauen auf die Robustheit parametrischer Varianzanalysen, in Kauf genommen wird. Allerdings ist er
rein konservativer Natur und im Ausmaß genau bekannt. Es scheint also ratsam auch im Fall fraglicher
Verteilung oder Homogenität der Varianzen auf die gleichwertigen parameterfreien Verfahren
auszuweichen, selbst wenn Robustheit der Varianzanalyse gegeben wäre.
Es zeigt sich weiter, dass auch parameterfreie kovarianzanalytische Verfahren eine brauchbare Alternative
darstellen. Die Verwendung von Rangplatz–Residuen ist zwar mit einer merklichen Vergrößerung des
β Fehlers verbunden, trotzdem tut sich eine Verwendungsmöglichkeit auf, wenn die Anwendung einer
parametrischen Kovarianzanalyse kontraindiziert wäre.
Zuletzt kann festgestellt werden, dass das Verfahren nach Hildebrand für Wechselwirkungen nicht fähig ist,
das α Niveau von 5% einzuhalten, wenn der Effekt durch eine starke Hauptwirkung überlagert wird. Die
Lösung nach Kubinger verhält sich hingegen konservativ, wobei sie nicht relevant weniger Macht besitzt.
Sie ist daher in der Praxis stets zu bevorzugen.
Literatur
Berchtold H. (1979): A modified MANN-WHITNEY Test with improved asymptotic relative efficiency. Biometrical Journal, 21,
649-655
Bortz, J. (2000): Verteilungsfreie Methoden in der Biostatistik. Springer, Berlin
Brunner, E.; Neumann, N. (1984): Rank Tests for the 2x2 Split Block Design. Metrika, 31, 233-243
Hartung, J. (2002): Statistik: Lehr und Handbuch der angewandten Statistik. Oldenbourg, München
Hildebrand, H. (1980): Asymptotisch verteilungsfreie Rangtests in linearen Modellen. Promotionsarbeit, Freiburg.
Huebner, R.; Hager, W. (1984): Sind nonparametrische Tests parametrischen bei "beliebigen Verteilungen" vorzuziehen?
Empirische Untersuchungen zu einigen Flussdiagrammen, Entscheidungshilfen und Empfehlungen. Zeitschrift für
Experimentelle und Angewandte Psychologie, 31, 214-231
Keith, V., Cooper, M. (1974): Nonparametric design and analysis. University of Ottawa Press, Ottawa
Kubinger, K.D. (1986): A Note on Non-Parametric Tests for the Interaction in Two-Way Layouts. Biometric Journal, 28, 67-72
Pitman, E.J.G. (1948): Notes on nonparametric statistical interference. New York: Columbia University (mimeograph)