Zur Trennschärfe der two-way-layout Rangvarianzanalyse Joachim Häusler & Klaus D. Kubinger Arbeitsbereich Psychologische Diagnostik Institut für Psychologie, Wien Abstract Spätestens in den 80er Jahren war in der Mathematischen Statistik der Trend zu beobachten, insbesondere für Anwendungsfächer parameterfreie bzw. verteilungsunabhängige statistische Tests zu entwickeln, die als alternative, „homologe“ Verfahren zu den paramterischen Mittelwertsvergleichen (vor allem Students t-Test und Varianzanalyse) eingesetzt werden könnten. Beachtenswert war in diesem Zusammenhang der Ansatz von Berchtold (1979), der die ansonsten gegebene Trennschärfe des MannWhitney-(Wilcoxon)-U-Tests von 95.5% (gemessen am optimalen t-Test) durch ein besonderes RangplatzScoring auf 99.2% anwachsen lässt. In diese Zeit fällt auch die Entwicklung von Rangvarianzanalysen zweifaktorieller Versuchspläne (englisch: two-way-layout) in Verallgemeinerung des bekannten KruskalWallis-H-Tests; Interaktionseffekte zwischen zwei experimentellen Bedingungen sollten damit parameterfrei prüfbar sein. Während der Ansatz von Hildebrand (1980) dabei intervallskalierte Variablen voraussetzt, ist der Ansatz von Kubinger (1986; als Standardmethode genau beschrieben in Bortz, Lienert & Boehnke, 1990) auch für ordinalskalierte Variablen geeignet. In der Zwischenzeit haben umfangreiche Studien von Rasch (2003) zwar nachdrücklich gezeigt, dass die parametrischen Verfahren robust genug sind, um auch bei groben Verletzungen der Verteilungsvoraussetzungen der untersuchten Variablen zu Prüfgrößen vom behaupteten Verteilungstyp zu führen; allerdings hilft dies nicht für den Fall ordinalskalierter Variablen. Im Referat werden die Ergebnisse einer Simulationsstudie vorgestellt, die die Trennschärfe der two-way-layout Rangvarianzanalyse nach Kubinger (1986) gemessen am Idealfall (intervallskalierte, normalverteilte Variable) nachweisen soll, um dem Anwender die Brauchbarkeit dieses Ansatzes für ordinalskalierte Daten zu demonstrieren. Im Zuge dessen wird auch ein Computerprogramm für seine Anwendung vorgestellt, welches unentgeltlich auf der Homepage der Autoren bereitgestellt wird. Theorie Mehrfaktorielle Rangvarianzanalytische Tests (Hildebrand, 1980) basieren auf dem Verfahren des rankingafter-alignement, was nichts anderes bedeutet als dass bevor nach einer Hauptwirkung getestet wird, die Effekte zuerst um die andere Hauptwirkung und die Wechselwirkung bereinigt werden. Rechnerisch wird dieses durch Subtrahieren von mittleren Rangplätzen durchgeführt. Daraus ergibt sich: Alignierte Hauptwirkung A Alignierte Hauptwirkung B x'ijm = xijm − AB ij + B j x'ijm = xijm − AB ij + Ai Alignierte Wechselwirkung x'ijm = xijm − Ai − B j + 2G Aus den alignierten Rangplätzen wird in Folge analog zum H-Test (Kruskal & Wallis, 1952) eine chi² verteilte Prüfgröße berechnet. Speziell für Wechselwirkungen ist die Annäherung an eine chi² Verteilung zweifelhaft (Brunner & Neumann, 1984). Kubinger (Kubinger, 1986) zeigt auf, dass durch die hier durchgeführte Rangtransformation artifizielle Wechselwirkungseffekte generiert werden können und bietet eine Korrektur für diese Probleme an. * H AxB = p q 12 * ∑∑ ( AB ij − Ai − B j + G ) p * q * ( N + 1) i =1 j =1 Ebenfalls existiert ein Ansatz zur Berechnung von Kovarianzeffekten (Keith & Cooper, 1974). Hierbei wird die Wirkung der Kovariaten als Rangkorrelation (Spearman, 1904) ermittelt; anschließend wird von einem Rangplatz jeweils der mit der obigen Korrelation gewichtete Rangplatz hinsichtlich der Kovariaten subtrahiert. Mit diesem parameterfreien Analogon zu Residuen können schließlich nach nochmaliger Rangreihung weitere Analysen durchgeführt werden. Durchführung Es wurden unter verschiedenen Simulationsbedingungen Daten in varianzanalytischen unabhängigen 2 x 2 Designs mit jeweils 200 Fällen (50 pro Gruppe) erstellt. Dabei wurde die Testentscheidung (sig. / n.sig.) von 2000 Simulationsdurchgängen als Funktion des Hypothesenabstandes - in 17 Abstufungen zwischen 0.05 und 0.6 Standardabweichungen vorliegend dargestellt. Gesondert wurden die Ergebnisse bei Geltung der Nullhypothese betrachtet. Zur weiteren Aggregierung des Datenmaterials wurde eine logistische Kurvenanpassung der jeweils 17 Messpunkte durchgeführt, sodass die resultierende logistische Reciever Operating Characteristic Kurve auf den Ergebnissen von insgesamt 36000 Varianzanalysen basiert. Diese Prozedur wurde für parametrische Verfahren (dem univariaten ALM der Software SPSS) und nichtparametrische Verfahren (der multiplen Rangvarianzanalyse der Software mKVA) durchgeführt. Die zwei resultierenden ROC Kurven wurden innerhalb jeder Versuchsbedingung verglichen und daraus spezifische Kennwerte für das Machtverhältnis der zu vergleichenden Verfahren gebildet – insbesondere die asymptotische relative Macht (ARE) (Pitmann, 1948) und die minimale relative Macht des parameterfreien Tests. Da der ARE Kennwert die gesamte Information beider zu vergleichender Kurven verwendet kann er als das Macht-Verhältnis zweier Tests unabhängig vom jeweiligen Hypothesenabstand interpretiert werden. Zur Berechnung der ARE Kennwerte wurde eine numerische Integration der ROC Kurven unter Verwendung der Trapezregel durchgeführt. Alpha Analysen Mit überlagerndem Kovarianz Effekt Hauptwirkung Mit überlagerndem Haupteffekt Wechselwirkung Hauptwirkung Ohne überlagernde Effekte Wechselwirkung Hauptwirkung Wechselwirkung Beta Analysen Mit überlagerndem Kovarianz Effekt Ohne überlagerndem Kovarianz Effekt Hauptwirkung Hauptwirkung Wechselwirkung Hauptwirkung + Wechselwirkung Messpunkte jeweils bei Hypothesenabstand [s] 0.05 0.1 0.15 0.2 0.22 0.25 0.27 0.3 0.32 0.35 0.37 0.4 0.42 0.45 0.5 0.55 0.6 Wechselwirkung Hauptwirkung + Wechselwirkung Ergebnisdarstellung – Alpha Präservation Überprüfung der Alpha Präservation ohne störende Einflüsse Effekt Alpha Fehler Eine Verteilung ohne Hauptwirkungen bzw Wechselwirkungen wird auf ihr Macht Niveau untersucht. Alle 4 Gruppen haben identen Mittelwert und dieselbe Standardabweichung. Es ergibt sich für Haupt- und Wechselwirkung keine Abweichung von der geforderten α Präservation. Haupteffekt .05 [.046; .054] Wechselwirkung Hildebrand .049 [.045; .053] Wechselwirkung Kubinger .049 [.045; .053] Effekt Alpha Fehler Haupteffekt .047 [.043; .052] Wechselwirkung Hildebrand .06 [.055; .065] Wechselwirkung Kubinger .049 [.045; .053] Effekt Alpha Fehler Haupteffekt .053 [.049; .057] Wechselwirkung Hildebrand .048 [.044; .052] Wechselwirkung Kubinger .048 [.044; .052] Überprüfung der Alpha Präservation bei einer vorhandenen starken Hauptwirkung Eine Verteilung mit 1 starken Hauptwirkung (Effektstärke = 1) wird auf das Machtniveau der anderen Hauptwirkung und der Wechselwirkung untersucht. Die Testung auf Wechselwirkungen nach Hildebrand überschreitet nachweislich das geforderte α Niveau. Überprüfung der Alpha Präservation bei einer vorhandenen starken Kovarianz Eine Verteilung ohne Hauptwirkungen bzw Wechselwirkungen wird mit einem starken linearen Kovarianzeffekt überlagert. Alle 4 Gruppen behalten aber identen Mittelwert und dieselbe Standardabweichung. Es ergibt sich für Haupt- und Wechselwirkung auch hier keine Abweichung von der geforderten α Präservation. Ergebnisdarstellung – Relative Macht Relative Macht bei isolierten Haupteffekten Die relative Macht bei einer einzelnen Hauptwirkung wurde gemessen. min ARE 94.0 % 96.7 % min ARE WW Hildebrand 96.9 % 98.2 % WW Kubinger 96.5 % 97.9 % min ARE Hauptwirkung 95.5 % 97.2 % WW Hildebrand 94.7 % 96.7 % WW Kubinger 93.6 % 96.0 % min ARE Hauptwirkung 82.5 % 90.0 % WW Hildebrand 84.8 % 91.0 % WW Kubinger 84.1 % 90.6 % Hauptwirkung Relative Macht bei isolierten Wechselwirkungen Die relative Macht bei einer einzelnen Wechselwirkung wurde gemessen. Relative Macht bei Haupt und Wechselwirkungen Die relative Macht von nebeneinander gemessen. Haupt- und Wechselwirkungen wurde Relative Macht bei Haupt und Wechselwirkungen überlagert durch eine starke Kovarianzwirkung Die relative Macht von Haupt- und Wechselwirkungen wurde nebeneinander gemessen, wobei zuvor nach einer Kovarianzwirkung bereinigt wurde. Diskussion Es zeigt sich deutlich, dass parameterfreie Verfahren – auch im Bereich mehrfaktorieller bzw. kovarianzanalytischer Designs – den parametrischen nur unwesentlich nachstehen. Insbesondere die Methode des ranking-after-alignment birgt keinen merklichen zusätzlichen relativen Machtverlust gegenüber Tests für einfachere Designs wie dem Kruskal-Wallis H-Test. Das macht mehrfaktorielle Rangvarianzanalysen zum optimalen Test für Messgrössen mit zweifelhafter Intervallskaleneigenschaft. Ebenfalls ist der β Fehler, den die hier vorgestellten Verfahren bergen, nicht größer als der Fehler, der beim Vertrauen auf die Robustheit parametrischer Varianzanalysen, in Kauf genommen wird. Allerdings ist er rein konservativer Natur und im Ausmaß genau bekannt. Es scheint also ratsam auch im Fall fraglicher Verteilung oder Homogenität der Varianzen auf die gleichwertigen parameterfreien Verfahren auszuweichen, selbst wenn Robustheit der Varianzanalyse gegeben wäre. Es zeigt sich weiter, dass auch parameterfreie kovarianzanalytische Verfahren eine brauchbare Alternative darstellen. Die Verwendung von Rangplatz–Residuen ist zwar mit einer merklichen Vergrößerung des β Fehlers verbunden, trotzdem tut sich eine Verwendungsmöglichkeit auf, wenn die Anwendung einer parametrischen Kovarianzanalyse kontraindiziert wäre. Zuletzt kann festgestellt werden, dass das Verfahren nach Hildebrand für Wechselwirkungen nicht fähig ist, das α Niveau von 5% einzuhalten, wenn der Effekt durch eine starke Hauptwirkung überlagert wird. Die Lösung nach Kubinger verhält sich hingegen konservativ, wobei sie nicht relevant weniger Macht besitzt. Sie ist daher in der Praxis stets zu bevorzugen. Literatur Berchtold H. (1979): A modified MANN-WHITNEY Test with improved asymptotic relative efficiency. Biometrical Journal, 21, 649-655 Bortz, J. (2000): Verteilungsfreie Methoden in der Biostatistik. Springer, Berlin Brunner, E.; Neumann, N. (1984): Rank Tests for the 2x2 Split Block Design. Metrika, 31, 233-243 Hartung, J. (2002): Statistik: Lehr und Handbuch der angewandten Statistik. Oldenbourg, München Hildebrand, H. (1980): Asymptotisch verteilungsfreie Rangtests in linearen Modellen. Promotionsarbeit, Freiburg. Huebner, R.; Hager, W. (1984): Sind nonparametrische Tests parametrischen bei "beliebigen Verteilungen" vorzuziehen? Empirische Untersuchungen zu einigen Flussdiagrammen, Entscheidungshilfen und Empfehlungen. Zeitschrift für Experimentelle und Angewandte Psychologie, 31, 214-231 Keith, V., Cooper, M. (1974): Nonparametric design and analysis. University of Ottawa Press, Ottawa Kubinger, K.D. (1986): A Note on Non-Parametric Tests for the Interaction in Two-Way Layouts. Biometric Journal, 28, 67-72 Pitman, E.J.G. (1948): Notes on nonparametric statistical interference. New York: Columbia University (mimeograph)
© Copyright 2025 ExpyDoc