Ressourcen für empirische Methoden

Kruskal-Wallis-Test

Quick Start

Wozu wird der Kruskal-Wallis-Test verwendet?
Der Kruskal-Wallis-Test für unabhängige Stichproben testet, ob sich die zentralen Tendenzen mehrerer unabhängiger Stichproben unterscheiden. Der Kruskal-Wallis-Test wird verwendet, wenn die Voraussetzungen für eine Varianzanalyse nicht erfüllt sind.

SPSS-Menü
Analysieren > Nichtparametrische Tests > Klassische Dialogfelder > K unabhängige Stichproben

SPSS-Syntax
NPAR TESTS
/K-W = abhängige Variable BY Gruppen(tiefster Wert höchster Wert)
/STATISTICS=DESCRIPTIVES

SPSS-Beispieldatensatz
Kruskal-Wallis-Test

1. Einführung

Der Kruskal-Wallis-Test – auch „H-Test“ genannt – für unabhängige Stichproben testet, ob sich die zentralen Tendenzen mehrerer unabhängiger Stichproben unterscheiden. Der Kruskal-Wallis-Test wird verwendet, wenn die Voraussetzungen für eine Varianzanalyse nicht erfüllt sind.

Der Kruskal-Wallis-Test ist das nichtparametrische Äquivalent der einfaktoriellen Varianzanalyse und wird angewandt, wenn die Voraussetzungen für ein parametrisches Verfahren nicht erfüllt sind. Nicht-parametrische Verfahren sind auch bekannt als „voraussetzungsfreie Verfahren“, weil sie geringere Anforderungen an die Verteilung der Messwerte in der Grundgesamtheit stellen. So müssen die Daten nicht normalverteilt sein und die Variablen müssen lediglich ordinalskaliert sein. Auch bei kleinen Stichproben und Ausreissern kann ein Kruskal-Wallis-Test berechnet werden.

Die Fragestellung des Kruskal-Wallis-Tests wird oft so verkürzt:
„Unterscheiden sich die zentralen Tendenzen mehrerer unabhängiger Stichproben?“

1.1. Beispiele für mögliche Fragestellungen

  • Gibt es einen Zusammenhang zwischen der Farbe eines Autos und der Anzahl Unfällen pro Jahr, in die das Auto involviert ist?
  • Unterscheiden sich vier Altersgruppen bezüglich ihrer kognitiven Verarbeitungsgeschwindigkeit?
  • Zeigen Kinder, die unter der Woche nicht Fernsehen dürfen, bessere Werte in einem Aufmerksamkeitstest, als solche, die einmal wöchentlich oder mehr als einmal wöchentlich Fernsehen dürfen?
  • Unterscheiden sich Personen mit hohen, mittleren und tiefen Werten auf einer Angstskala bezüglich ihrer Risikobereitschaft?

1.2. Voraussetzungen des Kruskal-Wallis-Tests

Die abhängige Variable ist mindestens ordinalskaliert
Es liegt eine unabhängige Variable vor, mittels der die zu vergleichenden Gruppen gebildet werden

2. Grundlegende Konzepte

2.1. Beispiel einer Studie


Eine ärztliche Untersuchung hat gezeigt, dass Menschen in den Wintermonaten oft unter Vitaminmangel leiden und dies zu einer reduzierten Konzentrationsfähigkeit führen kann. Ein Pharmakonzern möchte daher ein neues Vitaminpräparat auf den Markt bringen, welches die Konzentrationsfähigkeit steigern soll. Nun wird die Wirksamkeit untersucht: Drei Gruppen werden verglichen, wobei eine Gruppe das Präparat nicht einnimmt, die zweite es einmal wöchentlich und eine letzte Gruppe es viermal wöchentlich einnimmt. Gemessen wird die Konzentrationsfähigkeit (Skala 0-100).

Der zu analysierende Datensatz enthält neben einer Probandennummer (ID) die Häufigkeit der Vitamineinnahme (Gruppe) sowie die Konzentrationsfähigkeit (Konz).

Abbildung 1: Beispieldaten und erste Berechnungsschritte (Gruppe: 1 = Kein Vitamin, 2 = Einmal Vitamin, 3 = Viermal Vitamin)

Abbildung 1: Beispieldaten und erste Berechnungsschritte (Gruppe: 1 = Kein Vitamin, 2 = Einmal Vitamin, 3 = Viermal Vitamin)

Der Datensatz kann unter Quick Start heruntergeladen werden.

2.2. Berechnung der Teststatistik

Berechnung der Teststatistik

Der Kruskal-Wallis-Test basiert auf der Idee der Rangierung der Daten. Das heisst, es wird nicht mit den Messwerten selbst gerechnet, sondern diese werden durch Ränge ersetzt, mit welchen der eigentliche Test durchgeführt wird. Damit beruht die Berechnung des Tests ausschliesslich auf der Ordnung der Daten (grösser als, kleiner als). Die absoluten Abstände zwischen den Werten werden nicht berücksichtigt.

Hierbei werden die Messwerte mit Rängen versehen. Zunächst werden die einzelnen Messwerte gemäss ihrer Grösse (von den kleinsten Werten aufsteigend) aufgereiht (siehe Abbildung 1, Spalte „Konz“). Dies geschieht unabhängig von der Gruppenzugehörigkeit (Spalte „Gruppe“). Danach werden die Messwerte rangiert (von 1 ausgehend und aufsteigend) und getrennt für jede Gruppe notiert. Diese Ränge sind in Abbildung 1 in den Spalten „Ränge ‚Kein Vitamin'“ bis „Ränge ‚4x Vitamin'“ enthalten. Kommt ein Messwert mehrfach vor (engl. „ties“), so werden sogenannte „verbundene Ränge“ gebildet. Wenn beispielsweise Rang 5 und 6 beide die gleichen Messwerte aufweisen, wird aus diesen beiden der Mittelwert gebildet ((5 + 6)/2 = 5.5) und die Ränge 5 und 6 werden neu beide mit dem Rang 5.5 versehen. Dies ist im vorliegenden Beispiel für die Ränge 1 und 2 (mittlerer Rang: (1+2)/2 = 1.5), sowie 17 bis 19 der Fall (mittlerer Rang: (17+18+19)/3 = 18).

Schliesslich werden aus diesen ermittelten Rängen sogenannte Rangsummen gebildet (siehe Abbildung 1, Zeile „Rangsummen“). Hierfür werden lediglich die Ränge der jeweiligen Gruppe aufsummiert. Dies ergibt eine Rangsumme von 35 für die Gruppe ohne Vitamin (n = 7), 40 für die Gruppe mit einer Dosis pro Woche (n = 4) und 115 für die Gruppe mit 4 Dosen (n = 8). Zur Berechnung der Teststatistik H werden diese Rangsummen verwendet:

mit

= Rangsummen für jede Gruppe
= Gesamtstichprobengrösse
= Grösse der einzelnen Gruppe
= Anzahl Gruppen

 

Für das vorliegende Beispiel ergibt dies:

Liegen verbundene Ränge vor, so muss die Prüfgrösse korrigiert werden:

mit

= Anzahl verbundene Ränge
= Anzahl Rohdatenwerte, die im j-ten Rangplatz stehen

 

Da beim Beispiel verbundene Ränge vorliegen, muss die Korrekturformel angewandt werden. Es liegen zweimal verbundene Ränge vor (daher m = 2): Ränge 1 und 2 (daher t1 = 2) sowie 17 bis 19 (daher t2 = 3). Dies ergibt:

Signifikanz der Teststatistik

Der berechnete Wert muss nun auf Signifikanz geprüft werden. Je nach Stichprobengrösse gilt die Teststatistik als asymptotisch Chi-Quadrat-verteilt. Sie gilt als Chi-Quadrat-verteilt, wenn:

  • mehr als fünf Gruppen vorliegen
  • fünf Gruppen vorliegen, von denen jede mindestens 4 Probanden umfasst
  • vier Gruppen vorliegen, von denen jede mindestens 5 Probanden umfasst
  • drei Gruppen vorliegen, von denen jede mindestens 9 Probanden umfasst

Ist keine dieser Bedingungen erfüllt, so wird auf einen exakten Test zurückgegriffen. Dies ist im vorliegenden Beispiel der Fall. Die Berechnung wird hier nicht näher erläutert, ist aber in der Anwendung in SPSS als Option einfach anzuwählen.

Kann von einer Chi-Quadrat-verteilten Teststatistik ausgegangen werden, so muss die Teststatistik mit dem kritischen Wert der durch die Freiheitsgrade bestimmten Chi-Quadrat-Verteilung verglichen werden. Dieser kritische Wert kann Tabellen entnommen werden. Für das vorliegende Beispiel betrüge der kritische Wert 5.99 bei df = 2 und α = .05. Ist der Betrag der Teststatistik höher als der kritische Wert, so ist der Unterschied signifikant. Dies wäre für das Beispiel der Fall (10.41 > 5.99). Es könnte daher davon ausgegangen werden, dass sich die zentralen Tendenzen unterscheiden (Chi-Quadrat(2) = 10.41, p = .002).

3. Kruskal-Wallis-Test mit SPSS

3.1. SPSS-Befehle

SPSS-Menü: Analysieren > Nicht-parametrische Tests > Klassische Dialogfelder > K unabhängige Stichproben

Abbildung 2: Klicksequenz in SPSS

Abbildung 2: Klicksequenz in SPSS

Hinweise

  • Bei Bereich definieren wird der Wertebereich der Gruppenvariable angegeben, der die zu vergleichenden Gruppen abdeckt (hier: Werte 1, 2, 3).
  • Aufgrund der Stichprobengrösse wird Exakt statt (nur asymptotisch) angewählt. So wird zusätzlich die exakte Signifikanz ausgegeben (siehe Abschnitt „Signifikanz der Teststatistik“).

SPSS-Syntax

NPAR TESTS
K-W=Konz BY Gruppe(1 3)
/MISSING ANALYSIS
/METHOD=EXACT TIMER(5).

3.2. Ergebnisse des Kruskal-Wallis-Tests

Abbildung 3: SPSS-Output – Verteilung der Ränge

Abbildung 3: SPSS-Output – Verteilung der Ränge

Die Tabelle „Ränge“ (Abbildung 3) zeigt die Gruppengrössen und den gemittelten Rang der Gruppen (Rangsumme dividiert durch die Gruppengrösse). Ein Vergleich der mittleren Ränge zeigt, dass die Gruppen eine unterschiedliche zentrale Tendenz aufweisen könnten. Wären sie in etwa gleich rangiert, so wiesen sie einen ähnlichen mittleren Rang auf.

Abbildung 4: SPSS-Output – Teststatistik

Abbildung 4: SPSS-Output – Teststatistik

Abbildung 4 zeigt das Ergebnis des Tests. Wie bereits erläutert, wird bei drei Gruppen und Gruppengrössen < 9 auf die exakte Signifikanz zurückgegriffen: Für das Beispiel wird eine exakte Signifikanz von .002 ausgegeben. Also kann davon ausgegangen werden, dass es Unterschiede bezüglich der zentralen Tendenzen der Gruppen gibt (Chi-Quadrat(2) = 10.407, p = .002). Allerdings lässt sich aufgrund dieses Tests nicht bestimmen, welche der drei Gruppen sich signifikant voneinander unterscheiden. Es ist denkbar, dass sich lediglich ein Paar signifikant unterscheidet und zwischen den übrigen keine signifikanten Unterschiede vorliegen.

3.3. Post-hoc-Tests

Obwohl der Kruskal-Wallis-Test zeigt, dass tatsächlich ein Effekt der Gruppenzugehörigkeit auf die Konzentration besteht, müssen Post-hoc-Tests durchgeführt werden, um zu bestimmen, welche Gruppen sich signifikant unterscheiden.

Dunn-Bonferroni-Tests

Post-hoc-Tests können einfach durchgeführt werden, sofern der Kruskal-Wallis-Test nicht über übersichtlicheren „Klassischen Dialogfelder“, sondern über die neueren Dialoge durchgeführt wurde: Analysieren > Nichtparametrische Tests > Unabhängige Stichproben (siehe Abbildungen 6 und 7). Bei den derart durchgeführten Post-hoc-Tests handelt es sich um Dunn-Bonferroni-Tests.

Abbildung 5: SPSS-Output – Erstellen von Post-hoc-Tests

Abbildung 5: SPSS-Output – Erstellen von Post-hoc-Tests

Abbildung 6: SPSS-Output – Ergebnisse der Post-hoc-Tests

Abbildung 6: SPSS-Output – Ergebnisse der Post-hoc-Tests

Abbildung 7: SPSS-Output – Ergebnisse der Post-hoc-Tests

Abbildung 7: SPSS-Output – Ergebnisse der Post-hoc-Tests

Es zeigt sich, dass sich lediglich die Gruppen „kein Vitamin“ und „viermal Vitamin“ signifikant unterscheiden (z = -3.226, p = .004).

3.4. Berechnung der Effektstärke

Um die Bedeutsamkeit eines Ergebnisses zu beurteilen, werden Effektstärken berechnet. Im Beispiel ist der Unterschied der zentralen Tendenzen zwar signifikant, doch es stellt sich die Frage, ob der Unterschied gross genug ist, um ihn als bedeutend einzustufen.

Es gibt verschiedene Arten die Effektstärke zu messen. Zu den bekanntesten zählen die Effektstärke von Cohen (d) und der Korrelationskoeffizient (r) von Pearson. Der Korrelationskoeffizient eignet sich sehr gut, da die Effektstärke dabei immer zwischen 0 (kein Effekt) und 1 (maximaler Effekt) liegt. Wenn sich jedoch die Gruppen hinsichtlich ihrer Grösse stark unterscheiden, wird empfohlen, d von Cohen zu wählen, da r durch die Grössenunterschiede verzerrt werden kann.

Da aufgrund von Post-hoc-Tests genauer eingegrenzt wurde, wo der Unterschied liegt, das heisst, welche Gruppen sich unterscheiden, ist oft weniger die Effektstärke des Kruskal-Wallis-Tests von Interesse, sondern eher die Effektstärke der einzelnen Vergleiche. Das bedeutet, dass die Effektstärke des Dunn-Bonferroni-Tests berechnet wird, die der Effektstärke eines Rangsummentests entspricht.

Zur Berechnung des Korrelationskoeffizienten r werden der z-Wert und die Stichprobengrösse (n) verwendet, die dem SPSS-Output entnommen werden können:

Für das obige Beispiel ergibt das folgende Effektstärke (mit den Werten des Dunn-Bonferroni-Tests):

Zur Beurteilung der Grösse des Effektes dient die Einteilung von Cohen (1992):

r = .10 entspricht einem schwachen Effekt
r = .30 entspricht einem mittleren Effekt
r = .50 entspricht einem starken Effekt

Damit entspricht eine Effektstärke von 0.83 einem starken Effekt.

3.5. Eine typische Aussage

Ein Kruskal-Wallis-Test zeigt, dass die Konzentrationsfähigkeit durch die Einnahme des Vitaminpräparats beeinflusst wird (Chi-Quadrat(2) = 10.407, p = .002). Anschliessend durchgeführte Post-hoc-Tests (Dunn-Bonferroni-Tests) zeigen, dass sich nur die Gruppen „kein Vitamin“ und „viermal Vitamin“ signifikant unterscheiden (z = -3.226, p = .004) sodass man annehmen kann, dass lediglich die höhere Dosierung des Vitaminpräparats den gewünschten Effekt der Konzentrationssteigerung bewirkt. Es handelt sich um einen starken Effekt nach Cohen (1992) mit r = .83.

top