Grundsätzlich gilt: Theoretische Überlegungen und grafische/deskriptive Prüfungen sind besser, als die Voraussetzungen zu testen und dann auf Basis des Tests eine Analyseentscheidung zu treffen! Warum ist das so? Ob der Test signifikant ist oder nicht liefert nämlich keine Information über die schwere der Voraussetzungsverletzung. Die Stärke der Voraussetzungsverletzung ist aber zentral, um zu entscheiden, wie damit umzugehen ist. Beispielsweise ist eine leicht schiefe Verteilung der Residuen bei N = 300 für die Ergebnisse einer ANOVA unproblematisch, der Test auf Normalverteilung würde aber ggf. dennoch signifikant werden, da mit steigender Stichprobengröße auch kleine Abweichungen von der Normalverteilung detektiert werden. In einer Stichprobe von N = 20 würden jedoch schon kleine Abweichungen von der Normalverteilung Probleme bei der Schätzung mit sich ziehen, doch hier hat der Normalverteilungstest gar nicht genug Power, um kleine Abweichungen zuverlässig zu detektieren.

Die Verletzungen der Annahmen sind vom Prinzip her dieselben wie bei der Regressionsanalyse (siehe hier), aber aufgrund der typischen ANOVA-Versuchsdesigns und Daten ergeben sich ein paar Besonderheiten. Diese werden hier beschrieben. Die jeweiligen Voraussetzungsverletzungen haben unterschiedlich schwere Auswirkungen und sind hier mit absteigender Relevanz aufgelistet:

  • Korrekte Spezifikation des Modells: Die Zusammenhänge, die im Modell formuliert werden, müssen alle "korrekt" sein, es dürfen keine Variablen oder Interaktionen im Modell fehlen. Viele der Probleme, die es bei klassischen Regressionsdesigns auf Basis beobachteter Daten gibt (z.B. Konfundierungen durch Drittvariablen) fallen hier schon durch das experimentelle Design, das bei ANOVA meist zugrunde liegt, weg.  
  • Verteilungsannahmen an die Regressionsresiduen (Achtung! Die Verteilung der Residuen ist im Falle der ANOVA gleich der Verteilung der AV pro Zelle!):
  1. Unabhängigkeit der Residuen: Die einzelnen Datenpunkte dürfen sich nicht systematisch (un-)ähnlich sein, abgesehen von durch das Design beabsichtigen within-Faktoren (es darf z.B. nicht dieselbe Person in mehreren between-Gruppen teilnehmen, ...). Bei der Analyse ist wichtig, alle within-Faktoren auch als solche anzugeben. 
  2. Homoskedastizität (Varianzhomogenität) der Residuen: Die Varianz der Residuen (hier der AV) sollte sich nicht systematisch zwischen den Zellen unterscheiden. Die ANOVA ist bei großen, balancierten Stichproben gegen geringe Verletzungen der Homoskedastizitäts-Annahme robust. Man kann die Annahme grafisch durch Boxplots oder Violinenplots oder auch einfach Histogramme prüfen. Bei Verdacht auf eine Verletzung können bei einer full-between ANOVA die Standardfehler mittels der HC3-Methode (auch White-Korrektur genannt) korrigiert werden (Dafür muss die ANOVA als Regression spezifiziert werden, Code siehe Abschnitt Regression). Für t-Tests sollte generell der für Heteroskedastizität robuste Welch-t-Test verwendet werden. Einfache ANOVA-Designs können im Falle einer Verletzung der Homoskedastizität auch durch mehrere Welch-t-Tests ersetzt werden. 
  3. Außerdem gibt es bei der ANOVA die Annahme der Sphärizität, die jedoch nur bei Designs mit within-Faktoren mit mehr als 3 Stufen zu testen ist (z.B. 3 Messzeitpunkte). Hierbei geht es um die Gleichheit der Varianzen der Differenzen zwischen Faktorstufen. Diese wird mit dem Mauchly-Test getestet und üblicherweise mit Greenhouse-Geisser oder Huynh-Feldt Korrektur korrigiert. [Video]? (Nerdhinweis #3)
  4. Normalverteilung der Residuen: Je kleiner die Stichprobe, desto stärker beeinflusst eine Abweichung der Residuen von der Normalverteilung die Standardfehler und damit den Signifikanztest. In Stichproben mit N < 30 pro Zelle sollte auf jeden Fall grafisch die Verteilung der Residuen pro Zelle (hier also der AV pro Zelle) auf Decken- / Bodeneffekte (Schiefe) oder auch bimodale (zweigipflige) Verteilungen geprüft werden, unimodale und symmetrische Verteilungen sind dagegen unproblematisch. Bei starker Verletzung müsste auf ein anderes Modell ausgewichen werden (z.B. ein nicht-parametrisches Modell, oder eines in dem die Verteilung der Residuen flexibler modelliert werden kann, beispielsweise im Generalisierten Linearen Modell).

Hinweis: Decken- und Bodeneffekte sollten auch überprüft werden, indem du dir die Verteilung der AV pro Zelle in einem Histogram anschaust.  


Zuletzt geändert: Dienstag, 3. September 2024, 14:37