Voraussetzungen und wie sie zu prüfen sind
Grundsätzlich gilt: Theoretische Überlegungen und grafische/deskriptive Prüfungen (auch genannt "Regressionsdiagnostik") sind besser, als die Voraussetzungen zu testen und dann auf Basis des Tests eine Analyseentscheidung zu treffen! Warum ist das so? Ob der Test signifikant ist oder nicht liefert nämlich keine Information über die schwere der Voraussetzungsverletzung. Die Stärke der Voraussetzungsverletzung ist aber zentral, um zu entscheiden, wie damit umzugehen ist. Beispielsweise ist eine leicht schiefe Verteilung der Residuen bei N = 300 für die Ergebnisse einer Regression unproblematisch, der Test auf Normalverteilung würde aber ggf. dennoch signifikant werden, da mit steigender Stichprobengröße auch kleine Abweichungen von der Normalverteilung detektiert werden. In einer Stichprobe von N = 20 würden jedoch schon kleine Abweichungen von der Normalverteilung Probleme bei der Schätzung mit sich ziehen, doch hier hat der Normalverteilungstest gar nicht genug Power, um kleine Abweichungen zuverlässig zu detektieren.
Die Verletzungen der Annahmen haben unterschiedlich schwere Auswirkungen und sind hier mit absteigender Relevanz aufgelistet:
- Korrekte Spezifikation des Modells (manchmal auch Linearitätsannahme genannt): Die Zusammenhänge, die im Modell formuliert werden, sollten das "wahre" Modell (also wie die Daten tatsächlich entstanden sind) möglichst gut abbilden. Das bedeutet,
es dürfen keine Variablen oder Interaktionen im Modell fehlen und quadratische oder kubische Effekte müssen extra spezifiziert werden. Was ist zu tun? Diese Voraussetzung muss vor allem auf Basis von theoretischen Überlegungen geprüft werden, auffällige Residuenplots (z.B. eine U-Form im Residuals vs Fitted plot) können auch ein Hinweis sein. Bestimmte Formen von Zusammenhängen (exponentielle Funktionen z.B.) können in der linearen Regression nicht gut abgebildet werden, aber zum Beispiel mittels des Generalisierten Linearen Modells.
- Verteilungsannahmen an die Regressionsresiduen (Achtung! Die Verteilung der Residuen ist nicht gleich der Verteilung der AV und auch nicht der UV!):
- Unabhängigkeit der Residuen: Die Datenpunkte dürfen sich nicht systematisch (un-)ähnlich sein. Probleme können zum Beispiel bei geschachtelter Stichprobenziehung (Cluster-Erhebung), bei Gelegenheitsstichproben im (tendentiell eher homogenen) Bekanntenkreis oder wenn Personen mehrmals im Datensatz vertreten sind auftreten. Die Voraussetzung muss anhand der Datenerhebungsmethode inhaltlich geprüft werden. Wenn eine klare genestete Abhhängigkeitsstruktur plausibel ist, kann die Intraklassenkorrelation als Maß der Abhängigkeit berechnet werden. Serielle Abhängigkeit (z.B. von einem Messzeitpunkt zum nächsten innerhalb der selben Person) kann mittels Durbin-Watson Test getestet werden. Was ist zu tun? Je nach Datenstruktur müssen entweder Beobachtungen aus dem Datensatz ausgeschlossen werden oder die Abhängigkeit im Modell berücksichtigt werden (bspw. eine ANOVA mit Messwiederholung (within-Faktor) oder ein Multilevelmodell, oder auch Cluster-robuste Standardfehler). Eine gute Übersicht zu dem Thema findet sich auch bei McNeish (2023).
- Homoskedastizität der Residuen: Die Varianz der Residuen darf sich nicht systematisch mit einem Prädiktor oder dem Kriterium verändern, sonst ist der entsprechende Standardfehler des Prädiktors und damit der Signifikanztest verzerrt. Heteroskedastizität lässt sich in einem Residuenplot in der Regressionsdiagnostik erkennen. Was ist zu tun? Sollte der Verdacht bestehen, dass Heteroskedastizität vorliegt, wird empfohlen keinen Voraussetzungstest zu berechnen, sondern direkt robuste Standartfehler zu verwenden. Für eine Stichprobe N < 250 sollte bevorzugt die HC3 Korrektur (auch White-Korrektur genannt, siehe R Code in diesem Abschnitt) genutzt werden. Bei Stichproben N > 250 kann auch eine der anderen HC Korrekturen verwendet werden (HC0 – HC3), da alle bei größeren Stichproben zu ähnlichen Ergebnissen führen (Long & Ervin, 2000). Zu bedenken ist außerdem, dass die Verwendung von robusten Standartfehlern allgemein zu einer geringeren Power führt, dafür wird sichergestellt, dass das alpha-Niveau eingehalten wird.
- Normalverteilung der Residuen: Je kleiner die Stichprobe, desto stärker beeinflusst eine Abweichung der Residuen von der Normalverteilung die Standardfehler und damit den Signifikanztest. In Stichproben mit N < 30 sollte auf jeden Fall grafisch auf Decken- / Bodeneffekte (Schiefe) oder auch bimodale (zweigipflige) Verteilungen geprüft werden, unimodale und symmetrische Verteilungen sind dagegen unproblematisch. Die Verteilung der Residuen lässt sich in einem Residuenplot in der Regressionsdiagnostik erkennen. Was ist zu tun? Gegebenenfalls muss auf ein anderes Modell ausgewichen werden (z.B. ein nicht-parametrisches Modell, Standardfehler über Bootstrapping, oder ein Modell in dem die Verteilung der Residuen flexibler modelliert werden kann, beispielsweise im Generalisierten Linearen Modell). Warnung: In sehr kleinen Stichproben (<20) funktionieren auch alle Alternativen nicht mehr besonders gut.
Hinweis: Decken- und Bodeneffekte können auch zu seltsamen Residuenplots und Ergebnissen führen und sollten auch überprüft werden, indem du dir die Verteilung der Variablen in einem Histogram anschaust.
Beispiele für auffällige und unauffällige Residuenplots:.
Im Folgenden sind mehrere Plots zu sehen, die bei der
Voraussetzungsprüfung von linearen Regressionsmodellen verwendet werden.
Allgemein werden dabei die Residuen bzw. die standardisierten Residuen
(Y-Achse) bezüglich ihrer Verteilung in der jeweiligen Voraussetzung
Normalverteilung, Homoskedastizität
und Linearitätsannahme (je nach X-Achse) untersucht. Die gestrichelte graue
Linie ist dabei immer eine Orientierung für den Idealfall, dass die
Voraussetzung perfekt erfüllt ist. Die rote Linie in den ersten 3 Plots
sind Loess Kurven. Die Loess Kurven zeigen eine zentrale Tendenz der Residuen an und helfen so, Voraussetzungsverletzungen
leichter ausfindig machen (Vergleich mit der gestrichelten Ideallinie). Die
Punkte sind die Werte der Residuen, die möglichst in den ersten beiden Plots
möglichst zufällig bzw. gleichmäßig nach links und rechts und nach oben und
unten verteilt sein sollten. Die Pfeile in der Abbildung markieren den
Bereich, wo sich in unserem Beispiel die Residuen nicht systematisch nach oben
und unten verteilen. Mögliche auffällige Datenpunkte (z.B:
Ausreißer mit sehr großen Residuen) werden mit der Zahl der ID (Zeile) im
Datensatz gekennzeichnet.
Hier ein Beispiel für auffällige Residuenplots:
plot(fit)
Hier ein Beispiel für unauffällige Residuenplots:
plot(fit)
Residual vs. fitted Plot:
Im Residual vs. fitted Plot (Abbildung 1 und Abbildung 5) kann man Nicht-lineare Zusammenhänge, ungleiche Fehlervarianzen (Heteroskedastizität) und Ausreißer erkennen. Fitted Values sind die geschätzten/vorhergesagten Werte der AV. Die Residuals ergeben sich aus der Differenz der beobachteten und der geschätzten Werte.Wenn das Modell der linearen Regression zu den Daten passt, dann sollten sich die Residuen zufällig um die Null-Linie (gestrichelt) verteilen. Ist die rote Loesslinie wie die gestrichelte Linie horizontal, dann kann von einem linearen Zusammenhang ausgegangen werden. Ansonsten, z.B. wenn sie u-förmig ist, dann gibt es einen nicht-linearern Zusammenhang. Anhand der Verteilung der Residuen (= der Punkte), lässt sich die Homoskedastizität prüfen. Bei einer gleichmäßigen Verteilung kann man diese annehmen, wenn sie z.B. sehr stark auffächern, also z.B. links weniger vertikal streuen als rechts (wie in Abbildung 1), dann ist die Annahme nicht erfüllt, sondern es liegt Heteroskedastizität vor. Die Ausreißer werden mit einer Zahl markiert, die die ID im Datensatz angibt.
Abbildung 5 Zeigt einen Plot, bei dem alles ok ist.Mit dem Q-Q-Plot (Abbildung 2 und Abbildung 6) wird die Annahme überprüft, ob die Residuen normalverteilt sind. Der Q-Q-Plot vergleicht die empirischen Werte/Quantile der Residuen aus der Stichprobe mit theoretischen Werten/Quantile, die sich ergeben würden, wenn die Residuen einer Normalverteilung folgen würden. Dementsprechend sollten bei dem Zutreffen der Normalverteilungsannahme die empirischen Quantile den theoretischen Quantilen entsprechen und die Punkte vollständig auf der gestrichelten Linie liegen.
Der QQ Plot ist hier in beiden Fällen insgesamt in Ordnung, wobei er im oberen Fall (Abbildung 2) in den Randbereichen leicht abweicht. Das ist bei realen Daten fast immer so und in dem Ausmaß wie im Plot dargestellt unproblematisch, so lange die Stichprobe nicht sehr klein ist.
Der Scale-Location Plot (Abbildung 3 und Abbildung 7) zeigt, ob sich die Residuen über den Wertebereich des Prädiktors gleichmäßig verteilen. Dadurch kann besonders gut die Homoskedastizität der Residualvarianzen überprüft werden. Folglich sollte sich eine horizontale Linie (rot) zeigen, um die sich die Punkte zufällig verteilen und an jeder Stelle gleich stark um die rote Line streuen. Der Scale Location Plot ist äquivalent zum Residual vs. fitted Plots (Abbildung 1 und Abbildung 5), nur dass hier die standardisierten Residuen und nicht die Residuen verwendet werden. Dadurch sind Probleme manchmal in der Grafik von der Scale Location und manchmal in der Grafik vom Residual vs. fitted Plot besser zu erkennen.

Quellen:
McNeish, D. (2023). A practical guide to selecting and blending approaches for clustered data: Clustered errors, multilevel models, and fixed-effect models. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000620
Luhmann, M. (2020). R für Einsteiger: Einführung in die
Statistik-Software für die Sozialwissenschaften: mit Online-Material (5.,
überarbeitete Auflage). Beltz. Verfügbar
über die Unibibliothek.
Abbildung 9: https://www.statology.org/residuals-vs-leverage-plot/