Neben den Voraussetzungen gibt es noch andere problematische Datensituationen für die lineare Regression.
  1. Einflussreiche Datenpunkte (Extremwerte, Ausreißer) können die Parameterschätzung verzerren. Diese lassen sich in Residuenplots (in der Regressionsdiagnostik, siehe Codebeispiel) überprüfen. Was ist zu tun? Wenn die Ausreißerwerte recht sicher "falsch" sind (z.B. eine Reaktionszeit von 20ms, ein Fragebogenscore wo auf jedem Item immer 3 angekreuzt wurde, ...) sollten diese Werte generell ausgeschlossen werden. Bei anderen einflussreichen Datenpunkten sollte man idealerweise das Modell einmal mit und einmal ohne die Datenpunkte berechnen und berichten (ggf. verkürzt in der Art "Das Ergebnismuster änderte sich nicht unter Ausschluss der einflussreichen Datenpunkte").
  2. Multikollinearität, das bedeutet, dass die Prädiktoren auch untereinander korrelieren. Wenn die Multikollinearität hoch ist (z.B. paarweise Korrelationen der Prädiktoren von 0.80 und höher, oder auch Varianzinflationsfaktor > 10, siehe Codebeispiel) kann es zu Schätzproblemen kommen. Standardfehler der betroffenen Prädiktoren werden sehr groß (= Powerverlust) und die Schätzalgorithmen instabil. Was ist zu tun? Bei großen Stichproben ist hohe Multikollinearität kein Problem. Bei kleinen Stichproben sollten problematische Prädiktoren entweder aus dem Modell entfernt werden (manuell oder datengetrieben durch regularisierte Regressionen wie die Ridge-Regression) oder mehrere betroffene Prädiktoren aggregiert werden. Entgegen einem weit verbreiteten Mythos hilft die Zentrierung von Variablen nicht gegen das Problem der Multikollinearität (Dalal & Zickar, 2012). 

Modifié le: mercredi 11 décembre 2024, 10:56