Materialsammlung: Wie wähle ich meine Prädiktoren aus?

Zur Auswahl von Prädiktoren gibt es verschiedene Vorgehensweisen. Im Idealfall erfolgt sie theoriegeleitet.

Manchmal möchte man bei einer großen Auswahl an Prädiktoren aber auch datengetrieben vorgehen. Dabei ist es prinzipiell möglich, einfach das volle Modell mit allen Prädiktoren zu schätzen, was jedoch häufig aufgrund von Multikollinearität (s.o.) zu großen Standardfehlern und damit geringer Power für einzelne Effekte führt, zusätzlich zur Gefahr der Alphafehlerkumulierung, die bei mehrfachem Testen grundsätzlich auftritt. Idealerweise kann man hier stattdessen theoriegeleitet schrittweise Blöcke von Prädiktoren aufnehmen, angefangen mit den inhaltlich relevantesten Prädiktoren, und diese Modelle dann anhand ihrer Modellgüte vergleichen.

Eine alternative zum theoriegeleiteten Vorgehen ist das datengetriebene Vorgehen.

Alternativ kann eine Best-Subset-Selection erfolgen (R-Paket z.B. https://rdrr.io/cran/MuMIn/man/dredge.html) auf Basis des ausgegebenen AICc (Informationskriterium). Dabei werden einfach alle möglichen Modelle geschätzt und verglichen. Mit dem argument "fixed" können dort auch theoretisch begründet Prädiktoren spezifiziert werden, die in jedem Subset enthalten sein sollen. Darüber hinaus gibt es Verfahren um mittels Machine Learning Algorithmen aus einer großen Auswahl nützliche Prädiktoren auszuwählen (z.B. Lasso- oder Ridge-Regression; McNeish, 2015).

Wichtig bei der datengetriebenen Modellwahl ist, dass die Konfidenzintervalle und p-Werte der Regressionsgewichte des durch die Modellwahl gefundenen Modells grundsätzlich nicht mehr interpretiert werden dürfen (siehe z.B. Huang, 2019, Kuchibhotla et al, 2022).

Stepwise selection (schrittweise einzelne Prädiktoren ins Modell aufnehmen) sollte als Vorgehen vermieden werden. Insbesondere ist auch die Auswahl von Prädiktoren auf Basis der p-Werte der Regressionsgewichte kein geeignetes Vorgehen (sie sind nicht gut darin, die wahren Prädiktoren zu identifizieren, Burnham & Anderson 2004a und 2004b, Burnham et al., 2011).

Zuletzt geändert: Mittwoch, 11. Dezember 2024, 10:58