Wie wähle ich meine Prädiktoren aus?
Hier erfährst du etwas über Schrittweise Regression und Best-Subset Selection und Commonality-Analyse
Zur Auswahl von Prädiktoren gibt es verschiedene Vorgehensweisen. Im Idealfall erfolgt sie theoriegeleitet.
Manchmal möchte man bei einer großen Auswahl an Prädiktoren aber auch datengetrieben vorgehen. Dabei ist es prinzipiell möglich, einfach das volle Modell mit allen Prädiktoren zu schätzen, was jedoch häufig aufgrund von Multikollinearität (s.o.) zu großen Standardfehlern und damit geringer Power für einzelne Effekte führt, zusätzlich zur Gefahr der Alphafehlerkumulierung, die bei mehrfachem Testen grundsätzlich auftritt. Idealerweise kann man hier stattdessen theoriegeleitet schrittweise Blöcke von Prädiktoren aufnehmen, angefangen mit den inhaltlich relevantesten Prädiktoren, und diese Modelle dann anhand ihrer Modellgüte vergleichen.
Eine alternative zum theoriegeleiteten Vorgehen ist das datengetriebene Vorgehen.
Alternativ kann eine Best-Subset-Selection erfolgen (R-Paket z.B. https://rdrr.io/cran/MuMIn/man/dredge.html) auf Basis des ausgegebenen AICc (Informationskriterium). Dabei werden einfach alle möglichen
Modelle geschätzt und verglichen. Mit dem argument
"fixed" können dort auch theoretisch begründet Prädiktoren spezifiziert werden, die in jedem Subset enthalten sein sollen. Darüber hinaus gibt es Verfahren um mittels Machine Learning Algorithmen aus einer großen Auswahl nützliche Prädiktoren auszuwählen (z.B. Lasso- oder Ridge-Regression; McNeish, 2015).