Warum ist die IRR wichtig?

Um sicherzustellen, dass alle Beteiligten die Einschlusskriterien einheitlich verstehen und anwenden, ist es sinnvoll, die Interrater-Reliabilität (IRR) zu prüfen – also die Übereinstimmung zwischen den Bewertungen der verschiedenen Personen.

Besonders während des Abstract-Screenings lohnt es sich, nach einer gewissen Anzahl an geprüften Artikeln die IRR zu berechnen. So kann frühzeitig erkannt werden, ob es Missverständnisse bei der Anwendung der Kriterien gibt.

IRR berechnen – so geht’s

Zunächst ist es wichtig, sich das Skalenniveau der Übereinstimmung und die Anzahl der Beurteiler:innen anzuschauen. Je nachdem ist eine andere Methode für die Berechnung der IRR notwendig.

Bei einem systematischen Review bewerten z.B. häufig zwei Rater, über Einschluss bzw. Ausschluss einer Studie. Dementsprechend liegt ein dichotomes nominales Skalenniveau mit zwei Beurteiler:innen vor, wofür Cohen’s Kappa ein gängiges statistisches Maß ist. Auch wenn nominalskalierte Variablen mit mehr als zwei Kategorien vorliegen, ist Cohen’s Kappa geeignet. Neben nominalen Bewertungen treten manchmal auch ordinale oder intervallskalierte Bewertungen auf. Für ordinalskalierte Variablen eignet sich ein gewichtetes Cohen’s Kappa (Weighted kappa). Bei der Berechnung der Übereinstimmung ist dabei auch die Größe der Abweichungen zwischen den Beurteiler:innen berücksichtigt. Je stärker die Abweichung, desto stärker wird diese bestraft.

Bei mehr als zwei Beurteiler:innen und kategorialen Variablen ist ein andere Methode notwendig. Die Forschung berechnet die Übereinstimmung meist mit Fleiss Kappa. Fleiss’ Kappa setzt voraus, dass die Rater zufällig auf die Objekte verteilt sind.
Das macht es besonders nützlich in Studien, wo nicht alle Rater jedes Objekt beurteilen, sondern unterschiedliche Subsets von Ratern beteiligt sind.

Für intervallskalierte Variablen ist der Intraclass Correlation Coefficient gängig. Der Intraclass Correlation Coefficient (ICC) ist ein Maß für die Zuverlässigkeit oder Übereinstimmung von metrischen Bewertungen, die von zwei oder mehr Ratern oder Messungen stammen.

Ein Beispiel zur Berechnung der verschiedenen Maße mit R findet ihr im Lehrportal.

Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159. doi:10.2307/2529310

Fleiss, J. L., & Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33(3), 613–619. https://doi.org/10.1177/001316447303300309

Zuletzt geändert: Mittwoch, 22. Oktober 2025, 17:23