Schulnoten lassen keine Vergleiche zu – ein Studienergebnis aus Deutschland

Im September 2023 ist in der Zeitschrift für Erziehungswissenschaften eine Studie erschienen, die untersucht, ob Schulnoten Vergleiche zwischen Schüler:innen zulassen:

Alles eine Frage des Bundeslandes? Eine mehrebenenanalytische Betrachtung der eingeschränkten Vergleichbarkeit von Schulnoten - Zeitschrift für Erziehungswissenschaft
School grades have always been a controversial topic of discussion, especially with regard to their meaning and comparability. Their controversy is evident from various publications, some dating back to the 19th century. Recently, there have been debates in education policy, highlighting contradictions between the unclear meaning of school grades on the one hand and their great importance for selection and allocation processes on the other. A particular focus in recent discussions involves criticism of the lack of comparability of school grades from different federal states, which, many argue, could be overcome by a national education strategy and the dissolution of federal structures. This article uses these discussions as a starting point from which to examine the comparability of school grades in more detail. For this purpose, we provide a systematic breakdown of the contributions of different levels (within schools, between schools, between federal states) to the lack of comparability of school grades. The study is based on representative data from N = 55,002 students from the IQB Trends in Student Achievement 2015 and 2018 (Grade 9). Results suggest that students with the same school grades acquired substantially different competencies (and vice versa). Further, it was found that these differences can be explained substantially by differences between schools within states and much less by differences between federal states. The results illustrate that the debate on the limited comparability of school grades should focus not only on between-state comparability but also on mechanisms of grading and causes of grade differences between schools within states.

Im Folgenden fasse ich die wesentlichen Einsichten zusammen.

In der Einleitung diskutieren die Autor:innen die klassischen Gütekriterien von Schulnoten und fassen die Forschung zusammen. Zugespitzt konstatieren sie eine »geringe Konstruktvalidität«, eine »mäßige Reliabilität« sowie »mangelnde Objektivität«. Einzig die Prognosevalidität von Noten scheint solide zu sein: Sie sagen zukünftige Erfolge besser voraus als Leistungstests; wahrscheinlich, weil sie Arbeitshaltungen und Anpassungsfähigkeiten ebenfalls ausdrücken können.

Die Untersuchung zu Vergleichbarkeit orientiert sich an zwei Perspektiven:

  1. Vergleichbarkeit von Schulnoten wird als »Abweichung zwischen der tatsächlichen standardisierten Leistung (Kriterium) und der auf Basis der Note (Prädiktor) vorhergesagten standardisierten Leistung« definiert (S. 10).
  2. Die »Abweichung zwischen der tatsächlichen Note (Kriterium) und der auf Basis der standardisierten Testleistung (Prädiktor) vorhergesagten Note« ist ausschlaggebend für die Beurteilung der Vergleichbarkeit (bzw. Nicht-Vergleichbarkeit) (ebd.)

Die Studie wertete Noten und Leistungstests in Englisch und Mathematik für über 30'000 Schüler:innen aus. Das Ergebnis fiel wie folgt aus:

Bei einer Betrachtung der Befunde wird zunächst deutlich, dass Noten insgesamt nur einen überschaubaren Anteil der Variation der Testleistung erklären können (ca. 19 bis 27%). […] Darüber hinaus zeigte sich, dass der überwiegende Anteil der Leistungsvarianz bei identischen Noten und der Notenvarianz bei identischer Testleistung aus Unterschieden innerhalb von Schulen resultierte, gefolgt von Schulunterschieden und Bundeslandunterschieden. (S. 26)

Die Einsicht, dass insbesondere Schulen einen wesentlichen Anteil an der Abweichung von Noten zu standardisierten Tests haben, zeigt, dass Unterschiede zwischen Bundesländern weniger wichtig sind als angenommen.

Abschließend äußern die Autor:innen Zweifel daran, ob Noten überhaupt vergleichbar gemacht werden könnten:

Auf Basis der vorliegenden Studie drängt sich schließlich auch die Frage auf, ob eine über alle beteiligten Ebenen hinweggehende Vergleichbarkeit von Noten (a) überhaupt realistisch ist oder es sich hierbei nicht eher um ein unerreichbares Ziel handelt und (b), ob sie überhaupt erstrebenswert wäre (wenn dafür z. B. eine deutlich höhere Standardisierung der Bewertungsprozesse nötig wäre, die z. B. keine sozialen oder individuellen Entwicklungsverläufe berücksichtigt). Die Frage nach der Vergleichbarkeit ist eng verknüpft mit der Frage nach den Funktionen von Noten. Sollen diese primär zum Mikro-Management innerhalb der Klasse eingesetzt werden, beispielsweise zur formativen Leistungsrückmeldung oder Motivierung, nicht aber, um Schülerinnen und Schüler über Klassen und Schulen hinweg miteinander zu vergleichen, besteht möglicherweise gar keine Notwendigkeit Vergleichbarkeit für pädagogische Prozesse einzufordern. Zudem erscheint es in Anbetracht der zahlreichen, nahezu unmöglich in Gänze kontrollierbaren Faktoren, die zur eingeschränkten Vergleichbarkeit von Noten führen, praktisch kaum möglich zu sein, Noten vollends „vergleichbar zu machen“. Sollen Noten also für Vergleiche verwendet werden, stellt sich hier grundsätzlich die Frage, ob das „Herumdoktern“ an der Notenvergleichbarkeit nicht immer in Teilen „vergebliche Liebesmühe“ bleiben wird, weil es sich hierbei um eine „notwendige, aber kontrafaktische Annahme“ handelt.