Bewertungen mit Kriterienrastern

Update Januar 2023:
Ich habe diesen Beitrag in der Zeitschrift Seminar in einer ausgearbeiteten Version publiziert. Link

* * *

Müssen Leistungen von Schüler*innen bewertet werden, ziehen viele Lehrpersonen Kriterienraster heran. Diese Raster können mit Punkten versehen werden, die dann wieder in Noten umgerechnet werden. Studierenden empfehlen ich, 20 Punkte zu nehmen, die dann ohne Taschenrechner in Schweizer Noten umgewandelt werden können. Z.B. 5 Kriterien à je 4 Punkte.

Ich gehe im Folgenden davon aus, dass Kriterienraster professionell eingesetzt und ausgefüllt werden, d.h.

Lernende kennen die Kriterien, bevor sie eine Leistung erbringen
die Kriterien sind sinnvoll ausgewählt und auf Lernleistungen bezogen
Lehrpersonen orientieren sich so stark wie möglich an einer kriterialen Norm.

Schauen wir uns das an einem Beispiel an: Schüler*innen gestalten ein Info-Poster zu einem Sachthema aus dem Unterricht. Wir setzen folgende Kriterien an, die sich sinnvollerweise auf die Aufgabenstellung beziehen:

korrekte und gehaltvolle Sachinformationen (4)
nachvollziehbare, dem Thema angemessene Strukturierung (4)
sinnvoll ausgewählte, aussagekräftige Zitate mit Quellennachweisen (4)
Informationen werden mit Bildern und Statistiken unterstützt, saubere Quellennachweise (4)
formal korrekt: orthografisch, grammatisch, typografisch (4)
Bonuspunkte für besonders konsequente oder ausgefallene Gestaltung (+2)

Was ist die Funktion eines solchen Rasters?

Es unterteilt die Note in Teilpunkte.
So zerfällt die Aufgabe der Bewertung in die Vergabe von Punkten,
was sie für Lehrpersonen effizienter machen kann,
und gleichzeitig bei Lernenden den Anschein von Transparenz und Objektivität erweckt.
Das Raster kann zudem Feedback ersetzen (oder als eine Form von Feedback eingesetzt werden).

Rubriks

Der letzte Punkt kann dazu führen, dass Rubriks benutzt werden, welche die einzelnen Punktewerte mit Leistungsbeschreibungen verknüpfen. Als Beispiel das erste Kriterium:

4 Punkte
die Sachinformationen stammen aus wissenschaftlichen Quellen, sind korrekt und vertiefen einen relevanten Aspekt des Themas

3 Punkte
die Sachinformationen stammen aus seriösen Quellen, sind weitgehend korrekt und beziehen sich direkt auf das Thema

2 Punkte
die Sachinformationen sind mehrheitlich korrekt und beziehen sich weitgehend aufs Thema

1 Punkt
Die Sachinformationen sind teilweise korrekt und beziehen sich teilweise aufs Thema

So formulierte Kritierienraster helfen auch Lehrpersonen dabei, Punkte schneller zu vergeben. Die Punkte haben eine Bedeutung für Lernende, sie sollten so nachvollziehen können, weshalb sie bei dem Aspekt 3 Punkte erhalten haben und nicht vier (weil z.B. ihre Quellen nicht wissenschaftlichen Ansprüchen genügen oder sich auf nebensächliche Aspekte beziehen).

Kritik

Kritik bedeutet eine Unterscheidung – die Wirkung von Rastern sind oft ambivalent. Wenn Noten gesetzt werden muss, sind sie nicht nur schlecht – aber manchmal durchaus. Das sollte in den folgenden Punkten deutlich werden.

Fokussierung
Raster legen fest, was in die Bewertung einfließt. Dadurch schließen sie vieles auch aus. Wenn jetzt ein Schüler ein Gespräch mit einer Fachperson geführt hat und dann die Informationen aus dem Gedächtnis auf sein Poster übertragen hat, macht er dabei vielleicht ein paar Fehler, dann kriegt er zwei Punkte. Die besondere Anstrengung, ein Gespräch zu führen, und die damit verbundenen Erkenntnisse und Lernprozesse können im Raster nicht berücksichtigt werden. Das ist ein massives Problem, weil bei vielen Lernleistungen wesentliche Elemente nicht in die Bewertung einfließen.
Gleichzeitig liegt darin auch eine Stärke: Der Schüler weiß aufgrund des Rasters, dass das Gespräch und der damit verbundene Aufwand keines der Kriterien betrifft, die bewertet werden.
Auswahl und Gewichtung der Kriterien
Welche Kriterien an eine Leistung angelegt werden und wie sie gewichtet werden, ist grundsätzlich willkürlich. Wie wichtig ist, dass ein Poster orthografisch korrekt daherkommt? Einige Lehrpersonen würden sagen, mit sehr vielen groben Fehlern ist ein Poster schlicht nicht genügend, sowas kann man ja niemandem zeigen, egal wie gut es sonst ist. Andere würden sagen, ein schön gestaltetes, informatives Poster kann immer noch hervorragend sein, auch wenn es orthografisch nicht sauber überarbeitet wurde.
Natürlich gibt es Methoden, um diese Willkür einzuschränken: Sich etwa auf zentral vorgegebene Kriterien zu beziehen oder sie mit Klassen gemeinsam zu entwickeln. Letztlich hängen aber die Kriterienraster von kontingenten Faktoren ab.
Kriterienraster verstecken die Ungenauigkeit von Bewertungen
Indem Bewertungen aus Punkten für Teilkriterien abgeleitet werden, erwecken sie den Eindruck, die Bewertung erfolge
a) transparent
b) fair
c) kriterial.
Nichts von dem ist tatsächlich Fall. Beginnen wir von hinten: Auch eine Bewertung mit einem Kriterienraster enthält soziale und individuelle Formen von Bewertung. Bewertende vergleichen, wie sie Kriterienraster ausfüllen, sie tun das nicht isoliert. Sie achten darauf, dass die Klasse nicht zu gut bewertet wird, sie konstruieren die Raster sogar so. Deshalb sind sie auch nicht fair, sondern durch alle Bewertungsfehler verzerrt, die es gibt. Weil Lehrpersonen oft aufgrund eines Gesamteindrucks die Bewertung von Kriterien anpassen, sind die Raster auch viel weniger transparent, als man denkt: Ausschlaggebend für die tatsächliche Bewertung sind oft Eindrücke, die nicht direkt von den Kriterien festgehalten werden. Die Lehrperson, die denkt, die große Schwester habe einem Schüler beim Plakat geholfen, beurteilt es entsprechend härter – ohne das in einem Kriterium auszuweisen.
Das Punkteproblem
Wie gut sind 6 von 8 möglichen Punkten, 1 von 2, 3 von 4? Das ist schwer zu berechnen. Kriterienraster kombinieren, gerade wenn sie unterschiedlich viele Punkte verwenden und zudem noch kompliziert gewichtet sind, verschiedenste Bewertungsformen. 1 von 2 Punkten ist 50% – das ist in der Schweiz ungenügend. 3 von 4 Punkten entspricht 75% – das ist keine gute Leistung mehr. Lehrpersonen können so leicht Punkte abziehen, ohne dazu stehen zu müssen, wie hart die Beurteilung ist. Am Schluss rechnen sie alles zusammen und kommen auf eine scheinbar faire, transparente Note – die sich dann aber wieder aus Punktebewertungen zusammensetzt, die als Note ausgedrückt inakzeptabel wären.
Reduktion und Schematisierung von Feedback
Feedback ist enorm lernwirksam, sollte aber von Lernenden eingefordert werden und auf ihre spezifische Situation abgestimmt sein. Kriterienraster, gerade auch in der Form von Rubriks, ersetzen oft andere Formen von Feedback. Dabei scheinen sie objektiver zu sein. Sie enthalten aber keine persönlichen Anteile und Gewichtungen mehr, sondern sind gleichartige Formulare, mit denen das Besondere und Eigenständige an Arbeiten von Schüler*innen kaum gewürdigt werden kann. Wirksamere Feedbackformen werden dadurch verdrängt.

Die Alternative(n)

Selbstverständlich gibt es eine ganze Reihe von Alternativen zu Kriterienrastern oder Rubriks. Ich empfehle hier eine: ganzheitliche Bewertung plus Rückmeldung (im Gespräch).

Ideal wäre, eine Lehrperson würde ein Poster mit Lernenden dialogisch besprechen. Nachfragen, was sich die Schülerin oder der Schüler überlegt hat, wo Schwerpunkte gesetzt wurden etc. Danach eröffnet die Lehrperson eine Beurteilung, die sie auch begründet.

Die beiden Elemente können auch verkürzt und modifiziert werden: An die Stelle eines Gesprächs kann ein kurzer Text treten, eine Videobotschaft etc. Die Beurteilung erfolgt aber ganzheitlich, die Lehrperson verantwortet sie, ohne sie zu zerstückeln. Das erfordert oft Mut und pädagogisches Geschick, ist aber in vielen Fällen ehrlicher und wirksamer als ein Formular. Es macht deutlich, dass hier ein Mensch einen anderen beurteilt oder beurteilen muss – und nicht quasi-objektive Kriterien an eine Arbeit angelegt werden.

Eine empirische Untersuchung

Pauline Schröter und andere haben 2022 verschiedene Formen zur Bewertung von Abituraufsätzen untersucht (pdf, ab S. 213). »Analytische Erwartungshorizonte« enthalten Kriterien, die separat zu bewerten sind, bevor eine Gesamtbewertung erfolgt, bei »holistischen Erwartungshorizonten« ist das nicht der Fall.

Die Untersuchungen zeigen eine enorme Varianz von Bewertungen. Diese Unterschiedlichkeit hat nichts damit zu tun, ob ein genaues Kriterienraster vorliegt oder nicht, wie folgende Tabelle zeigt. Bei der Aufgabe »Damals« weichen die Korrigierenden im Mittel 1.71 Notenpunkte vom Mittelwert ab (maximal gibt es 15 Notenpunkte), wenn sie ein Raster verwenden – ohne Raster sind es 1.82. Bei der Aufgabe »Sprachvariation« beträgt die durchschnittliche Abweichung 2.45 mit Raster und 2.14 ohne.

Die untersuchten Lehrpersonen wurden auch befragt – dabei zeigen sich einige der oben erwähnten Probleme recht deutlich:

Die sehr aktuelle Untersuchung zeigt im Hinblick auf die Aufsatzkorrektur, dass Kriterienraster Bewertungen nicht präziser machen, Lehrpersonen aber fokussierter korrigieren lassen – was auch dazu führt, dass nicht alle Leistungen der Lernenden wahrgenommen werden.

Zum Schluss: Eine literarische Darstellung

Till Raether beschreibt in seinem Danowski-Krimi Neunauge, wie eine Lehrerin das Vorlesen von Grundschüler*innen mit einem Kriterienraster bewertet und was das bei ihr bewirkt:

Vorlesen war ja auch was Schönes. Aber es gab Tage, da begriff sie das ganze System nicht mehr, diesen Grundgedanken, immer alles zu bewerten
und zu beurteilen. […] Tuğba Schelzig hatte einen Zettel mit Bewertungspunkten vor sich, auf dem sie jedem Kind in ihrer Klasse Punkte gab für Textauswahl, Lesegeschwindigkeit, Aussprache und Betonung. Sie lehnte sich ans Fensterbrett und nickte Emilia zu, während sie noch dabei war, Emils kleine Lesung aus Die Olchis fliegen zur Müllkippe nach Punkten zu bewerten.
Der auf Umweltschutzpapier fotokopierte Zettel tanzte vor ihren Augen, seltsam feierliche Lichtgirlanden liefen ihr am Rand des Gesichtsfeldes entlang. Waren das jetzt insgesamt 16,5 oder 17 Punkte? Das hing davon ab, ob sie Emil für die Betonung anderthalb oder zwei Punkte gab. Sie haderte mit sich. Emilia las schon. Stockend? Oder auf abwartende Weise flüssig? Es gab Tage, an denen wurde ihr das alles zu viel.