By Philippe Wampfler — 24. Mai 2026

Die beste und die schlechteste denkbare Form der Beurteilung – Seepferdchenprüfung & Kriterienraster

Bevor ich mit dem heutigen Newsletter beginne, eine kleine Meta-Vorbemerkung (das Kursive überspringen, wenn ihr direkt zum Inhalt wollt).

In kritischen Kommentaren wird immer wieder angemerkt, meine Thesen oder Zuspitzungen seien zu wenig differenziert, man dürfe so komplexe Zusammenhänge nicht so schwarz und weiss darstellen. Weshalb versuche ich trotzdem, Argumente maximal zu verdichten und sie pointiert darzustellen?

Bestimmte Thesen ermöglichen es, Diskussionen zu beschleunigen. Wer zuerst Komplexität darstellt, um darauf aufbauend Verstehen zu ermöglichen, braucht viel Zeit und Energie dafür. Die Umkehrung (ich beginne dort, wo die Erwägung von Komplexität mich hingeführt hat), kann helfen, direkt über das ins Gespräch zu kommen, was wichtig ist.
Der Verweis auf Komplexität ist oft auch eine Entschuldigung, eine Ausrede, um Wertungen und Positionsbezüge aus dem Weg zu gehen. Wer zuspitzt, erzwingt Entscheidungen, macht sichtbar, wer wie denkt oder handelt.
Die Differenzierung ist bei mir immer da. Wer Texte von mir liest oder mit mir ins Gespräch kommt, wird nicht zu wenig Differenzierung vorfinden, sondern meistens zu viel. Die zugespitzten Thesen sind oft nur eine Reduktion von all dem, was in meinen Texten steht.
Thesen sind eine Einladung zum Weiterdenken, zu Kritik, zu Gesprächen. Mit pointierten Aussagen erlaube ich es anderen, den Finger auf die wunden Punkte zu legen, Argumente so zu formulieren, dass sie deutlich machen, wo Differenzierung wirklich nötig ist, selber weiterzudenken. Zu sagen, warum man eine Zuspitzung ablehnt, hilft, klarer zu denken und Zusammenhänge besser zu verstehen.

Nun zur heutigen Zuspitzung…

Das Ideal: Die Seepferdchen-Prüfung

Die ideale Prüfungsform ist die der Seepferdchen-Prüfung: Ein Kompetenznachweis mit Zielen, die zur Entwicklung von Lernenden passen und für sie eine zentrale Bedeutung haben. Sobald sie das können, was sie können sollten (und können wollen), zeigen sie es vor. Damit haben sie die Prüfung bestanden – pass/fail ist das einzig mögliche Prädikat. Die Bestehensquote ist hoch (>80%).

Weil allen klar ist, worin das Ziel besteht, ist Feedback oder eher Feedforward zentraler Bestandteil jedes Lernschritts. Jeder Versuch, bei dem das Ziel nicht erreicht wird, ist hilfreich und jedes fail immer ein «noch nicht erreicht». Diese Versuche sind nicht an einen Zeitpunkt gebunden, Schüler:innen können problemlos vor oder nach einem Termin zeigen, dass sie können, was sie können.

Die Seepferdchen-Prüfung ist damit sehr prozessbezogen, ihre primäre Funktion besteht darin, Lernprozesse zu strukturieren und Teilerfolge zu ermöglichen. Sie kann aber auch dafür benutzt werden, um Lernende Gruppen zuzuweisen (alle, die an denselben Fertigkeiten arbeiten, kommen in eine Gruppe), die wenig über ihr Potential oder ihren Wert aussagen.

Sportliche Nachweise können zudem klar einer Person zugeordnet werden. Selbstverständlich profitiert sie von Hilfe beim Training und von unbeeinflussbaren körperlichen Gegebenheiten, so dass es auch hier wenig sinnvoll ist, von einer «Leistung» zu sprechen. Die Seepferdchen-Prüfung kann aber klar eine Kompetenz attestieren und muss nicht simulierte oder gefälschte Kompetenznachweisen von echten unterscheiden.

Kriterienraster – die schlechteste Form der Bewertung

Wenn Lernende in der Schule Kompetenzen nachweisen, dann erstellen sie fast immer Lernprodukte. Schreibe oder spreche ich darüber, dann entsteht fast immer die Diskussion, wie denn Lernprodukte bewertet werden können. Die naheliegende Lösung für viele Lehrpersonen: Mit einem Kriterienraster.

Die Schüler:innen erhalten also einen Auftrag, ein Lernprodukt zu erstellen – z.B. ein Poster zu einem bestimmten Thema. Damit sie wissen, wie die Bewertung später erfolgt, gibt die Lehrperson ihnen ein Kriterienraster ab, das sie dann auch benutzt, um eine Note zu erstellen. Die Bewertung, so sagen Lehrkräfte, erfolge damit «transparent» – sie meinen damit, dass die Schüler:innen immer wüssten, worauf die Bewertenden Wert legen.

Ein (gutes) Kriterienraster sieht ungefähr so aus (ich habe es für einen kritischen Aufsatz zu diesem Instrument erstellt):

Was soll daran schlecht sein?

Das Kriterienraster verkleidet Willkür als Objektivität.
Beim Erstellen und Ausfüllen eines Kriterienrasters fällt eine Lehrperson eine Vielzahl von Entscheidungen, die auch komplett anders ausfallen könnten. Warum gibt es für die Strukturierung gleich viele Punkte wie für den Gehalt der Sachinformationen? Wann sind Übergänge «elegant»? Was ist eine «gute» Qualität für eine Abbildung?
Das sind nicht Fragen, die sich mit anderen Kriterienrastern lösen lassen, sondern Aspekte eines Bewertungsprozesses, die unumgänglich sind: Eine Person muss ein Urteil fällen, das nicht objektiv ist. So zu tun, als wäre es objektiv, ist unehrlich und pädagogisch problematisch.
Man kann das leicht testen, indem man unterschiedliche Personen mal fragt, wie viele Punkte sie bei einem Kriterium geben würden (ohne dass sie sich austauschen dürfen). Dann wird immer sichtbar, dass hier eine willkürliche Einschätzung vorgenommen wird.
Das Kriterienraster wählt aus vielen Qualitäten wenige aus.
Wenn Schüler:innen ein Lernprodukt wie ein Poster erstellen, dann geben sie sich bei gewissen Dinge grosse Mühe. Vielleicht zeichnen sie Darstellungen von Hand und verwenden Stunden auf liebevolle Zeichnungen, die dann beim Einscannen etwas unscharf werden. Die Lehrperson zieht einen Punkt ab, sie kann im Raster gar nicht berücksichtigen, was die Lernenden (auch) geleistet haben.
Kriterienraster können solche Missverständnisse nicht ausschliessen. Menschen haben unterschiedliche Vorstellungen, was ein Poster leisten sollte oder was bei der Erstellung eines Posters wichtig ist. Im Kriterienraster stehen ausgewählte, die auch ganz anders aussehen könnten.
Kriterienraster kommen zu spät.
«Wenn wir das gewusst hätten, dann hätten wir…» sagen Schüler:innen oft, wenn sie die Kreuze und Punkte auf einem Kriterienraster sehen. Nur: Dann ist es halt vorbei. Kriterienraster werden als summative Rückschau benutzt, sie ermöglichen kein Feedforward.
Kriterienraster sind hart und in normative Bewertungsprozesse eingebunden, was sie ebenfalls verstecken.
Erhält jemand 2/4 Punkten, dann fühlt sich das zumindest nach etwas an – obwohl das in der Verrechnung eine ungenügende Note ist. Lehrpersonen fällt es leichter, 2/4 Punkten zu geben statt zu sagen, dass die Arbeit von Schüler:innen nicht genügt.
Warum brauchen Bewertende diesen Trick? Weil sie Kriterienraster benutzen, um schlechte Noten zu verkaufen, die sie geben müssen, weil sie ihre Notengebung an einer Normalverteilung orientieren. Schulen und verinnerlichte Normen zwingen Lehrpersonen dazu, Schüler:innen schlechte Noten zu geben – Kriterienraster sind ein Instrument, das ihnen dabei hilft.
Kriterienraster erschweren es Schüler:innen, sich über schlechte und unfaire Bewertungen zu beklagen, weil diese als objektiv und «transparent» verkauft werden.
Kriterienraster machen Entscheide diffus.
Gute Entscheide verantworten die Personen, die sie fällen. Auch beim Ausfüllen von Kriterienrastern entscheidet sich eine Lehrperson für eine bestimmte Note für ein abgegebenes Lernprodukt. Durch das Kompetenzraster sieht das so aus, als ob die Note lediglich errechnet worden sei, weil der Entscheid in mehrere kleine Teilentscheide zerstückelt wird, die wie reine Beobachtungen wirken. Schüler:innen können nicht mehr fragen: «Warum bewerten Sie mein Poster mit der Note x?».

Der Vergleich – und die Schlussfolgerung

Mit Claude habe ich die relevanten Aspekte als Vergleich noch einmal dargestellt:

Dimension	Seepferdchen-Prüfung	Kriterienraster
Zweck	→Lernprozesse strukturieren, Teilerfolge ermöglichen	→Summative Bewertung und Notengebung
Ergebnis	→Pass / Fail – binär und klar	→Punktzahlen und Noten auf einer Skala
Objektivität	→Kompetenz ist sichtbar und eindeutig nachweisbar	→Willkür, die als Objektivität verkleidet ist
Zeitpunkt	→Flexibel – kein fixer Termin, jederzeit möglich	→Fest – summative Rückschau nach Abgabe
Feedback	→Feedforward integriert in jeden Lernschritt	→Zu spät – das Produkt ist bereits fertig
Fehlversuch	→«Noch nicht erreicht» – hilfreich und produktiv	→Schlechte Note – stigmatisierend
Transparenz	→Ziel für alle klar und sinnvoll	→Scheinbare Transparenz verdeckt Ermessensspielraum
Vollständigkeit	→Eine definierte Kompetenz wird geprüft	→Wählt willkürlich wenige Qualitäten aus vielen aus
Bestehensquote	→Hoch (>80 %), bewusst angestrebt	→An Normalverteilung orientiert – Versagen einkalkuliert
Funktion für Lehrperson	→Lernbegleitung und Gruppenbildung	→Hilft, schlechte Noten zu «verkaufen»
Widerspruchsmöglichkeit	→Kompetenz ist nachvollziehbar – Einwände möglich	→Erschwert Kritik durch Schein-Objektivität

Die beiden Bewertungs- und Prüfungsformen sind Extrempunkte oder Pole: Die tatsächliche Bewertungskultur an Schulen erfolgt irgendwo dazwischen. Diese Auslegeordnung hilft dabei, wo möglich und nötig, Korrekturen anzubringen.

Das ist nicht immer leicht: Lehrpersonen müssen Noten setzen und bewerten, sie müssen einen Kompetenzaufbau auch da anleiten, wo Schüler:innen keinen Sinn im Erwerb von Kompetenzen sehen, sie müssen in bestimmten Lektionen prüfen und können nicht bis zu 30 Schüler:innen bei komplexen Lernprozessen begleiten. Die Schule ist kein Schwimmkurs.

Aber: Wo immer es geht, würde ich hin zu klaren, binären Entscheidungen. Ich habe bei der Bewertung von Debatten schon diese Checkliste verwendet, die mehrere pass/fail-Entscheide kombiniert. Damit kann ich viele Probleme lösen, die bei Kriterienrastern vorhanden sind. Einen Schritt weiter kommt man aber nur, wenn man den Ungrading-Prozess vorantreiben kann und Noten an Bedeutung verlieren. (Die Pass/Fail-Idee könnte hier helfen – Schüler:innen und Studierende müssen Module, Kurse, Fächer, Semester, Jahre einfach bestehen. Bestehen sie nicht, dann erklärt man ihnen, warum nicht – man rechnet nicht, man gibt ihnen keine Zahlen, sondern Begründungen.)

Das Ideal: Die Seepferdchen-Prüfung

Kriterienraster – die schlechteste Form der Bewertung

Der Vergleich – und die Schlussfolgerung

Subscribe to Beurteilung & Unterricht