Benotung von Maturarbeiten – wie hohe Erwartungen und Vergleiche unglücklich machen
Aktuell erhalten die Schüler:innen meiner Schule einen Teil ihrer Noten für die Maturarbeit. Das ist eine längere propädeutische Arbeit, die oft in Projektform durchgeführt wird. Die Lernenden arbeiten sich in ein Thema ein und führen während mehreren Monaten eine intensive Auseinandersetzung mit einer Fragestellung oder einem Ziel. Dafür erhalten sie eine Note, die für den Matura-Abschluss zählt (knapp 10% der Abschlussnote – in der Schweiz werden Noten von 1-6 vergeben, 4 ist 'genügend', 5 ist 'gut', 6 ist die beste Note).
Die Benotung dieser Arbeiten ist mit mehreren Problemen verbunden, die sich verstärken und sich gegenseitig bedingen. Bevor ich diese Probleme aufrolle, möchte ich kurz eine Lösung aufzeigen: Eine Beurteilung im pass/fail/excel-System. Den Arbeiten werden nur drei Prädikate zugewiesen:
- nicht bestanden – die Arbeit muss verbessert oder noch einmal gemacht werden
- bestanden – die Arbeit erfüllt die Bedingungen und wird mit Feedback gewürdigt, Stärken und Schwächen werden benannt
- herausragend – die Arbeit übertrifft die Erwartungen und wird zur Prämierung vorgeschlagen, weil sie über den Schulkontext hinaus bestehen kann
Diese Lösung ist deshalb sinnvoll, weil sie maximal klar ist und Vergleiche entfallen. (Sie könnte heute einfach umgesetzt werden, wenn Schulen sich auf drei Noten beschränken würden: 3.5, 5 und 6.) Das würde zu einer kleinen Umgewöhnung führen, könnte dieses einfachere System aber wirksam abbilden, wenn eine verrechenbare Note resultieren muss.
Das heute eingesetzte Verfahren hat mit folgenden Schwierigkeiten zu kämpfen:
- Viele Schüler:innen sind aufgrund von Vergleichen unzufrieden. Sie denken, andere hätten weniger geleistet und eine gleich gute oder bessere Note erhalten.
- Die hohen Erwartungen, die durch den hohen Arbeitsaufwand und die Intensität der Auseinandersetzung erklärt werden können, führen zu einem reduzierten Notenband. Nur 5.5 und 6 sind für engagierte Schüler:innen akzeptable Noten, alles darunter ist eine Kränkung.
- Das führt zu generell hohen Schnitten bei der Maturarbeitsbewertung, was die Notensprache unklar macht. Selbstverständlich unterscheidet sich die Notengebung in Physik von der in Geschichte, das war schon immer so. Aber die meisten Lehrpersonen bewegen sich im Schnitt zwischen 4.2 und 4.8 – die Noten der Maturarbeiten liegen bei allen Schulen über 5.
- Diese hohen Noten führen zu einer Unsicherheit im Kollegium. Wer eine Arbeit betreut, sieht sich oft als eher streng an, besonders weil auch die Zweitbeurteilenden (oft Kolleg:innen, manchmal externe Fachpersonen) meist kritisch sind. Viele Lehrpersonen argwöhnen aber, dass die anderen Beurteilenden eher grosszügig sind und spüren deshalb einen doppelten Druck, wohlwollend zu sein – durch die Erwartungen der Schüler:innen und die Vermutung, die anderen würden eher lockerer mit Noten umgehen, als man das selbst tut.
- In den letzten 20 Jahren ist es an Gymnasien üblich geworden, Kriterien- oder Bewertungsraster einzusetzen. Maturarbeiten zeigen deutlich, weshalb diese Raster nicht das leisten, was sich Lehrpersonen von ihnen versprechen (eine ausführliche Kritik dieses Beurteilungsverfahrens habe ich hier publiziert): entscheidend ist nur, welche Note rauskommt. Erfahrene Lehrpersonen bearbeiten diese Raster so lange, bis sie nicht bei 5.22 landen, sondern bei 5.26 oder 5.13, weil sie dann nicht über einzelne Punkte lange diskutieren müssen, sondern einigermassen klare Noten haben. Die Kriterienraster schaffen keine Vergleichbarkeit der Bewertungen, weil sie Subjektivität der Bewertung lediglich in eine Excel-Tabelle verschieben, statt sie schon von Anfang an deutlich zu machen. Nur weil statt einer subjektiven Entscheidung 20 gefällt werden, ändert das nichts daran, dass Noten nichts messen, sondern menschliche Einschätzungen sind. Würden die Raster so funktionieren, wie das Lehrpersonen Schüler:innen und sich selbst einreden, dann gäbe es bei Maturarbeiten keine hohen Schnitte.
- Generell sind die Arbeiten so individuell, dass sie sich kaum normieren und vergleichen lassen. Ich habe fünf Arbeiten bewertet – einen Podcast, eine Medienanalyse, eine Politikanalyse, einen Film über die Reparatur einer Vespa und ein Kochbuch. Hinter allen Arbeiten stehen beachtliche Leistungen, aber alle Arbeiten weisen auch Schwächen auf, in dem Sinne, dass man sie überarbeiten müsste, bevor man sie in einem professionellen Kontext publizieren könnte. Die Vorstellung, diese Individualität durch Raster einfangen zu können, ist fast absurd. Das hängt auch damit zusammen, dass ich als Bewerter auch ganz unterschiedliche Expertise habe – ich produziere Podcasts und höre seit 10 Jahren täglich mehrere Stunden welche an. Kochbücher benutze ich aber nur als Hobbykoch.
- Will man Bewertungen tiefer ansetzen, so gäbe es durchaus Lösungen, die ich mit einer Schule vor einem Jahr einmal im Detail durchgespielt habe.
a) Fachschaften haben Notenbudgets – z.B. 5 x Anzahl der Arbeiten in diesem Fachgebiet. Sie dürfen insgesamt nicht mehr Notenpunkte verteilen.
b) Alle Arbeiten mit Note 6 müssen zur Prämierung eingereicht werden, so dass diese Arbeiten noch einmal von einem Fachgremium verglichen werden. Das liesse sich auch auf die Note 5.5 ausdehnen, bei denen Bewerter:innen z.B. zuhanden der Schulleitung ein Formular ausfüllen müssten, auf dem sie darstellen, inwiefern die Arbeit die Erwartungen übertroffen hat. - Schüler:innen wählen aber Themen in Fächern, in denen sie leistungsfähig sind, und Betreuer:innen, von denen sie sich eine faire Bewertung erhoffen. Unter diesen Umständen erstaunt es nicht, dass die Noten am Schluss hoch ausfallen und Erwartungen entstehen, die kaum erfüllt werden können. Schüler:innen können auch vieles kompensieren: Zwar zitieren sie Fachliteratur nicht immer einheitlich und haben sich nicht in relevante Bücher eingelesen, aber sie finden kreative Lösungen, führen lange Gespräche mit interessanten Personen und zeigen Durchhaltevermögen.
- Eine längere Projektarbeit erfolgt mit Hilfsmitteln – mit Menschen, die einen unterstützen und mit künstlicher Intelligenz, die Arbeitsschritte automatisieren kann. Die Bewertung muss auch abschätzen, wie stark die Eigenleistung von Schüler:innen war, sie benotet nicht den Onkel, der eine Forschungsabteilung leitet, nicht die Schwester, die Germanistik studiert und nicht Claude, das die Sprache der Arbeit stilistisch zu einer wissenschaftlichen macht. Bei der Bewertung lässt sich nicht exakt beurteilen, wo die Eigenleistung aufhört und wo die Unterstützung von anderen anfängt (wobei ich diese Unterstützung nie verurteilen würde, sie darf einfach weder einen positiven noch einen negativen Einfluss auf die Note haben).
Ich habe einmal ein System von Schiebereglern ausgearbeitet, das zeigt, welche Kompromisse diese Notengebung machen muss. Nehmen wir den Aspekt der Selektion: Nur, wenn es bei der MA-Arbeit auch wirklich viele tiefe Noten gäbe, würde sie einen Druck auf die Schüler:innen ausüben. Aktuell ist sie für viele eine Belohnung für eine gute Arbeit, was ja durchaus legitim ist.

Maturarbeiten sind ein gutes Beispiel, wie Notenkultur Arbeitsprozesse an Schulen vergiftet. Schüler:innen arbeiten meist ausdauernd und leidenschaftlich an Themen und erstellen eine Arbeit, die alles in den Schatten stellt, was sie an der Schule schon produziert haben. Lehrpersonen begleiten diesen Prozess, geben Anregungen und sind am Schluss meist auch zufrieden mit dem, was entstanden ist. Dann müssen sie eine Note setzen: eine Note, die viele enttäuscht; eine Note, die Schüler:innen in Vergleiche zwingt, die unglücklich machen; eine Note, die zu Konflikten führt.