By Philippe Wampfler — 14. Juli 2024

Glaubenssätze zur Leistungsbewertung – und eine Korrektur

Im Gymnasium Helveticum, der Fachzeitschrift zur Bildungspolitik an Gymnasien, hat der emeritierte Professor Franz Eberle darüber geschrieben, wie die aktuelle Reform der Schweizer Gymnasien, WEGM, Leistungsbeurteilung verändere und verbessere. Das ist ein guter Ansatzpunkt, um Glaubenssätze zu zitieren, die Eberle vertritt – und ihnen eine Korrektur gegenüberzustellen. Eberle geht von einer ideologisch verzerrten Vorstellung von Leistungsbeurteilung und -messung aus. Grundsätzlich geht es um die Fiktion, dass Erfolge und Scheitern Individuen zugeschrieben werden müssen, obwohl sie gesellschaftliche und institutionelle Grundlagen haben. Menschen scheitern mit anderen Worten nicht, weil sie keine Leistung erbracht haben, sondern weil das Bildungssystem so designt wurde, dass ihr Scheitern anderen nützt. Das wirkt aber aufgrund der vorherrschenden Form der Leistungsbewertung nicht so, weil Erfolg und Misserfolg individualisiert werden, obwohl es sich um systeminhärente Faktoren handelt.

Nach dieser Vorbemerkung nun zu den Glaubenssätzen im Detail:

(1)
«Die Erfassung und Analyse des Lernstands von Lernenden gehört zu den zentralen Elementen organisierter und damit auch schulischer Lehr-/Lernprozesse.»

Eberle vermischt hier einerseits Diagnostik und alle anderen Funktionen von Leistungserhebung, andererseits stellt er Prüfungen normativ ins Zentrum von Bildungsprozessen. Richtig wäre, dass wirksame Lehr-/Lernangebote auf den Lernstand von Lernenden abgestimmt werden sollten. Die Erfassung und Analyse ist dabei nicht zentral, zentral sind die Lernprozesse an sich.

(2)
«Die fehlerfreie Erfassung innerer Merkmale ist eigentlich der Kern sozial-empirischer Forschungsmethoden und wissenschaftlich anspruchsvoll.»

Innere Merkmale können nicht fehlerfrei erfasst werden. Die Vorstellung, es gäbe Instrumente, wie Eberle das nennt, mit deren Hilfe «indirekt» auf «nicht beobachtbare Merkmale» von Menschen geschlossen werden könne, ist die zentrale Vorstellung hinter einer Prüfungskultur, die sich als Messvorgang versteht.

Im Prüfungskultur-Buch habe ich mit Lars Mecklenburg zusammen detailliert analysiert, warum die am Experiment orientierte Messvorstellung von Prüfungen nicht haltbar ist (S. 43ff). Lernprozesse lassen sich nicht aus Lernprodukten rekonstruieren. Das ist der zentrale Fehler bei Eberles Annahme. Daraus resultiert ein Kernproblem von Schule: Die Bewertungsfunktion nimmt so viele Ressourcen und Aufmerksamkeit in Anspruch, dass sie die Bildungsfunktion von Schule beeinträchtigt.

(3)
«Spätestens nach abgeschlossenen Lehr-/ Lernprozessen müssen Lehrpersonen in der Regel auch summativ bewerten, wie gut der erreichte Kompetenzstand ist, und zwar zwecks Qualifikation und allenfalls Selektion.»

Nein, müssen sie nicht. Eberle argumentiert hier rein normativ und verlässt den Bereich der wissenschaftlichen Ebene: Schulen müssen weder Selektion betreiben noch summativ bewerten. «Qualifikation» meint sehr wahrscheinlich, dass Schulen Lernenden attestieren müssen, welche Kompetenzen sie erworben haben. Das kann durchaus sinnvoll sein, dafür braucht es aber keine summative Bewertungen. Kompetenznachweise reichen dafür völlig.

(4)
«Grundsätzlich ist die Einhaltung der klassischen Gütekriterien zentral für eine unverfälschte Beurteilung und allenfalls Bewertung von Kompetenzen jeder Art, also auch bei einem Verzicht auf Noten.»

Eberle hat diese «klassischen Gütekriterien» in einer Grafik dargestellt (pdf, vgl. unten). Dabei geht er von der klassischen Testtheorie aus, die Reliabilität, Objektivität und Validität als Gütekriterien festlegen. Die Testtheorie bezieht sich auf stabile Persönlichkeitsmerkmale, nicht auf Lernprozesse. Diese können weder reliabel noch objektiv noch valide gemessen werden. Eberle hat offenbar die Kritik an Beurteilungen und Noten nicht verstanden, obwohl er sich darauf bezieht: Es geht nicht darum, an diesen Gütekriterien festzuhalten, sondern Lernprozesse auf eine Art zu diagnostizieren und begleiten, die sich von diesen Fehlannahmen löst und zugibt, dass die Prüfungssituationen zu Problemen führt, die mit Mitteln der Prüfungsgestaltung nicht gelöst werden kann.

(5)
«Weil MC-Aufgaben bei Massenprüfungen an den Hochschulen verbreitet verwendet werden, sollten sie zudem im Sinne der Hochschulvorbereitung auch an Maturitätsschulen als einer von mehreren Aufgabentypen eingesetzt werden.»

Das ist kein seriöses Argument. Es gibt starke wissenschaftliche Zweifel, ob Multiple-Choice-Aufgaben überhaupt die Gütekriterien erfüllen. Sie werden zwar bei grossen Prüfungen wie der Numerus-Clausus-Aufnehmeprüfung für medizinische Studiengänge in der Schweiz so eingesetzt, dass mit hoher Wahrscheinlichkeit ausgeschlossen werden kann, dass die Ergebnisse von Störfaktoren verzerrt sind. Letztlich handelt es sich aber um ein Instrument, um politisch gewollte Selektion effizient umzusetzen, nicht um Lernende zu fördern. Eberle wechselt hier die Ebene und argumentiert versteckt politisch, er will – wie er das schon bei Aufnahmeprüfungen gemacht hat – den bildungspolitisch normativen Vorgaben für eine Selektion einen wissenschaftlichen Anstrich verleihen, den sie in einer vertieften Analyse nicht erhalten würden.

Wenn Hochschulen mit MC-Prüfungen selektionieren, ist das kein Argument dafür, solche an anderen Schulen einzusetzen. Das Argument müsste konsequenterweise so lauten, dass MC-Prüfungen geeignet sind, um Lerndiagnostik zu betreiben. Das ist aber nicht der Fall.

(6)
In der Regel sollten keine Aufgaben zur Auswahl vorgelegt werden. Sie führen dazu, dass viele gP bei der Vorbereitung einzelne Fachgebiete weglassen. Das beeinträchtigt die Inhaltsvalidität der Prüfung.

Auch hier argumentiert Eberle rein normativ. Die Erwähnung von «Inhaltsvalidität» gibt vor, dass an Schulen multivariate Statistik betrieben würde, wenn Prüfungen analysiert werden. Das ist schlicht nicht der Fall. Eberle sieht Prüfungen als Disziplinarinstrument, mit dem Schüler:innen dazu gezwungen werden sollen, Skripte komplett durchzuarbeiten. Damit sind wir weit weg von Diagnostik und von Gütekriterien.

Die Idee hinter Auswahlaufgaben stammt aus der Motivationstheorie und soll Lernenden in Prüfungssituationen ein Stück Autonomie geben, um Entscheidungen fällen zu können. Auch das ist letztlich ein Versuch, im Falschen das Richtige zu bewahren und dient in der Praxis nur dazu, dass Geprüfte Schwächen umgehen können – was normativ auch durchaus als sinnvoll angesehen werden kann.

(7)
«Mündliche Prüfungen haben das noch viel grössere Fehlerpotential als schriftliche Prüfungen.»

Dieses Urteil von Eberle betrifft wiederum die Gütekriterien der Testtheorie und ist deshalb falsch, wenn mündliche Prüfungen so eingesetzt werden, dass Lernende durch die Prüfung gefördert werden sollen. Die Vorstellung einer objektiven Note ist für alle, die länger prüfen oder den Forschungsstand kennen, absurd. Sie an mündliche Prüfungen anzulegen und dann zu monieren, schriftliche Prüfungen seien irgendwie objektiver, ist nicht haltbar und dient nur dazu, um bestimmte bildungspolitische Ansichten durchzusetzen.

(8)
«Wie bereits erwähnt, wird künftig die erweiterte Kompetenzbeurteilung einen grösseren Stellenwert erhalten. Sie wird die Notwendigkeit der hier beschriebenen Sorgfalt für konventionelle Prüfungen nicht ersetzen, sondern ergänzen.»

Eberle gibt hier vor, konventionelle Prüfungen seien eine gute Grundlage für eine Beurteilung von Kompetenzen. Das sind sie aus den erwähnten Gründen nicht:

Lernvorgänge sind keine stabile Persönlichkeitsmerkmale, die sich mit den Gütekriterien der Testtheorie erfassen lassen.
Konventionelle Prüfungen erfüllen die Gütekriterien nicht, sie halt keiner seriösen statistischen oder wissenschaftlichen Prüfung stand.
Förderorientierte Rückmeldungen sind nicht mit summativen Prüfungen vereinbar.
Summative Prüfungen entstehen aus der politisch erzwungenen Selektion, gegen die sich Bildungsverantwortliche mit allen Mitteln wehren sollten, weil sie Schulen und Lernprozesse belastet und viele Ressourcen beansprucht, die besser investiert werden sollten.
Der Einsatz von problematischen Prüfungsverfahren an Hochschulen ist keine Legitimation, diese an Gymnasien oder anderen Schulen beizubehalten.
Schulen können problemlos auf Noten und Prüfungen verzichten.

Subscribe to Beurteilung & Unterricht