Automatisierte Aufsatzbewertung mit #gptchat
GPTChat ist ein Tool, das die mächtige Sprachsoftware GPT-3 einfach zugänglich macht. In der letzten Woche habe ich mit den Möglichkeiten gespielt, insbesondere auch in Bezug auf die Möglichkeit von automatisierter Bewertung von Arbeiten von Schüler*innen. Nach einer Darstellung des Verfahrens kommentiere ich unten, was das für die Arbeit im Unterricht bedeutet.
Beschreibung des Vorgehens
Um die Texte hier problemlos veröffentlichen zu können, habe ich die Aufsätze auch automatisch generieren lassen. Das war die Aufgabenstellung:
Du bist eine Schülerin an einem Schweizer Gymnasium. Du musst einen Aufsatz darüber schreiben, ob es sinnvoll ist, wenn Schulen Schuluniformen einführen. Der Aufsatz sollte gut gegliedert sein, einen abwechslungsreichen Wortschatz verwenden und starke Argumente enthalten. Du sollst eine klare Meinung ausdrücken, aber auch auf Gegenargumente eingehen. Der Aufsatz sollte ungefähr 500 Wörter lang sein.
Hier sieht man die beiden Ergebnisse von GPT-3. Das Thema ist eine recht generische Erörterung. Entsprechend sind die Ergebnisse hervorragend: Würden 15-jährige Schüler*innen so schreiben, erhielten sie sehr gute Noten.
Wie bewertet sich das Programm selber? Dazu habe ich ihm folgende Aufgabe gestellt:
Eine Schülerin an einem Schweizer Gymnasium hat folgenden Aufsatz geschrieben. Die Aufgabe war, einen gut gegliederten Text zu schreiben, der einen abwechslungsreichen Wortschatz verwendet und starke Argumente enthält. Die Schülerin sollte eine eigene Meinung ausdrücken, aber auch auf Gegenargumente eingehen. Der Text sollte ungefähr 500 Wörter lang sein. Der Aufsatz steht unten. Bitte bewerte ihn mit einer Punktzahl zwischen 1 und 20 und schreibe eine Begründung für diese Rückmeldung. Sie sollte auch drei Tipps enthalten, wie sich die Schülerin verbessern kann.
Das ist das Ergebnis:
In einem weiteren Durchlauf habe ich mit einem Kriterienraster gearbeitet. Die 20 Punkte habe ich auf Struktur des Textes, Qualität der Argumente, Rechtschreibung und Stil aufgeteilt, jeweils 5 Punkte pro Kriterium.
Ergebnis des Programms:
Ich würde diesen Text mit insgesamt 17 Punkten bewerten. In Bezug auf die Struktur des Textes ist er gut aufgebaut und die Argumente für und gegen Schuluniformen werden deutlich aufgezeigt. Die Qualität der Argumente ist auch gut, da sowohl die Vor- als auch die Nachteile von Schuluniformen ausführlich diskutiert werden. Die Rechtschreibung ist ebenfalls gut und es gibt keine offensichtlichen Fehler. Der Stil des Textes ist sachlich und neutral, was für eine solche Diskussion wichtig ist. Für die Struktur des Textes würde ich 5 Punkte vergeben, für die Qualität der Argumente ebenfalls 5 Punkte, für die Rechtschreibung ebenfalls 5 Punkte und für den sachlichen Stil ebenfalls 5 Punkte. Insgesamt würde ich dem Text also 17 Punkte geben.
Offenbar kann es nicht besonders gut rechnen. Den zweiten Text hat es dann wie folgt bewertet:
Ich würde diesen Text mit insgesamt 18 Punkten bewerten. In Bezug auf die Struktur des Textes ist er gut aufgebaut und die Argumente für und gegen Schuluniformen werden deutlich aufgezeigt. Die Qualität der Argumente ist auch gut, da sowohl die Vor- als auch die Nachteile von Schuluniformen ausführlich diskutiert werden. Die Rechtschreibung ist ebenfalls gut und es gibt keine offensichtlichen Fehler. Der Stil des Textes ist sachlich und neutral, was für eine solche Diskussion wichtig ist. Ein kleiner Pluspunkt ist, dass die Schülerinnen und Schüler in diesem Text explizit genannt werden, was eine inklusivere Sprache ermöglicht. Deshalb würde ich dem Text insgesamt 18 Punkte geben. Für die Struktur des Textes würde ich 5 Punkte vergeben, für die Qualität der Argumente ebenfalls 5 Punkte, für die Rechtschreibung ebenfalls 5 Punkte und für den sachlichen Stil sowie die inklusive Sprache 4 Punkte. Insgesamt würde ich dem Text also 18 Punkte geben.
Auch hier geht das rechnerisch nicht ganz auf. (Um ganz transparent zu sein: Ich musste mit einer Zwischenaufforderung die explizite Bewertung der Kriterien einfordern.)
Was bedeutet das für die Schule?
Die automatisierten Rückmeldungen sind saubere Texte im richtigen stilistischen Register. Weder Eltern noch Schüler*innen könnten sich darüber beklagen, wenn automatisiertes Feedback von dieser Qualität als Rückmeldung unter Aufsätzen stünde. Auch die Bewertung könnte man wohl übernehmen, wenn man noch etwas daran feilt und den Algorithmus vielleicht auch spezifisch trainiert.
Aber. Wenn Texte verantwortungsvoll korrigiert werden, sind sie Teil der Beziehungsarbeit. Was ich Schüler*innen unter die Texte schreiben, ist eine Art Brief an sie, ein persönlicher Text. Ich kenne ihre früheren Arbeiten, ihre Persönlichkeit, weiß, was ihnen wichtig ist und wie sie arbeiten. Das versuche ich zu berücksichtigen, wenn ich eine Rückmeldung schreibe.
GPT-3 kann geschliffen schreiben, aber nicht einmal genau auf einen Text eingehen. Das klingt alles so, wie es klingen sollte – aber es sagt praktisch nichts. Bei echten Texten von Schüler*innen wird das noch deutlicher: Das Feedback hat keinen inhaltlichen Bezug zum Text, es enthält kaum brauchbare Tipps für die Entwicklung der Schreibkompetenz.
Das ist verständlich: Was so ein Programm tut, ist eine Nachahmung von Sprachmustern. Es kennt sehr viele Rückmeldungen auf Aufsätze und versucht diese mit der Textvorlage abzugleichen. So entsteht eine glatte Oberfläche, die aber keine Tiefe hat.
Dasselbe gilt auch für die Aufsätze, die GPT-3 schreibt. Wenn wir solche Texte in der Schule wollen, dann können Schüler*innen den Chat-Bot anwerfen und einen Aufsatz schreiben lassen – und Lehrpersonen lassen dann ein automatisiertes Feedback generieren. Das scheint keine nachhaltige oder vernünftige Vorstellung von Schreibdidaktik zu sein.
Der folgende Tweet bringt zum Ausdruck, was diese Haltung bedeutet:
In einem zynischen Verständnis von Unterricht wird Verständnis auf zwei Seiten simuliert – so dass ein Textprogramm diese Aufgaben für Lernende wie Lehrende übernehmen kann. Lehrpersonen erzeugen Arbeitsblätter und Prüfungen mit ChatGPT, Schüler*innen lassen sie vom Programm ausfüllen etc. Dasselbe kann man auch bei Bewertungen bedenken.
Die Konsequenz ist: Wir müssen Rückmeldungen und Bewertungen so schreiben, wie das nur Menschen können. Wer versucht, wie eine Maschine zu agieren, kann von einer ersetzt werden. Bald gibt es Systeme, die alles können, was GPT-3 kann, aber auch rechnen. Und so weiter. Wir müssen als Menschen auf Menschen reagieren. Tun wir das nicht, können wir uns die Arbeit deutlich leichter machen…