By Philippe Wampfler — 9. März 2025

KI und Leistungsbeurteilung: Die grundsätzlichen Fragen

In den nächsten Wochen möchte ich hier verschiedene Aspekte der Auswirkung von LLM-KIs auf die Prüfungs- und Beurteilungskultur an Schulen diskutieren. Den Anfang mache ich, in dem ich die grundlegenden Fragen sammle. Wenn aus eurer Sicht eine Frage fehlt, freue ich mich über eine Rückmeldung an phwampfler@gmail.com.

Ein Beispiel: Deep Research mit Perplexity

Als Ausgangspunkt möchte ich ein Beispiel zeigen, das ich letzte Woche mit Schüler:innen diskutiert habe, die sich auf die Maturitätsarbeit vorbereiten, eine längere, wissenschaftsnahe Arbeit, die alle Schüler:innen in der Schweiz vor dem Abitur schreiben müssen. Ich habe den Jugendlichen gezeigt, wie «deep research» funktioniert. Das ist ein in vielen KI-Systemen verfügbarer Modus, in dem die KI Suchverfahren und Sprachgenerierung verbindet. Ausgehend von ersten Ergebnissen stellen die Systeme weitere Suchanfragen und vertiefen so die Auseinandersetzung mit einem Thema. Im Beispiel, das man hier einsehen kann, hat Perplexity innerhalb von fünf Minuten 66 Quellen durchgearbeitet – von denen einige sehr gehaltvoll sind. Die Fragestellung kam von einer Schülerin. Quasi beiläufig ist eine Art Forschungsplan entstanden, den die Schülerin nutzen könnte. Zudem gibt es ein Ergebnis, das sie etwas erweitern, überarbeiten – und dann als gute Maturarbeit einreichen könnte. (Wenn wir die Frage mal beiseite lassen, ob das moralisch und juristisch vertretbar ist.)

Das Beispiel zeigt, dass es also beim aktuellen Stand der Technologie möglich ist, eine komplexe, problembasierte Aufgabe maschinell in sehr kurzer Zeit bearbeiten zu lassen. Verbreitete Einwände lassen sich mit den Ergebnissen schell entkräften.

KI-Verfahren können zudem medial schnell angepasst werden: Ich kann Bilder in Texte umwandeln, Texte in Audio-Dateien, lange Texte in kurze, ein Bild in mehrere etc.

Was bedeutet das für die Prüfungs- und Beurteilungskultur?

Ich notiere hier nur Fragen, die sich mir aktuell stellen. Ihre Beantwortung folgt in weiteren Newslettern.

Unter welchen Umständen ist es sinnvoll, in Prüfungen die Nutzung von Hilfsmitteln zu verbieten, welche die Bearbeitung von Aufgaben entscheidend vereinfachen würden (und die in der Praxis für solche Aufgaben genutzt werden)?
Wie verändert es die Ergebnisse, wenn Schüler:innen bestimmte Aufgaben nur in Prüfungssituationen ohne KI bearbeiten?
Gibt es im Kontext von Deep-Research-KI-Verfahren überhaupt noch relevante KI-Kompetenzen, die Menschen beherrschen müssen? Ist die ganze Frage, wie Menschen prompten müssen, nicht schon obsolet geworden?
Gibt es Aufgaben, die nur Menschen lösen können, KIs aber nicht? Sollten diese Aufgaben nicht im Zentrum von Beurteilung stehen?
Wie viel Aufwand lohnt es sich, in die Erkennung von KI-Einsatz zu stecken? Wäre es nicht denkbar, grundsätzlich davon auszugehen, dass Menschen KI benutzen und das auch tun dürfen?
Wenn es naheliegend ist, KI für die Bearbeitung von Aufgaben einzusetzen – ist es dann nicht auch naheliegend, für die Korrektur von Prüfungen KI einzusetzen? Müsste es hier nicht auch Richtlinien, Verbote und Kontrolle geben?
Ist es sinnvoll, die Medialität von Prüfungen zu verändern, um den KI-Einsatz zu erschweren? Würden Menschen nicht auch bei Prüfungsgesprächen auf KI-Unterstützung zurückgreifen, wenn sie könnten? Oder gibt es Prüfungsformen, in denen das nicht geschieht?

Subscribe to Beurteilung & Unterricht