Bewertungen durch KI – das Physiognomik-Problem

Physiognomik war eine Bestrebung im 18. Jahrhundert, anhand des Erscheinungsbilds von Menschen auf ihre Charakterzüge oder Moral zu schließen. Bücher wurden mit Abhandlungen gefüllt, die zeigen sollten, wie insbesondere bestimmte Gesichtsformen Schlüsse darauf zulassen könnten, mit was für einem Menschen wir es zu tun haben.

Physiognomik ist Unsinn. Das Aussehen und was Wesen von Menschen entsprechen sich nicht, auch wenn es für uns oft naheliegend ist, Vermutung anzustellen, wenn wir andere Menschen sehen.

Gesichtserkennungssoftware wird dazu eingesetzt, um die wissenschaftlichen Verirrungen der Physiognomik zu wiederholen (eine gute Übersicht findet man hier): Weil Maschinen in der Lage sind, Muster zu erkennen, werden sie dazu eingesetzt, um menschliches Verhalten mit dem Erscheinungsbild zu vergleichen und Typen zu identifizieren, die zu ähnlichen Verhaltensmustern neigen. Nur: Diese Verhaltensmuster haben mit dem Gesicht von Personen nichts zu tun.

So trainierte Datenbanken werden von der Polizei eingesetzt. Da sie fehleranfällig sind, gibt es mehrere Fälle von Fehlurteilen. Das Phyiognomik-Problem der KI kann man also wie folgt beschreiben:

  1. Maschinen (re-)produzieren Fehlurteile.
  2. Diese Fehlurteile werden von Menschen für Entscheidungen verwendet (wer wird verhaftet, wer muss einen Ausweis zeigen etc.).
  3. Menschen passen sich an diese Entscheidungsprozesse an, sie verhalten sich so, dass Maschinen sie als unauffällig beurteilen.
  4. Plötzlich erscheinen die Fehlurteile als korrekte Urteile, weil sich das Verhalten der Menschen bereits verändert hat.

Das Problem besteht darin, dass Maschinen rechnen und Muster berechnen, ohne Zusammenhänge argumentativ begründbar zu machen. Sie erkennen etwas, ohne erklären zu können, was sie erkennen oder wie sie darauf gekommen sind.

Setzt man nun solche Systeme zur Beurteilung von Menschen ein, dann passiert Folgendes:

  1. Maschinen können sehr schnell sehr viele Daten verarbeiten.
  2. Die erkannten Muster sind oft sehr genau und führen zu einleuchten
  3. Die Bewertungen der Maschine sind entsprechend oft mit weniger Vorurteilen und Verzerrungen behaftet als die von Menschen.
  4. Aber: Sie enthalten auch ganz spezifische, versteckte Fehler und Diskriminierungen.
  5. Diese können schlecht sichtbar gemacht werden, weil die Maschine Entscheidungen nicht begründen kann. Es entsteht eine Art KI-Eigenlogik, die in der Praxis wohl oft funktioniert, aber nicht immer.
  6. Menschen passen sich an diese Eigenlogik an, sie verhalten sich so, dass sie von der KI möglichst vorteilhaft bewertet werden.
  7. Es fehlen alternative Perspektiven, Zweitmeinungen. KI-Beurteilungen schaffen Abhängigkeiten von Systemen, die keine Auskunft geben können und eine einheitliche Sicht auf Zusammenhänge legen. (Für diesen Hinweis danke ich Christian Hugi).

Als konkretes Beispiel können wir uns vorstellen, beim Stellwerk-Test würde KI eingesetzt. Der Stellwerk-Test ist ein normierter Vergleichstest, mit dem Jugendliche der Sekundarstufe I in der Schweiz herausfinden können, für welche berufsbildenden Ausbildungsgänge sie qualifiziert sind. Der Test liefert Vergleichswerte, wobei das Minimum bei 200 Punkten, das Maximum bei 800 Punkten und der Durchschnitt bei rund 500 Punkten liegt).

Angenommen, im Hintergrund würde eine KI Aufgaben stellen und sie bewerten. Dann erhielten Schüler*innen weiterhin solche Resultate:

Sie zeigen, dass hier jemand leicht überdurchschnittlich liest, beim Hörverständnis und bei der Sprachbetrachtung nahe beim Durchschnitt liegt. Was aber bedeutet das?

Wenn Menschen diese Tests normieren, dann kann letztlich anhand der gestellten Aufgaben begründet werden, welche Ergebnisse zu diesem Urteil führen. Lässt man KI-Werkzeuge die Daten verarbeiten, ist das so nicht mehr möglich. Wir können zwar anzeigen lassen, welche Aufgaben die Maschine gestellt und wie sie die Lösungen bewertet hat – sie erzeugt aber eine statistische Verteilung aufgrund der Vorgaben. So entsteht eine künstliche Kompetenzmessung (was beim Stellwerk-Test an sich schon ein Problem ist), die dann reale Entscheidungen bei der Berufswahl beeinflussen.

Die Erdung von KI-Testsystemen (und KI-Tools allgemein) entsteht dadurch, dass Menschen mehrperspektivische Daten liefern, mit denen die Maschine trainiert und justiert wird. Das Phyiognomik-Problem entsteht genau dann, wenn diese Erdung fehlt oder reduziert wird. Wenn Menschen gefragt werden, aufgrund welcher Aufgaben sie darauf kommen, dass eine Person besser oder schlechter lesen kann, kann eine Maschine das effizient in Aufgaben übersetzen und die Beurteilung automatisieren. Die Gefahr besteht aber darin, dass ihre Mustererkennung zu stark wird und sie auch gleich die Aufgaben übernimmt, die Menschen mit Entscheidungskompetenz und Wahrnehmung erledigen sollten.

Anders formuliert: KI-gestützte Bewertungs- und Entscheidungsverfahren sind, wenn sie sauber erstellt werden, wohl vorurteilsfreier als menschliche. Aber sie bergen die Gefahr, zu entgleisen und immer vorhandene Formen von Diskriminierung und Verzerrung viel problematischer werden zu lassen – und sie so zu verstecken, dass wir sie gar nicht mehr erkennen können.

Subscribe to Beurteilung & Unterricht

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe
Mastodon