Mensch vs. Maschine: Wer urteilt fairer?

KI-Bias bezeichnet die systematische Verzerrung in Entscheidungen künstlicher Intelligenz, die entsteht, wenn Trainingsdaten gesellschaftliche Ungleichheiten widerspiegeln. Menschen erkennen solche Verzerrungen kaum, weil sie KI-Empfehlungen ähnlich vertrauen wie menschlichen Urteilen. Besonders problematisch: Bei algorithmischen Empfehlungen übernehmen Menschen einen bestehenden Bias sogar schneller und stärker als bei menschlichen Vorschlägen.

Das Wichtigste in Kürze

Algorithmen verstärken eigene Verzerrungen stärker als menschliche Empfehlungen: Studienteilnehmende übernahmen einen Gender Bias schneller und konstanter, wenn er von einem automatisierten System stammte.
Das Vertrauen in Algorithmen folgt denselben psychologischen Mustern wie das Vertrauen in Menschen, was bedeutet, dass KI-Fehlurteile genauso akzeptiert werden wie die eines erfahrenen Kollegen.
Ein Gender Bias in Empfehlungssystemen fiel über 16 aufeinanderfolgende Bewerbungsentscheidungen hinweg den meisten Teilnehmenden nicht auf, obwohl weibliche Vornamen bei gleichem Kompetenzniveau konstant schlechter bewertet wurden.
Ohne kontinuierliches Monitoring mit Vergleichsdaten entsteht ein Teufelskreis: Menschen bestätigen die verzerrten KI-Urteile, die KI wird mit diesen Urteilen weiter trainiert und der Bias verstärkt sich.

KI-Empfehlungen sind nicht neutral, nur weil sie von einer Maschine kommen

Menschen vertrauen den Empfehlungen eines Algorithmus stärker als denen eines Menschen, auch wenn beide denselben Fehler machen. Diesen Effekt belegt eine Online-Studie von Sam Goetjes mit über 330 berufstätigen Teilnehmenden, die für eine Personalentscheidung Bewerbungen bewerten sollten.

Der Aufbau war schlicht: Die Teilnehmenden gaben für jede Bewerbung eine Empfehlung von 0 bis 100 Prozent ab. Danach sahen sie eine vermeintliche Experten-Empfehlung, entweder von einem HR-Mitarbeiter oder von einem automatisierten Entscheidungssystem. Anschließend durften sie ihre eigene Einschätzung anpassen. Das Ganze 16 Mal hintereinander.

Genau hier zeigt sich der Knackpunkt. Kam die verzerrte Empfehlung von einem Algorithmus, übernahmen die Teilnehmenden die Verzerrung schneller und stärker, als wenn ein Mensch sie abgegeben hätte. Die verbreitete Annahme, man stehe einer Maschine erst einmal skeptisch gegenüber, hielt der Prüfung nicht stand.

Warum Menschen mit einem Algorithmus umgehen wie mit einem Kollegen

Menschen bauen Vertrauen zu einem Algorithmus nach denselben Faktoren auf wie zu einem Menschen. Das ist das erste belastbare Ergebnis der Studie und es ist die Grundlage für alles Weitere.

Sam Goetjes prüfte ein Vertrauensmodell, das ursprünglich für Organisationen und zwischenmenschliche Beziehungen entwickelt wurde, gegen die Interaktion mit einem Algorithmus. Das Modell funktionierte. Nicht nur knapp signifikant, sondern in vergleichbarer Stärke wie beim Menschen.

Diese Beobachtung deckt sich mit der sogenannten Computer-as-social-actor-Hypothese: Menschen behandeln einen Algorithmus oder eine KI sozial wie ein Gegenüber und bilden Vertrauen entsprechend. Für die Praxis heißt das: Die Strategien, mit denen du einem neuen Kollegen Vertrauen schenkst, greifen auch gegenüber einem Entscheidungssystem. Mit allen Schwächen, die dazugehören.

Der eingebaute Bias fällt im Alltag schlicht nicht auf

Die meisten Menschen bemerken nicht, wenn ein System systematisch verzerrt urteilt. In der Studie wurden weiblich gelesene Vornamen bei gleichem Kompetenzniveau konstant schlechter eingeschätzt als männlich gelesene. Den allermeisten Teilnehmenden fiel dieses Muster über 16 Bewerbungen hinweg nicht auf.

Die Vergleichbarkeit war sauber aufgebaut. Jeweils acht weiblich und acht männlich gelesene Vornamen, paarweise auf identischem Kompetenzniveau, abgesichert durch eine vorgeschaltete Evaluationsstudie. Annika hatte dieselben Kompetenzen wie Thomas, nur das Geschlecht des Namens unterschied sich.

Hinzu kommt ein Zeiteffekt. Ab der dritten oder vierten Bewerbung näherten sich die Teilnehmenden immer stärker der vorgegebenen Empfehlung an. Wer eine Aufgabe kennt und in einen automatisierten Ablauf rutscht, prüft weniger und denkt eher: Vielleicht hat das System ja recht. Die Beeinflussbarkeit wächst, je routinierter die Aufgabe wird.

Der Teufelskreis aus menschlichem und maschinellem Bias

Das eigentliche Risiko entsteht, wenn menschlicher und maschineller Bias sich gegenseitig bestätigen. Du bringst deine eigenen Vorurteile mit. Bewertet ein automatisiertes System eine Person zufällig genauso, fühlst du dich bestätigt, obwohl die schlechtere Bewertung nichts mit der Kompetenz zu tun haben muss.

Sam Goetjes beschreibt das offen am eigenen Beispiel: Schon beim Foto einer Bewerbung sei ihr ein Bias bewusst geworden, obwohl sie das Thema studiert hat. Wissen über Verzerrung schützt nicht automatisch davor.

Aus dieser Selbstbestätigung wird ein geschlossener Kreis. Die verzerrte Bewertung fließt zurück, es kommen keine korrigierten Daten ins System, und die KI wird nicht besser, weil niemand den Fehler sieht. Betroffen ist beim Gender Bias keine Randgruppe, sondern die Hälfte der Bevölkerung.

Es fängt mit einer Personengruppe an, vielleicht mit einem Merkmal. Aber wenn sich das steigert, ist es keine Randgruppe, es ist die Hälfte der Bevölkerung, die benachteiligt wird. Sam Goetjes

Wie ein verzerrtes Bewerbungstool überhaupt entsteht

Eine KI sucht nach Zusammenhängen, nicht nach Fairness. Wird ein erstes Bewerbungs-Assessment an ein System ausgelagert, prüft dieses, was erfolgreiche von weniger erfolgreichen Mitarbeitenden unterscheidet, und leitet daraus Vorhersagen ab.

Manche dieser Zusammenhänge wirken plausibel, etwa Erfahrung im Feld als Hinweis auf spätere Leistung. Andere sind reine Korrelationen ohne sachlichen Bezug. Das Beispiel aus der Studie: Wenn 75 Prozent einer erfolgreichen Personengruppe durch Zufall gern Fußball spielen, kann das System Fußball mit Job-Performance verknüpfen.

Solche Verzerrungen hängen stark von den Trainingsdaten ab. Die verbreitete Erwartung, eine KI urteile per se objektiver als ein Mensch, ist deshalb nicht haltbar. Sie ist nur so gut wie die Daten, mit denen sie trainiert wurde.

Pilotierung und Monitoring schlagen blindes Vertrauen

Wer ein KI-Entscheidungssystem einführt, braucht Vergleichsdaten statt der Annahme, Fehler würden schon auffallen. Genau das tun sie nicht, wie die Studie zeigt. Die wirksamste Gegenmaßnahme ist ein Aufbau, der das System fortlaufend prüfbar hält.

Ein praktikabler Ansatz für Testmanager:

Parallelbetrieb in der Pilotphase: Das alte Verfahren, ob manuell oder anders, eine Zeit lang neben dem neuen KI-System laufen lassen und die Ergebnisse über die Zeit vergleichen.
Evaluation über mehrere Quellen: Nicht allein auf die Trainingsdaten verweisen, sondern mit weiteren Tools gegenprüfen, um Belege für die Qualität zu haben.
Monitoring über die Zeit: Gerade wenn sich ein System weiterentwickelt und zur Blackbox wird, regelmäßig prüfen, ob es in Richtungen abdriftet, die niemand will.

Der Punkt dabei: Vergleichsdaten taugen besser als vergleichende Menschen, weil Menschen selbst beeinflussbar sind. Ein Anbieter kann ohnehin nicht im Detail nachvollziehen, was in der Box passiert. Aber er kann nachvollziehen, mit welchen Daten trainiert wurde, und er kann langfristig messen, wohin das System läuft.

Bewusstheit ist der Hebel, den die Qualitätssicherung braucht

Der erste Schritt gegen verzerrte KI-Entscheidungen ist, sie nicht für neutral zu halten. Software gilt schnell als objektives, sachliches Werkzeug. Man lehnt sich zurück und erwartet, dass es schon passen wird. Diese Entspannung ist das Problem.

Für Testing und Qualitätsmanagement verschiebt sich damit die Gewichtung. Datenqualität im Training und die Frage, ob die KI funktioniert, bleiben wichtig, sind aber bekannt. Hinzu kommt eine zweite Ebene: Wie reagieren Menschen auf die Empfehlungen, und übernehmen sie Verzerrungen, ohne es zu merken.

Hinter dem wirtschaftlichen Interesse, das bei Unternehmen an erster Stelle steht, stehen reale Menschen, die schon heute durch Entscheidungen benachteiligt werden. Wer früh anfängt, einmal Aufwand investiert und das System bewusst beobachtbar baut, verhindert, dass sich Bias unbemerkt verstärkt. Der Aufwand muss nicht groß sein. Bewusstheit ist der Anfang.

Mensch vs. Maschine: Wer urteilt fairer?

Das Wichtigste in Kürze

KI-Empfehlungen sind nicht neutral, nur weil sie von einer Maschine kommen

Warum Menschen mit einem Algorithmus umgehen wie mit einem Kollegen

Der eingebaute Bias fällt im Alltag schlicht nicht auf

Der Teufelskreis aus menschlichem und maschinellem Bias

Wie ein verzerrtes Bewerbungstool überhaupt entsteht

Pilotierung und Monitoring schlagen blindes Vertrauen

Bewusstheit ist der Hebel, den die Qualitätssicherung braucht

Ähnliche Beiträge

Patient Agilität: Liegt agiles Arbeiten im Sterben?

Security-Anforderungen im Team entwickeln

Passen Ihre Tools zu Ihren echten Bedürfnissen?