Blog über Software, Mensch und Persönlicher Entwicklung

Mensch vs. Maschine: Wer urteilt fairer? - Richard Seidl

Geschrieben von Richard Seidl | 11.11.2025

Vertrauen in Entscheidungen entsteht nicht im luftleeren Raum. Eine Studie zu Einstellungsentscheidungen verglich menschliche und algorithmische Empfehlungen, gesteuert durch einen eingebauten Gender Bias. Teilnehmende passten ihre Bewertungen im Verlauf an, beim Algorithmus schneller und stärker. Vertrauen folgte dabei ähnlichen Mustern wie zwischen Menschen: frühe Signale prägen Erwartungen, spätere Beobachtungen verstärken sie. Für Entwicklung und Test bedeutet das mehr als Genauigkeit zu messen. Gefordert sind fortlaufendes Bias-Monitoring, saubere Pilotphasen, Parallelvergleiche und Transparenz zu Datenquellen. So wird sichtbar, wann Empfehlungen kippen und warum. Am Ende stellt sich die Frage, wie Systeme gestaltet werden, die Irrtümer nicht verfestigen, sondern korrigieren.

Podcast Episode: Mensch vs. Maschine: Wer urteilt fairer?

In dieser Episode spreche ich mit Sam Goetjes über Vertrauen, Vorurteile und Fairness in KI-gestützten Entscheidungen. Ausgangspunkt ist ihre Masterarbeit: Ein Bewerbungssetting mit menschlichen und algorithmischen Empfehlungen, dazu ein manipulierter Gender Bias. Erkenntnis: Teilnehmende passten ihre Bewertungen über die Zeit an. Beim Algorithmus sogar schneller und stärker. Vertrauen entsteht nach denselben Mustern wie bei Menschen. Heftig, oder? Für uns im Testen heißt das: nicht nur Modelle und Performance prüfen, sondern Bias-Risiken monitoren, Pilotphasen sauber aufsetzen, Parallelvergleiche fahren und Datenquellen offenlegen. Wir sind beeinflussbar. Systeme auch. Wie halten wir beides in Schach? Genau darum geht es.

"Und dann habe ich mich gefragt, was passiert denn, wenn die KI einen Bias hat, einen sehr starken, ich mit der KI aber so umgehe wie mit Menschen und der vertraue" - Sam Goetjes

Sam Goetjes ist Senior Consultant für Quality Assurance und Testmanagement – mit einer Leidenschaft dafür, Software nicht nur fehlerfrei, sondern wirklich nutzerfreundlich zu machen. Nach einem Psychologiestudium mit Informatik als Nebenfach fand sie ihren Weg in die Tech-Welt über die Qualitätssicherung digitaler Gesundheitsanwendungen. Heute berät sie bei 29FORWARD GmbH Unternehmen dabei, Tests effizienter zu gestalten und Qualitätsprozesse smarter zu denken. Ihre Kombination aus technischem Know-how und psychologischem Verständnis hilft ihr, Brücken zwischen Entwicklung, QA und Nutzenden zu schlagen. Nebenbei entwickelt Sam eigene Apps und bleibt so immer nah an der Praxis.

Highlights der Episode

  • Menschen passen ihre Bewertungen an Empfehlungen an, beim Algorithmus schneller und stärker
  • Vertrauen in Algorithmen folgt ähnlichen Mustern wie Vertrauen in Menschen
  • Manipulierter Gender Bias beeinflusst Entscheidungen messbar
  • Teste Bias-Risiken kontinuierlich, nicht nur Modellleistung
  • Lege Datenquellen offen und erhöhe Nachvollziehbarkeit

Vorurteile und Fairness: Wie KI unsere Entscheidungen beeinflusst

Mensch, Maschine und die Macht der Vorurteile

Beim German Testing Day 2025 drehte sich eine Podcastepisode um ein Thema, das oft übersehen wird: Sind wir wirklich so objektiv, wie wir glauben, wenn wir mit künstlicher Intelligenz (KI) arbeiten? Richie, der Host, traf sich mit Sam, Expertin für Psychologie und KI, um nicht nur technische, sondern auch menschliche Seiten von Vorurteilen im Umgang mit Algorithmen zu beleuchten.

Wie ein KI-Versuch unser Vertrauen entlarvt

Sam hat eine groß angelegte Studie durchgeführt, in deren Mittelpunkt die Frage stand: Vertrauen wir Algorithmen genauso wie Menschen? Und was passiert, wenn eine KI Vorurteile zeigt?

Die Teilnehmenden sollten als fiktive Arbeitnehmer Empfehlungen zu Bewerbungen abgeben. Vorher bekamen sie manchmal eine Empfehlung angezeigt, entweder von einem Menschen (etwa einer HR-Kraft) oder von einem Algorithmus. Der Clou: Die KI hatte einen eingebauten Bias, sie bewertete bei gleichem Können Personen mit weiblichen Vornamen grundsätzlich schlechter als männliche.

Die Überraschung: Fast niemand bemerkte diesen Fehler. Im Gegenteil, viele übernahmen die verzerrte Einschätzung des Algorithmus sogar schneller als die von Menschen. Sam fand heraus, dass wir Algorithmen vertrauen, als wären sie echte Kolleginnen und Kollegen. Je öfter die Testpersonen die Empfehlungen sahen, desto stärker folgten sie dem (verständlicherweise falschen) Vorschlag - vor allem, wenn er von der KI kam.

Warum wir so anfällig für KI-Vorurteile sind

Im Gespräch wurde klar: Menschen verlassen sich oft auf den "objektiven" Ruf von KI. Viele denken, Algorithmen machen weniger Fehler als Menschen. Doch diese Annahme ist gefährlich. Algorithmen übernehmen die Fehler und Verzerrungen aus den Daten, mit denen sie trainiert wurden. Wenn Diskriminierung schon in den Trainingsdaten steckt – etwa gegen Frauen im Berufsleben –, dann spiegelt die KI das auch wider.

Die Schwierigkeit: Oft ist nicht transparent, wie eine KI entscheidet. Nutzerinnen und Nutzer sehen nur Ein- und Ausgang. Das macht es schwerer, Fehler zu entdecken. Und da wir dazu neigen, uns an das zu halten, was uns wiederholt gezeigt wird, verstärkt sich ein Teufelskreis: Menschliche Biases landen im System, das System beeinflusst die weiteren menschlichen Entscheidungen. Am Ende wird das Problem immer größer.

Was bedeutet das fürs Testen von Software?

Sam sagt klar: Es reicht nicht, nur zu prüfen, ob eine KI technisch "funktioniert" oder die Daten zum Training gut waren. Im Softwaretest müssen Teams auch untersuchen: Erzeugt die KI unfaire oder diskriminierende Ergebnisse? Und wie schnell passen sich Menschen den Vorschlägen der KI an?

Das heißt, Testmanagerinnen und Testmanager sollten mehrgleisig fahren. Am besten laufen alte und neue Systeme eine Zeit lang nebeneinander, um Unterschiede sichtbar zu machen. Die Ergebnisse der KI müssen regelmäßig mit denen von Menschen verglichen werden. Das kostet zwar Energie und Zeit, ist aber wichtig, um blinde Flecken zu vermeiden.

Auch ein gutes Monitoring ist nötig: Wie entwickelt sich die KI über die Zeit? Driften die Empfehlungen in seltsame Richtungen ab? Wer darauf nicht achtet, riskiert, dass Diskriminierung fest im System verankert wird.

Vertrauen, Kontrolle, Verantwortung

Viele glauben, dass KI neutraler ist als Menschen. Doch die Studien von Sam zeigen, dass das Gegenteil stimmen kann – gerade weil wir nicht bemerken, wie wir beeinflusst werden. Wer Verantwortung für Softwarequalität trägt, muss sich bewusst machen: Auch KI kann Fehler machen und sogar schlechte Seiten von uns Menschen verstärken.

Firmen sollten sich früh überlegen, wie sie ihre Systeme regelmäßig überprüfen und welche Daten sie zur Entwicklung einsetzen. Denn wenn Teams sich nur auf technische Tests verlassen oder die Debatte abtun, kann sich das Problem schnell verschärfen – und plötzlich steht eine ganze Gruppe von Menschen vor verschlossenen Türen, nur weil ein Algorithmus es so vorgibt.

Künstliche Intelligenz fordert uns heraus, nicht nur Technik, sondern auch unser eigenes Urteilsvermögen kritisch zu hinterfragen. Wer Software testet, prüft mehr als nur Programmlogik. Es geht um Menschen, Fairness und darum, Verantwortung zu übernehmen. Denn Vorurteile sind kein technisches Problem – sie sind ein menschliches.