Vertrauen mit KI-Agenten aufbauen

KI-Agenten in Softwaresystemen zu vertrauen, bedeutet sicherzustellen, dass automatisierte Prozesse korrekte, beabsichtigte Ergebnisse produzieren, und zwar durch Prüfungen, Leitplanken und Validierungsschichten, die um das KI-Modell selbst herum aufgebaut sind. Dazu müssen zwei Kernprobleme gelöst werden: Die Anforderungen müssen klar genug kommuniziert werden, damit das System sie umsetzen kann, und es muss überprüft werden, ob die Ausgabe tatsächlich mit dem übereinstimmt, was gewollt war - das nennen Tester das Oracle-Problem.

Das Wichtigste in Kürze

KI-Systeme verstärken sowohl Fehler als auch Erfolge im großen Maßstab, daher sind die Prüfungen, Leitplanken und Validierungsprozesse, die um das Modell herum aufgebaut werden, wichtiger als das Modell selbst.
Das Testen von KI erfordert eine Verlagerung von deterministischen Pass/Fail-Prüfungen hin zur Überwachung von Trends und der Mean Time Between Failures, da nicht-deterministische Ergebnisse nicht mit einem einzigen grünen Test überprüft werden können.
Das Kommunikationsproblem mit KI-Agenten ist strukturell identisch mit dem Fehlerberichtsproblem bei Menschen: Vage Eingaben führen zu generischen, kontextfreien Ausgaben, die am eigentlichen Bedarf vorbeigehen.
Da KI-generierter Code zu einer Blackbox wird, werden Testspezifikationen und Akzeptanzkriterien zur primären Quelle der Wahrheit, wodurch die Fähigkeiten des Testers von zentraler Bedeutung werden.
KI demokratisiert die Softwareerstellung, indem sie Programmierkenntnisse überflüssig macht, wodurch lange ignorierte organisatorische Probleme wie die Versionskontrolle von Dokumenten und fehlende einheitliche Wahrheitsquellen zutage treten.

Vertrauen lebt nicht im Modell, es lebt im System drum herum

Die Einheit des Vertrauens in der KI ist nicht das Modell, sondern das System, das du um es herum aufbaust. Ein Sprachmodell sagt voraus, es analysiert nicht und es denkt nicht. Vertrauen entsteht durch den Prozess, die Prüfungen und die Leitplanken, die diese Vorhersage umgeben.

Das ist derselbe Standard, den du bereits auf Menschen anwendest. Du vertraust einem Kollegen oder einer Kollegin aufgrund seiner/ihrer Erfahrung, seines/ihres Verständnisses und seiner/ihrer Fähigkeit, das, was er/sie sagt, zu überprüfen. Bei einem KI-Agenten muss das gleiche Gerüst vorhanden sein: ein Prozess, Bilanzen und Validierungsschritte, die das System auffangen, wenn es abdriftet.

Wenn dieses Gerüst funktioniert, gilt die gleiche Logik wie bei Software, die du in Auftrag gibst. Du schreibst die Spezifikationen, nimmst die Lieferung an und überprüfst, ob du bekommen hast, was du wolltest. Henri Terho geht bei der Frage nach dem Vertrauen in KI von zwei alten Problemen aus, die Tester bereits gut kennen.

Die zwei Probleme, die darüber entscheiden, ob du einem KI-Agenten vertrauen kannst

Zwei klassische Probleme des Testens kehren mit KI zurück, und beide müssen gelöst werden, bevor Vertrauen möglich ist: das Kommunikationsproblem und das Orakelproblem.

Beim Kommunikationsproblem geht es darum, zu vermitteln, was du eigentlich willst. Wenn jemand einer KI sagt: “Repariere meinen Code jetzt”, ist das Ergebnis aus dem gleichen Grund schlecht, aus dem ein Fehlerbericht mit der Aussage “Die Produktion ist kaputt” nutzlos ist. Es gibt keine Protokolle, keinen Kontext, keine Besonderheiten. Die Leute ärgern sich über das Ergebnis, ohne zu merken, dass sie dem System nichts gegeben haben, womit es arbeiten kann.

Die Menschen überspielen diese Lücken mit ihrer Erfahrung. Ein Kollege füllt den fehlenden Kontext aus jahrelanger gemeinsamer Arbeit auf. Ein Modell hat keine solche Erfahrung, also müssen die Aufforderung, die Anforderungen und alles, was du ihm gibst, spezifisch genug sein, um für sich selbst zu stehen.

Das Oracle-Problem besteht darin, zu wissen, ob die Ausgabe richtig ist. Selbst wenn die KI etwas produziert, musst du immer noch entscheiden, ob es richtig oder nur plausibel ist. Diese Frage wird in einem Unternehmen schnell philosophisch. “Richtig” könnte bedeuten, dass der Chef es verlangt hat, dass die Funktion Geld einbringt oder dass sie einer echten Spezifikation entspricht. Ohne eine klare Antwort kannst du das Ergebnis nicht beurteilen.

Wenn du beide Fragen beantwortest, erhältst du das Vertrauen, das du dir wünschst. Wenn du sie auslässt, kannst du nur raten.

Warum dir der generische KI-Output fehlgeschlagen ist

Eine generische Frage führt zu einer generischen Antwort, und das ist die Fehlerauswirkung, in die die meisten Menschen geraten. Wenn du als Inhaber eines kleinen Softwareunternehmens einen allgemeinen Chatbot nach einer Geschäftsstrategie fragst, bekommst du eine saubere, gut strukturierte Strategie, die niemandem besonders passt.

Die Ausgabe sieht vollständig aus. Sie enthält alle erwarteten Punkte und liest sich gut. Aber sie enthält nichts von deinem Kontext. Sie weiß nicht, dass du von Finnland aus in ein anderes Land verkaufst oder dass deutsche Regeln gelten, es sei denn, du hast es gesagt.

Die Lösung ist unglamourös: mehr Kontext, mehr Spezifika, bessere Anforderungen. Der Grund, warum sich die Leute darüber ärgern, ist einfach. Eine präzise Eingabeaufforderung zu schreiben ist mehr Arbeit als “Repariere das” zu tippen, und die meisten Leute wollen lieber die schnelle Antwort als die richtige.

Testen von KI bedeutet, Trends zu beobachten, nicht einen einzigen grünen Haken

Beim Testen von KI geht es nicht mehr um ein einzelnes bestandenes Ergebnis, sondern um das statistische Verhalten im Laufe der Zeit. Konventionelle Software ist deterministisch. Du gibst ihr eine Eingabe, erwartest eine Antwort und wenn du sie nicht bekommst, hast du einen Fehler. Das macht das Testen sehr einfach.

KI-Modelle sind nicht deterministisch, so dass ein einzelner grüner Test wenig aussagt. Du beobachtest Trends, die Mean Time Between Failures und das Verhalten über viele Durchläufe hinweg. Das ist näher daran, wie Maschinenbauer und Luftfahrtunternehmen über Zuverlässigkeit denken, als an eine Einzelprüfung.

Plane für seltene Fehlerwirkungen. Schwarze Schwäne tauchen in diesen Modellen auf, weil du nicht jede Ausgabe vorhersagen kannst. Eine Testsuite, die nur einmal “grün” bestätigt, gibt dir ein falsches Vertrauen.

Darüber hinaus gibt es ein Problem mit beweglichen Zielen. Die Modelle verändern sich unter dir, wenn die Anbieter sie aktualisieren. Wenn sich die Komponenten deines Systems ständig verändern, musst du die Stabilität bewusst entwickeln, statt sie zu erben.

Der Code wird zu einer Blackbox, also wird die Spezifikation zur Wahrheit

Da KI immer mehr von der Anwendung generiert, werden die Spezifikation und der Test zur einzigen verlässlichen Quelle der Wahrheit. Wenn die Software besteht, was du angegeben hast, ist sie in Ordnung und du musst den generierten Code nicht mehr lesen.

Dadurch werden Praktiken wie verhaltensgetriebene Entwicklung und testgetriebene Entwicklung von “netten Werkzeugen” zum Kern der Arbeit. Die eigentliche Frage ist, wie du das, was du willst, in einer Form niederschreibst, die präzise genug ist, um als Akzeptanzkriterien zu dienen.

Hier lauert eine Falle. Die Leute werden sich überkorrigieren und riesige Spezifikationen schreiben, so dass du am Ende Millionen von Zeilen mit Spezifikationen hast, so wie Teams heute Millionen von Zeilen mit Code haben. Diese Spezifikationen werden sich widersprechen. Die Systeme werden sich seltsam verhalten und du wirst deine Zeit damit verbringen, die Spezifikationen zu debuggen, anstatt den Code.

Die Abstraktionsebene nimmt stark zu. Eine vollständige, offene Spezifikation für ein so großes System wie eine CRM-Plattform zu schreiben, ist wirklich schwierig, denn niemand kann alles festlegen, was ein solches System tun soll.

Der Druck auf die KI kommt von außerhalb der IT, nicht aus ihr selbst

Der Druck für KI kommt von der Geschäftsseite, nicht von der technischen Seite. Leute aus dem Marketing kommen jetzt auf uns zu und fragen, ob KI ein konkretes Problem lösen kann, das sie haben. Diese Art von Anfrage kam bei der traditionellen Softwareentwicklung selten vor.

Dadurch ändert sich, wer die Arbeit vorantreibt. Die Nachfrage kommt von Leuten, die näher an der Wertschöpfung des Unternehmens sind und ein Tool wollen, das Kunden verfolgt oder aufzeigt, was passiert, und nicht von jemandem, dessen Identität darin besteht, der Datenbankexperte zu sein.

KI ist ein einfach zu bedienender Enabler, denn sie erfordert keine Kenntnisse einer Programmiersprache. Du kannst sie in einfacher Sprache abfragen, und das demokratisiert die Datenverarbeitung. Die Kehrseite der Medaille ist, dass die Qualität fragwürdig wird, weil jetzt fast jeder Software produzieren kann, ohne dass jemand prüft, ob sie den Anforderungen entspricht.

KI wird dir nicht deinen Job wegnehmen. Sie wird dich nicht automatisieren, sondern dich und deine Arbeitsweise ergänzen. Und in diesem Bereich gibt es noch viel zu tun.
Henri Terho

Alte organisatorische Probleme tauchen wieder auf, und jetzt musst du sie lösen

KI zwingt ungelöste menschliche Probleme wieder an die Oberfläche, denn das System braucht eine einzige Quelle der Wahrheit, die die Menschen nie definiert haben. Wenn KI die wichtigste Schnittstelle zum Wissen eines Unternehmens wird, musst du aufschreiben, was die Organisation tatsächlich tut.

Stell dir einen Dokumentenspeicher mit zwanzig Versionen der gleichen Datei vor. Welche davon ist die richtige? Um diese Frage zu beantworten, braucht man echten Kontext: ob eine Version an einen Kunden ging, an welchen und ob sie danach überarbeitet wurde. Das Problem klingt trivial, ist es aber nicht.

Softwareentscheidungen waren schon immer mit versteckten Geschäftsentscheidungen verbunden. Ein Entwickler, der ein Unternehmen auf eine Cloud-Plattform festgelegt hat, hat eine weitreichende Entscheidung getroffen, die alles Weitere beeinflusst hat, oft ohne dass es jemandem aufgefallen ist. KI macht diese verborgenen Entscheidungen sichtbar und verlangt, dass sie angegangen werden.

Um die Verifizierung in den Griff zu bekommen, solltest du Leitplanken in die Plattform einbauen. Eine Möglichkeit ist es, mehrere KI-Instanzen prüfen und diskutieren zu lassen, ob ein bestimmtes Ergebnis tatsächlich gut ist, so dass das System sich selbst überprüft, anstatt einem einzigen Durchlauf zu vertrauen.

Warum die Fähigkeiten eines Testers in die KI-Ära passen

Die Denkweise des Testens passt direkt zu den Anforderungen der KI-Arbeit. Bei der Arbeit geht es bereits darum, Kriterien zu definieren, sie in Spezifikationen und Testfälle zu schreiben und die Ergebnisse zu überprüfen. Mit dieser Grundvoraussetzung sind Tester vielen anderen IT-Berufen voraus.

Was du noch hinzufügen kannst, ist statistisches Denken. Kümmere dich nicht mehr nur darum, dass ein Test grünes Licht gibt, sondern beobachte, wie sich die Ergebnisse über die verschiedenen Testläufe hinweg entwickeln. Dann kannst du über den Tellerrand des Testers hinausschauen.

Testen und Validierung werden Teile benachbarter Rollen übernehmen, darunter auch Teile von DevOps und Programmierung. Je weiter du in diese Bereiche vordringst, desto höher ist dein Wert, und je breiter dein Kontext ist, desto besser ist dein Urteilsvermögen, genau wie mehr Kontext die Leistung einer KI verbessert.

Die vorherrschende Reaktion auf all diese Veränderungen ist Angst, und das ist eine natürliche Reaktion auf eine so große Veränderung. Die Angst davor, automatisiert zu werden, sollte als Erstes abgelegt werden. Die Arbeit, die vor uns liegt, ergänzt die Tester, anstatt sie zu ersetzen, und davon gibt es eine ganze Menge.