KI-Agenten in der Softwarequalität beziehen sich auf autonome Softwarekomponenten, die Aufgaben innerhalb einer Pipeline oder eines Geschäftsprozesses übernehmen und die menschliche Arbeit ersetzen oder ergänzen. Um sie zu testen, muss man KI wie einen neuen Mitarbeiter behandeln: ein Auswahlverfahren, eine Probezeit und eine kontinuierliche Leistungsbewertung. Da der Output der KI stochastisch ist und nie zweimal identisch ist, sind gespeicherte Prompt-Logs, automatische Vergleichsprüfungen und menschliche Review-Schleifen die wichtigsten Qualitätskontrollen.
Das Wichtigste in Kürze
- KI-Agenten brauchen einen Einstellungs- und kontinuierlichen Leistungsbewertungsprozess, genau wie menschliche Mitarbeiter/innen Auswahl, Probezeit und ständige Review durchlaufen, bevor sie mit Geschäftsaufgaben betraut werden.
- Die Speicherung jeder Eingabeaufforderung, die zu einem Ergebnis führt, in einem Protokoll ermöglicht Audit-Trails und statistische Analysen, so dass nachvollzogen werden kann, warum sich der Output eines Agenten im Laufe der Zeit verändert hat.
- Das Testen von KI-Ergebnissen kann mit Hilfe zusätzlicher KI-Modelle erfolgen, um die Ergebnisse zu bewerten: Wenn eine deutliche Mehrheit der Meinung ist, dass das Ergebnis gut ist, ist es wahrscheinlich akzeptabel, und Unstimmigkeiten signalisieren ein Problem.
- Das Wissen über Geschäftsprozesse im eigenen Haus zu behalten, ist eine wettbewerbsrelevante Anforderung, denn wenn man dieses Wissen an einen externen KI-Anbieter weitergibt, verliert das Unternehmen sein zentrales Unterscheidungsmerkmal.
KI-Agenten sind deine neuen Arbeitskräfte, nicht nur ein Stück Software
Behandle einen KI-Agenten so, wie du einen neuen Kollegen behandeln würdest, und nicht so, wie du eine Webseite oder ein Abrechnungssystem behandelst. Dieser Perspektivwechsel verändert die Art und Weise, wie du Vertrauen aufbaust, wie du die Leistung bewertest und wie du entscheidest, ob der Agent bleibt.
Ein neuer Mitarbeiter durchläuft die Auswahl, die Vorstellungsgespräche und eine Probezeit. Danach wird die Leistung beobachtet, und wer nicht passt, kann entlassen werden. Das Vertrauen in Menschen ist niemals blind. Es beruht auf Eingangskriterien und einer kontinuierlichen Bewertung.
Szilard Szell argumentiert, dass KI die gleiche Behandlung verdient. Ein Agent braucht einen Einstellungsprozess, einen Auswahlprozess und laufende Leistungskontrollen. Wenn ein Agent seine Leistung nicht mehr erbringt, musst du herausfinden, warum und dich für einen besseren Agenten entscheiden.
Es gibt einen finanziellen Grund, die Leistung weiter zu bewerten, anstatt sie zu verwerfen. KI ist so teuer, dass es selten Sinn macht, sie wegzuwerfen, vor allem, wenn der Fehler behebbar ist. Oft besteht die Lösung in einer geänderten Eingabeaufforderung, einem anderen Eingabeformat, einer Überprüfung der Leitplanken, des Speichers oder der Werkzeuge, die der Agent erreichen kann.
Warum “Eingabe rein, Ausgabe erwartet” bei KI nicht funktioniert
Der klassische Vertrag des Testers gilt nicht für KI. Du gibst etwas ein, erwartest ein bestimmtes Ergebnis und vergleichst es. Bei einem stochastischen System wirst du nie zweimal dasselbe Ergebnis erhalten, also bricht dieser Vertrag zusammen.
Auf die direkte Frage, ob Tester garantieren können, dass eine KI gut funktioniert, antwortete Szilard kurz und bündig: Wir können es nicht. Diese Ehrlichkeit ist der Ausgangspunkt, nicht die Sackgasse.
Was die feste Erwartung ersetzt, ist eine semantische. Ein Tester kann mit Worten beschreiben, wie gut etwas ist, und die KI ist stark darin, diese Beschreibung mit dem tatsächlichen Ergebnis zu vergleichen. Du gehst von der exakten Übereinstimmung zur Bewertung der Passung über.
Du kannst auch mehrere KIs das Ergebnis einer KI überprüfen lassen. Wenn acht von zehn ein Ergebnis für gut halten, ist es wahrscheinlich gut genug. Wenn viele ein Problem feststellen, gibt es ein Problem, das untersucht werden sollte.
Wie man etwas testet, das jedes Mal anders antwortet
Jede KI-Ausgabe muss geprüft und bewertet werden, nicht als richtig angenommen. Wenn du die Ergebnisse im Laufe der Zeit verfolgst und sich die Ausgabe verschiebt, untersuchst du die Ursache, ob das neue Ergebnis besser oder schlechter aussieht.
Eine Verschiebung kann mehrere Ursachen haben. Das zugrunde liegende LLM kann im Hintergrund aktualisiert worden sein. Der Speicher kann gelöscht oder verändert worden sein. Ohne Protokolle des Systems kannst du nicht sagen, welche.
Speichere die Prompts. Szilard ist der festen Überzeugung, dass jede Eingabeaufforderung, die zu einem Ergebnis führt, in ein Protokoll gehört. So hast du einen Audit-Trail, den du zurückverfolgen kannst, und kannst die Prompts statistisch auswerten: wie sie sich verändert haben, was danach passiert ist, wo sich die Qualität verbessert oder verschlechtert hat.
Nutze die Qualität, die du bereits kennst
Du musst die Qualitätssicherung für KI nicht von Grund auf neu erfinden. Das Wissen, über das Tester bereits verfügen, lässt sich direkt auf Agenten und auf agentenbasierte Workflows übertragen, bei denen mehrere Agenten zusammenarbeiten.
Halte einen Menschen in der Schleife, indem du deine Review-Praktiken auf den Output des Agenten anwendest. Lass deine Low-Level-Tests und Code-Analyse-Tools gegen den generierten Code laufen. Ein beträchtlicher Teil des von KI erzeugten Codes enthält IT-Sicherheitslücken, die von Tools zur Schwachstellenanalyse aufgespürt werden.
Die Feedbackschleife ist der springende Punkt. Wenn du die Scan-Ergebnisse an die KI zurückgibst, wird sie immer besser darin, Code ohne diese Schwachstellen zu produzieren. Die CI/CD-Pipeline und deine bestehenden QS-Verfahren sind genau der richtige Ort, um Agenten einzubinden.
Gestalte den Agenten so, als würdest du einen neuen Mitarbeiter einstellen
Bei der Entwicklung eines KI-Agenten geht es um zwei Probleme: Kommunikation und Korrektheit.
Das Kommunikationsproblem ist das gleiche, mit dem du bei einem Neuankömmling konfrontiert wirst. Du musst die Aufgabe klar formulieren, den Kontext nennen, die erwarteten Verhaltensweisen und Arbeitsweisen beschreiben und den Input liefern. Du legst auch fest, welche Ergebnisse du erwartest. Gute Beispiele sind wichtig, denn der Agent lernt aus ihnen, ahmt sie nach und gibt mehr richtige Antworten.
Das Problem der Korrektheit ist das Oracle-Problem. Woher weißt du, wie gut es aussieht, wenn das System zufällig ist? Das Problem lässt sich mit semantischen Beschreibungen, mehreren Prüfern und einer kontinuierlichen Bewertung lösen, anstatt mit einer einzigen festen Assertion.
Der Speicher ist der Punkt, an dem das Design gefährlich wird. Ein Agent speichert Informationen zwischen den Sitzungen und aktualisiert seinen Speicher anhand von Rückmeldungen. Wenn du nicht verstehst, wie das funktioniert, kann es passieren, dass der Agent Kontext aus dem Speicher zieht, der nicht zur aktuellen Aufgabe gehört.
Du entscheidest also ganz bewusst, wann der Agent seinen Speicher aktualisiert und wann er ihn löscht. Du entscheidest auch, was er niemals speichern darf, z. B. Passwörter, Bankdaten oder Kontodaten.
Baue deine eigene KI, kaufe sie nicht von der Stange
Du solltest die Entwicklung deiner KI-Agenten selbst in die Hand nehmen, denn sie basieren auf deinem Wissen und deinen Geschäftsprozessen. Hilfe von außen ist in Ordnung, aber die geheime Soße bleibt deine.
Die europäische Bürokratie erweist sich hier als Vorteil. Prozessbeschreibungen, Rollenbeschreibungen und Wertstromkarten sind bereits niedergeschrieben und du kannst sie wiederverwenden, um herauszufinden, welche Aktivitäten es wert sind, mit einem Agenten erweitert zu werden und wo der Ertrag am höchsten ist.
Die ergiebigste Quelle sind die Menschen. Befrage eine Handvoll Fachleute, und sie werden dir sagen, wie sie ihre Arbeit tatsächlich machen, welche Verfahren sich bewährt haben und worauf sie Wert legen. Das ist es, was du in den Agenten einspeisen kannst.
Überlege dir, was bereits weg ist. Deine Daten befinden sich in der Cloud, sie wurden also bereits teilweise weitergegeben. Wenn du jetzt auch noch deine Prozesse weggibst, stellt sich die Frage, was dein Unternehmen noch ist.
Ein Agent von der Stange funktioniert als Ausgangspunkt. Nimm ihn, aber verstehe, wie er funktioniert und verbessere ihn von dort aus, anstatt ihn als fertig zu betrachten.
Vertrauen wir Menschen mehr als KI?
Die Vertrauensdebatte hat einen blinden Fleck. Wir erklären, dass wir der KI nicht vertrauen, während wir davon ausgehen, dass wir den Menschen vertrauen, und diese Annahme hält einer Überprüfung nicht stand.
Wir haben den Menschen auch nie bedingungsloses Vertrauen entgegengebracht. Wir haben Auswahltore, Bewährung und ständige Leistungsüberprüfungen eingeführt, weil Vertrauen verdient und erhalten werden muss. Wenden wir die gleichen Mechanismen auf KI an, wird die Vertrauensfrage überschaubar.
Die wahre Angst ist eine andere. Szilard spricht offen darüber: Der Moment, in dem ein KI-Chef anfängt, ihm zu sagen, was er zu tun hat, beunruhigt ihn mehr als ein KI-Kollege.
DevOps 2.0: Schwärme von kleinen Agenten lösen große Probleme
Die nächste Phase ist DevOps 2.0, dieselben hyperschnellen Feedback-Zyklen und Arbeitsweisen, jetzt ergänzt durch KI-Agenten. Erwarte viele kleine Agenten, von denen jeder eine kleine, aber schlaue Aufgabe erledigt und eine Art Lebenslauf mit sich führt, der angibt, wofür er gut ist.
Diese Agenten bilden Schwärme, die sich zusammenschließen, um große Probleme zu lösen. Das Risiko besteht nicht darin, von der Automatisierung “überflügelt” zu werden. Das Risiko besteht darin, den Überblick darüber zu verlieren, was passiert und warum, und nicht mehr die Kontrolle zu haben. Szilard bezeichnet dies als den nächsten Schritt in einer Entwicklung, in der wir bereits einen Großteil der Kontrolle aufgegeben haben.
Agenten, die sich darauf konzentrieren, kleine Aufgaben zu lösen, aber clevere, intelligente Aufgaben, die zusammenarbeiten und große Probleme lösen.
- Szilard Szell
Stell dir den Kreislauf von Anfang bis Ende vor. Ein Agent hört sich einen Anruf mit Kundenfeedback an und liest den Tonfall, sogar ob der Anrufer wütend war. Er schlägt die nächste Funktion oder Verbesserung vor, die eine Kette von Agenten durchläuft.
Die Änderung durchläuft automatisierte Tests und Prüfungen und wird dann eingeführt. Sie kann als A/B-Test oder als Kanarienvogelversion für eine Persona-Gruppe, die dem Anrufer ähnelt und von der KI ausgewählt wird, veröffentlicht werden. Ein Agent kann sogar Massentests mit Personen durchführen, die dem ursprünglichen Beschwerdeführer ähneln.
Innerhalb von Stunden oder Tagen läuft ein Vorschlag in der Produktion. Kontinuierliche Überwachung, Telemetrie und Beobachtbarkeit sagen dir, ob die Änderung besser oder schlechter ist, genau wie bei jeder von Menschen gemachten Änderung. Wenn es funktioniert, bleibt es.
Was Tester jetzt lernen sollten, um die Kontrolle zu behalten
Beginne damit, wie die Qualität von Anfang an aufgebaut ist und was sie tatsächlich beeinflusst. Von dort aus solltest du lernen, wie Agenten und agentenbasierte Workflows funktionieren und wo ihre Risiken liegen.
Wende deine Fähigkeiten im Risikomanagement an, bevor du sie einsetzt. Sobald die KI in der Produktion ist, musst du ihre Leistung bewerten und schnell reagieren können. Wenn sich die Funktionen verschlechtern, musst du den Code wieder auf die ursprüngliche Version zurücksetzen, also baue diese Kontrollpunkte ein.
Der persönliche Schritt ist genauso wichtig wie der organisatorische. Besorg dir einen eigenen Assistenten, einen eigenen Agenten, und nimm mehr Hände für dich in Anspruch.
Baue also die Kontrollpunkte ein, aber lerne, wie KI funktioniert, und lerne, wie KI für dich arbeitet.
- Szilard Szell


