Qualitätssicherung von KI

KI testen bedeutet, Qualität statistisch zu bewerten statt mit klarem Ja/Nein-Ergebnis. Klassische Qualitätsmerkmale wie Funktionalität, Performance oder Portierbarkeit gelten weiterhin, werden aber um KI-spezifische Kriterien ergänzt: funktionale Leistungsmetriken, Autonomie, Transparenz und ethische Aspekte. Methoden wie Metamorphes Testen und Pairwise Testing gewinnen dabei neue Bedeutung, weil ein eindeutiges Testorakel fehlt.

Das Wichtigste in Kürze

Klassische Qualitätsmerkmale wie Funktionalität sind bei KI keine Ja/Nein-Aussage mehr, sondern statistische Größen, die über Metriken wie Genauigkeit, Präzision und Sensitivität gemessen werden.
Metamorphes Testen löst das Testorakel-Problem: Wer die Ausgabe nicht kennt, variiert die Eingabe so, dass die Ausgabe gleich bleiben muss, und gewinnt damit nachprüfbares Vertrauen in das System.
KI-Systeme lernen aus den Daten, nicht aus der Absicht dahinter: Ein Bildklassifikator, der auf Fotos mit Zeitstempeln trainiert wird, lernt den Zeitstempel statt den eigentlichen Bildinhalt.
Reproduzierbarkeit bei KI-Systemen ist strukturell schwierig, weil Trainingsparameter oft per Zufallsgenerator gesetzt werden und sich nicht jeder Zustand exakt festhalten lässt.
Bekannte Testmethoden wie Pairwise Testing und A/B-Testing gewinnen bei KI neue Relevanz, weil viele Parameterkombinationen und fehlende Testorakel genau die Stärken dieser Verfahren fordern.

Warum Qualität bei KI keine Ja/Nein-Frage mehr ist

Bei klassischer Software liefert ein Testfall ein klares Ergebnis: pass oder fail. Bei einer KI fällt diese Eindeutigkeit weg. Funktionalität wird zur statistischen Größe, gemessen über Werte wie Genauigkeit, Präzision und Sensitivität.

Tester sind darauf trainiert, jeden Testschritt mit “richtig” oder “falsch” zu bewerten. Bei einer KI fehlt diese Zwischenbewertung oft komplett. Am Ende eines Laufs über viele Testschritte lässt sich vielleicht sagen “das war gut”, aber für die einzelnen Schritte dazwischen gibt es keine harte Aussage.

Der Kern des Problems hat einen Namen: das Test-Orakel fehlt. Bei klassischer Software gibt es eine Spezifikation, die vorschreibt, wie das System arbeiten muss. Bei einer KI existiert dieser eindeutige Maßstab nicht mehr. Es gibt nur noch, wie das System normalerweise arbeiten sollte. Manchmal tut es das nicht, und das kann trotzdem in Ordnung sein.

Ein Bildklassifikator erkennt einen Apfel meist als Apfel. Dass er ihn einmal nicht erkennt, ist erlaubt. Genau deshalb kann ein Testfall nicht lauten: “Gib dieses eine Bild rein, Apfel muss rauskommen, einmal geprüft, passt.” Stattdessen braucht es viele Bilder und die Frage, wie viele genug sind, um Vertrauen aufzubauen.

KI ist auch nur Software, aber mit zusätzlichen Qualitätsmerkmalen

Die klassischen Qualitätsmerkmale gelten weiter. Funktionalität, Performance, Portierbarkeit: diese Klassiker aus dem Qualitätsmanagement bleiben relevant, weil eine KI in ein größeres Gesamtsystem eingebettet ist. Performance-Tests, Usability-Tests, Regressionstests und Anforderungsanalyse fallen nicht weg.

Neu sind Merkmale, die es bei klassischer Software so nicht gab. Autonomie beschreibt, wie selbstständig ein System agieren kann, wie lange es das unter welchen Bedingungen tut und wann es die Kontrolle zurückgibt. Ein automatisiert fahrendes Auto fährt nicht endlos selbst, irgendwann meldet sich der Spurassistent und fordert die Hände ans Lenkrad zurück.

Ethik wird zum Prüfgegenstand. In einer Unfallsituation muss eine Entscheidung getroffen werden, und Tester werden zunehmend die Anforderung dahinter hinterfragen müssen: Was soll die KI an dieser Stelle wirklich tun? Soll sie selbst entscheiden oder die Kontrolle an den Menschen zurückgeben?

Transparenz ist für Tester besonders wichtig. Ohne Einblick, warum eine KI so entscheidet, wie sie entscheidet, lässt sich Qualität kaum messen. Das zugehörige Forschungsfeld heißt Explainable AI, kurz XAI.

Wie eine KI das Falsche lernt

Eine KI lernt aus den Daten, die sie bekommt, und manchmal lernt sie das Falsche. Garbage in, garbage out: füttert man ein Netz mit irreführenden Daten, hat man am Ende ein Problem, das schwer zu erkennen ist.

Ein konkreter Fall macht das anschaulich. Eine KI sollte per Bilderkennung erkennen, was an einer Smart-Heizungssteuerung eingestellt war. Die Genauigkeit blieb hartnäckig bei 40 bis 45 Prozent, in einem Fall 68 Prozent, zu wenig für den Einsatz.

Eine sogenannte Heatmap zeigte, woran es lag. Auf allen Fotos prangte ein Zeitstempel der Kamera. Die KI hatte den Zeitstempel gelernt, sonst nichts. Genau solche versteckten Korrelationen sind der Grund, warum sich Tester intensiv mit den Eingangsdaten beschäftigen müssen, bevor sie Ergebnisse interpretieren.

Hier lauert auch eine sprachliche Falle. Der Begriff “Testdaten” bedeutet im KI-Workflow die Daten, mit denen ein Netz belernt wird. Für klassische Tester sind Testdaten das, womit man testet. Zwei verschiedene Dinge unter einem Wort, und diese Begriffe sauber auseinanderzuhalten ist Teil der Einarbeitung.

Metamorphes Testen: Vertrauen ohne bekanntes Ergebnis

Metamorphes Testen löst das Orakel-Problem, indem es Eingaben gezielt verändert, ohne dass sich die erwartete Ausgabe ändern darf. Man weiß nicht, was genau rauskommen soll, aber man weiß, dass die Ausgabe gleich bleiben muss.

Das Prinzip lässt sich an einem Dreieck zeigen. Verlängert man alle Seiten um fünf Zentimeter, ist es immer noch ein Dreieck. Diese sogenannte metamorphe Relation beschreibt eine Veränderung, die am Ergebnis nichts ändern darf. Reagiert die KI darauf korrekt, gewinnt man ein Stück Vertrauen, auch ohne das absolute Soll-Ergebnis zu kennen.

Besonders nützlich ist die Methode, um verdeckte Fehlpriorisierungen aufzudecken. Lernt ein Bildklassifikator Formen, die jeweils in einer eigenen Farbe gezeigt werden, etwa roter Kreis, blaues Rechteck, gelbes Dreieck, kann es passieren, dass er nicht mehr die Form, sondern die Farbe lernt.

Dann variiert man im Test die Farbe. War der Kreis blau, zeigt man der KI ein blaues Rechteck. Klassifiziert sie es als Kreis, ist klar: Sie zieht die Farbe als Merkmal, obwohl diese keine Rolle spielen dürfte. Die metamorphe Relation nutzt also aus, dass irrelevante Eigenschaften variiert werden, um genau solche Fehler herauszutesten.

Je mehr metamorphe Relationen angewendet werden, desto mehr Vertrauen entsteht. Das Verfahren ist nicht neu, gewinnt aber dort an Bedeutung, wo das Test-Orakel fehlt.

Bewährte Methoden mit neuer Bedeutung

Nicht alles muss neu erfunden werden. Mehrere etablierte Testmethoden lassen sich direkt auf KI-Systeme anwenden, weil deren Eigenschaften besonders gut zu den alten Problemen passen.

Pairwise Testing: KI-Systeme haben sehr viele Parameter und damit unzählige Parameterkombinationen. Alle zu testen ist unmöglich, deshalb hilft das paarweise Kombinieren, die Zahl der Testfälle beherrschbar zu halten.
A/B-Testing: Wo das Soll-Ergebnis unklar ist, lassen sich zwei KIs mit demselben Ziel entwickeln und von zwei Anwendergruppen bewerten. Das fängt einen Teil des fehlenden Orakels auf.
Metamorphes Testen: Eingaben verändern, ohne die erwartete Ausgabe zu ändern, und das Verhalten prüfen.

Diese Methoden waren schon vor Jahren bekannt. Im KI-Kontext bekommen sie neues Gewicht, weil das fehlende Orakel und die hohe Parameterzahl genau die Lücken sind, die sie schließen.

Warum Testumgebungen für KI ungleich aufwendiger sind

Bei klassischer Software sind Ein- und Ausgaben meist strukturiert: Datenbanken, Tabellen, Sensordaten physikalischer Systeme. Für KI-Anwendungen wächst die Bandbreite der Inputs enorm, und ein kleiner Satz von Testdaten reicht nicht mehr.

Beim autonomen Fahren muss eine ganze Umgebung simuliert werden: Städte, Straßenzüge, Gebäude, Passanten, andere Fahrzeuge. Diese Simulation gilt nicht nur klassischen Komponenten, sondern besonders den KI-Komponenten mit ihren multimodalen Inputs aus Kameras, Lidar- und Radarsensoren.

Reale Tests sind kaum bezahlbar. Statisten und aufwendige Szenarien in der Realität durchzuspielen ist nicht machbar, weshalb stark auf Virtualisierung gesetzt wird. Auch Rechenleistung, Datenbereitstellung, Wiederverwendbarkeit und Anonymisierung der Daten gehören zum Aufwand.

Reproduzierbarkeit ist bei KI nicht selbstverständlich

Ergebnisse exakt zu reproduzieren ist bei KI extrem schwer, weil beim Training viel mit Zufallsgeneratoren läuft. Die Parameter neuronaler Netze werden oft per Zufall gewählt, und dieser Zufall muss wiederholbar sein.

Frameworks können Random Seeds mit abspeichern, das hilft, aber nicht immer. Nicht jeder Zustand wird konkret festgehalten, und manche Ergebnisse lassen sich schlicht nicht reproduzieren.

Beim szenariobasierten Testen verschiebt sich das Ziel. Statt jeden Durchlauf bitexakt zu wiederholen, wird das Szenario so sauber wie möglich beschrieben, sodass das Grundprinzip reproduzierbar ist. Da Statistik das Ergebnis bestimmt, ist nicht jeder Einzeldurchlauf reproduzierbar, wohl aber die Statistik als Ganzes.

Ein Fahrszenario besteht dabei aus vielen Parametern gleichzeitig: Das Auto fährt auf eine rote Ampel zu, von rechts kommt ein Lkw, von vorne ein Bus, links steht eine Frau, rechts spielt ein Kind, dazu Wetter und Sonneneinstrahlung. Was früher knappe Nebenbedingungen waren, wird zu einer langen Liste realer Parameter, die das Szenario beschreiben.

Tools testen heute eher mit KI als KI selbst

Der Tool-Markt fokussiert aktuell stärker darauf, KI in Testwerkzeuge einzubauen, als das Testen von KI zu unterstützen. Der Reiz, mit neuer Technik zu spielen, ist groß und menschlich, und so kam das Testen mit KI sogar vor dem Testen von KI.

Für das Testen von KI selbst sind generative Modelle nützlich, wenn zu wenig Testdaten vorliegen. Sie erzeugen Text für Chatbots, Bilder für Personenerkennung oder synthetische Daten etwa fürs Finanzwesen. Ob explizit dafür gebaut oder nicht: nutzbar sind sie.

Ein praktischer Einstieg ist, sich von einem Sprachmodell einen Test schreiben zu lassen. Wer als guter Tester schnell enttäuscht ist, sollte nicht aufgeben, sondern mit den Prompts spielen.

Die KI wird uns nicht ersetzen, sondern sie erleichtert uns die Arbeit. Die wird nicht weniger.
Gerhard Runze

Normung und Standards stehen noch am Anfang

Für das Testen von KI bilden sich erst die Standards heraus. Den Anfang machte ein Lehrplan des A4Q, abgelöst durch den CT-AI-Lehrplan des ISTQB, der vor einigen Jahren erschien und später auf Deutsch folgte.

Parallel arbeitet die Normungsroadmap an dem Thema, von der Bundesregierung initiiert und auf dem Digitalgipfel vorgestellt. Sie weist in mittlerweile zweiter Ausgabe auf, wo Normierung nötig ist, geschrieben von mehreren hundert Autoren. Sie betrachtet Domänen wie Finanzwesen, Medizin und Verkehr ebenso wie übergreifende Themen, etwa die Auswirkungen des EU AI Act.

Reproduzierbarkeit bleibt dabei eine offene Flanke. Wie sich etwas normen lässt, das sich nicht zuverlässig reproduzieren lässt, ist noch nicht zu Ende gedacht. Für große Sprachmodelle hat sich bereits eine Gruppe gebildet, die die Bedarfe strukturiert und Normung anstößt.

Was Tester jetzt umstellen müssen

Tester brauchen für KI ein neues Mindset, kein komplett neues Handwerk. Die statistische Denkweise ersetzt die alte Ja/Nein-Logik: Wahrscheinlichkeiten, Ungenauigkeiten und Vertrauensniveaus treten an die Stelle des eindeutigen erwarteten Ergebnisses.

Der Fokus verschiebt sich auf die Daten. Wer testet, muss verstehen, welche Daten ein Netz belernt haben, welche versteckten Merkmale es gezogen haben könnte und ob die Trainingsdaten überhaupt das abbilden, was die KI lernen soll.

Gleichzeitig bleibt das klassische Fundament tragend. Wer CTFL beherrscht, hat die Basis. Darauf setzen die KI-spezifischen Methoden auf, vom metamorphen Testen über Pairwise bis zum szenariobasierten Vorgehen. Das eigentlich Neue ist nicht das Werkzeug, sondern die Bereitschaft, Qualität ohne ein festes Orakel zu denken.