Zum Inhalt springen

Suchen...

Testen mit Natürlicher Intelligenz

KI übernimmt das Testen? Was sie nicht kann: echte Neugier, Intuition und den Blick über den Tellerrand. Warum menschliches Testerdenken bleibt.

7 Min. Lesezeit
Cover für Testen mit Natürlicher Intelligenz

Natürliche Intelligenz im Softwaretest bezeichnet die menschliche Fähigkeit, durch Neugier, Intuition und Kontextwissen Fehler zu finden, die kein KI-System ohne gezielten Hinweis aufdecken würde. Exploratives Testen, Checking und ein neu vorgeschlagener dritter Typ namens Digging bilden zusammen eine vollständige Teststrategie. Menschliches Urteilsvermögen bleibt unverzichtbar, um KI-generierte Testergebnisse fachlich bewerten zu können.

Das Wichtigste in Kürze

  • Exploratives Testen liefert Bugs, die nur durch menschliche Neugier, Intuition und Kontextwissen entstehen, nicht durch systematische Testfallgenerierung allein.
  • KI-generierte Unit-Tests fallen häufig in dieselbe Äquivalenzklasse und verfehlen die wirklich kritischen Eingabefälle, was ungeprüftes Übernehmen zum Qualitätsrisiko macht.
  • Neben Testing und Checking braucht es eine dritte Kategorie für KI-Aktivität: das bloße Wühlen in trainierten Daten ohne echtes Verstehen der Aufgabe.
  • Wer als Junior-Tester oder -Entwickler KI-Ergebnisse nie selbst bewertet, baut kein Fachwissen auf und verliert dauerhaft die Fähigkeit, diese Ergebnisse überhaupt beurteilen zu können.
  • Die entscheidende Frage beim KI-Einsatz ist nicht, was technisch möglich ist, sondern ob es sinnvoll ist, einer KI genau diese Aufgabe zu übergeben.

Ein Bug, den keine KI gesucht hätte

Manche Fehler kommen nur durch menschliche Neugier ans Licht. Jonas Poller war in seinem ersten Projekt damit beschäftigt, eine fachlich komplizierte Software explorativ kennenzulernen. Dabei änderte er mehrere Parameter und klickte zwischen zwei Zuständen hin und her. Irgendwann erhöhte sich ein Preis um einen Cent, ohne dass er das gedurft hätte. Der Fehler war reproduzierbar und stellte sich als großes Problem heraus.

Christian Brandes nannte dieses Vorgehen später das “Brutto-Netto-Flick-Flack”: zwei Toggle, zwischen denen jemand so lange hin und her schaltet, bis etwas kippt. Auf so eine Idee kommt man nicht durch ein Skript, sondern durch das Bedürfnis, eine fremde Software zu verstehen.

Ein zweites Beispiel zeigt dieselbe Mechanik. Bei einem Test von Eingabevalidierungen fing die Software eine halbe Stunde lang alles ab, was Jonas probierte. Erst als der Cursor ganz links stand und blinkte, wurde plötzlich ein Einfügen per Strg+V möglich. In der Zwischenablage lag zufällig eine Kommazahl. Beim Einfügen stürzte der ganze Browser ab. Eine Kette von Zufällen, die niemand vorab als Testfall formuliert hätte.

Warum exploratives Testen menschlich bleibt

Exploratives Testen lebt von Neugier, Intuition und Kontextwissen, das im Moment kein Modell von sich aus mitbringt. Genau dieses Fundament macht den Unterschied zwischen einem geplanten Testfall und einer Beobachtung, die niemand bestellt hat.

Ein Beispiel aus jahrelangen Schulungen zum explorativen Testen macht das greifbar. Als Testobjekt diente ein Vorschul-Lernlaptop. In all den Durchführungen kam ein einziger Teilnehmer auf die Frage, ob sich das Gerät auch ohne Maus bedienen lässt, weil sein Kind den Laptop im Auto auf dem Schoß hat, ohne Ablage für die Maus. Dieser eine Mensch mit diesem einen Kontext fand viele Fehler.

Eine KI könnte viele dieser Testfälle durchaus als Kandidaten ausspucken. Aber du müsstest sie vorher dorthin tragen. Du müsstest sie prompten: Denk an andere Umgebungen, an andere Nutzungssituationen. Von sich aus kommt der Anstoß nicht.

Ist eine KI kreativ oder simuliert sie es nur?

Aktuelle Modelle sind nach Einschätzung der beiden nicht kreativ, sie wirken nur so. Die Frage, ob eine KI im Testentwurf echte Kreativität entwickeln kann, führt schnell zu zwei tieferen Fragen: Ist die KI wirklich kreativ oder simuliert sie es? Und was ist Kreativität überhaupt? Letzteres hat dasselbe Kaliber wie die Frage, was Intelligenz ist.

Für den Testentwurf muss diese philosophische Frage gar nicht abschließend geklärt werden. Auch wenn ein Modell etwas liefert, das sich kreativ anfühlt, gibt es keinen Grund, auf menschliche Neugier und Intuition zu verzichten. Exploratives Testen fällt in die Kategorie der erfahrungsbasierten Tests, und Erfahrung lässt sich nicht einfach wegrationalisieren.

Ein Punkt bleibt unabhängig von der Kreativitätsfrage bestehen: Eine KI kann nicht zuverlässig sagen, was genau richtig ist. Ein Mensch weiß in vielen Fällen mit Sicherheit, ob eine Implementierung oder ein Output stimmt. Bei der KI bleibt es eine Schätzung. Sie kann sehr zuverlässig sein, aber im kritischen Bereich ist die Frage, ob du dich darauf verlassen willst.

Testing, Checking, Digging: eine dritte Kategorie

Was eine KI im Testentwurf tut, passt weder in die Schublade Testing noch in die Schublade Checking. Diese Unterscheidung ist im Testumfeld erstaunlich wenig bekannt. Bei einer Nachfrage im Publikum gingen kaum mehr als fünf Hände hoch.

Die beiden Begriffe lassen sich klar trennen:

BegriffGrundlageCharakter
TestingIntuition, Neugier, Erfahrungmenschlich, explorativ
CheckingSkriptmechanisch, automatisierbar, wiederholbar
DiggingDaten, Training, Wahrscheinlichkeitenweder das eine noch das andere

Für das, was die KI macht, schlagen Christian und Jonas einen dritten Begriff vor: Digging. Das Modell versteht nach aktuellem Stand nicht, was es tut. Es hat Trainingsdaten und versucht über Wahrscheinlichkeiten, angelernte Informationen auf eine Aufgabe zu übertragen, in der Hoffnung, dass ein Treffer dabei ist.

Dieses blinde Wühlen in Testideen aus anderen Projekten ist die Kernidee hinter dem Begriff. Ein Kollege schlug alternativ “Puzzling” vor. Festgelegt ist die Wortwahl nicht. Ausdrücklich abgelehnt wird “Assisting”, weil das zu kompetent klingt für etwas, das nicht weiß, was es tut.

Generierte Unit-Tests testen oft nur dieselbe Äquivalenzklasse

Von einer KI generierte Tests sehen häufig sauber aus und decken trotzdem nur einen Bruchteil ab. In einem Beispiel umfasste der generierte Satz sechs Unit-Tests, die alle dieselbe Äquivalenzklasse trafen. Fünf Repräsentanten desselben Falls, und ausgerechnet die Fälle, die ein erfahrener Tester sofort eingeworfen hätte, fehlten komplett.

Genau hier liegt die Falle für Einsteiger. Wer nicht weiß, was eine Äquivalenzklasse ist, kann den Output nicht bewerten. Der Code sieht gut aus, die Tests laufen grün, und trotzdem ist die Abdeckung schwach. Bewertung braucht fachliches und testmethodisches Wissen, das man sich nicht von der KI leihen kann.

Daraus folgt ein unbequemer Punkt für die Ausbildung. Wer als Junior alles an die KI abgibt, kommt nie an den Punkt, genug Wissen aufzubauen, um Ergebnisse beurteilen zu können. Es führt kein Weg daran vorbei, Arbeit auch ohne KI zu machen, um zu lernen.

Ich hätte kein Problem damit, wenn ein Junior-Developer sagt: Unit-Tests, nervig, gib mir mal ein paar Ideen, und dann mache ich weiter. Das Problem beginnt, wenn jemand sagt: Ist mir egal, hast du Unit-Tests? Ja, da sind sie.

Christian Brandes

Die Sinnfrage kommt vor der Machbarkeit

Bevor du eine KI an eine Aufgabe lässt, lohnt die Frage, ob das überhaupt sinnvoll ist. Joseph Weizenbaum hat in “Die Macht der Computer und die Ohnmacht der Vernunft” früh formuliert, dass nicht entscheidend ist, was ein Computer tun könnte, sondern ob es sinnvoll ist, dass er eine bestimmte Aufgabe übernimmt. Dieselbe Frage liegt heute bei der KI auf dem Tisch.

Ein konkretes Beispiel sind Akzeptanzkriterien. Viele Werkzeuge versprechen, perfekte User-Stories samt Akzeptanzkriterien zu generieren. Akzeptanzkriterien sollen aber ausdrücken, was eine Product Ownerin sehen will, um überzeugt zu sein. Wie soll eine KI beantworten, was einen Menschen überzeugen würde? Und wenn jemandem selbst nichts einfällt, was er abnehmen soll, dann liegt das eigentliche Problem woanders.

Der Markt zieht in eine andere Richtung. Vibe-Coding und Schlagzeilen über KI-generierten Code befeuern die Idee, ganze Entwicklerrollen wegrationalisieren zu können. Möglich, dass die Branche durch ein Tal der Tränen muss: einmal mit ungeprüft weiterverwendetem Code an die Wand fahren, um wieder zwei Schritte zurückzugehen.

Keep testing, keep the human in the loop

Zwei Leitsätze fassen die Haltung zusammen. Erstens: Wirf das explorative Testen nicht weg. Das Unterbewusstsein und die Intuition bringen Testideen hervor, auf die kein Skript und kein Modell von sich aus kommt. Zweitens: Halte den Menschen im Prozess.

Ein Ablauf, in dem nur noch eine Idee skizziert wird und sich danach mehrere KI-Agenten die Bälle zuspielen, einer codet, einer testet, einer prüft, birgt zu großes Risiko. Irgendwo im Prozess sollte ein menschliches Gehirn zum Zug kommen. Willst du, dass eine KI die Ergebnisse einer anderen KI qualitätssichert?

Für die Praxis heißt das eine klare Arbeitsteilung. Fleißaufgaben darf die KI übernehmen, etwa Massentestdaten generieren oder einen ersten Entwurf liefern, mit dem du nicht beim leeren Blatt beginnst. Sobald es komplexer wird, gehört der Kopf dazu, um den Output bewerten zu können. Hirnarbeit bleibt beim Menschen.

Diese Seite teilen

Ähnliche Beiträge