ChatGPT for Test

ChatGPT lässt sich im Softwaretesting als Produktivitätswerkzeug nutzen: Es leitet aus Anforderungen oder Benutzerhandbüchern Testfälle ab, generiert Testdaten, erstellt Skripte in Sprachen wie PowerShell oder Gherkin und liefert Testideen für exploratives Testen. Entscheidend ist dabei, Prompts präzise zu formulieren und die Ergebnisse fachkundig zu bewerten, da das Modell auch fehlerhafte Ausgaben produziert.

Das Wichtigste in Kürze

ChatGPT eignet sich als Kreativitätsbooster beim explorativen Testen: Es liefert Testideen, auf die man selbst nicht gekommen wäre, etwa SEO-Optimierung als Testthema für eine Website.
Aus Anforderungen, Benutzerhandbüchern oder einfachen Beschreibungen leitet ChatGPT in Sekunden Testfälle, Testthemen und ausführbare Skripte ab, inklusive vorgegebener Ausgabeformate und Tabellenstrukturen.
Wer ChatGPT nutzt, braucht das Fachwissen, um Unsinn zu erkennen: Das Tool übersetzt Akronyme teilweise komplett falsch und halluziniert Inhalte, ohne das kenntlich zu machen.
Datenschutz und Governance sind der entscheidende Flaschenhals für den produktiven Projekteinsatz: In einigen Firmen ist die Nutzung bereits verboten, weil unklar ist, wem die eingespeisten Daten und generierten Ergebnisse gehören.
Prompting-Techniken wie das Versetzen in eine Expertenrolle oder das Gegeneinander-Antreten mehrerer Perspektiven verbessern die Ergebnisse spürbar, wenn der erste Versuch nicht ausreicht.

ChatGPT als Werkzeug für Tester: der Einstieg über Neugier statt Theorie

ChatGPT lässt sich für Testaufgaben am besten von der Nutzerseite her erschließen, nicht von der Entwicklung neuronaler Netze. Wer das Werkzeug verstehen will, braucht kein Data-Science-Wissen. Er braucht die Bereitschaft, auszuprobieren und die Ergebnisse kritisch einzuordnen.

Klaudia Dussa-Zieger und Michael Heller haben sich dem Thema entlang von drei Fragen genähert: Was steckt grob im Hintergrund, wie verhält sich das Modell, und wofür lässt es sich konkret einsetzen. ChatGPT ist ein Sprachmodell. Es erzeugt den nächsten Textbaustein über Wahrscheinlichkeiten und viele Schichten. Diese Mechanik zu kennen hilft beim Einordnen, ersetzt aber nicht das eigene Experimentieren.

Ein nützliches Bild zur Charakterisierung stammt aus einem Test des Bayerischen Rundfunks: ChatGPT hat das bayerische Abitur mit Noten im Bereich 3,5 bis 4,0 bestanden. Es ist also kein Top-Schüler, aber ein brauchbarer. Diese Einordnung ist wichtig, weil sie die Erwartung kalibriert.

Warum ChatGPT für Tester ein Sprachmodell auf mehreren Ebenen ist

ChatGPT spricht nicht nur natürliche Sprache, sondern auch Programmiersprachen und Formate. Wer das versteht, eröffnet sich deutlich mehr Anwendungen als das Schreiben von Gedichten oder Reiseplänen.

Das Modell generiert Python ebenso wie Cucumber-Code oder Gherkin-Schablonen. Es liefert Testfälle in vorgegebenen Tabellenformaten mit Vor- und Nachbedingungen, wenn der Prompt das so verlangt. Du kannst die Ausgabeform sehr genau steuern, von der Spaltenstruktur bis zum Detailgrad.

Sogar Emojis sind in diesem Sinn eine Sprache. In einer explorativen Teststrategie kann ein lächelndes Symbol eine Bewertungsschicht ergänzen, die sonst Handarbeit wäre. Der Aufwand lohnt sich nur in bestimmten Kontexten, aber die Möglichkeit zeigt, wie breit der Begriff Sprache hier zu verstehen ist.

Der praktische Nutzen liegt im Tempo. ChatGPT schreibt in ein bis drei Minuten eine Reihe von Testfällen herunter, für die das reine Tippen länger dauern würde.

Wofür sich ChatGPT im Testalltag konkret nutzen lässt

ChatGPT deckt eine Bandbreite von Testaufgaben ab, von der Ableitung von Testfällen bis zur Vorbereitung der Testumgebung. Die folgenden Anwendungen haben sich in der Praxis bewährt:

Testfälle aus Anforderungen ableiten. Aus einer Anforderungsspezifikation entsteht schnell eine umfangreiche Sammlung von Testfällen und Testideen.
Testfälle ohne Anforderungen. Auch aus einem Benutzerhandbuch lassen sich Testfälle ableiten. Das funktioniert überraschend gut.
Testspezifikationen bis zum ausführbaren Skript. Vom Konzept über die Spezifikation bis zu lauffähigem Code reicht die Kette.
Testkonzept-Gerippe. Ein erstes Grundgerüst für ein Testkonzept entsteht zügig.
Testdatengenerierung. Wer hundert Personendatensätze mit bestimmten Eigenschaften braucht, etwa Wohnort und Familienstand, bekommt sie in Sekunden.
Hilfsskripte für die Umgebung. PowerShell, Docker-Skripte und ähnliche kleine Werkzeuge lassen sich erzeugen, auch in Sprachen, die der Tester selbst nicht beherrscht.

Ein Beispiel für den Tempogewinn sind reguläre Ausdrücke. Wer sie nicht beherrscht, kann sich eine bestehende Expression erklären lassen oder aus einer Beschreibung eine neue erzeugen. Eine wiederkehrende Hürde verschwindet.

Auch beim Erlernen fremder Programmiersprachen verschiebt sich die Einstiegsschwelle. Wer ein gutes Gefühl dafür hat, was technisch gehen müsste, kann ChatGPT die konkrete Umsetzung in PowerShell oder einem Container-Skript überlassen, ohne die Sprache vorher gelernt zu haben.

Exploratives Testen profitiert am stärksten

Die größte Stärke von ChatGPT im Test liegt im explorativen Testen, weil es dort als Kreativitätsbooster wirkt. Beim explorativen Testen geht es nicht darum, ob eine einzelne Annahme stimmt, sondern ob kreativ genug nach kritischen Stellen gesucht wurde.

ChatGPT erweitert das eigene Denken um Ideen, auf die man allein nicht gekommen wäre. Ein Beispiel: Bei Testthemen für eine Webseite schlägt das Modell SEO-Optimierung vor, einen Aspekt, der bei der klassischen Aufteilung in funktional und nicht-funktional leicht durchrutscht.

Das Modell kennt auch die Literatur zu Testtouren. Setzt man es gezielt in eine Ecke, etwa zu einer FedEx-Tour an einem Gaming-Headset, leitet es aus diesem Kontext heraus Testideen ab. Es denkt nicht, aber es fördert die eigene Kreativität.

Wer das Thema abstrakt genug formuliert, umgeht dabei auch Datenschutzprobleme. Eine allgemeine Ideenliste zu einem Problem zu generieren ist unkritisch, solange keine projektspezifischen Inhalte einfließen.

Die Schwäche: ChatGPT erzählt überzeugend auch Falsches

ChatGPT liefert manchmal Unsinn, und zwar in derselben sicheren Tonlage wie korrekte Antworten. Die zentrale Kompetenz im Umgang mit dem Werkzeug ist deshalb, das Richtige vom Falschen zu unterscheiden.

Ein Beispiel sind technische Abkürzungen. Bei einem Technologie-Stack hat das Modell ein Akronym frei erfunden und LGTM als “Looks good to me” aufgelöst. Im konkreten Kontext war das harmlos, aber es zeigt das Muster: Die Antwort klingt plausibel, ist es aber nicht.

Daraus folgt eine klare Arbeitsweise. Du nimmst die Ergebnisse nicht ungeprüft, sondern schaust mit sehendem Auge darauf. Du überlegst, wie du fragst, was du fragst, und wie du die Antwort einsortieren musst. Der erste Wurf ist eine Vorlage, kein Endprodukt.

Ich glaube, man kann das wirklich gut nutzen, aber man muss nochmal drauf schauen können und das dann wirklich einsortieren können. Klaudia Dussa-Zieger

Wie du beim Prompting vorgehst, wenn der erste Versuch nicht trägt

Sinnvolles Arbeiten mit ChatGPT ist zeitlimitiert und neugiergetrieben. Du probierst, solange es schneller oder besser ist als die Handarbeit, und brichst ab, wenn es nicht mehr besser wird.

Bringt der erste Prompt kein passendes Ergebnis, helfen ein paar bewährte Techniken. Du kannst das Modell in einen Betriebsmodus versetzen und ihm eine Rolle geben. Eine Variante ist, mehrere Expertenrollen gegeneinander antreten zu lassen und sich so dem Ergebnis aus verschiedenen Richtungen zu nähern.

Das Verhalten des Modells ist emergent. Niemand kann vorhersagen, was bei einer bestimmten Formulierung herauskommt. Genau deshalb ist das Experimentieren nicht Spielerei, sondern die Methode, um eine Vorhersagegenauigkeit aufzubauen: Mit der Zeit entwickelst du ein Gespür dafür, ob sich ein Versuch lohnt.

Der Effizienzmaßstab ist einfach. Wenn das Werkzeug in den Fällen, in denen man es einsetzt, überwiegend schneller oder besser liefert, hat sich der Einsatz gelohnt. Ein einzelner Fehlschlag wiegt das nicht auf.

Governance entscheidet, ob ChatGPT im Projekt ankommt

Die größte offene Hürde für den produktiven Einsatz ist nicht die Technik, sondern die Governance. Wo liegen die Daten, wem gehören die Ergebnisse, wer darf sie sehen? Solange diese Fragen offen sind, bleibt der Einsatz mit echten Projektdaten heikel.

Projektspezifische Daten einzuspeisen, um maßgeschneiderte Ergebnisse zu bekommen, ist deshalb ein sensibler Schritt. Die bisherige Annäherung läuft über eine generische Schiene, vom allgemeinen Fall hin zur konkreten Webseite, ohne interne Inhalte preiszugeben.

In der Praxis gehen Firmen sehr unterschiedlich damit um. Manche verbieten ChatGPT komplett. Sobald jemand fremden Code zur Fehlersuche eingibt, ist mindestens eine Grauzone erreicht, denn das Modell spricht alle Programmiersprachen gut genug, um damit verlockend zu wirken.

Erste Unternehmen beginnen, eigene Umgebungen aufzusetzen, in denen ChatGPT auch mit internen Daten genutzt werden darf. Sobald das verbreitet ist, stellt sich die nächste Frage: ob sich ein konsistentes Prompting für größere, zusammenhängende Aufgaben aufbauen lässt. Sobald die Governance gelöst ist, wird daraus ein echter Effizienzboost.

ChatGPT hat den Markt geöffnet, ist aber nicht die ganze KI

Der niedrige Zugang erklärt den Erfolg von ChatGPT, verstellt aber den Blick auf andere KI-Lösungen, die im Test längst Sinn ergeben. ChatGPT hat den Hype ausgelöst, weil man es ohne technische Hürden bedienen kann.

Für Tester gibt es KI jenseits des Chatbots. Objekterkennung für die Testautomatisierung ist ein eigenständiges Verfahren, das ein Objekt zuverlässig erkennen muss. Solche Lösungen gab es vor ChatGPT und sie haben auch davor Sinn ergeben.

Eine Hoffnung lautet deshalb, dass die durch ChatGPT geöffnete Aufmerksamkeit auch auf diese Bereiche zurückwirkt. Der Vergleich verschiedener Modelle, etwa ChatGPT gegen Bard, ist ein erster Schritt weg von der Fixierung auf ein einzelnes Werkzeug.

Wer die kostenpflichtige Variante nutzt, bekommt mit der Code-Ausführung im Chat eine besonders nützliche Fähigkeit. Aus einer Anweisung wie “erzeuge eine MP3-Datei mit zwei Sinustönen für einen Stereo-Kopfhörertest” entsteht direkt die fertige Datei. Diese Nähe von normaler Sprache zur Programmierung macht KI zum Gleichmacher: Der Aufwand für Aufgaben, die man selbst nicht beherrscht, sinkt deutlich.

Wie du anfängst: keine Scheu, nicht zwingend mit dem Test

Der beste Einstieg ist, einfach loszulegen und keine Scheu vor dem Ausprobieren zu haben. Du musst nicht mit Testaufgaben beginnen. Geburtstagsgedichte oder andere harmlose Aufgaben reichen, um ein Gefühl für das Werkzeug zu bekommen.

Worauf es bei diesem Gefühl ankommt: die Spannung zwischen Leichtigkeit und Ergebnisqualität. Du erlebst, wie schnell ein erstes Ergebnis da ist, und wie viel Nacharbeit es braucht, um es zu verfeinern. Erst danach lohnt sich der Schritt zu ernsteren Aufgaben.

Konkret beginnst du mit einem Zugang. Ein kostenloses OpenAI-Konto vermeidet Zusatz-Prompting, das andere Oberflächen mitbringen. Dann probierst du mit dem, was dir am meisten Spaß macht, und liest danach eine kurze Recherche zu ein paar Prompting-Techniken. Wer dranbleibt, verliert den Anschluss an die Technologie nicht.