Zum Inhalt springen

Suchen...

Warum traditionelles Testen bei KI-Systemen fehlgeschlagen ist

Entdecke die Geheimnisse des Testens von Chatbots mit praktischen Tipps, um unsichtbare Fehler zu entdecken und die Genauigkeit bei jeder Konversation zu erhöhen.

6 Min. Lesezeit
Cover für Warum traditionelles Testen bei KI-Systemen fehlgeschlagen ist

Das Testen von Chatbots durchbricht die Pass-Fail-Logik traditioneller Softwaretests, weil dieselbe Frage unzählige gültige Antworten hervorbringen kann und Bugs nicht im Code leben - sie verstecken sich in Prompts, Abrufstrategien und Vektoreinbettungen. Anders als bei der herkömmlichen QS, bei der ein Testfall richtig ist und der Rest negative Szenarien sind, müssen beim Testen von Chatbots die Kontexterhaltung, die Halluzinationskontrolle und die semantische Relevanz bei nicht-deterministischen Ausgaben bewertet werden. Die eigentliche Herausforderung besteht nicht darin, Fehler in einer Anwendung zu befunden, sondern unsichtbare Fehlerwirkungen bei der Datenbeschaffung, den Chunking-Strategien und der Antwortgenerierung aufzuspüren, die noch kein magisches Werkzeug vollständig automatisieren kann.

Podcast Episode: Warum traditionelles Testen bei KI-Systemen fehlgeschlagen ist

Diesmal spreche ich mit Dušanka Lečić darüber, warum das Testen von Chatbots alles sprengt, was wir über traditionelle Qualitätssicherung wissen. Sie erklärt, warum Chatbot-Fehler unsichtbar sind - sie verstecken sich in Prompts, Abfragelogik und Chunks, nicht im Code - und warum dieselbe Eingabe Dutzende gültiger Ausgaben erzeugen kann. Dušanka teilt ihr Framework für das Testen von Kontexterhaltung, Halluzinationskontrolle und Genauigkeit und verrät, warum Stresstests eines Chatbots die Überprüfung von Tippfehlern und Benutzerfrustration bedeuten und nicht die Überprüfung der Systemlast.

“Für die gleiche Eingabe haben wir viele verschiedene Ausgaben, einige davon können ähnlich sein, aber ja, der Nicht-Determinismus ist immer noch komplett da.” - Dušanka Lečić

[Dušanka Lečić (https://www.linkedin.com/in/dusanka-lecic/) ist eine dynamische Führungskraft und technische Expertin mit fast einem Jahrzehnt Erfahrung in der Leitung von Software-Testing-Initiativen in internationalen Teams. Als Testleiterin und Abteilungsleiterin bei Levi9 hat sie sich auf Performanztests, agile Methoden und technische Spitzenleistungen spezialisiert. Mit ihrem Doktortitel in technischen Wissenschaften verbindet Dušanka akademische Erkenntnisse mit praktischer Umsetzung und trägt häufig zu Branchenkonferenzen, Mentorenprogrammen und Expertengemeinschaften bei. In ihren Vorträgen geht es um Qualitätssicherung, Innovation und Führung in einem schnelllebigen Entwicklungsumfeld.

Highlights der Episode

  • Das Testen von Chatbots erfordert mehrere gültige Testfälle, im Gegensatz zum traditionellen Testen, bei dem nur ein Durchlauf möglich ist.
  • Bugs in Chatbots sind unsichtbar - sie verstecken sich in Prompts, Abfragelogik oder Generierung, nicht im Code.
  • Beim Testen von Chatbots kommt es mehr auf die Beibehaltung des Kontexts über mehrere Gespräche hinweg an als auf einzelne richtige Antworten.
  • Beim Stresstest von Chatbots geht es um die Überprüfung von Tippfehlern und Frustration, nicht um Performanztests.
  • Manuelle Tests sind nach wie vor unverzichtbar; noch gibt es kein Tool, das die Verifizierung der Qualität von Chatbots vollständig automatisiert.

Testen von Chatbots: Die Herausforderungen der unsichtbaren Bugs meistern

Im Gegensatz zu herkömmlicher Software sind Chatbots vielschichtiger und komplexer, was vertraute Testansätze über den Haufen wirft. In einem Gespräch auf der TestWarez-Konferenz erzählte Dušanka Lečić, eine erfahrene Testleiterin, von ihrer Reise durch die Herausforderungen beim Testen von Chatbots - eine Reise, die von unsichtbaren Bugs, unerwarteten Fehlerwirkungen und einem wachsenden Bedarf an speziellen Tools und Strategien geprägt ist.

Chatbots, insbesondere solche, die RAG-Systeme (Retrieval-Augmented Generation) integrieren, spielen nicht nach den üblichen Regeln. Während herkömmliche Apps vorhersehbare, wiederholbare Ergebnisse liefern, die an bestimmte Eingaben gebunden sind, können Chatbots eine Reihe von gültigen Antworten auf dieselbe Anfrage geben. Diese Unbestimmtheit verlagert den Fokus darauf, wie gut Chatbots den Kontext bewahren, mit Mehrdeutigkeit umgehen, Frustration minimieren und die Genauigkeit aufrechterhalten - nichts davon wird durch die üblichen Pass/Fail-Szenarien zuverlässig abgedeckt.

Unsichtbare Fehler: Die neuen Fehlerzustände verstehen

In klassischer Software sind Bugs oft in den Code eingebettet und durch Quelldateien und Protokolle verfolgbar. Bei Chatbots hingegen, so Dušanka Lečić, sind Bugs oft “unsichtbar” Diese Fehlerzustände können aus verschiedenen, nicht offensichtlichen Quellen entstehen:

  • Abfragelogik: Fehler in der Art und Weise, wie der Chatbot Daten aus Datenbanken oder Wissensquellen abruft, können zu falschen oder irrelevanten Antworten führen.

  • Prompt-Struktur: Subtile Fehler oder Ungereimtheiten in Prompts können selbst gut trainierte Modelle in die Irre führen.

  • Antwortgenerierung: Das Modell kann sich Antworten ausdenken oder erfinden, die auf mehrdeutigen Abfragen, schlechtem Chunking oder unvollständigen Trainingsdaten basieren.

Diese Ursachen machen die Fehlersuche besonders schwierig, da die Probleme möglicherweise nicht im Code, sondern im Zusammenspiel zwischen Daten, Abfragen und dem Lernprozess des Modells zu finden sind.

Wechsel von traditionellen zu hybriden Testansätzen

Da es selten eine einzige gültige Antwort auf eine Frage gibt, hat Dušanka Lečić einen hybriden Ansatz gewählt:

Manuelle Erkundung: Sorgfältig konzipierte manuelle Szenarien decken Probleme bei der Kontexterhaltung, der Halluzination und der allgemeinen Nutzerzufriedenheit auf. Tester können beurteilen, wie gut sich ein Chatbot an frühere Gesprächsverläufe erinnert, Wiederholungen vermeidet und auf die Bedürfnisse der Nutzer/innen zugeschnittene Antworten gibt.

Automatisierte Prüfungen: Die Automatisierung erleichtert zwar die Regression und die Validierung von Datenmengen, geht aber nur zum Teil auf die Feinheiten der Chatbot-KI ein. Automatisierte Routinen können zwar Rechtschreibfehler, mehrdeutige Anfragen und Leistungsgrenzen erkennen, aber bei nuancierten Fehlerwirkungen ist oft immer noch menschlicher Verstand gefragt.

Stresstest neu definiert: Stresstests für Chatbots bedeuten, sie mit Rechtschreibfehlern, mehrdeutigen Ausdrücken und echter Benutzerfrustration zu konfrontieren - und sie nicht einfach mit Datenverkehr zu überfluten. Das Ziel ist es, herauszufinden, wie belastbar und verzeihend der Chatbot in einer echten Konversation ist.

Testplanung und -dokumentation überdenken

Bei so vielen möglichen “richtigen” Ergebnissen für eine einzige Abfrage ist es aufwendiger denn je, den Überblick über Testfälle zu behalten und neue Befunde zu dokumentieren. Dušanka Lečić zeigte auf, wie KI hier helfen kann, indem sie Testkonzepte erstellt oder Gesprächsverläufe aufzeichnet. Dennoch bleibt die Dokumentation eine Herausforderung, vor allem wenn jede Änderung am zugrunde liegenden Modell oder an den Daten das Verhalten des Chatbots auf unvorhersehbare Weise verändern kann.

Der Einsatz von Testmanagementwerkzeugen mit KI-Funktionen oder die Automatisierung von sich wiederholenden Dokumentationsaufgaben können zwar einiges an Arbeit abnehmen, aber die Tester müssen immer noch ein Netz von positiven und negativen Testfällen katalogisieren, das weit über das hinausgeht, was bei herkömmlichen Apps üblich ist.

Tooling Woes: Das fehlende “magische Werkzeug”

Bei all diesen Innovationen ist eines klar: Es fehlt immer noch die richtige Toolchain. Dušanka Lečić stellte fest, dass es kein umfassendes All-in-One-Tool für das Testen von Chatbots gibt. Zwar gibt es spezialisierte Tools wie Ragas für das Testen bestimmter Aspekte von RAG-Systemen, aber es besteht immer noch eine große Abhängigkeit von manueller Arbeit und zusammengeschusterten Lösungen.

Tester jonglieren mit einer Mischung aus firmeninternen Skripten, manuellen Verfahren und teilweiser Automatisierung - und lassen Raum für Verbesserungen, während das Ökosystem reift. Es bleibt zu hoffen, dass sich mit der Weiterentwicklung der Chatbot-Technologie und der Qualitätspraktiken auch die entsprechenden Tools weiterentwickeln werden.

Kontinuierliches Lernen und Kollaboration

Um mithalten zu können, müssen sich die Teams zu kontinuierlichem Lernen und Zusammenarbeit verpflichten. Dušanka Lečić und ihre Kolleginnen und Kollegen investieren in Forschungsartikel, Konferenzvorträge und praktische Experimente und tauschen intern Erkenntnisse und Strategien aus.

Diese Offenheit ist nicht nur wichtig, um neue Fehlertypen aufzuspüren, sondern auch, um das Testen relevant zu halten, da KI-gesteuerte Systeme für das Benutzererlebnis immer wichtiger werden.

Das Testen von Chatbots stellt herkömmliche Software-QS-Modelle in Frage. Fehler lauern außerhalb des Codes, Antworten sind unvorhersehbar und der Kontext ist entscheidend. Der Erfolg in diesem sich entwickelnden Bereich erfordert sowohl die Kreativität, hybride Teststrategien zu entwickeln, als auch die Demut, das Unbekannte zu dokumentieren. Mit dem Wachstum der Branche wachsen auch die Werkzeuge und Taktiken, die Tester einsetzen, um sicherzustellen, dass diese unsichtbaren Fehler nicht unbemerkt bleiben - und dass die Nutzerinnen und Nutzer jedes Mal zuverlässige, relevante Antworten erhalten.

Diese Seite teilen

Ähnliche Beiträge