Warum KI keine Ursache-Wirkung kann

Quality Function Deployment (QFD) ist eine Matrix-basierte Methode, die Kundennutzen direkt mit Software-Funktionalitäten und Testfällen verknüpft. Sie liefert das, was LLMs nicht können: Ursache-Wirkungs-Analysen. Wer Tests auf messbaren Kundennutzen zurückführt, braucht weniger Tests und trifft bessere Priorisierungsentscheidungen.

Das Wichtigste in Kürze

LLMs können keine Ursache-Wirkungsanalyse durchführen, weil ihre neuronale Netzwerkarchitektur genau das strukturell verhindert, was Halluzinationen unvermeidlich macht.
Quality Function Deployment verbindet Kundennutzen über eine Matrix direkt mit konkreten Funktionalitäten und Tests, sodass irrelevante Testfälle identifiziert und gestrichen werden können.
Wer Tests auf Kundennutzen zurückführt, braucht deutlich weniger Tests, weil sich Prioritäten klar aus der Ursache-Wirkungsbeziehung zwischen Funktion und Kundenbedarf ergeben.
Das Haupthindernis für QFD in der Softwareentwicklung ist die Matrizengröße: Tausende User Stories gegen tausende Test Stories lassen sich erst seit den rechnerischen Durchbrüchen von 2014 sinnvoll verarbeiten.

Warum LLMs keine Ursache-Wirkung-Analyse leisten

Große Sprachmodelle erkennen Muster, aber sie können nicht erklären, warum sie zu einem Ergebnis kommen. Diese Schwäche steckt in der Architektur, nicht im Detail einer einzelnen Implementierung.

Neuronale Netzwerke existieren als Konzept seit rund 80 Jahren. Sie sind stark darin, Dinge zu erkennen, und schwach in der Logik und in der Erklärung von Zusammenhängen. Der Mensch funktioniert ähnlich: Wir sagen etwas aus dem Bauch heraus und müssen uns erst nachträglich überlegen, warum wir darauf gekommen sind.

Genau hier liegt das Problem mit dem Begriff erklärbare KI. Ein System, das auf einem neuronalen Netzwerk basiert, kann nicht ohne Weiteres offenlegen, wie es zu einer Antwort gelangt ist. Halluzinationen sind deshalb kein vermeidbarer Bug, sondern eine Folge der Bauweise.

Thomas Fehlmann ordnet das als grundlegende Grenze ein, nicht als Reifefrage des nächsten Modells. Wer kausale Nachvollziehbarkeit braucht, muss sie zusätzlich beschaffen.

Quality Function Deployment rechnet mit Matrizen

Quality Function Deployment, kurz QFD, ist eine Methode, die Querverbindungen zwischen Anforderungen und Funktionen über Matrizen untersucht. Ziel ist, mit dem kleinsten Aufwand den größten Nutzen zu erzielen.

Wer KI kennt, erkennt das Prinzip wieder. In beiden Fällen werden Matrizen genutzt, um Beziehungen zwischen vielen Größen abzubilden. QFD setzt dabei messbare Beiträge ein und fragt: An welchen Dingen hängt es, dass eine Funktionalität einen Kundennutzen unterstützt?

Ein einfaches Beispiel ist die Kaffeemaschine. Wer einen starken italienischen Kaffee will, braucht die passende Einstellungsmöglichkeit und die dazugehörige Funktion in der Maschine. Liefert die Maschine nur schwaches Wasser, wird der Kunde unzufrieden und kauft beim Hersteller nichts mehr.

QFD entstand in Japan und kam über einzelne Personen nach Deutschland. Volkswagen und Skoda haben die Methode intensiv eingesetzt, etwa um herauszufinden, dass ein Auto einen Platz für die Handtasche der Fahrerin braucht. BMW nutzt vergleichbare Verfahren, nennt sie aber anders. Vieles bleibt unter dem Stichwort Produktgeheimnis verborgen.

Kausalität und LLM unter einen Hut bringen

Der praktische Reiz liegt darin, die Wahrscheinlichkeitslogik eines LLM mit der Ursache-Wirkung-Logik von QFD zu kombinieren. Theoretisch geht das, weil beide Ansätze mit denselben mathematischen Verfahren arbeiten.

Daten sind in diesem Bild nicht nur Zahlen und Transaktionen. Sie repräsentieren Wissen, das zwischen Objekten oder Modulen hin- und hergeschoben wird. Über diese Datenflüsse lässt sich Ursache-Wirkung auf messbare, nachvollziehbare Art einbringen.

Ein Reasoning-Modell liefert dabei Hinweise, welchen kausalen Weg man gehen muss, um ein Ergebnis zu erreichen. Würde man Kausalitätsprüfung sauber einbauen, fielen Halluzinationen weg. Erst dann ließe sich eine KI etwa für den Automobilbau zertifizieren, was mit den heutigen Systemen nicht möglich ist.

Die technische Hürde ist real. Erst seit etwa 2014 lassen sich große, dünnbesetzte Matrizen praktisch auflösen. Genau diese Rechenfähigkeit steckt heute in LLMs, nicht in QFD. Sie ließe sich umlenken.

Kundennutzen als Maßstab spart Tests

Wer Tests am Kundennutzen ausrichtet, braucht deutlich weniger davon. Der Kundennutzen zieht sich durch die Elemente der Software und gibt einen klaren Maßstab dafür, welche Testfälle wirklich relevant sind.

Tests sind teuer, auch mit aktueller KI-Unterstützung. Gleichzeitig zahlt sich Testdichte am Markt kaum aus. Ein gut getestetes Auto lässt sich nicht teurer verkaufen als ein schlecht getestetes. Theoretisch wäre Testdichte ein Unterscheidungsmerkmal im Wettbewerb, in der Praxis macht das niemand, oft aus zeitlichem Druck beim nächsten Release.

Die Priorisierung über den Kundennutzen verändert den Fokus der Tests. Richtest du Testfälle immer wieder auf den Nutzen aus, werden sie mit der Zeit fokussierter. Du trennst gute Testfälle von solchen, die wenig zur Aussage beitragen.

Sicherheit bleibt davon ausgenommen. Security und Privacy gelten als gesetzt, ohne Abstriche. Diesen Anspruch formuliert der Kunde nie ausdrücklich, er darf ihn aber erwarten. Wer in ein Auto steigt, geht davon aus, dass es zuverlässig fährt und bremst.

Personalisierte Tests statt Massenprüfung

Tests lassen sich auf einzelne Nutzer zuschneiden. Nicht jede Funktion eines Software-Releases ist für jeden Fahrer relevant, viele werden nie gebraucht.

Wenn die Maschine weiß, welche Funktionen du tatsächlich nutzt, kann sie genau diese gezielt prüfen. Ein neues Release ließe sich zu Hause in der Garage über eine Testserie laufen lassen, die nur die für dich wichtigen Funktionen sauber abdeckt.

Das passt nicht zur klassischen Vorstellung von Massenproduktion, sondern zu einer Industrie 4.0, die individuell produziert. Der Maßstab verschiebt sich von der allgemeinen Abdeckung zur persönlichen Relevanz.

Warum QFD trotz Kundenfokus selten genutzt wird

QFD ist im Software-Umfeld unbeliebt, obwohl Kundennutzen überall propagiert wird. Dafür gibt es zwei Gründe.

Der erste ist nebensächlich, aber wirkungsvoll. QFD setzt funktionale Modelle voraus, und funktionale Modelle sind bei Entwicklern verhasst. Immer wieder versuchen Manager, aus Funktionspunkten eine Lohnskala abzuleiten, nach dem Motto: mehr Funktionen, mehr Geld. So funktioniert Softwareentwicklung nicht.

Der zweite Grund ist die Größe der Matrizen. Schon ein Vergleich von 20 User Stories mit 25 Test Stories bringt die Methode an die Grenze. Die Realität sieht anders aus: 1.000 User Stories und 5.000 Test Stories passen auf eine solche Matrix nicht mehr.

Wenn ich Kundennutzen als Referenz nehme dafür, welche Tests wirklich relevant sind für den Kunden, habe ich deutlich weniger Tests, die ich machen muss. — Thomas Fehlmann

Die Rechenfähigkeit für große Matrizen ist seit 2014 vorhanden. Sie wird heute für LLMs eingesetzt, nicht für Quality Function Deployment. Akademische Forschung zu QFD findet Thomas nur noch in Aachen und in Stuttgart, etwa beim Bau kleiner Elektroautos. Auch dort bleibt die Finanzierung das offene Problem.

Transferfunktionen: Ursachen messen, die man nicht sieht

Eine Transferfunktion bildet ab, wie eine Wirkung aus einer Ursache entsteht. Sie ist das gemeinsame Werkzeug hinter Six Sigma, hinter Softwarefunktionen und hinter lernenden Systemen.

Das Alltagsbeispiel ist Musik auf dem Handy. Eine Transferfunktion setzt die digitale Information aus einem MP3- oder MP4-File in akustische Daten um. Dieselbe Logik gilt auf kosmischer Ebene: Exoplaneten lassen sich nicht direkt messen, nur ihre Wirkung. Wer sie nachweisen will, muss die Gravitationsgesetze kennen, also das Gesetz hinter der Wirkung.

Für Software gilt dasselbe. Du musst die Gesetze kennen, nach denen Funktionalität ins Produkt kommt. In Six-Sigma-Projekten dienen Transferfunktionen dazu, Variation in der Produktion zu minimieren.

Bei lernenden Systemen ist die Lage unbequem. Ob beim Training, beim ursprünglichen Datensatz oder beim Reinforcement Learning: Was genau dahintersteckt, weiß man nicht genau. Man muss die Ursachen herausfinden und kann die Wirkung dann hoffentlich beobachten.

Kundennutzen lässt sich herausziehen, nicht erraten

Kunden sagen, was sie begeistert und was nicht, aber die brauchbare Information steckt in einer Ursache-Wirkung-Analyse. Net Promoter Score liefert das Signal, die Auswertung muss klären, warum die Bewertung so ausfällt.

Diese Analyse ist die Basis für die nächste Feature-Liste. Aus zwei kleinen Firmen, gestartet mit einer Handvoll Leuten, sind so über Jahre größere Unternehmen geworden, eines im Bereich Farbqualität, eines in der Kundenkommunikation. In beiden Fällen diente QFD dazu, das jeweils Wichtigste als Nächstes zu bauen.

Der Aufwand für die kausale Erklärung ist mühsam, denn vom Kundennutzen zu schwärmen geht leichter. Doch das Durchdenken zwingt dich, das zu sehen, worauf es ankommt, und manchmal auch den eigenen Fehler. Was leicht schien, ist es eben oft nicht.

Warum KI keine Ursache-Wirkung kann – und QFD hilft

Das Wichtigste in Kürze

Warum LLMs keine Ursache-Wirkung-Analyse leisten

Quality Function Deployment rechnet mit Matrizen

Kausalität und LLM unter einen Hut bringen

Kundennutzen als Maßstab spart Tests

Personalisierte Tests statt Massenprüfung

Warum QFD trotz Kundenfokus selten genutzt wird

Transferfunktionen: Ursachen messen, die man nicht sieht

Kundennutzen lässt sich herausziehen, nicht erraten

Ähnliche Beiträge

Wenn generative KI gegen die eigenen Werte verstößt

Patient Agilität: Liegt agiles Arbeiten im Sterben?

Passen Ihre Tools zu Ihren echten Bedürfnissen?