Die AI Assessment Matrix ist ein Framework zur systematischen Strukturierung von KI-Prüfung und -Zertifizierung. Sie ordnet Prüfdimensionen auf einer X-Achse, von technischer Performance über Robustheit und Fairness bis zu Umweltauswirkungen, und mapped diese gegen den Daten- und Modell-Lifecycle auf der Y-Achse. Ziel ist ein vollständiger Überblick, aus dem gezielte Prüfentscheidungen abgeleitet werden können.
Das Wichtigste in Kürze
- Die AI Assessment Matrix des TÜV AI Lab ordnet KI-Prüfkriterien in zwei Achsen: Prüfdimensionen (von technischer Performance bis zu globalen ökologischen Auswirkungen) gegen die Phasen des Daten- und Modell-Lifecycles.
- KI-Prüfung gliedert sich in drei Formen: direkte Produktprüfung am System, Evaluierung der Anbieterdokumentation und Prozess- bzw. Personenprüfung, wobei alle drei ein fundiertes Testverständnis voraussetzen.
- Der AI Act reguliert nicht alle Prüfdimensionen gleichmäßig: Bereiche wie Erklärbarkeit sind im Gesetz nur angedeutet, weil belastbare Prüfmethoden dafür technisch noch nicht vollständig existieren.
- Fairness und Nichtdiskriminierung sind rechtlich und konzeptuell unterschiedliche Anforderungen, die sich gegenseitig widersprechen können und deshalb getrennt definiert und geprüft werden müssen.
- Der Energieverbrauch von Hardware und Software sowie Arbeitsbedingungen beim Data Labeling gehören als ökologische und soziale Kriterien explizit zur Prüfmatrix, nicht nur technische Funktionsmerkmale.
Warum KI-Systeme eine eigene Prüfsystematik brauchen
KI ist eine potente Technologie, und Potenz wirkt in beide Richtungen. Was viel Gutes leisten kann, kann auch Schaden anrichten. Genau hier setzt die Frage nach Prüfung und Zertifizierung an: Wie bringt man Innovation und Sicherheit zusammen, ohne eine der beiden Seiten zu opfern?
Christoph Poetsch vom TÜV AI Lab beschreibt diesen Anspruch als Mission für den europäischen Raum. Vertrauenswürdige KI braucht Rückhalt in der Gesellschaft. Dieser Rückhalt entsteht nur, wenn klar ist, was an einem KI-System geprüft wird, wie es beschaffen sein soll und welche Dinge es nicht tun darf.
Der Vergleich zum klassischen TÜV-Auftrag trägt hier weiter, als es zunächst scheint. Der TÜV organisierte früher Dampfkessel. Heute ist das KI-System der Dampfkessel des 21. Jahrhunderts, ein Objekt, dessen Wirkung man kontrollieren will, ohne seinen Nutzen abzuwürgen.
Für Tester bedeutet das einen Bruch mit der gewohnten Logik. Klassisches Testen lebt von klaren Schritten und einem erwarteten Ergebnis. Ein KI-System dagegen produziert Ausgaben, die nicht vorab feststehen. Diese Lücke zwischen erwarteter Klarheit und tatsächlichem Verhalten ist der Grund, warum es eine eigene Struktur braucht.
KI ist nicht nur ein technisches System, sondern ein Quasi-Akteur
Der zentrale begriffliche Schritt ist, KI als Quasi-Akteur zu behandeln. Solange ein System nur funktionale Aufgaben erfüllt, reicht der Rahmen der funktionalen Sicherheit, der klassische Fall fürs Testen. Sobald ein System aber Aufgaben übernimmt, die sonst menschliche Urteilskraft erfordern, verschiebt sich der Prüfbedarf.
Ein KI-System in einem HR-Prozess entscheidet über Bewerbungen. Damit tut es etwas, das vorher ein Mensch getan hat. In diesem Moment reicht die rein technische Betrachtung nicht mehr aus, weil Entscheidungen mit gesellschaftlicher Tragweite ins Spiel kommen.
Trotzdem bleibt die Prüfung an eine technische Realität gebunden. Niemand kann eine Person zwei Jahre lang mit einem KI-System sprechen lassen, um danach ein Bauchurteil abzugeben. Die Bewertung muss am Ende messbar, reproduzierbar und technisch durchführbar sein.
Die AI Assessment Matrix ordnet das Prüffeld nach Dimensionen und Lifecycle
Das TÜV AI Lab hat dafür eine AI Assessment Matrix entwickelt, ein Framework, das Prüfmethoden, Metriken und Benchmarkdaten in eine Ordnungsstruktur bringt. Die Matrix ist als zwei- bis dreidimensionales System aufgebaut.
Die X-Achse trägt die Prüfdimensionen, also die Eigenschaften, die am KI-System gemessen werden. Poetsch beschreibt sie als die Sensoren, die man an das System hält, jeder sensitiv für einen anderen Aspekt wie Performance, Robustheit oder Fairness.
Die Y-Achse trägt die Prüfbereiche entlang des Software-Lifecycles, von der Inception-Phase bis zum Retirement. Dieser Lifecycle ist gedoppelt, weil bei KI der Data-Lifecycle neben dem Model-Lifecycle steht. Die Rolle der Daten im Entwicklungsprozess ist ein klarer Unterschied zur klassischen Softwareentwicklung.
Wichtig ist ein Detail, das leicht missverstanden wird: Die Y-Achse meint nicht den Zeitpunkt des Testens, sondern den Fokus. Wer Robustheit anhand von Designentscheidungen prüfen will, braucht zwar eine Dokumentation aus der Designphase, prüft aber später. Wer einen Trainingsdatensatz bewerten will, braucht ihn noch verfügbar.
Aus der Kombination beider Achsen entsteht ein Maximalfeld. Es ist ausdrücklich nicht dazu gedacht, im Gießkannenprinzip vollständig befüllt zu werden. Der Sinn liegt im vollständigen Überblick, aus dem heraus du dich bewusst für die relevanten Felder entscheidest.
Es ist nicht der Gedanke, dieses Maximalfeld im Gießkannenprinzip mit Prüfressourcen aufzufüllen, sondern bewusst zu wissen: Kriegen wir so etwas hin wie einen vollständigen Überblick, in dem wir dann sagen, jetzt konzentrieren wir uns auf bestimmte Aspekte.
Christoph Poetsch
Wie das Herauszoomen die Prüfdimensionen systematisch ordnet
Die eigentliche Neuerung liegt auf der X-Achse. Diskussionen über vertrauenswürdige KI enden oft in einem Strauß an Forderungen: robust, fair, performant, nachhaltig. Was meist fehlt, ist die Frage, in welcher Verbindung diese Kriterien zueinander stehen und ob die Liste vollständig ist.
Die Matrix ordnet diese Kriterien über ein Bild des Herauszoomens. Ausgangspunkt ist das einzelne KI-System. Von dort wird der Blick schrittweise geweitet, bis er auf einer globalen Skala ankommt. Jede Zoomstufe bringt eigene Prüfdimensionen in den Blick.
Im Innersten liegen Fragen, die bewusst ausgeklammert bleiben, etwa nach Autonomie oder einem bewussten Innenleben. Eine Stufe weiter, wenn das System nach außen wirkt, kommen Performance und Safety in den Fokus. Wirkt etwas von außen auf das System ein, geht es um Robustheit gegen zufällige Einflüsse wie schlechtes Wetter oder verschmutzte Schilder, und um Cybersecurity gegen gezielte Angriffe.
Nimmt man ein menschliches Individuum hinzu, öffnet sich der epistemische Bereich: Explainability und Transparency, unterschieden danach, was Laien und was Expertinnen verstehen können. In der Gegenrichtung, wenn das System auf den Menschen einwirkt, rücken Privacy und Nudging in den Blick.
Bei mehreren Individuen entstehen die ethischen Fragen: Fairness, Nichtdiskriminierung, Bias. Hier zeigt sich das KI-System als Instanz, die zwischen zwei Personen unterscheidet und entscheidet, wer eine Stelle bekommt. Auf gesellschaftlicher Ebene folgen juristische Fragen der Accountability, auf globaler Ebene Lieferkettenverantwortung, Arbeitsbedingungen beim Data Labeling und der Energie- und Ressourcenverbrauch der Hardware.
Die folgende Übersicht fasst die Logik der Zoomstufen zusammen:
| Zoomstufe | Blickrichtung | Beispiel-Prüfdimensionen |
|---|---|---|
| KI-System nach außen | Wirkung des Systems | Performance, Safety |
| Einwirkung auf das System | von außen auf KI | Robustheit, Cybersecurity |
| System und ein Individuum | Mensch versteht KI | Explainability, Transparency |
| KI wirkt auf Individuum | KI beeinflusst Mensch | Privacy, Nudging |
| Mehrere Individuen | KI unterscheidet | Fairness, Nichtdiskriminierung, Bias |
| Gesellschaft | Verantwortung | Accountability |
| Globale Skala | Mensch und Ökosystem | Lieferkette, Ressourcenverbrauch |
Nicht alles ist reguliert, und das ist beabsichtigt
Ein Befund aus der Arbeit mit der Matrix widerspricht einer verbreiteten Annahme. Die KI-Verordnung reguliert nicht jeden Aspekt. Mappt man die Anforderungen, die sich direkt an das KI-System richten, in die Matrix, bleiben Felder leer.
Gerade bei der Erklärbarkeit gibt es nur Andeutungen, obwohl man technisch und inhaltlich viel mehr fordern könnte. Dahinter steckt eine bewusste Zurückhaltung. Man fordert nichts ein, von dem man nicht weiß, ob und wie es technisch machbar ist.
Diese Ehrlichkeit ist kein Mangel. KI entwickelt sich in einer Geschwindigkeit weiter, die eine Regulierung schnell überholen würde. Wer heute Anforderungen festschreibt, die niemand erfüllen kann, schadet beidem, der Sicherheit und der Innovation.
Drei Prüfformen: Produkt, Dokumentation und Prozess
Die dritte Dimension der Matrix unterscheidet, wie geprüft wird. Die erste Form ist die konkrete Produktprüfung. Das KI-System steht auf dem Prüfstand wie ein Auto. Hier geht es um die Frage, wie das Messwerkzeug angelegt wird und welche Grenzwerte gelten.
Die zweite Form ist die Prüfung anhand von Dokumentation. Die KI-Verordnung sieht an vielen Stellen vor, dass eine technische Dokumentation bewertet wird. Der Anbieter führt seine Accuracy-Tests selbst durch, geprüft wird dann die Plausibilität der Ergebnisse.
Diese zweite Form braucht trotzdem volles Testverständnis. Du musst beurteilen können, ob der richtige Test angewendet wurde, ob die Werte plausibel sind und ob die Interpretation passt. Ohne das inhaltliche Verständnis lässt sich eine Dokumentation nicht seriös bewerten.
Die dritte Form betrifft Prozesse und Personen. Risk Management und Quality Management spielen ohnehin eine große Rolle. Hinzu kommt die menschliche Kompetenz, verankert in der KI-Kompetenz nach Artikel 4 und in der Human Oversight. Artikel 26 verlangt, dass Betreiber die Expertise der Aufsichtspersonen sicherstellen, was die Frage aufwirft, nach welchen Kriterien man menschliche Kompetenz prüft.
Fairness ist nicht gleich Nichtdiskriminierung
Ein präzises Set an Definitionen ist die Grundlage jeder belastbaren Prüfung. Schlagworte allein reichen nicht. Zu jeder Prüfdimension gehört eine Definition, abgeglichen mit internationaler Normung und der KI-Verordnung, damit das Gesamtset in sich stimmig bleibt.
Der Unterschied zwischen Fairness und Nichtdiskriminierung zeigt, warum das nötig ist. Die KI-Verordnung spricht in den Artikeln nur von Nichtdiskriminierung, einmal in Artikel 10. Fairness taucht nur in den Erwägungsgründen auf.
Nichtdiskriminierung meint das gesetzlich Vorgeschriebene, etwa über das AGG oder die EU-Charta. Fairness dagegen umfasst je nach Lesart unterschiedliche Konzepte für einzelne Menschen und Gruppen, die über das Gesetz hinausgehen und sogar mit ihm in Spannung stehen können.
Sobald zwei Fairness-Vorstellungen widersprüchlich sind, lässt sich kein System bauen, das beide gleichzeitig erfüllt. Deshalb muss vor jedem Test feststehen, welches Konzept gerade gemeint ist. Man kann definieren, was man unter Fairness versteht. Welches Fairness-Konzept das richtige ist, bleibt eine andere, sehr alte Frage.
Warum die Philosophie dem KI-Testen hilft
KI wirkt wie ein Brennglas für Fragen, die die Menschheit seit Jahrtausenden beschäftigen. Weil ein KI-System so etwas wie kognitive Kapazitäten ausbildet, lassen sich alte Fragen nach Gerechtigkeit, Verstehen und Verantwortung in zugespitzter Form neu betrachten.
Aus dieser Doppelperspektive profitieren beide Seiten. Die technische Sicht greift mitunter zu schnell zum Etikett Blackbox. Im strengen Sinn ist ein neuronales Netz aber keine Blackbox, weil alle Informationen über das Netz vorliegen. Unbekannt ist nur, warum diese Informationen genau dieses Verhalten erzeugen, nicht die Information selbst.
Die philosophische Sicht wiederum bringt die jahrhundertelange Forschung zu Begriffen wie Gerechtigkeit und Fairness ein, die in der KI-Diskussion gebraucht werden. Wer beide Disziplinen zusammenführt, kann ein Prüffeld mit der nötigen Tiefe ordnen, statt es mit Schlagworten zu überdecken.
Der nächste Arbeitsschritt der Matrix ist die Bewegung von oben nach unten. Der Top-Down-Entwurf muss konkretisiert werden, denn Robustheit prüfst du nicht für jedes System gleich. Die Herausforderung ist die richtige Flughöhe: so allgemein wie möglich formuliert, aber so konkret wie nötig, damit am Ende wirklich getestet werden kann.


