Testbeschreibung für KI-Fähigkeiten
KI-Systeme testbar machen: Wie Fähigkeiten, Qualitätskriterien und strukturierte Testbeschreibungen aus abstrakten Normen konkrete Prüfansätze werden.

KI-Testbeschreibung bezeichnet die strukturierte Dokumentation von Testfällen für KI-Systeme, gegliedert nach Testziel, Testschritten und Akzeptanzkriterien. Grundlage sind zwei Dimensionen: die Fähigkeiten eines KI-Systems (Wahrnehmung, Verarbeitung, Handlung, Kommunikation) und methodenspezifische Qualitätskriterien wie Korrektheit, Robustheit und Schutz vor Verzerrungen.
Das Wichtigste in Kürze
- KI-Systeme lassen sich anhand von fünf Verarbeitungsfähigkeiten testen: Identifikation, Klassifizierung, Extraktion, Selektion und Generierung. Diese Fähigkeiten gelten einheitlich für Bild-, Sound- und Sprachverarbeitung.
- Das EU-KI-Gesetz gilt seit August 2024 und verpflichtet Hersteller von Hochrisiko-KI-Systemen, Normen zu zehn Themen zu erfüllen, darunter Korrektheit, Robustheit, Cybersicherheit und Risikomanagement.
- General Purpose AI Systems wie GPT-4 unterliegen verschärften Dokumentations- und Sicherheitspflichten, wenn ihr Trainingsaufwand den Schwellenwert von 10^25 Flops übersteigt.
- Notifizierte Stellen für die KI-Konformitätsbewertung müssen laut europäischem Gesetz in etwa acht Monaten benannt sein. Die europäischen Normen, die dafür Grundlage sein sollen, liegen bereits hinter ihrer April-2025-Deadline.
Die Bundesnetzagentur reguliert KI über Normen, nicht über Verbote
Die Bundesnetzagentur ist als Regulierungsbehörde für Telekommunikation, Post, Eisenbahn, Strom und Gas zuständig. Im Bereich Telekommunikation überwacht sie den Markt für Funkanlagen wie Bluetooth-Radios oder Handys und arbeitet an der Konformitätsbewertung von Produkten für den europäischen Binnenmarkt.
Bei der KI-Regulierung verschiebt sich die Aufgabe in Richtung Normung. Seit August 2024 gilt ein europäisches Gesetz für künstliche Intelligenz, das jeder Marktzugänger umsetzen muss. Taras Holoyad, der bei der Bundesnetzagentur in der Regulierung der Telekommunikation arbeitet, ist an der Erarbeitung der Normen beteiligt, die dieses Gesetz konkretisieren.
Im Zentrum stehen sogenannte Hochrisikosysteme und General Purpose AI Systems. Für sie sollen Normen festlegen, welche Anforderungen ein Produkt erfüllen muss, bevor es auf den Markt darf. Die Europäische Kommission hat dazu einen Normungsauftrag mit zehn Themen erteilt, an denen Behörden gemeinsam mit Industrie, Consulting-Unternehmen und Zertifizierungsstellen arbeiten.
Warum KI-Normung so schwierig ist
Künstliche Intelligenz lässt sich schwer normen, weil die Technologie sich schneller bewegt als die Gremien arbeiten können. Viele beschreiben sie als alten Wein in neuen Schläuchen. Schon in den 1990er Jahren setzte die NASA bei Weltraumprogrammen auf neuronale Netze.
Bahnbrechend Neues gibt es laut Taras wenig. Die Transformer-Methode liefert im Vergleich zu älteren Ansätzen mehr Korrektheit. Trotzdem ist KI nicht mit dem Intelligenzlevel eines Menschen vergleichbar, sondern eher ein sehr aufwendig geschaltetes algorithmisches System.
Genau diese Lücke macht die Normung kniffelig. Wird zu viel Detailtiefe festgeschrieben, lassen sich neuartige Systeme womöglich nicht mehr sinnvoll testen. Bleibt die Norm zu abstrakt, hilft sie dem Tester nicht. Der entscheidende Forschungsdurchbruch fehlt aus Taras’ Sicht noch, und das prägt jede Entscheidung darüber, wie konkret eine Norm werden darf.
KI testen heißt, ihre Fähigkeiten zu prüfen
Das Funktionsspektrum eines KI-Systems lässt sich über seine Fähigkeiten testen, nicht über die Frage, ob es intelligent ist. Diese Idee bildet den Kern eines Normungsansatzes, der KI aus zwei Dimensionen beschreibt.
Die erste Dimension sind die Methoden, die in Algorithmen implementiert werden: klassische KI mit Optimierungs- und Planungsverfahren, symbolische KI mit Wissensrepräsentation, maschinelles Lernen sowie hybride Verfahren, die regelbasierte und datengetriebene Ansätze kombinieren.
Die zweite Dimension sind die Fähigkeiten, die diese Algorithmen umsetzen. Dazu zählen die Wahrnehmung von Bildern oder Gerüchen, die Verarbeitung von Wissen, die Handlung (robotisch oder softwarebasiert) und die Kommunikation, wie sie ein System à la ChatGPT leistet.
Für die Verarbeitung innerhalb von KI-Modellen lassen sich fünf grundlegende Fähigkeiten benennen: Identifikation, Klassifizierung, Extraktion, Selektion und Generierung. Für jede dieser Fähigkeiten kann man Metriken formulieren, und zwar einheitlich für Sound, Bilder oder natürliche Sprache. Wer ein Modell von Hugging Face testen will, kann das entlang dieser fünf Fähigkeiten wiederholbar und skalierbar tun.
Dieser Ansatz steckt in der internationalen Norm ISO/IEC 42102, die Taras leitet. Er wird zusammen mit Kollegen aus Frankreich, den USA und Deutschland entwickelt. Über das Vienna Agreement zwischen ISO und CEN entstehen daraus parallel ein internationaler Standard und eine europäische Norm. Inhaltlich passt diese Norm zum Thema Transparenz aus dem Normungsmandat.
Qualitätskriterien machen KI-Tests für Tester greifbar
Qualitätskriterien geben Testern einen vertrauten Hebel an die Hand, um abstrakte KI-Anforderungen messbar zu machen. Ein zweiter Standard beschreibt für einzelne Methoden, welche Kriterien gelten, sobald die Algorithmen implementiert sind.
Für überwachtes, unüberwachtes und bestärkendes Lernen lassen sich fünf Qualitätskriterien formulieren:
- Korrektheit
- Robustheit
- Vermeidung unnötiger Verzerrungen
- Schutz vor feindlichen Angriffen
- Informationssicherheit
Zu jedem Kriterium gehören methodenabhängige Metriken. Für die Korrektheit beim überwachten Lernen und der Bilderkennung lässt sich etwa der Confidence Score nutzen. So entsteht eine Art Matrix, die du über ein KI-System legen kannst, um es konkret zu prüfen.
Zwei Standards greifen dabei ineinander. Der eine beschreibt, was künstliche Intelligenz überhaupt ist, also Methoden und Fähigkeiten. Der andere legt fest, welche Qualitätskriterien sich nachweisen lassen. Dass die Detailtiefe auf mehrere Dokumente verteilt wird, hat einen praktischen Grund: Unterschiedliche interessierte Kreise lassen es politisch nicht immer zu, jeden Detailgrad in einem einzigen Dokument auszuführen.
Eine Testbeschreibungssprache strukturiert KI-Tests wie Code
Ein Testfall für KI lässt sich in strukturiertem Text beschreiben, ähnlich wie eine Funktion im Programmcode. Daran arbeitet Taras als neuem Vorschlag, während die beiden anderen Normen bereits fortgeschritten sind. Die Inspiration stammt von der Test Description Language aus dem ETSI-Gremium MTS (Methods for Testing and Specification), wo entsprechende Beschreibungen für Protokolltests im Mobilfunk und in der Automobilindustrie entstanden sind.
Die Idee: Du erkennst auf einen Blick, worum es geht. Statt einer Funktionsdefinition mit def wie in Python schreibst du den festgelegten Syntax direkt hin. Ein testcase in geschweiften Klammern, etwa Vehicle Recognition, darunter das Test Objective, die Test Activities und die Test Steps.
Ein Beispiel aus der Bilderkennung: Ein Modell liest jeden Frame eines Videos, inferiert und klassifiziert Objekte. Im strukturierten Text lässt sich ein Schwellenwert setzen, etwa ein Confidence Score von 0,5. Erst ab diesem Wert wird ein Objekt klassifiziert. Ganz unten stehen die Akzeptanzkriterien, die festlegen, ab wann dem Modell überhaupt Korrektheit unterstellt wird.
Wenn du mich mit einem Test beauftragst, nehme ich meine beiden Normen und setze daraus mit der Testbeschreibung einen strukturierten Text auf.
Taras Holoyad
Diese Testbeschreibung will Taras in den kommenden Monaten bei ETSI MTS als neues Dokument initiieren, wahrscheinlich als technische Spezifikation. Der aktuelle ETSI-Bericht dazu trägt die Nummer 103 910.
Wann das KI-Gesetz dich betrifft
Ob dich die KI-Verordnung trifft, hängt davon ab, in welche von zwei Kategorien dein Produkt fällt. Das Gesetz ist seit August 2024 in Kraft und wird schrittweise nach Zeitfenstern umgesetzt. Die Umsetzung läuft über Marktüberwachungsbehörden, die jeweils für Segmente wie Medizinprodukte, Spielzeuge oder Funkanlagen zuständig sind. Insgesamt sind rund 13 Segmente abzudecken.
Die erste Kategorie sind Hochrisiko-KI-Systeme. Das sind Systeme, die Teil einer Sicherheitskomponente sind. Taras unterscheidet dabei klar zwischen Safety und Security: Safety ist der Schutz des Menschen vor der Maschine, Security der Schutz der Maschine selbst. Wer ein Hochrisikosystem betreibt, muss die Normen aus den zehn Themen des Mandats erfüllen oder andernfalls zu einer Zertifizierungsstelle gehen.
Die zehn Themen des Normungsmandats umfassen unter anderem Korrektheit, Robustheit, Cybersicherheit, Qualitätsmanagement, Konformitätsbewertung, Transparenz und Risikomanagement. Das Mandat geht als Standardization Request an die Organisationen CEN, CENELEC und ETSI, in diesem Fall nur an CEN und CENELEC.
Die zweite Kategorie sind General Purpose AI Systems, also Systeme mit besonders breitem Funktionsspektrum wie ChatGPT. Hier gilt ein zusätzlicher Schwellenwert: Übersteigt die Hardwareleistung beim Training 10^25 Flops, gilt das System als General Purpose AI System with Systemic Risk. Diese Flops ergeben sich aus einer algorithmusspezifischen Konstanten, der Tokenlänge der Trainingsdaten und der Zahl der Parameter. GPT-4 hat diesen Wert nach Taras’ Einschätzung überschritten. Die Folge sind aufwendigere Dokumentationspflichten und zusätzliche Vorbeugemaßnahmen bei der Cybersicherheit.
Alle stehen unter Zeitdruck
Der enge Zeitplan setzt Behörden, Hersteller und Zertifizierungsstellen gleichzeitig unter Druck. Wo keine Normen vorliegen oder ihre Anwendung nicht ausreicht, müssen Hersteller zu einer Zertifizierungsstelle gehen. Diese prüft die Prüfergebnisse und gibt für den Marktzugang ein CE-Kennzeichen aus.
Eine Zertifizierungsstelle darf das aber erst, wenn sie notifiziert wurde. In jedem europäischen Mitgliedsland muss eine verantwortliche Behörde die Stelle bewerten, gemeinsam mit einem unabhängigen Experten. Erst nach dieser Bewertung wird aus der Stelle eine notifizierte Stelle, die zum Marktzugang beitragen kann.
Die Fristen sind sportlich. In etwa acht Monaten müssen die notifizierten Stellen benannt sein, die Bewertung durch die Behörden also abgeschlossen. Innerhalb von zwei Jahren sollen diese Stellen genug Kompetenz aufgebaut haben, um Hochrisikosysteme zu prüfen.
Auch die europäische Normung selbst liegt im Verzug. Die Deadline war auf April 2025 gelegt, auf der offiziellen Seite von CEN und CENELEC tauchen jedoch Zeitfenster von 2026 auf. Man versucht, einige Normen in stark beschleunigten Verfahren umzusetzen, um der Kommission rechtzeitig etwas Passendes vorzulegen.
Ähnliche Beiträge

Richard Seidl
•2. Juni 2026
Patient Agilität: Liegt agiles Arbeiten im Sterben?

Richard Seidl
•26. Mai 2026