Sicherheitstests für KI-basierte Software umfassen den gesamten Lebenszyklus eines KI-Modells: von der Trainingsphase, in der manipulierte Eingabedaten das Modell beeinflussen können, bis zur Nutzungsphase, in der Angreifer durch gezielte Anfragen geschützte Daten extrahieren. Als Orientierungsrahmen dienen die OWASP Top 10 für KI sowie der OWASP AI Security & Privacy Guide.
Das Wichtigste in Kürze
- KI-Modelle lassen sich durch indirekte Abfragen dazu bringen, geschützte Daten preiszugeben, auch wenn direkte Anfragen geblockt werden, weil das Modell Rollenbezeichnungen nicht als Umgehungsversuch erkennt.
- Sicherheitsrisiken für KI-basierte Systeme erstrecken sich über den gesamten Lebenszyklus: von manipulierten Trainingsdaten über den Diebstahl des Modells bis hin zu missbrauchten Abfragen im Betrieb.
- Ausgabe-Filter sind zielführender als Eingabe-Filter, weil sie direkt prüfen, ob in der generierten Antwort schützenswerte Inhalte wie Gehälter oder Personendaten auftauchen.
- Die OWASP Top 10 für KI-basierte Software bietet einen strukturierten Einstieg in Sicherheitsanforderungen, setzt für die praktische Umsetzung aber Fachkenntnis voraus, entweder intern oder durch externe Experten.
Was Sicherheit bei KI-Systemen anders macht
Bei KI-basierter Software weißt du vorher nicht genau, wie sie sich verhalten wird. Genau das ist der Punkt. Ein Machine-Learning-Modell lernt selbst, statt klassisch herunterprogrammiert zu werden, und soll die Aufgabe im besten Fall besser lösen, als es Code je könnte.
Diese Eigenschaft bringt das erste Sicherheitsproblem mit sich. Wenn das Verhalten nicht vorab feststeht, lässt sich auch schwer feststellen, ob das System sicher gegenüber Angriffen handelt. Security ist dabei ein Aspekt von dem, was Jan Jürjens als vertrauenswürdige KI bezeichnet.
Die meisten Unternehmen entwickeln KI nicht selbst. Sie kaufen ein Modell ein oder binden es als Komponente in die eigene Infrastruktur ein. Die Frage lautet dann: Wie machst du eine IT-Infrastruktur, die KI verwendet, sicher gegen Angriffe und insgesamt vertrauenswürdig?
Angriffspunkte verteilen sich über den gesamten Lebenszyklus
Sicherheitsrisiken bei KI ziehen sich vom Training bis zur Nutzung. Es gibt nicht den einen Schwachpunkt, sondern eine Kette von Phasen, die jeweils eigene Anforderungen mitbringen.
In der Trainingsphase besteht die Gefahr, dass ein Angreifer Daten einschleust, die das Modell auf eine nicht vorgesehene Art beeinflussen. Wer selbst trainiert, muss diese Phase absichern. Manipulierte Trainingsdaten lassen sich später kaum noch sauber identifizieren.
Sobald das Modell existiert, gelten klassische Sicherheitsanforderungen, nur bezogen auf ein neues Asset. Das Modell soll niemand kopieren und abziehen können, niemand soll es manipulieren. Ein KI-Modell ist oft ein Unternehmenswert und braucht denselben Schutz wie andere kritische Daten.
Bei der Nutzung kommt der dritte Bereich dazu. Hier geht es darum, dass Anfragen an das Modell die Sicherheitsregeln nicht unterlaufen und dass keine Daten abfließen, die geschützt sind.
Warum ein Chatbot personenbezogene Daten preisgeben kann
Ein Filter auf der direkten Frage reicht nicht aus, weil sich dieselbe Information über Umwege abfragen lässt. Das ist das Kernproblem bei der Absicherung von Abfragen.
Jan Jürjens beschreibt das Muster an einem Gehaltsbeispiel. Wurde ein Modell auf Mitarbeiterdaten trainiert, sollte die direkte Frage nach dem Gehalt einer Person abgeblockt werden. Fragst du stattdessen nach dem Gehalt einer bestimmten Rolle, etwa des Compliance-Beauftragten, kann das System die Antwort bereitwillig liefern. Wer weiß, welche Person diese Rolle innehat, kennt damit auch deren Gehalt.
Die fehlende Erklärbarkeit verschärft das. Du bekommst eine Antwort, aber keine Begründung, wie das Modell dorthin kam.
Normalerweise ist es nicht so, dass die KI wie eine Suchmaschine funktioniert. Sie aggregiert die Informationen aus ihrem Wissensspeicher, sodass am Ende niemand mehr sagen kann, aus welchen Bestandteilen die Antwort besteht.
Jan Jürjens
Weil die Antwort aus aggregierten Informationen entsteht, lässt sich nachträglich kaum nachweisen, ob eine unzulässige Information eingeflossen ist. Genau deshalb muss die Absicherung schon im Training ansetzen.
Penetrationstesten gilt auch für KI
Der wirksamste Ansatz gegen manipulierte Abfragen ist intensives Testen aus der Perspektive eines Angreifers. Du überlegst dir, wie jemand vorgehen würde, und stellst diese Anfragen selbst an das System.
Das Vorgehen entspricht dem Penetrationstesten klassischer Software. Du nimmst die Rolle des Angreifers ein und versuchst, eine Reaktion oder Information herauszuholen, die das System eigentlich nicht herausgeben sollte. Findest du eine solche Lücke, unterbindest du anschließend diese Art von Anfrage.
Sicher sein, dass du alles gefunden hast, kannst du nie. Das ist ein Wettlauf, aber dieser Punkt gilt für Sicherheitstests klassischer Software genauso.
Filter an der Ausgabe sind oft zielführender als an der Eingabe
Eine Prüfung der Ausgabe schlägt häufig den Versuch, jede verschachtelte Eingabe abzufangen. Die Begründung ist praktisch: Vor der Ausgabe lässt sich direkt prüfen, ob etwa ein Gehalt darin auftaucht.
Beide Stellen ergeben Sinn. An der Eingabe blockst du problematische Anfragen, an der Ausgabe kontrollierst du das Ergebnis, bevor es das System verlässt. Indirekt erstellte Abfragen sind schwer vollständig zu fangen, eine Kontrolle der Ausgabe greift dagegen unabhängig vom Trickreichtum der Frage.
Anfragen einzuschränken ist ohnehin sinnvoll. Selbst bei Modellen auf öffentlicher Datenbasis willst du nicht, dass jemand durch Massenabfragen das gesamte Modell aussaugt und nachbaut. Eine Mengenbegrenzung gehört deshalb zum Standard.
Reputation ist ein weiterer Grund für Filter. Eine Anwendung sollte nicht dazu gebracht werden können, unflätige Bemerkungen auszugeben, weil das auf den Modellhersteller und das betreibende Unternehmen zurückfällt.
OWASP liefert die Kataloge auch für KI
Für KI-Sicherheit gibt es bereits etablierte Hilfsmittel, getragen vom OWASP-Konsortium. Die Organisation begann als Open Web Application Security Project und benannte sich in Open Worldwide Application Security Project um, weil sie längst über Webanwendungen hinaus arbeitet.
Für KI existieren konkrete Ressourcen, darunter ein OWASP-Leitfaden für Security und Privacy sowie eine OWASP Top 10 für KI. Der Top-10-Ansatz ist aus dem Webbereich bekannt und wurde auf KI-basierte Software übertragen.
Diese Dokumentationen sind gut verständlich und ein sinnvoller Startpunkt. Die eigentliche Hürde liegt nicht im Lesen, sondern in der Umsetzung.
Die Verständlichkeit täuscht über den Aufwand hinweg
Die OWASP-Materialien kannst du als Entwickler nachvollziehen, die Prüfung deiner Infrastruktur braucht aber jemanden, der das beurteilen kann. Das ist die ehrliche Einordnung, wenn dein Auftrag lautet, schnell einen Chatbot einzubauen.
Für die Beurteilung, ob die Infrastruktur tatsächlich sicher ist, brauchst du entweder geschulte eigene Leute oder externe Unterstützung. Auch hier ist KI nichts grundsätzlich Neues, sondern entspricht der Lage im klassischen Sicherheitsbereich.
Wer KI betreibt, trägt Verantwortung für das Drumherum
Sobald du KI beruflich nutzt, bist du Betreiber im Sinne der KI-Verordnung, und daraus ergeben sich Pflichten. Die Verordnung unterscheidet zwischen Entwicklern, Betreibern und Anwendern.
In den meisten Fällen baust du KI als Blackbox in deine Architektur ein. In das Modell und seine internen Prozesse kannst du nicht hineinschauen. Verantwortlich bist du aber für alles, was um das Modell herum passiert.
Das umfasst mehrere Fragen auf einmal:
- Welche Daten kommen rein, und sind sie geschützt?
- Wie kommen die Daten heraus, und werden sie beim Anschluss geschützt?
- Was geschieht mit den Ergebnissen, und ist das überhaupt erlaubt?
Die KI-Verordnung schränkt zudem ein, für welche Anwendungen KI eingesetzt werden darf. Diese Regeln einzuhalten, gehört zur Betreiberpflicht. Vergewissere dich außerdem, soweit möglich, dass auch der Anbieter die Regularien einhält.
Die größte Schwachstelle bleibt der Mensch vor dem Rechner
KI wird oft leichtfertig genutzt, und genau darin liegt ein unterschätztes Risiko. Dokumente werden hochgeladen und analysieren lassen, ohne dass jemand prüft, welche Daten dabei abfließen.
Viele Nutzer verlassen sich blind auf die Antwort eines Chatbots. Das ist gefährlich, weil von der Korrektheit der Antwort etwas abhängt, sei es privat oder im Unternehmen. KI ist nicht hundertprozentig verlässlich, und Halluzinationen treten auf, sobald man ein wenig nachbohrt.
Jan Jürjens schildert ein Beispiel aus dem Alltag. Auf die Frage nach einem Trampolinpark in Koblenz nannte ein Chatbot sehr selbstbewusst einen Namen, den es dort nicht gibt. Das System hatte den Namen vermutlich für eine andere Stadt gefunden und schlicht auf Koblenz übertragen. Bei einem Museum gab es sogar eine Adresse aus Aachen aus, eine Straße, die es in Koblenz gar nicht gibt.
Hakst du nach, ob die Antwort stimmt, bleibt das System zunächst dabei und gibt erst nach mehrfachem Nachbohren den Fehler zu.
KI gibt dir Hypothesen, keine Wahrheiten
Nutze KI, um dir Hypothesen geben zu lassen, und führe den Überprüfungsschritt selbst durch, wenn die Antwort wichtig ist. Diese Trennung ist die praktische Konsequenz aus der fehlenden Verlässlichkeit.
Manche Aufgaben sind gut aufgehoben, etwa die schnelle Zusammenfassung eines langen Dokuments. Auch dort kann eine Aussage auftauchen, die im Dokument nicht stand, aber das lässt sich gegen das Original prüfen. Diese Fallback-Möglichkeit solltest du immer haben.
Bei Antworten, die du nicht selbst verifizieren kannst, ist Vorsicht angebracht. Gerade bei Sicherheitsthemen wiegt eine falsche, selbstbewusst vorgetragene Antwort schwer. Die Sensibilisierung der Nutzer ist deshalb genauso wichtig wie die technischen Filter.


