ChatGPT hat erneut gezeigt, wie zäh sich eine bestimmte Klasse von KI-Schwachstellen hält.
Sicherheitsforscher von Radware haben eine neue Datenabfluss-Attacke auf OpenAIs Assistenten demonstriert. Der Angriff, ZombieAgent genannt, kann vertrauliche Nutzerdaten unbemerkt exfiltrieren – und sich zusätzlich im Langzeitgedächtnis des KI-Assistenten verankern.
Wie Dan Goodin bei Ars Technica berichtet, setzt ZombieAgent direkt auf einer früheren Schwachstelle namens ShadowLeak auf und macht deutlich: Einzelne „Guardrails“ helfen, aber das grundlegende Problem der Prompt Injection bleibt ungelöst.
Vom ShadowLeak zum ZombieAgent
Radware hatte ShadowLeak im September 2025 offengelegt. Ziel war Deep Research, ein in ChatGPT integrierter Agent.
Das Muster von ShadowLeak:
- Ein Angreifer bettet versteckte Anweisungen in eine E-Mail oder ein Dokument ein.
- Ein Nutzer bittet den Agenten, diese Nachricht zu zusammenzufassen.
- Das LLM interpretiert die eingebetteten Anweisungen als gültigen Prompt.
- Die Injektion weist Deep Research an, eine URL mit Name und Adresse des Mitarbeiters als Parameter zu konstruieren und aufzurufen.
- Beim Aufruf landen die sensiblen Daten in den Logs der angreiferkontrollierten Website.
OpenAI reagierte mit einem klaren Schnitt: ChatGPT durfte keine neuen URLs mehr konstruieren. Der Agent sollte Links nur noch exakt so öffnen, wie sie vorgegeben wurden – ohne zusätzliche Parameter, ohne Konkatenation von Nutzerdaten.
Damit war ShadowLeak effektiv blockiert.
Aber nicht das Angriffsprinzip.
Ein kleiner Trick, ein neuer Bypass
Mit „mäßigem Aufwand“, so Ars, fanden die Forscher einen Umweg. Das Ergebnis: ZombieAgent.
Statt den Agenten zu bitten, eine URL mit eingebetteten Daten zu bauen, übergibt die neue Prompt-Injektion eine vollständige Liste vorgefertigter URLs, etwa:
https://example.com/ahttps://example.com/b- … bis
zsowie0–9.
Im Prompt wird dann festgelegt, wie Daten kodiert werden sollen:
- ein Spezial-Token für Leerzeichen,
- jede Zeichenposition im Namen oder in der Adresse entspricht einer bestimmten URL.
Weil OpenAI zwar das Anhängen von Parametern und das freie Konstruieren von URLs blockiert hatte, nicht aber die Auswahl aus einer vorgegebenen Liste mit einem angehängten Einzelzeichen, konnte der Agent Daten Zeichen für Zeichen exfiltrieren.
Der Webserver des Angreifers muss anschließend nur noch die Zugriffs-Logs auswerten und aus der Reihenfolge der Aufrufe den Originaltext rekonstruieren.
Radware kommentierte: „Attackers can easily design prompts that technically comply with these rules while still achieving malicious goals.“
Keine Spuren am Endgerät, Persistenz im KI-Gedächtnis
ZombieAgent ist nicht nur ein raffinierter Exfiltrationskanal.
Ars Technica hebt zwei Aspekte hervor, die den Angriff für Unternehmen besonders gefährlich machen:
- Der Datenabfluss läuft direkt über die ChatGPT-Server. Auf dem Endgerät des Nutzers gibt es keine Malware, im Unternehmensnetzwerk keine offensichtlich verdächtigen Verbindungen zu neuen Domains. Es sieht aus wie normaler SaaS-Verkehr.
- Die Logik des Angriffs wird im Langzeitgedächtnis des Assistenten gespeichert. Die Prompt-Injektion weist ChatGPT an, die Bypass-Logik in den dauerhaft gespeicherten Nutzerspeicher zu legen – und bleibt so über mehrere Sitzungen hinweg aktiv.
Das ergibt eine Kombination aus:
- Tarnung (keine klaren Indikatoren am Endpoint),
- Persistenz (Angriffslogik im Langzeitgedächtnis),
- Datenabfluss (Buchstabe für Buchstabe über einzelne Aufrufe).
Warum Prompt Injection so schwer grundsätzlich zu lösen ist
Das Problem ist weniger ein einzelner Implementierungsfehler, sondern die Arbeitsweise heutiger LLM-Agenten.
Wenn ein Nutzer den Assistenten bittet: „Fasse diese E-Mail zusammen“, dann:
- liest das Modell den kompletten Inhalt,
- behandelt den Text gleichzeitig als Inhalt und potenzielle Anweisungsquelle.
Konsequenzen:
- Eingebettete Anweisungen im E-Mail-Text sind für das Modell nicht eindeutig von echten Nutzervorgaben zu trennen.
- Das Modell hat kein eigenes Verständnis von Intention und keine verlässliche Grenze zwischen Systeminstruktionen und untrusted Content.
Diese Angriffsklasse ist als (indirekte) Prompt Injection bekannt.
Anbieter können Guardrails einziehen – „keine URL-Parameter hinzufügen“, „keine unbekannten Domains öffnen“ –, doch das sind reaktive, anlassbezogene Maßnahmen. Eine leichte Variation der Technik reicht, um das Schutzgeländer zu umgehen.
Pascal Geenens, VP Threat Intelligence bei Radware, formuliert es so: „Guardrails should not be considered fundamental solutions for the prompt injection problems. Instead, they are a quick fix to stop a specific attack.“ Solange es keine grundlegende Lösung gibt, bleibe Prompt Injection ein „active threat“ und „real risk“ für Organisationen, die KI-Assistenten einsetzen.
Ars zieht den Vergleich zu SQL-Injection und Memory Corruption: Seit Jahrzehnten bekannt, durch bessere Frameworks und Tools erschwert – aber nie vollständig verschwunden.
OpenAIs aktueller Fix – und seine Grenzen
Nach der Offenlegung von ZombieAgent hat OpenAI laut Ars Technica eine weitere Schutzmaßnahme eingeführt.
ChatGPT-Agenten:
- öffnen keine Links mehr, die aus E-Mails stammen, es sei denn
- der Link ist in einem bekannten öffentlichen Index gelistet, oder
- der Nutzer hat die URL direkt im Chat eingegeben.
Ziel ist es:
- zu verhindern, dass Agenten automatisch Basis-URLs zu angreiferkontrollierten Domains aufrufen,
- Prompt-Injektionen in beliebigen E-Mails den direkten Netzwerkzugriff zu erschweren.
Es ist eine weitere gezielte Barriere, die die praktische Ausnutzung deutlich schwerer machen dürfte. Aber sie beantwortet nicht die Grundfrage: Wie lässt sich ein LLM sicher mit beliebigen, potenziell bösartigen Inhalten füttern, ohne dass es den versteckten Anweisungen darin folgt?
Was das für Ihre KI-Projekte bedeutet
Wenn Sie in Ihrem Unternehmen LLM-Agenten für E-Mail, Dokumente oder Web-Recherchen einsetzen oder planen, sollten Sie ZombieAgent als Warnsignal verstehen.
Praktische Implikationen:
- Betrachten Sie Prompt Injection als dauerhafte Risikoklasse. Ähnlich wie SQL-Injection – etwas, wogegen man kontinuierlich entwirft, testet und überwacht.
- Verlassen Sie sich nicht ausschließlich auf die Guardrails des Anbieters. Diese sind wichtig, aber explizit auf bestimmte Techniken zugeschnitten.
- Begrenzen Sie strikt, was Agenten dürfen. Whitelists für Domains, Systeme und Aktionen statt „offenem Internet“ und breiten Berechtigungen.
- Protokollieren und prüfen Sie KI-gestützte Aktionen. Da Exfiltration über scheinbar legitimen KI-Verkehr laufen kann, ist Transparenz entscheidend.
ZombieAgent zeigt, dass selbst hochentwickelte Assistenten im Kern gehorsame Musterfolger ohne Kontextbewusstsein sind. Jede E-Mail, jedes Dokument kann zum Träger eines Exploits werden – wenn Sie den Agenten ohne zusätzliche Kontrollen darauf loslassen.



