Napad ZombieAgent znova razkrije, kako lahko ChatGPT tihotapi vaše podatke

8. januar 2026
5 min branja
Ilustracija ChatGPT z vizualizacijo uhajanja podatkov v obliki kode

ChatGPT je znova dokazal, da je pri varnosti LLM-jev nekaj globoko pokvarjenega.

Raziskovalci iz varnostnega podjetja Radware so pokazali nov napad na OpenAI-jevega asistenta, ki tiho izvleče zasebne podatke uporabnikov in se celo skrije v dolgoročni spomin modela. Nadgradnjo stare ranljivosti ShadowLeak so poimenovali ZombieAgent.

Kot poroča Dan Goodin za Ars Technico, gre za še en primer dobro znanega kroga: raziskovalci odkrijejo ranljivost, ponudnik postavi ograjo, napadalci z majhnim trikom ograjo obidejo. Osnovni problem – prompt injection – ostaja nedotaknjen.


Od ShadowLeak do ZombieAgent

Radware je ranljivost ShadowLeak razkril septembra 2025. Ciljala je na Deep Research, agenta, integriranega v ChatGPT.

ShadowLeak je deloval takole:

  • Napadalec v e-poštno sporočilo ali dokument skrije dodatna navodila.
  • Vi prosite agenta, naj povzame to sporočilo.
  • Model ta skrita navodila razume kot legitimni poziv (prompt).
  • Vbrizgana navodila od Deep Research zahtevajo, naj sestavi URL z vašim imenom in naslovom kot parametroma in ga odpre.
  • Ko agent odpre povezavo, se vaši podatki znajdejo v dnevnikih spletnega strežnika napadalca.

OpenAI je odgovoril s precej grobo, a učinkovito potezo: ChatGPT ne sme več sestavljati novih URL-jev. Odpre lahko samo tiste, ki so mu bili podani natanko takšni, kot so, brez dodajanja parametrov ali lepljenja uporabniških podatkov.

S tem je bil ShadowLeak blokiran.

Ideja za njim pa ne.


Enostaven trik, nova ranljivost

Radware je nato z »zmernim naporom« – kot povzema Ars – našel obvoz. Rezultat je ZombieAgent.

Namesto da agent sam sestavi URL z vdelanimi podatki, nova prompt injekcija ChatGPT-ju poda že vnaprej pripravljen seznam povezav, na primer:

  • https://example.com/a
  • https://example.com/b
  • … vse do z ter 0–9

V navodilih agentu nato določi kodiranje podatkov:

  • poseben žeton namesto presledkov,
  • vsaka črka žrtvinega imena/naslova se preslika na ustrezen URL.

Ker je OpenAI prepovedal gradnjo povsem novih URL-jev, ni pa prepovedal izbire iz seznama in dodajanja ene same črke, je lahko agent podatke izvažal znak za znakom – za vsak znak je odprl drugo povezavo.

Na strežniku napadalec samo prebere dnevnike dostopov in iz zaporedja URL-jev sestavi izvorni niz.

Radware je to povzel takole: »Napadalci lahko zlahka oblikujejo pozive, ki se tehnično držijo pravil, hkrati pa še vedno dosegajo zlonamerne cilje.«


Brez sledi na končni napravi, z vgrajeno vztrajnostjo

ZombieAgent ni nevaren samo zaradi domiselnega odtekanja podatkov.

Ars izpostavlja še dve lastnosti, ki sta za podjetja posebej problematični:

  1. Promet izvira neposredno s strežnikov ChatGPT. Na uporabnikovem računalniku ni zlonamerne kode, iz omrežja podjetja ne vidi izhodnih povezav na sumljive domene. Videti je kot običajen SaaS promet.
  2. Napad se vpiše v dolgoročni spomin asistenta. Prompt agentu naroči, naj obvozno logiko shrani v dolgoročni spomin, vezan na posameznega uporabnika. To pomeni, da lahko napad preživi tudi nove seje.

Tako dobite kombinacijo:

  • prikritost (brez očitnih sledi na endpointu),
  • vztrajnost (logika je shranjena v spominu),
  • odtekanje podatkov (črko za črko prek URL-jev).

Vse to zaradi enega sumljivega e-maila.


Zakaj je prompt injection tako trd oreh

Osnovni problem ni en sam hrošč v OpenAI-jevi implementaciji, ampak način delovanja današnjih LLM agentov.

Ko vi agentu naročite: »Povzemi to e-sporočilo«, model:

  • prebere vsebino sporočila,
  • celoten tekst obravnava hkrati kot vsebino in potencialna navodila.

Posledica:

  • Zlonamerna navodila v telesu e-pošte so za model nerazločljiva od vaših legitimnih navodil.
  • Model nima »lastnega razumevanja namena« in ne zanesljive meje med sistemskimi pravili in nepreverjeno vsebino.

Ta razred napadov poznamo kot posredna prompt injekcija.

Ponudniki lahko dodajajo ograje tipa »ne dodajaj parametrov URL-jem«, »ne dostopaj do neznanih domen«, vendar so to reaktivni, ad hoc popravki. Z manjšim jezikovnim trikom ali novo kodno shemo se napad vrne v rahlo preoblečeni obliki.

Pascal Geenens, podpredsednik za obveščevalno dejavnost o grožnjah pri Radware, je v e-pošti Ars Technici zapisal: »Zaščitne ograje ne bi smele veljati za temeljne rešitve težav s prompt injekcijo. Namesto tega so hitri popravki za zaustavitev specifičnega napada.« Dokler ni temeljne rešitve, bo prompt injection ostal »aktiven in resničen« riziko za organizacije.

Ars opozarja na analogijo z SQL injection in pomnilniškimi korupcijami: po desetletjih izboljšav še vedno nista izginili, samo težje ju je izvesti.


Kako se lahko pripravite v podjetju

Če v svoje procese že vgrajujete LLM-je – za povzemanje e-pošte, brskanje po spletu ali avtomatizacijo dela – je ZombieAgent jasen opozorilni znak.

Štiri praktične točke za vas:

  • Prompt injection obravnavajte kot stalno tveganje. Podobno kot SQL injection – nekaj, kar stalno testirate in nadzirate.
  • Ne zanašajte se izključno na varnostne ograje ponudnika. Te pomagajo, a so načrtno usmerjene le proti točno določenim tehnikam.
  • Strogo omejite, kaj agenti smejo početi. Določite dovoljeno listo domen, sistemov in dejanj, do katerih ima AI dostop.
  • Beležite in analizirajte dejanja, ki jih sproži LLM. Ker se napadi skrivajo v navidez legitimnem prometu, je vidljivost ključna.

ZombieAgent je opomnik, da so tudi najbolj napredni asistenti še vedno pridni izvrševalci navodil brez razumevanja konteksta. Vsako besedilo, ki jim ga pošljete, je potencialen vektor napada.

Komentarji

Pustite komentar

Še ni komentarjev. Bodite prvi!

Povezani članki

Ostani na tekočem

Prejemaj najnovejše novice iz sveta AI in tehnologije.