Threat modeling za generativne i agentic AI aplikacije

February 26, 20263 min čitanja

Sažetak

Microsoft upozorava da generativne i agentic AI aplikacije zahtevaju drugačiji pristup threat modeling-u, jer njihova nedeterminisanost, sklonost praćenju instrukcija i povezivanje sa alatima i memorijom otvaraju nove bezbednosne rizike. To je važno jer klasični modeli zaštite nisu dovoljni za pretnje kao što su prompt injection, zloupotreba alata, eskalacija privilegija i tiho curenje podataka, pa timovi moraju ranije i sistematičnije da prilagode bezbednosne procese za AI sisteme.

Uvod: zašto je ovo važno

Threat modeling pomaže timovima da rano identifikuju šta može poći naopako — pre nego što dođe do realnih kvarova ili napadačkih eksploatacija. Microsoft navodi da AI aplikacije (posebno generativni i agentic sistemi) narušavaju mnoge pretpostavke tradicionalnog, determinističkog softvera, pa bezbednosni timovi moraju da prilagode pristup threat modeling-u kako bi obuhvatili probabilističke izlaze, proširene attack surface-ove i štetu usmerenu na čoveka.

Šta je novo: kako AI menja threat landscape

Microsoft ističe tri karakteristike koje suštinski menjaju threat modeling za AI:

Nedeterminisanost: isti input može dati različite output-e kroz više izvršavanja, što zahteva analizu opsega verovatnog ponašanja — uključujući retke, ali visokouticajne ishode.
Pristrasnost ka praćenju instrukcija: modeli su optimizovani da budu korisni, što ih čini podložnijim prompt injection napadima, prisili i manipulaciji — naročito kada podaci i instrukcije dele isti input kanal.
Širenje sistema kroz alate i memoriju: agentic sistemi mogu pozivati API-je, zadržavati stanje i autonomno pokretati workflow-e. Kada nešto pođe naopako, kvarovi se mogu brzo kaskadno širiti kroz komponente.

Ove osobine preoblikuju poznate rizike u nove forme, uključujući:

Direktan i indirektan prompt injection (uključujući preko eksternog sadržaja koji model preuzima)
Zloupotrebu alata i eskalaciju privilegija kroz chaining
Tiho exfiltration podataka (output-i ili pozivi alata koji odaju osetljive informacije)
Samouvereno pogrešne output-e koji se tretiraju kao činjenice
Štete usmerene na čoveka kao što su erozija poverenja, preterano oslanjanje, učvršćivanje pristrasnosti i ubedljiva dezinformacija

Threat model od asset-a, ne od napada

Ključna preporuka je da se krene od eksplicitnog definisanja onoga što štitite — jer AI asset-i prevazilaze baze podataka i kredencijale. Uobičajeni AI-specifični asset-i uključuju:

Bezbednost korisnika (posebno kada AI smernice utiču na postupke)
Poverenje korisnika u output-e i ponašanje
Privatnost/bezbednost osetljivih poslovnih i korisničkih podataka
Integritet prompt-ova, instrukcija i kontekstualnih podataka
Integritet akcija agenta i nizvodnih efekata

Ovakvo „asset-first” uokviravanje takođe forsira rane policy odluke: Koje akcije sistem nikada ne sme da preduzme? Neki ishodi mogu biti neprihvatljivi bez obzira na korist.

Modelujte sistem koji ste zaista izgradili

Microsoft naglašava da AI threat modeling mora odražavati realan rad sistema, a ne idealizovane dijagrame. Obratite posebnu pažnju na:

Kako korisnici zaista interaguju sa sistemom
Kako se prompt-ovi, memorija i kontekst sastavljaju i transformišu
Koji se eksterni izvori ingest-uju i koje trust pretpostavke postoje
Koje alate/API-je sistem može da poziva (i pod kojim dozvolama)
Da li su akcije reaktivne ili autonomne, i gde se sprovodi odobrenje čoveka

U AI sistemima, pipeline za sastavljanje prompt-a postaje prvorazredna bezbednosna granica — retrieval konteksta, transformacija, perzistencija i ponovna upotreba su mesta gde se „tihe” trust pretpostavke akumuliraju.

Uticaj na IT administratore i vlasnike platformi

Za administratore koji implementiraju AI rešenja (custom aplikacije, Copilot-e ili agentic workflow-e), ove smernice potvrđuju da kontrole moraju da pokriju:

Ceo put data-to-prompt-to-action (ne samo hosting modela)
Dozvole i guardrail-e za tool access i nizvodne automatizacije
Operativni monitoring za neočekivane output-e, neobične pozive alata i obrasce exfiltration-a

Akcione stavke / sledeći koraci

Popišite AI asset-e: uključite poverenje, bezbednost i integritet instrukcija/konteksta.
Mapirajte prompt pipeline end-to-end: izvori, retrieval, transformacija, memorija i ponovna upotreba.
Ograničite dozvole alata i zahtevajte odobrenje čoveka za akcije sa velikim uticajem.
Testirajte injection i misuse: uključite indirektan prompt injection kroz preuzeti sadržaj.
Planirajte za slučajne greške: ublažite preterano oslanjanje uz UX signale, korake validacije i eskalacione puteve.

Threat modeling za generativne i agentic AI aplikacije

Uvod: zašto je ovo važno

Šta je novo: kako AI menja threat landscape

Threat model od asset-a, ne od napada

Modelujte sistem koji ste zaista izgradili

Uticaj na IT administratore i vlasnike platformi

Akcione stavke / sledeći koraci

Trebate pomoć sa Security?

Povezani članci

Trivy kompromitacija lanca snabdevanja: Defender

Upravljanje AI agentima: usklađivanje namere

Defender predictive shielding zaustavlja GPO ransomware

Microsoft agentic AI bezbednost na RSAC 2026

Microsoft CTI-REALM open-source benchmark za AI detekciju

Microsoft Zero Trust za AI: radionica i arhitektura