Threat modeling voor generative en agentic AI-apps

February 26, 20263 min leestijd

Samenvatting

Microsoft legt uit dat threat modeling voor generative en agentic AI-apps anders moet dan bij traditionele software, omdat niet-deterministische outputs, instruction-following bias en gekoppelde tools of memory nieuwe aanvalsvectoren creëren. Dat is belangrijk omdat risico’s zoals prompt injection, misbruik van tools en privilege escalation in AI-systemen sneller kunnen opschalen en daardoor om een aangepaste security-aanpak vragen.

Introductie: waarom dit belangrijk is

Threat modeling helpt teams vroeg te identificeren wat er mis kan gaan—voordat er in de praktijk fouten ontstaan of adversarial exploits plaatsvinden. Microsoft merkt op dat AI-applicaties (vooral generative en agentic systemen) veel aannames van traditionele, deterministische software doorbreken, waardoor security-teams hun threat modeling-aanpak moeten aanpassen voor probabilistische outputs, grotere attack surfaces en mensgerichte schade.

Wat is nieuw: hoe AI het threat landscape verandert

Microsoft benoemt drie kenmerken die threat modeling voor AI fundamenteel verschuiven:

Niet-determinisme: dezelfde input kan bij verschillende runs andere outputs opleveren, wat analyse vereist van ranges van waarschijnlijk gedrag—ook zeldzame maar hoog-impact uitkomsten.
Instruction-following bias: modellen zijn geoptimaliseerd om behulpzaam te zijn, waardoor ze vatbaarder zijn voor prompt injection, dwang en manipulatie—zeker wanneer data en instructies hetzelfde inputkanaal delen.
Systeemuitbreiding via tools en memory: agentic systemen kunnen API’s aanroepen, state behouden en workflows autonoom triggeren. Als er iets misgaat, kunnen failures zich snel over componenten heen opstapelen.

Deze eigenschappen geven bekende risico’s nieuwe vormen, waaronder:

Directe en indirecte prompt injection (ook via externe content die het model ophaalt)
Tool misuse en privilege escalation via chaining
Stille data exfiltration (outputs of tool calls die sensitive information lekken)
Zelfverzekerd foute outputs die als feiten worden behandeld
Mensgerichte schade zoals erosie van vertrouwen, overreliance, het versterken van bias en overtuigende misinformation

Threat model vanuit assets, niet vanuit aanvallen

Een kernaanbeveling is om te beginnen met expliciet definiëren wat je beschermt—omdat AI-assets verder gaan dan databases en credentials. Veelvoorkomende AI-specifieke assets zijn:

User safety (met name wanneer AI-advies acties beïnvloedt)
User trust in outputs en gedrag
Privacy/security van gevoelige bedrijfs- en gebruikersdata
Integriteit van prompts, instructies en contextual data
Integriteit van agent actions en downstream effects

Deze asset-first benadering dwingt ook vroeg beleidskeuzes af: Welke acties mag het systeem nooit uitvoeren? Sommige uitkomsten kunnen onacceptabel zijn, ongeacht het voordeel.

Modelleer het systeem dat je echt hebt gebouwd

Microsoft benadrukt dat AI threat modeling de echte werking moet weerspiegelen, niet geïdealiseerde diagrammen. Let extra op:

Hoe gebruikers daadwerkelijk met het systeem interacteren
Hoe prompts, memory en context worden samengesteld en getransformeerd
Welke externe bronnen worden ingelezen en welke trust assumptions daarbij gelden
Welke tools/API’s het systeem kan aanroepen (en met welke permissions)
Of acties reactief of autonoom zijn, en waar human approval wordt afgedwongen

In AI-systemen wordt de prompt assembly pipeline een first-class security boundary—context retrieval, transformatie, persistency en hergebruik zijn plekken waar “stille” trust assumptions zich opstapelen.

Impact op IT admins en platform owners

Voor administrators die AI-oplossingen uitrollen (custom apps, Copilots of agentic workflows) onderstreept deze guidance dat controls het volgende moeten afdekken:

Het volledige data-to-prompt-to-action pad (niet alleen model hosting)
Permissions en guardrails voor tool access en downstream automations
Operational monitoring voor unexpected outputs, ongebruikelijke tool calls en exfiltration patterns

Action items / next steps

Inventory AI assets: neem trust, safety en instruction/context integrity mee.
Map the prompt pipeline end-to-end: bronnen, retrieval, transformatie, memory en hergebruik.
Constrain tool permissions en vereis human approval voor high-impact actions.
Test for injection and misuse: neem indirecte prompt injection via retrieved content mee.
Plan for accidents: beperk overreliance met UX cues, validatiestappen en escalation paths.

Threat modeling voor generative en agentic AI-apps

Introductie: waarom dit belangrijk is

Wat is nieuw: hoe AI het threat landscape verandert

Threat model vanuit assets, niet vanuit aanvallen

Modelleer het systeem dat je echt hebt gebouwd

Impact op IT admins en platform owners

Action items / next steps

Hulp nodig met Security?

Gerelateerde artikelen

Trivy supply chain-aanval: Defender-richtlijnen

AI-agentgovernance: intent afstemmen voor security

Microsoft Defender predictive shielding stopt GPO-ransomware

Microsoft beveiliging voor agentic AI op RSAC 2026

CTI-REALM open-source benchmark voor AI-detectie

Microsoft Zero Trust for AI: workshop en architectuur