Eine E-Mail im Posteingang. Niemand öffnet sie, niemand klickt. Tage später stellt ein Nutzer seinem KI-Assistenten eine Frage. Der Agent zieht die E-Mail als Kontext heran, folgt den darin versteckten Anweisungen und schickt interne Daten an einen externen Server. Jede Komponente im System hat ihre Sicherheitsprüfung bestanden. Genau so lief EchoLeak gegen Microsoft Copilot (CVE-2025-32711, CVSS 9.3): kein Exploit als Code, sondern ein Angriff über die Architektur.
Wer heute agentenbasierte Systeme baut, steht vor dem gleichen Problem: Wir prüfen Komponenten einzeln, aber Angreifer denken in Ketten. Sobald ein KI-Agent Daten abruft, Aufgaben plant, Tools aufruft und mit anderen Agenten redet, entstehen Angriffspfade über Vertrauensgrenzen hinweg, die kein komponentenbasiertes Review sichtbar macht.
In diesem Talk stelle ich das Fünf-Zonen-Modell vor, mit dem sich die Angriffsfläche agentenbasierter Systeme systematisch kartieren lässt: Eingabeschnittstellen, Planung, Tool-Ausführung, Speicher, Agent-zu-Agent-Kommunikation. An drei Szenarien (RAG-Pipeline-Poisoning, MCP-Tool-Chain-Missbrauch, Multi-Agent-Kaskaden) zeige ich, wie Angriffe über Zonengrenzen wandern und wo Architekturentscheidungen sie stoppen.
"Human in the Loop" heißt bei KI-Agenten mehr als ein Approve-Button zur Laufzeit. Es heißt, dass Menschen die Architektur dieser Systeme analysieren und Vertrauensgrenzen bewusst ziehen, bevor der erste Agent in Produktion geht. Das Fünf-Zonen-Modell gibt Teams dafür einen konkreten Rahmen.