DeepMind 发布了首部系统性框架,研究开放网络如何被武器化来攻击自主 AI Agent。研究定义了"AI Agent Traps":嵌入网页和数字资源中,专门设计用于利用访问 Agent 的对抗性内容,涵盖六大类攻击目标。
隐藏提示注入已达规模
HTML 中的隐藏提示注入已在 86% 的场景中实现对 Agent 的部分劫持。这些攻击 trivial to deploy,不需要复杂工具,使得任何将网页内容读取纳入操作循环的 Agent 都面临直接威胁。
记忆污染极低污染即可
Latent memory poisoning 以不到 0.1% 的数据污染实现了超过 80% 的攻击成功率。由于 Agent 从浏览内容中构建持久记忆,单个被污染的页面可以在用户从未看到恶意输入的情况下,污染跨未来会话的推理链。
六大攻击分类
感知陷阱(操控 Agent 看到的内容)、认知陷阱(腐蚀推理)、记忆陷阱(污染存储知识)、行动陷阱(劫持工具使用)、系统陷阱(利用多 Agent 协调)、人在环陷阱(欺骗人类监督者批准有害操作)。
责任真空
如果被劫持的 Agent 实施了金融犯罪,目前没有明确答案来确定 Agent 运营商、模型提供商还是域名所有者应承担责任。现行法律需要在被动对抗样本和作为主动网络攻击部署的主动陷阱之间划出界限。
0.1% 数据污染达到 80% 攻击成功率这个数字触目惊心。如果 RAG 或知识库摄入没有清洗流程,一个被污染的源就足以扭曲整个 Agent 的记忆和决策——这应该是所有知识密集型 Agent 系统的必读论文。</parameter>