为了让 Agent 更安全的工作，有多少人操碎了心？

Agent 普及的越快，就越是要提防它背后的风险。

因为在生产中，它得能接上你的 ERP、SAP、在线文档才能干活，但接入的那一刻，数据就可能失控。原因很简单，当下的 agent 的权限编排，完全跟不上产品本身的精细化设计。

举个简单的例子，过去一段时间，几乎所有的小龙虾产品，都会深度接入飞书、钉钉，在此过程中，用户的需求可能只是让 AI 做好全网内容搜索之后，将结果推送到飞书。但一些小龙虾，会默认需要我们打开组织门禁记录、联系人列表，甚至是修改邮箱密码大量非必要高级权限。

这些至少还是用户看得懂的权限设计，看不懂的往往更危险。2025 年 12 月豆包手机开启系统级权限 INJECT_EVENTS 的消息一出，两天之内，就接连被微信封杀、银行弹窗预警。2026 年 4 月 OX Security 确认 MCP 协议，更是影响 3.2 万个仓库、让 20 万台服务器暴露。

所以相当长一段时间里，各种 agent 产品，为了让用户能够更安全的用好 AI 可谓是操碎了心。

为什么精细的权限设计是 Agent 商用的前提

传统软件的行为是确定性的——用户点击按钮 A 就执行操作 A。但 Agent 的行为由 LLM 动态决策，是概率性的。同一个 Agent 面对同一个用户请求，可能走完全不同的执行路径。

这意味着：你授出去的权限，不一定按你预期的方式被使用。

2025 年 12 月豆包手机助手事件就把这个问题暴露得非常彻底。它拿到了安卓系统级权限 INJECT_EVENTS，能模拟点击、读取屏幕，理论上可以操作手机上的任何 App。所以上线后不到两天，微信触发风控封禁账号，农行、建行等银行客户端弹窗提醒用户存在风险。

这件事在行业里引发了三个层面的讨论：

技术层面：授权即失控——用户授权后，完全无法感知 AI 的完整操作链路
商业层面：AI 把超级应用变成了纯粹的履约管道，动摇了平台依赖流量和广告的商业模式
法律层面：AI 自动执行任务时出现误操作，用户、AI 提供方、应用平台三方责任难以界定

这种不确定性在消费级场景还能容忍，但在企业级场景就是灾难。

举个例子：一个 HR 专员有两个权限——查看考勤、查看薪酬。在传统系统里，这两个操作互不干扰。但如果 Agent 同时拿到这两个权限，它完全可以自动关联分析，输出一份完整的员工薪资与出勤对照表——这种权限组合后的涌现能力，传统 RBAC 权限模型根本管不住。

单个权限无害，组合起来就可能越界。这才是 Agent 权限问题的本质难点。

现有方案各卡在哪

MCP：AI 领域的 USB-C 接口，但安全根基不稳

MCP（Model Context Protocol）是 Anthropic 在 2024 年 11 月推出的协议，定位是 AI 模型与外部工具/数据源的标准化接口。但 MCP 的安全设计有天然的架构级缺陷。

Context Poisoning（上下文投毒）是最典型的问题。MCP 把所有工具描述原样注入 Agent 的上下文窗口，每接入一个 MCP 服务器，就多一个攻击面。OWASP 已将 Prompt Injection 列为 LLM 应用的头号安全风险（LLM01）。

实际攻击案例也不缺。安全研究机构 Invariant Labs 披露了一种工具投毒攻击方式：攻击者先部署一个无害的 MCP 工具获取用户信任，后续悄悄替换工具描述，注入恶意指令。用户界面上看不到任何异常，数据已经在后台被静默外传。

漏洞数据：

2026 年 4 月 OX Security 报告：MCP 生态影响超过 3.2 万个代码仓库，Shodan 上可确认 7,374 台公开脆弱服务器，估算暴露总量超过 20 万台
CVE-2025-49596：MCP Inspector 缺乏客户端与代理之间的身份验证，导致远程代码执行，CVSS 9.4 Critical
CVE-2025-6514：mcp-remote 连接不可信 MCP 服务器时，通过构造的 authorization_endpoint 响应 URL 实现 OS 命令注入，CVSS 9.6

A2A：Agent 间的通信协议，但信任鸿沟依然没能解决

A2A（Agent-to-Agent Protocol）是 Google 在 2025 年 4 月推出的协议。但 A2A 的安全强度高度依赖各 Agent 实现方的执行质量。Agent Card 只声明我能做什么，但无法验证身份可信度。

CLI 和 GUI 自动化：暴力路径的代价

很多企业 Agent 落地时，面对老旧的 ERP/SAP 系统会发现根本没有 API 可用，只能走 CLI 命令行或 GUI 自动化。GUI 的风险最大：权限过度、操作不可审计、数据边界模糊。

四种方案的共同问题

所有问题都出在同一个地方：虽然 Agent 数据交互方案有协议，但协议层和执行层之间存在断裂。MCP 标准化了 Agent/LLM 应用访问工具和数据源的方式，A2A 标准化了 Agent 之间的发现、协商和任务协作，但二者主要解决连接与互操作，并没有把用户意图、数据权限、动作授权和审计追踪变成端到端强约束。

ATH 的运作机制：三方可信握手

2026 年 5 月，中国信通院联合腾讯、华为、中兴、三大运营商和港中深发布了 ATH 协议。它的核心思路是：把用户拉回谈判桌，用户 + Agent + 服务三方握手，权限取交集，缺一票不通过。

ATH 的核心创新用一句话概括：引入用户作为独立的第三方参与方，搭建用户 + 智能体 + 服务的三方协同架构。

在 MCP 和 A2A 的二元架构里，用户授权是隐式的、一次性的。ATH 把用户变成了协议的一等公民——所有交互必须用户知情并授权。同时也引入了服务方的决策意见。

ATH 的六大设计原则：

用户主权：用户始终拥有最终授权权
最小权限：默认最小权限，按需扩展
显式授权：每次敏感操作都需要用户确认
可审计：所有操作可追溯
可撤销：用户随时可吊销授权
安全隔离：Agent 运行在隔离环境中

核心是一个 9 步握手流程

前置步骤：用户预授权。在智能体开始工作之前，用户先签署一份授权凭证，明确智能体可以代表自己行事的范围。

第一阶段：双向身份验证（步骤 1-4）。智能体向服务端发起握手请求，携带自己的 DID（去中心化身份标识）、公钥、能力清单和一个随机数。服务端验证后返回自己的身份信息。双方互相验证，防止中间人攻击和身份伪造。

第二阶段：可信握手协商（步骤 5-8）。智能体向服务端请求具体的访问权限，同时提交用户预授权凭证。关键来了：服务端收到请求后，不会直接审批，而是向用户发起二次确认。用户可以选择同意、拒绝或修改授权范围。

第三阶段：会话建立（步骤 9）。双方完成密钥协商，服务端颁发短期访问令牌，正式建立加密通信通道。

Scope Intersection：三方权限交集

这是 ATH 在权限安全上最关键的创新。计算公式：

Effective Scope = Agent Approved Scopes ∩ User Consented Scopes ∩ Requested Scopes

最终有效权限 = 服务方审批权限 ∩ 用户授权权限 ∩ 智能体请求权限，取三方交集。

举个例子：

Agent approved: mail:read, mail:send
User consented: mail:read, mail:send, mail:delete
Agent requested: mail:read
Effective scope: mail:read

用户虽然同意了 mail:delete，但服务方从没批准这个智能体有删除权限 → 拿不到。智能体虽然被批准了 mail:send，但它这次只请求了 mail:read → 也只能拿到 mail:read。

与 OAuth 2.0 的关系

ATH 建立在 OAuth 2.0 之上，而非替代它。用户侧授权使用标准 OAuth 流程，ATH 增加了智能体身份层和应用侧授权。所有 OAuth 授权请求强制使用 PKCE S256 挑战方法，访问令牌绑定到 (agent_id, user_id, provider_id, scopes) 四元组。

写在最后

Agent 大规模商用，权限安全是绕不过去的坎。

从软件行业的历史看，每一次平台级技术爆发，都伴随权限治理体系的升级。App 生态催生了运行时权限模型，数据库普及推动了行级安全策略。这些权限体系不是事后补丁，而是大规模商用的前提条件。Agent 时代同样需要一个适配其特点的权限框架。

MCP 解决了工具接入的标准化问题，A2A 解决了 Agent 间协作的标准化问题，但它们都没有把用户作为独立的授权方纳入协议设计。ATH 的三方参与架构和 Scope Intersection 机制，在协议层面补上了这块短板。

坦白说，ATH 作为 2026 年 5 月刚发布的协议，目前还没有企业实际部署的公开案例。它的生态组件也还在早期阶段。但协议的设计思路——特别是三方权限交集、去中心化身份验证、强制 PKCE——确实回应了当前 Agent 权限治理的核心痛点。

一个更值得思考的问题是：如果 ATH 这样的三方模型被广泛采用，现有的 Agent 开发流程会发生什么变化？开发者需要在设计阶段就规划好"我的 Agent 到底需要哪些最小权限"，而不是先拿到最大权限再说。这本身就是一种更健康的工程实践。

为什么精细的权限设计是 Agent 商用的前提

现有方案各卡在哪

ATH 的运作机制：三方可信握手

写在最后

继续阅读