Claude Code Auto Mode：两段式 AI 分类器替代权限弹窗

审批疲劳：93% 的弹窗都被批准了

传统方案面临一个两难：要么每次操作都弹出权限确认（打断工作流），要么直接给 Claude Code 所有权限（放弃安全控制）。Anthropic 内部数据显示，用户对 93% 的手动权限弹窗选择了批准——这说明全量弹窗实际上已经没有起到筛选作用，只是在制造摩擦。

Auto Mode 的目标是找到中间地带：用 AI 分类器代替人工判断，在不阻塞工作流的前提下，对真正危险的操作踩刹车。

在 Claude 处理工具输出之前，先运行一个专用探针，扫描工具返回内容中是否藏有恶意指令。如果发现可疑内容，在 agent 读取之前注入警告。

这是被动防御，专门针对「工具输出带毒」这种攻击路径，防止外部内容通过工具调用渗透进 agent 的推理链。

对 Claude 即将执行的每一个动作，在执行前运行一个 transcript 分类器，判断是否符合授权范围。这是主动防御——在动作落地之前拦截。

分类器本身是两段式流水线：

第一段：单 token 快速过滤

第二段：Chain-of-Thought 精筛

两段串联的意义在于：第一段保证召回率（不漏杀），第二段保证精确率（不误杀）。

Auto Mode 的设计覆盖四类威胁：

威胁类型	描述
过激行为	Claude 在授权范围内完成任务，但采用了用户未预期的破坏性路径
诚实错误	对指令的误解导致错误操作
Prompt 注入	外部内容伪装成指令，操纵 Claude 行为
模型不对齐	模型自身行为与预期偏离

分类器在判断时故意不看两类信息：

这是防止注入攻击的关键设计。如果分类器能看到工具输出，攻击者可以构造特殊工具返回内容来操控分类器判断。剥离后，分类器只评估「动作本身」，外部内容无法影响判断结果。

17% 的危险动作漏报率对日常开发任务来说是可接受的权衡，但对于生产数据库操作、账号权限变更、CI/CD 配置修改等高风险场景，Auto Mode 不能替代人工审查。

用户可以自定义信任边界和 block 规则，系统提供保守的开箱默认配置，按需收紧或放宽。