Anthropic 官方发布了 Claude 计算机使用(Computer Use)和浏览器使用的最佳实践指南,基于 Claude 4.6 系列(Opus 4.6、Sonnet 4.6、Haiku 4.5)和 Opus 4.7 的内部实验数据。
一、截图分辨率:点击精度的基础
核心问题:API 内部处理限制
当截图发送给 Claude Computer Use API 时,模型返回的点击坐标基于你指定的 display_width_px / display_height_px 坐标空间。但 API 有内部图像尺寸限制,超限图像会在模型看到前被静默降采样——模型基于降采样后的图像点击,而你的 harness 期望的是原始分辨率坐标。这是高分辨率下点击不准的首要原因。
| 模型 | 长边上限 | 总像素上限 |
|---|---|---|
| Claude 4.6 系列 | 1568 px | 1.15 MP |
| Opus 4.7 | 2576 px | 3.75 MP |
修复方案:发送 API 前始终预缩放到限制内。这是最高 ROI 的单一优化。
推荐分辨率
- 4.6 系列默认:1280x720(约占像素预算 80%,标准训练分辨率)
- Opus 4.7 默认:1080p(token 与性能的良好平衡)
- 最大化视觉信息:按原生宽高比计算"max API fit"分辨率(保留比例 + 用尽预算)
避免的分辨率:
- 原生分辨率(除非碰巧低于限制)
- 低于 960x540(细节丢失,小 UI 元素无法识别)
- macOS 注意:截图常带 2x 设备像素比,实际分辨率是屏幕坐标的 2 倍
- 4.6 系列避免 1920x1080 及以上(超像素限制会被静默降采样)
坐标缩放
发送缩放后的截图,模型返回缩放坐标空间的点击位置,执行前必须缩放回真实屏幕分辨率:
scale_x = screen_w / display_w
scale_y = screen_h / display_h
screen_x = int(api_returned_x * scale_x)
screen_y = int(api_returned_y * scale_y)
二、消息内容顺序
推荐:text instruction 在 image 之前
# 推荐
content = [
{"type": "text", "text": "Click on the Submit button"},
{"type": "image", "source": {...}},
]
# 不推荐
content = [
{"type": "image", "source": {...}},
{"type": "text", "text": "Click on the Submit button"},
]
让模型在处理截图前知道要找什么,提升点击精度。
三、点击问题诊断速查表
| 症状 | 可能原因 | 解决方案 |
|---|---|---|
| 点击持续单向偏移 | display 尺寸与实际图像不匹配 / 截图超 API 限制被静默降采样 / 内容顺序 image-first | 确保 display 尺寸匹配缩放后截图 / 预缩放到 1280x720 / text 在 image 前 |
| 点击大致正确但 missed target | 目标太小 / 4K+ 源图降采样丢失细节 / 宽高比失真 | 启用 enable_zoom: True / 降低 DPI 或裁剪区域 / 保留原生宽高比 |
| 点击完全错误的元素 | 指令模糊 / 视觉相似元素 / UI 太复杂 | 用位置上下文("右下角蓝色 Submit")/ 拆分为小步骤 |
| 全面精度差 | 截图超 API 限制 / 4K+ 源图压缩比极端 / 分辨率过低 | 预缩放 / 4.6 系列用 Sonnet 比 Opus 更耐重降采样 / 试 1280x720 基线 |
四、模型选择
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 大多数任务 | Sonnet 4.6 | 点击精度、推理、成本的最佳平衡 |
| 需要强推理 + 高分辨率源图 | Opus 4.7 | 点击精度≈Sonnet 4.6,更高分辨率预算 |
| 延迟优先 | Haiku 4.5 | 低延迟,适合简单可预测任务 |
| 复杂工作流 | 编排器 + 子 Agent | 推理模型做规划决策,Sonnet/Haiku 执行机械点击 |
五、小目标处理策略
- 启用 zoom:
enable_zoom: True(Claude 4.6 和 4.7 支持区域高分辨率检查) - 放大目标:降低系统 DPI、浏览器 zoom、调整 UI 缩放
- 键盘替代:系统托盘图标、微小 checkbox 用键盘快捷键或 tab 导航更可靠
- 注意 4K 源图:3840x2160 上的 16px checkbox 在 1280x720 上只剩约 5px
六、无效优化(测试未见效)
- 截图拆分为小 tile 分别发送
- 叠加坐标网格辅助定位
- 不同 resize 算法(LANCZOS、sips 等结果相同)
七、思考深度(Thinking Effort)调优
Claude 4.6 系列
| 场景 | 推荐 effort | 原因 |
|---|---|---|
| 默认大多数用例 | medium | 甜点:接近最高成功率,token 约为 high 的一半。重试后 medium 和 high 收敛到相同成功率 |
| 高吞吐/成本敏感 | low | 比禁用 thinking 更省 token(错误少、重试少),同时匹配或略超无 thinking 精度 |
| 简单已知工作流/最快 | 禁用 thinking | 延迟优先 |
| 复杂一次性任务 | high | 首次尝试需要高成功率 |
不推荐 max:无精度提升 over high,token 成本更高。UI 任务主要是感知+机械,非深度逻辑,额外推理预算被浪费或导致 overthinking。
Opus 4.7
| 场景 | 推荐 effort | 原因 |
|---|---|---|
| 默认大多数用例 | high | 足够推理规划复杂多步交互,token 增长可控 |
| 高吞吐/成本敏感 | low | 质量介于 Opus 4.6 high 和 max 之间 |
| 简单工作流/最快 | Sonnet 4.6 | 延迟优先 |
| 复杂一次性任务 | max | 高难度任务,需要首次做对 |
Opus 4.7 全面优于 4.6 系列:Opus 4.7 low effort ≈ Sonnet 4.6 max,但 token 用量约 1/10。
八、提示注入(Prompt Injection)防护
Computer Use Agent 的本质风险:处理的每个截图、网页、应用 UI 都可能包含对抗性指令(隐藏文字、操纵图像、欺骗性 UI、社会工程学)。
Anthropic 的三层防御
- 训练时鲁棒性:RL 训练让 Claude 在模拟网页和应用 UI 中识别并拒绝恶意指令
- 实时分类器:扫描进入 Claude 上下文的内容,检测跨模态的对抗性命令(隐藏文字、图像嵌入指令、欺骗性 UI),然后调整 Claude 行为
- 持续红队:安全研究人员持续探测防御,参与外部对抗评估
使用官方工具自动获得保护
使用官方 computer_20251124 tool type 时,prompt injection classifiers 自动运行,零额外延迟、零额外成本。无需配置。
通用最佳实践(无论是否用分类器)
- 高风险操作加人类确认:提交表单、购买、发送消息、修改数据前暂停请求确认
- 限制 Agent 权限:不需要下载就不给下载权限,不需要发邮件就不给邮件客户端
- 监控和日志:记录完整动作序列 + 每步截图,检测异常行为、审计问题
- 将所有 web 内容视为不可信:系统 prompt 清晰区分用户指令与任务执行中遇到的内容
九、上下文管理:截图累积问题
每张截图约 1,000-1,800 token。200k 上下文窗口在 100 张截图内就会填满。有效的上下文管理对长运行 Agent 的成本和延迟影响超过几乎任何其他优化。
三层策略
1. 放置 cache breakpoints
API 支持 4 个 cache breakpoints:
- 1 个放在 system prompt 或 trailing tool definitions(每会话几乎不变)
- 最多 3 个放在最近的 tool results(每轮推进,清除上一轮的 markers)
分散 breakpoints 提供优雅降级——最近 breakpoint 失效时,前面的仍能命中,只需付 10% 成本而非 100%。
2. 滚动缓冲(cache-aware)
保留最近 N 张截图,丢弃其余的。关键:批量修剪而非逐张丢弃,保持前缀字节一致多轮,然后一次性失效。
推荐默认:keep_n = 3,interval = 25。
3. LLM-based compaction
不静默丢弃旧图像,而是先总结完整对话再丢弃。总结保留:发生了什么、用户要求什么、已完成什么、从哪里恢复。保留几张最近截图让 Agent 知道当前在看什么。
互补使用:滚动缓冲用于逐轮控制 token 增长;compaction 偶尔回收窗口其余部分而不丢失早期上下文。compaction 设计就是 cache invalidation,所以要少做(非每几轮)。
核心 takeaway:这篇指南的价值在于数据驱动的反直觉发现:medium thinking 是 4.6 系列的甜点、low thinking 比无 thinking 更省 token、截图预缩放是最高 ROI 优化。对于生产级 Computer Use 部署,prompt injection 防护和上下文管理是成本与安全的决定性因素——官方工具自动提供分类器保护,而 cache-aware 滚动缓冲 + 定期 compaction 是控制长会话成本的标准配置。