返回 FEED
CLAUDE2026-05-20

Claude 计算机与浏览器使用最佳实践:从截图分辨率到安全防护的完整指南

Anthropic 官方发布了 Claude 计算机使用(Computer Use)和浏览器使用的最佳实践指南,基于 Claude 4.6 系列(Opus 4.6、Sonnet 4.6、Haiku 4.5)和 Opus 4.7 的内部实验数据。

一、截图分辨率:点击精度的基础

核心问题:API 内部处理限制

当截图发送给 Claude Computer Use API 时,模型返回的点击坐标基于你指定的 display_width_px / display_height_px 坐标空间。但 API 有内部图像尺寸限制,超限图像会在模型看到前被静默降采样——模型基于降采样后的图像点击,而你的 harness 期望的是原始分辨率坐标。这是高分辨率下点击不准的首要原因。

模型长边上限总像素上限
Claude 4.6 系列1568 px1.15 MP
Opus 4.72576 px3.75 MP

修复方案:发送 API 前始终预缩放到限制内。这是最高 ROI 的单一优化。

推荐分辨率

  • 4.6 系列默认:1280x720(约占像素预算 80%,标准训练分辨率)
  • Opus 4.7 默认:1080p(token 与性能的良好平衡)
  • 最大化视觉信息:按原生宽高比计算"max API fit"分辨率(保留比例 + 用尽预算)

避免的分辨率

  • 原生分辨率(除非碰巧低于限制)
  • 低于 960x540(细节丢失,小 UI 元素无法识别)
  • macOS 注意:截图常带 2x 设备像素比,实际分辨率是屏幕坐标的 2 倍
  • 4.6 系列避免 1920x1080 及以上(超像素限制会被静默降采样)

坐标缩放

发送缩放后的截图,模型返回缩放坐标空间的点击位置,执行前必须缩放回真实屏幕分辨率:

scale_x = screen_w / display_w
scale_y = screen_h / display_h
screen_x = int(api_returned_x * scale_x)
screen_y = int(api_returned_y * scale_y)

二、消息内容顺序

推荐:text instruction 在 image 之前

# 推荐
content = [
    {"type": "text", "text": "Click on the Submit button"},
    {"type": "image", "source": {...}},
]

# 不推荐
content = [
    {"type": "image", "source": {...}},
    {"type": "text", "text": "Click on the Submit button"},
]

让模型在处理截图前知道要找什么,提升点击精度。

三、点击问题诊断速查表

症状可能原因解决方案
点击持续单向偏移display 尺寸与实际图像不匹配 / 截图超 API 限制被静默降采样 / 内容顺序 image-first确保 display 尺寸匹配缩放后截图 / 预缩放到 1280x720 / text 在 image 前
点击大致正确但 missed target目标太小 / 4K+ 源图降采样丢失细节 / 宽高比失真启用 enable_zoom: True / 降低 DPI 或裁剪区域 / 保留原生宽高比
点击完全错误的元素指令模糊 / 视觉相似元素 / UI 太复杂用位置上下文("右下角蓝色 Submit")/ 拆分为小步骤
全面精度差截图超 API 限制 / 4K+ 源图压缩比极端 / 分辨率过低预缩放 / 4.6 系列用 Sonnet 比 Opus 更耐重降采样 / 试 1280x720 基线

四、模型选择

场景推荐模型原因
大多数任务Sonnet 4.6点击精度、推理、成本的最佳平衡
需要强推理 + 高分辨率源图Opus 4.7点击精度≈Sonnet 4.6,更高分辨率预算
延迟优先Haiku 4.5低延迟,适合简单可预测任务
复杂工作流编排器 + 子 Agent推理模型做规划决策,Sonnet/Haiku 执行机械点击

五、小目标处理策略

  • 启用 zoomenable_zoom: True(Claude 4.6 和 4.7 支持区域高分辨率检查)
  • 放大目标:降低系统 DPI、浏览器 zoom、调整 UI 缩放
  • 键盘替代:系统托盘图标、微小 checkbox 用键盘快捷键或 tab 导航更可靠
  • 注意 4K 源图:3840x2160 上的 16px checkbox 在 1280x720 上只剩约 5px

六、无效优化(测试未见效)

  • 截图拆分为小 tile 分别发送
  • 叠加坐标网格辅助定位
  • 不同 resize 算法(LANCZOS、sips 等结果相同)

七、思考深度(Thinking Effort)调优

Claude 4.6 系列

场景推荐 effort原因
默认大多数用例medium甜点:接近最高成功率,token 约为 high 的一半。重试后 medium 和 high 收敛到相同成功率
高吞吐/成本敏感low比禁用 thinking 更省 token(错误少、重试少),同时匹配或略超无 thinking 精度
简单已知工作流/最快禁用 thinking延迟优先
复杂一次性任务high首次尝试需要高成功率

不推荐 max:无精度提升 over high,token 成本更高。UI 任务主要是感知+机械,非深度逻辑,额外推理预算被浪费或导致 overthinking。

Opus 4.7

场景推荐 effort原因
默认大多数用例high足够推理规划复杂多步交互,token 增长可控
高吞吐/成本敏感low质量介于 Opus 4.6 high 和 max 之间
简单工作流/最快Sonnet 4.6延迟优先
复杂一次性任务max高难度任务,需要首次做对

Opus 4.7 全面优于 4.6 系列:Opus 4.7 low effort ≈ Sonnet 4.6 max,但 token 用量约 1/10。

八、提示注入(Prompt Injection)防护

Computer Use Agent 的本质风险:处理的每个截图、网页、应用 UI 都可能包含对抗性指令(隐藏文字、操纵图像、欺骗性 UI、社会工程学)。

Anthropic 的三层防御

  1. 训练时鲁棒性:RL 训练让 Claude 在模拟网页和应用 UI 中识别并拒绝恶意指令
  2. 实时分类器:扫描进入 Claude 上下文的内容,检测跨模态的对抗性命令(隐藏文字、图像嵌入指令、欺骗性 UI),然后调整 Claude 行为
  3. 持续红队:安全研究人员持续探测防御,参与外部对抗评估

使用官方工具自动获得保护

使用官方 computer_20251124 tool type 时,prompt injection classifiers 自动运行,零额外延迟、零额外成本。无需配置。

通用最佳实践(无论是否用分类器)

  • 高风险操作加人类确认:提交表单、购买、发送消息、修改数据前暂停请求确认
  • 限制 Agent 权限:不需要下载就不给下载权限,不需要发邮件就不给邮件客户端
  • 监控和日志:记录完整动作序列 + 每步截图,检测异常行为、审计问题
  • 将所有 web 内容视为不可信:系统 prompt 清晰区分用户指令与任务执行中遇到的内容

九、上下文管理:截图累积问题

每张截图约 1,000-1,800 token。200k 上下文窗口在 100 张截图内就会填满。有效的上下文管理对长运行 Agent 的成本和延迟影响超过几乎任何其他优化

三层策略

1. 放置 cache breakpoints

API 支持 4 个 cache breakpoints:

  • 1 个放在 system prompt 或 trailing tool definitions(每会话几乎不变)
  • 最多 3 个放在最近的 tool results(每轮推进,清除上一轮的 markers)

分散 breakpoints 提供优雅降级——最近 breakpoint 失效时,前面的仍能命中,只需付 10% 成本而非 100%。

2. 滚动缓冲(cache-aware)

保留最近 N 张截图,丢弃其余的。关键:批量修剪而非逐张丢弃,保持前缀字节一致多轮,然后一次性失效。

推荐默认:keep_n = 3,interval = 25。

3. LLM-based compaction

不静默丢弃旧图像,而是先总结完整对话再丢弃。总结保留:发生了什么、用户要求什么、已完成什么、从哪里恢复。保留几张最近截图让 Agent 知道当前在看什么。

互补使用:滚动缓冲用于逐轮控制 token 增长;compaction 偶尔回收窗口其余部分而不丢失早期上下文。compaction 设计就是 cache invalidation,所以要少做(非每几轮)。


核心 takeaway:这篇指南的价值在于数据驱动的反直觉发现:medium thinking 是 4.6 系列的甜点、low thinking 比无 thinking 更省 token、截图预缩放是最高 ROI 优化。对于生产级 Computer Use 部署,prompt injection 防护和上下文管理是成本与安全的决定性因素——官方工具自动提供分类器保护,而 cache-aware 滚动缓冲 + 定期 compaction 是控制长会话成本的标准配置。