Claude 计算机与浏览器使用最佳实践：从截图分辨率到安全防护的完整指南

Anthropic 官方发布了 Claude 计算机使用（Computer Use）和浏览器使用的最佳实践指南，基于 Claude 4.6 系列（Opus 4.6、Sonnet 4.6、Haiku 4.5）和 Opus 4.7 的内部实验数据。

一、截图分辨率：点击精度的基础

核心问题：API 内部处理限制

当截图发送给 Claude Computer Use API 时，模型返回的点击坐标基于你指定的 display_width_px / display_height_px 坐标空间。但 API 有内部图像尺寸限制，超限图像会在模型看到前被静默降采样——模型基于降采样后的图像点击，而你的 harness 期望的是原始分辨率坐标。这是高分辨率下点击不准的首要原因。

模型	长边上限	总像素上限
Claude 4.6 系列	1568 px	1.15 MP
Opus 4.7	2576 px	3.75 MP

修复方案：发送 API 前始终预缩放到限制内。这是最高 ROI 的单一优化。

坐标缩放

发送缩放后的截图，模型返回缩放坐标空间的点击位置，执行前必须缩放回真实屏幕分辨率：

scale_x = screen_w / display_w
scale_y = screen_h / display_h
screen_x = int(api_returned_x * scale_x)
screen_y = int(api_returned_y * scale_y)

二、消息内容顺序

推荐：text instruction 在 image 之前

# 推荐
content = [
    {"type": "text", "text": "Click on the Submit button"},
    {"type": "image", "source": {...}},
]

# 不推荐
content = [
    {"type": "image", "source": {...}},
    {"type": "text", "text": "Click on the Submit button"},
]

让模型在处理截图前知道要找什么，提升点击精度。

三、点击问题诊断速查表

症状	可能原因	解决方案
点击持续单向偏移	display 尺寸与实际图像不匹配 / 截图超 API 限制被静默降采样 / 内容顺序 image-first	确保 display 尺寸匹配缩放后截图 / 预缩放到 1280x720 / text 在 image 前
点击大致正确但 missed target	目标太小 / 4K+ 源图降采样丢失细节 / 宽高比失真	启用 `enable_zoom: True` / 降低 DPI 或裁剪区域 / 保留原生宽高比
点击完全错误的元素	指令模糊 / 视觉相似元素 / UI 太复杂	用位置上下文（"右下角蓝色 Submit"）/ 拆分为小步骤
全面精度差	截图超 API 限制 / 4K+ 源图压缩比极端 / 分辨率过低	预缩放 / 4.6 系列用 Sonnet 比 Opus 更耐重降采样 / 试 1280x720 基线

四、模型选择

场景	推荐模型	原因
大多数任务	Sonnet 4.6	点击精度、推理、成本的最佳平衡
需要强推理 + 高分辨率源图	Opus 4.7	点击精度≈Sonnet 4.6，更高分辨率预算
延迟优先	Haiku 4.5	低延迟，适合简单可预测任务
复杂工作流	编排器 + 子 Agent	推理模型做规划决策，Sonnet/Haiku 执行机械点击

五、小目标处理策略

启用 zoom：enable_zoom: True（Claude 4.6 和 4.7 支持区域高分辨率检查）
放大目标：降低系统 DPI、浏览器 zoom、调整 UI 缩放
键盘替代：系统托盘图标、微小 checkbox 用键盘快捷键或 tab 导航更可靠
注意 4K 源图：3840x2160 上的 16px checkbox 在 1280x720 上只剩约 5px

六、无效优化（测试未见效）

截图拆分为小 tile 分别发送
叠加坐标网格辅助定位
不同 resize 算法（LANCZOS、sips 等结果相同）

七、思考深度（Thinking Effort）调优

Claude 4.6 系列

场景	推荐 effort	原因
默认大多数用例	`medium`	甜点：接近最高成功率，token 约为 high 的一半。重试后 medium 和 high 收敛到相同成功率
高吞吐/成本敏感	`low`	比禁用 thinking 更省 token（错误少、重试少），同时匹配或略超无 thinking 精度
简单已知工作流/最快	禁用 thinking	延迟优先
复杂一次性任务	`high`	首次尝试需要高成功率

不推荐 max：无精度提升 over high，token 成本更高。UI 任务主要是感知+机械，非深度逻辑，额外推理预算被浪费或导致 overthinking。

Opus 4.7

场景	推荐 effort	原因
默认大多数用例	`high`	足够推理规划复杂多步交互，token 增长可控
高吞吐/成本敏感	`low`	质量介于 Opus 4.6 high 和 max 之间
简单工作流/最快	Sonnet 4.6	延迟优先
复杂一次性任务	`max`	高难度任务，需要首次做对

Opus 4.7 全面优于 4.6 系列：Opus 4.7 low effort ≈ Sonnet 4.6 max，但 token 用量约 1/10。

八、提示注入（Prompt Injection）防护

Computer Use Agent 的本质风险：处理的每个截图、网页、应用 UI 都可能包含对抗性指令（隐藏文字、操纵图像、欺骗性 UI、社会工程学）。

Anthropic 的三层防御

训练时鲁棒性：RL 训练让 Claude 在模拟网页和应用 UI 中识别并拒绝恶意指令
实时分类器：扫描进入 Claude 上下文的内容，检测跨模态的对抗性命令（隐藏文字、图像嵌入指令、欺骗性 UI），然后调整 Claude 行为
持续红队：安全研究人员持续探测防御，参与外部对抗评估

使用官方工具自动获得保护

使用官方 computer_20251124 tool type 时，prompt injection classifiers 自动运行，零额外延迟、零额外成本。无需配置。

通用最佳实践（无论是否用分类器）

高风险操作加人类确认：提交表单、购买、发送消息、修改数据前暂停请求确认
限制 Agent 权限：不需要下载就不给下载权限，不需要发邮件就不给邮件客户端
监控和日志：记录完整动作序列 + 每步截图，检测异常行为、审计问题
将所有 web 内容视为不可信：系统 prompt 清晰区分用户指令与任务执行中遇到的内容

九、上下文管理：截图累积问题

每张截图约 1,000-1,800 token。200k 上下文窗口在 100 张截图内就会填满。有效的上下文管理对长运行 Agent 的成本和延迟影响超过几乎任何其他优化。

三层策略

1. 放置 cache breakpoints

API 支持 4 个 cache breakpoints：

1 个放在 system prompt 或 trailing tool definitions（每会话几乎不变）
最多 3 个放在最近的 tool results（每轮推进，清除上一轮的 markers）

分散 breakpoints 提供优雅降级——最近 breakpoint 失效时，前面的仍能命中，只需付 10% 成本而非 100%。

2. 滚动缓冲（cache-aware）

保留最近 N 张截图，丢弃其余的。关键：批量修剪而非逐张丢弃，保持前缀字节一致多轮，然后一次性失效。

推荐默认：keep_n = 3，interval = 25。

3. LLM-based compaction

不静默丢弃旧图像，而是先总结完整对话再丢弃。总结保留：发生了什么、用户要求什么、已完成什么、从哪里恢复。保留几张最近截图让 Agent 知道当前在看什么。

互补使用：滚动缓冲用于逐轮控制 token 增长；compaction 偶尔回收窗口其余部分而不丢失早期上下文。compaction 设计就是 cache invalidation，所以要少做（非每几轮）。

核心 takeaway：这篇指南的价值在于数据驱动的反直觉发现：medium thinking 是 4.6 系列的甜点、low thinking 比无 thinking 更省 token、截图预缩放是最高 ROI 优化。对于生产级 Computer Use 部署，prompt injection 防护和上下文管理是成本与安全的决定性因素——官方工具自动提供分类器保护，而 cache-aware 滚动缓冲 + 定期 compaction 是控制长会话成本的标准配置。