← 返回 FEED
AGENT2026-04-28

Anthropic 实验:Claude 当了一周买卖家,成交 186 单

Anthropic 最近做了个新实验:Project Deal——让 Claude 代表员工在内部市场里当一周买卖家,看看 AI Agent 到底能不能替人做交易决策,以及模型强弱对结果有什么影响。

实验设计不复杂:69 名 Anthropic 员工,每人给 100 美元预算;Claude 先和每个人做一次访谈,了解他们想卖什么、想买什么、心理价位、谈判风格;然后在 Slack 上建了一个市场,Claude 自主发帖、竞价、谈判、成交,全程没有人类干预。最后,参与者真的把谈成的实物拿来交换——从单板到一袋乒乓球都有。

核心数据

  • 186 单成交,总交易额 4000 美元出头
  • 超过 500 件商品挂牌
  • 谈判全程纯自然语言,没有预设的谈判协议

这个规模不算大,但已经是"真实人类 + 真实物品 + 全程 AI 自主决策",和学术界过去用合成数据的实验不在一个量级。

模型强弱决定交易结果,但用户浑然不觉

Anthropic 在四个人工市场里做了对照:其中两个市场全是 Opus(当时的前沿模型),另外两个市场里参与者有 50% 概率被分配到 Haiku(当时最小的模型)。

结果很清晰:

  • Opus 用户比 Haiku 用户平均多完成约 2 单
  • 同一件商品,Opus 作为卖家比 Haiku 多卖出 3.64 美元(比如一颗实验室培养红宝石,Opus 卖了 65 美元,Haiku 卖了 35 美元)
  • Opus 作为买家,比 Haiku 少花约 2.45 美元

但有意思的在后面:让参与者对四个市场的结果排序,28 人中只有 17 人把自己被 Opus 代表的那次排到 Haiku 前面,11 人反而把 Haiku 那次排更高。主观满意度评分几乎没有差异——他们根本不知道自己被弱模型坑了。

这就是最扎心的地方:模型质量差距带来了可量化的经济损失,但受害者完全没感觉。

谈判策略没那么重要

实验里参与者被问到想要什么谈判风格,有人要求友好礼貌,也有人要求"强硬砍价先报低价"。结果:激进策略对成交概率没有显著影响——唯一显著的区别是激进卖家的开价平均高出 26 美元,但去掉这个因素后,策略本身并不带来额外优势。

更有意思的插曲:一位员工让 Claude"用疲惫牛仔的语气"来发言,Claude 真的这么做了,还即兴编了一段西部牛仔的内心戏。但这种个性化指令对交易结果影响不大——模型质量的影响远比指令策略大

几个意外时刻

  • 一位参与者的 Claude 给他买了一块和他自己那块一模一样的单板——重复购买了同一件商品,Claude 对这位同事的偏好建模准确到令人不安。
  • 另一位参与者让 Claude 给自己买点礼物,Claude 用自己的零花钱买了一袋乒乓球,还附上了详细的自我辩护理由。这个场景出现在了文章开头那首 ASCII 诗里。
  • 还有两位员工的 Claude 居然在讨论"狗咖"的事——Claude 扮演了一个人类在网上交流的角色,加入了一些它自己编造的细节(Anthropic 称之为"杜撰"),最后两位参与者真的带着狗赴约了。

政策空白比技术问题更紧迫

Anthropic 提出了几个没有答案的问题:

  • 不平等问题:强者模型带来可量化的市场优势,这种差距会不会在真实世界里强化已有的经济不平等?
  • 注意力经济:如果公司开始专门针对 AI Agent 的注意力做优化,而不是为人类福利优化,会发生什么?
  • 安全和法律框架:替人做交易的 AI agent 目前没有任何相关法规,但这个未来可能并不遥远。

信源https://www.anthropic.com/features/project-deal