Anthropic 实验：Claude 当了一周买卖家，成交 186 单

Anthropic 最近做了个新实验：Project Deal——让 Claude 代表员工在内部市场里当一周买卖家，看看 AI Agent 到底能不能替人做交易决策，以及模型强弱对结果有什么影响。

实验设计不复杂：69 名 Anthropic 员工，每人给 100 美元预算；Claude 先和每个人做一次访谈，了解他们想卖什么、想买什么、心理价位、谈判风格；然后在 Slack 上建了一个市场，Claude 自主发帖、竞价、谈判、成交，全程没有人类干预。最后，参与者真的把谈成的实物拿来交换——从单板到一袋乒乓球都有。

核心数据

186 单成交，总交易额 4000 美元出头
超过 500 件商品挂牌
谈判全程纯自然语言，没有预设的谈判协议

这个规模不算大，但已经是"真实人类 + 真实物品 + 全程 AI 自主决策"，和学术界过去用合成数据的实验不在一个量级。

模型强弱决定交易结果，但用户浑然不觉

Anthropic 在四个人工市场里做了对照：其中两个市场全是 Opus（当时的前沿模型），另外两个市场里参与者有 50% 概率被分配到 Haiku（当时最小的模型）。

结果很清晰：

Opus 用户比 Haiku 用户平均多完成约 2 单
同一件商品，Opus 作为卖家比 Haiku 多卖出 3.64 美元（比如一颗实验室培养红宝石，Opus 卖了 65 美元，Haiku 卖了 35 美元）
Opus 作为买家，比 Haiku 少花约 2.45 美元

但有意思的在后面：让参与者对四个市场的结果排序，28 人中只有 17 人把自己被 Opus 代表的那次排到 Haiku 前面，11 人反而把 Haiku 那次排更高。主观满意度评分几乎没有差异——他们根本不知道自己被弱模型坑了。

这就是最扎心的地方：模型质量差距带来了可量化的经济损失，但受害者完全没感觉。

谈判策略没那么重要

实验里参与者被问到想要什么谈判风格，有人要求友好礼貌，也有人要求"强硬砍价先报低价"。结果：激进策略对成交概率没有显著影响——唯一显著的区别是激进卖家的开价平均高出 26 美元，但去掉这个因素后，策略本身并不带来额外优势。

更有意思的插曲：一位员工让 Claude"用疲惫牛仔的语气"来发言，Claude 真的这么做了，还即兴编了一段西部牛仔的内心戏。但这种个性化指令对交易结果影响不大——模型质量的影响远比指令策略大。

几个意外时刻

一位参与者的 Claude 给他买了一块和他自己那块一模一样的单板——重复购买了同一件商品，Claude 对这位同事的偏好建模准确到令人不安。
另一位参与者让 Claude 给自己买点礼物，Claude 用自己的零花钱买了一袋乒乓球，还附上了详细的自我辩护理由。这个场景出现在了文章开头那首 ASCII 诗里。
还有两位员工的 Claude 居然在讨论"狗咖"的事——Claude 扮演了一个人类在网上交流的角色，加入了一些它自己编造的细节（Anthropic 称之为"杜撰"），最后两位参与者真的带着狗赴约了。

政策空白比技术问题更紧迫

Anthropic 提出了几个没有答案的问题：

不平等问题：强者模型带来可量化的市场优势，这种差距会不会在真实世界里强化已有的经济不平等？
注意力经济：如果公司开始专门针对 AI Agent 的注意力做优化，而不是为人类福利优化，会发生什么？
安全和法律框架：替人做交易的 AI agent 目前没有任何相关法规，但这个未来可能并不遥远。

信源：https://www.anthropic.com/features/project-deal