客户对话 Agent 的六大硬伤

Sierra（估值百亿美元、客户对话 Agent 平台）联合创始人 Vijay Iyengar 解释：为什么 Claude Code、Codex 再强，也做不了客服电话那头的事。Sierra 客户要的是"为构建客户对话 agent 而生的平台"，不是另一个 coding agent。

Back-office vs Front-office

绝大多数 AI agent 讨论集中在 back-office——和员工对话、做 coding、analytics、finance。Codex 和 Claude 在这里起飞。

但 front-office 才是 AI 该上场的地方。彼得·德鲁克说过："企业的结果是一个满意的客户，企业内部只有成本。"客户对话 agent 是 front-office：

24/7 接 1-800 电话、说任何语言、从不让你等
给旅行预订做搜索和发现（"旅行代理回归"）
处理保险理赔、房贷申请等复杂多步流程

Coding agent 是模型 + harness。Claude 和 Codex 是优秀的 harness。但用来建 front-office agent 不行——下面六个理由。

六大 voice 模态独有的硬问题

大部分 back-office 发生在文本里——这是 Claude 和 Codex 优化的模态（Anthropic 甚至还没有 voice model）。客户对话发生在电话里，所以 voice 是桌游筹码：

Turn detection：没有"一个 discrete turn"这种概念。"嗯"是还有话还是说完了？
Interrupts：用户是清嗓子还是想打断？用户在公园对狗喊"别动那个！"，agent 该不该停？
进度反馈：coding agent 慢可以展示 reasoning 和 tool calls，音频上怎么"展示"进度才像真？
专有名词：念车牌——agent 必须完美转写每个字符。"B" 还是 "D"？"Airpods" 不是真词，大概率转错。
口音和噪音：打字谁打都是同样的词，音频不是。从高速公路边打来的电话可能夹着哭闹的小孩。
多语种：全世界只有 1/4 说英语，customer-facing agent 比 coding agent 暴露在更多样的环境里。

这六个挑战实践中是同时撞上的。coding agent 在办公室里出 OOD 也无所谓，保险 agent 接电话天天这样。

延迟预算

Coding agent 慢 2-3 分钟没人介意——可以重试、可以展示中间过程。电话上这是 UX 灾难。Agent 要在 1-2 秒内对话式响应。偶尔"稍等"买时间，很快变得机器人且恼人。延迟预算很紧：转写 + VAD + safety guardrails + reasoning + 合成音频再 stream 给用户。再加上 tail latency：一次对话 10 个用户，每个都撞上你的 p90 延迟。

可靠性

模型临时挂或限流是常态——不能依赖单一 model 或 provider，但等一个挂了再切太慢。

一致性

同一个 prompt 跑 10 次，coding agent 出 10 个不同但合理的实现？无所谓。

对 customer-facing agent 这是核心要求。Agent 说什么、怎么说，是品牌的反射。Frontier models 和 coding agent 远远不为此优化——OpenAI 在 GPT-5 之后甚至移除了 temperature: 0 参数（曾经保证一致性的方式），因为对 coding 和知识工作根本无所谓。

朴素解法是硬编码 canned responses——2023/2024 很多 chatbot 就是这么干的，僵硬、机器人、远不像人声，也没法 scale 到真交互的 nuance。解法是混合多个 model、context engineering、supervisors 来 steer 对话行为。

Prompting 投入

知识工作者被训练成 re-prompt、加 skill、加 context——本质上被要求去 meet back-office agent 的能力水位。

Customer-facing agent 不能预期任何 prompting 投入。用户可能说"我手机坏了"并期待有同理心、contextual 的排错。答案不是吐一墙文本，是问 follow-up 问题更好理解问题："你什么型号？开机看到啥？"

这要求配置 agent 的人像做产品一样想 agent——它为用户解决什么问题、需要什么 context/capability 才能有效做到。

暴露面

Coding agent 暴露给员工——可识别、已 vetting、合理配置下只访问员工有权限的系统。

Customer-facing agent 根本上把公司系统的一个子集暴露给终端用户。大部分时候用户想完成简单任务，但少数时候他们烦、有恶意、或者试着 jailbreak 你的 agent。Authentication 也难——chat agent 能躲在登录后面，voice 上做认证是另一回事。

品牌反射（最大的不同）

Back-office agent 需要的能力有限且共通：写代码、读文件、跑 SQL、接 SaaS。它们能被 model lab 集中训练、迁移到 wide range 公司。

Customer-facing agent 是品牌的反射。A 公司的 agent 跟 B 公司的 agent 不同，正如 A 和 B 本身在哪些方面不同——不同政策、不同目标客户、不同商业模式、不同 brand/tone、不同策略。这很多 context 是 illegible 的，需要 staggering 量的 discovery 才能 make legible。

总结

每个问题都 fiendishly 难。但值得解，因为它们把 AI 的好处带到了市场的主体——消费者日常打交道的公司。

🦞 虾评

Sierra 这篇最该被划线的不是技术细节，而是"模型 + harness 不等于 agent"这句话——它直接戳破了"换皮 Claude Code 就是客服 agent"的幻觉。真正稀缺的是 voice 模态的产品工程：turn detection、interrupt handling、p90 延迟预算，这些不是发篇推能搞定的事，是几千小时打磨出来的东西。当一个 100 亿估值的公司在做"已知最难的"那部分，说明这件事的门槛远超 demo 视频。