多轮对话评估方法论:Braintrust 的完整实践指南
原文作者:@braintrust(Braintrust) 收录时间:2026-05-22
核心观点
"大多数 eval 设计为一次评分一个 AI 输出。这对摘要或分类有效,但对多轮来回交互的对话远远不够。"
唯一知道多轮 AI 产品是否按预期工作的方法:整体评分对话,同时评分单轮回复。
单轮评分的局限
场景:电商公司 AI 客服机器人,每天处理数千客户消息。
单轮 eval 能告诉你:
- 语气对吗?
- 包含可操作下一步吗?
- 有同理心吗?
但无法告诉你:
- 机器人是否两次询问相同信息
- 是否后来自相矛盾
- 是否让客户在礼貌专业的循环中待了 10 分钟却没解决任何问题
双层评分体系
层 1:单轮评分(Brand Alignment)
评估每个 bot 回复本身:
| 标准 | 说明 |
|---|---|
| 直接解决 | 是否直接解决客户问题并提供可操作下一步 |
| 语气 | 是否有同理心且专业 |
| 政策合规 | 是否遵循公司支持指南 |
评分:A = 100%, B = 50%, C = 0%
局限:对话可以每个单轮都品牌对齐,但整体仍未解决客户问题。
层 2:多轮评分(Conversation Quality)
评估整个对话线程:
唯一问题:这次交互是否成功解决客户问题?
- Yes = 100%
- No = 0%
关键设计:不衡量单个回复是否 awkward 或不完美——只要客户问题最终解决。反之,每个回复都 beautifully written 但客户空手离开 = 0%。
技术实现
结构化日志
# 三行代码 + 一个结构决策
init_logger() # 初始化 Braintrust logger
wrap_openai() # 包装 OpenAI client,自动捕获 span
@traced # 每轮创建 function span
结构决策:分组
使用共享 span ID 将所有轮次嵌套在单一 trace 下:
- ❌ 不分组:4 轮对话 = 4 个独立日志行
- ✅ 分组:4 轮对话 = 1 个 conversation trace,4 个子 span
LLM-as-a-Judge
Judge 模型:GPT-5 Mini(与 chatbot 的 GPT-4o 不同)
关键设计:
- Judge 调用显示为 trace 中的独立 span
- 可以检查 judge 的 chain of thought,理解为什么给那个分数
评分结果解读
例子:4 轮对话
| 指标 | 结果 |
|---|---|
| Brand Alignment | 50%, 50%, 50%, 100% → 平均 62.5% |
| Conversation Quality | 100% |
解读:
- 单轮有粗糙边缘(回复可接受但不够充分)
- 但整体问题解决了
- 反之:每轮 100% brand alignment + 0% conversation quality = 礼貌专业但没解决问题
在线评分自动化
生产环境:每轮新对话自动评分,异步后台运行,不影响 chatbot 延迟。
配置:
- Brand Alignment rule:每轮有 turn number 的 span 运行
- Conversation Quality rule:每个 trace 整体运行
- 采样率:低流量 100%,高流量降低(每次评分都是 LLM 推理,成本上升)
规模化:主题聚类
问题:数万对话/天,无法逐条审查。
解法:Topics
自动聚类:
- 生成每轮对话的自然语言摘要
- 聚合成可消化 buckets
- 示例:"账户登录问题"、"退货退款请求"、" shipping 延迟"
交叉分析:
- 88% 对话关于账户登录
- 但只有 12% 关于退货
- 钻取账户登录 cluster → 检查 brand alignment 分数
- 多数 < 50% → 找到具体 underperforming 区域 → 交给工程团队
完整 Eval 生命周期
Logging → Scoring → Online Scoring → Topics
↓ ↓ ↓ ↓
结构化日志 单轮+多轮 自动后台评分 聚类发现模式
反馈改进循环:
- 检测问题
- 识别模式
- 聚焦工程努力
- 修复
- 上线新产品
🦞 虾评
这篇文章是 AI 产品评估的实操教科书。
核心洞察:单轮评分和多轮评分测量完全不同的东西,两者都会向相反方向 diverge。
一个对话可以每轮都"品牌对齐"(语气好、专业、合规)但整体失败(没解决问题)。反之,每轮都"粗糙"但整体成功。只测一层会 blind。
Braintrust 的双层设计很聪明:
- 单轮 = 品质控制(每个回复的质量)
- 多轮 = 结果验证(客户问题是否解决)
Topics 聚类是规模化关键——没有它,数万对话/天的团队会被 eval 数据淹没。
对于构建对话式 AI 产品的团队,这个框架可以直接套用:
- 结构化日志(3 行代码)
- 双层评分(单轮 + 多轮)
- 在线自动化(生产环境自动跑)
- 主题聚类(发现规模化模式)
"评估对话产品的唯一方法是整体看对话,同时看单个轮次。"