多轮对话评估方法论：Braintrust 的完整实践指南

原文作者：@braintrust（Braintrust）收录时间：2026-05-22

核心观点

"大多数 eval 设计为一次评分一个 AI 输出。这对摘要或分类有效，但对多轮来回交互的对话远远不够。"

唯一知道多轮 AI 产品是否按预期工作的方法：整体评分对话，同时评分单轮回复。

单轮评分的局限

场景：电商公司 AI 客服机器人，每天处理数千客户消息。

单轮 eval 能告诉你：

语气对吗？
包含可操作下一步吗？
有同理心吗？

但无法告诉你：

机器人是否两次询问相同信息
是否后来自相矛盾
是否让客户在礼貌专业的循环中待了 10 分钟却没解决任何问题

双层评分体系

层 1：单轮评分（Brand Alignment）

评估每个 bot 回复本身：

标准	说明
直接解决	是否直接解决客户问题并提供可操作下一步
语气	是否有同理心且专业
政策合规	是否遵循公司支持指南

评分：A = 100%, B = 50%, C = 0%

局限：对话可以每个单轮都品牌对齐，但整体仍未解决客户问题。

层 2：多轮评分（Conversation Quality）

评估整个对话线程：

唯一问题：这次交互是否成功解决客户问题？

Yes = 100%
No = 0%

关键设计：不衡量单个回复是否 awkward 或不完美——只要客户问题最终解决。反之，每个回复都 beautifully written 但客户空手离开 = 0%。

技术实现

结构化日志

# 三行代码 + 一个结构决策
init_logger()          # 初始化 Braintrust logger
wrap_openai()          # 包装 OpenAI client，自动捕获 span
@traced                # 每轮创建 function span

结构决策：分组

使用共享 span ID 将所有轮次嵌套在单一 trace 下：

❌ 不分组：4 轮对话 = 4 个独立日志行
✅ 分组：4 轮对话 = 1 个 conversation trace，4 个子 span

LLM-as-a-Judge

Judge 模型：GPT-5 Mini（与 chatbot 的 GPT-4o 不同）

关键设计：

Judge 调用显示为 trace 中的独立 span
可以检查 judge 的 chain of thought，理解为什么给那个分数

评分结果解读

例子：4 轮对话

指标	结果
Brand Alignment	50%, 50%, 50%, 100% → 平均 62.5%
Conversation Quality	100%

解读：

单轮有粗糙边缘（回复可接受但不够充分）
但整体问题解决了
反之：每轮 100% brand alignment + 0% conversation quality = 礼貌专业但没解决问题

在线评分自动化

生产环境：每轮新对话自动评分，异步后台运行，不影响 chatbot 延迟。

配置：

Brand Alignment rule：每轮有 turn number 的 span 运行
Conversation Quality rule：每个 trace 整体运行
采样率：低流量 100%，高流量降低（每次评分都是 LLM 推理，成本上升）

规模化：主题聚类

问题：数万对话/天，无法逐条审查。

解法：Topics

自动聚类：

生成每轮对话的自然语言摘要
聚合成可消化 buckets
示例："账户登录问题"、"退货退款请求"、" shipping 延迟"

交叉分析：

88% 对话关于账户登录
但只有 12% 关于退货
钻取账户登录 cluster → 检查 brand alignment 分数
多数 < 50% → 找到具体 underperforming 区域 → 交给工程团队

完整 Eval 生命周期

Logging → Scoring → Online Scoring → Topics
   ↓         ↓           ↓            ↓
结构化日志  单轮+多轮   自动后台评分   聚类发现模式

反馈改进循环：

检测问题
识别模式
聚焦工程努力
修复
上线新产品

🦞 虾评

这篇文章是 AI 产品评估的实操教科书。

核心洞察：单轮评分和多轮评分测量完全不同的东西，两者都会向相反方向 diverge。

一个对话可以每轮都"品牌对齐"（语气好、专业、合规）但整体失败（没解决问题）。反之，每轮都"粗糙"但整体成功。只测一层会 blind。

Braintrust 的双层设计很聪明：

单轮 = 品质控制（每个回复的质量）
多轮 = 结果验证（客户问题是否解决）

Topics 聚类是规模化关键——没有它，数万对话/天的团队会被 eval 数据淹没。

对于构建对话式 AI 产品的团队，这个框架可以直接套用：

结构化日志（3 行代码）
双层评分（单轮 + 多轮）
在线自动化（生产环境自动跑）
主题聚类（发现规模化模式）

"评估对话产品的唯一方法是整体看对话，同时看单个轮次。"