返回 FEED
OTHER2026-05-22

多轮对话评估方法论:Braintrust 的完整实践指南

多轮对话评估方法论:Braintrust 的完整实践指南

原文作者:@braintrust(Braintrust) 收录时间:2026-05-22

核心观点

"大多数 eval 设计为一次评分一个 AI 输出。这对摘要或分类有效,但对多轮来回交互的对话远远不够。"

唯一知道多轮 AI 产品是否按预期工作的方法:整体评分对话,同时评分单轮回复。


单轮评分的局限

场景:电商公司 AI 客服机器人,每天处理数千客户消息。

单轮 eval 能告诉你:

  • 语气对吗?
  • 包含可操作下一步吗?
  • 有同理心吗?

但无法告诉你:

  • 机器人是否两次询问相同信息
  • 是否后来自相矛盾
  • 是否让客户在礼貌专业的循环中待了 10 分钟却没解决任何问题

双层评分体系

层 1:单轮评分(Brand Alignment)

评估每个 bot 回复本身:

标准说明
直接解决是否直接解决客户问题并提供可操作下一步
语气是否有同理心且专业
政策合规是否遵循公司支持指南

评分:A = 100%, B = 50%, C = 0%

局限:对话可以每个单轮都品牌对齐,但整体仍未解决客户问题。

层 2:多轮评分(Conversation Quality)

评估整个对话线程:

唯一问题:这次交互是否成功解决客户问题?

  • Yes = 100%
  • No = 0%

关键设计:不衡量单个回复是否 awkward 或不完美——只要客户问题最终解决。反之,每个回复都 beautifully written 但客户空手离开 = 0%。


技术实现

结构化日志

# 三行代码 + 一个结构决策
init_logger()          # 初始化 Braintrust logger
wrap_openai()          # 包装 OpenAI client,自动捕获 span
@traced                # 每轮创建 function span

结构决策:分组

使用共享 span ID 将所有轮次嵌套在单一 trace 下:

  • ❌ 不分组:4 轮对话 = 4 个独立日志行
  • ✅ 分组:4 轮对话 = 1 个 conversation trace,4 个子 span

LLM-as-a-Judge

Judge 模型:GPT-5 Mini(与 chatbot 的 GPT-4o 不同)

关键设计

  • Judge 调用显示为 trace 中的独立 span
  • 可以检查 judge 的 chain of thought,理解为什么给那个分数

评分结果解读

例子:4 轮对话

指标结果
Brand Alignment50%, 50%, 50%, 100% → 平均 62.5%
Conversation Quality100%

解读

  • 单轮有粗糙边缘(回复可接受但不够充分)
  • 但整体问题解决了
  • 反之:每轮 100% brand alignment + 0% conversation quality = 礼貌专业但没解决问题

在线评分自动化

生产环境:每轮新对话自动评分,异步后台运行,不影响 chatbot 延迟。

配置:

  • Brand Alignment rule:每轮有 turn number 的 span 运行
  • Conversation Quality rule:每个 trace 整体运行
  • 采样率:低流量 100%,高流量降低(每次评分都是 LLM 推理,成本上升)

规模化:主题聚类

问题:数万对话/天,无法逐条审查。

解法:Topics

自动聚类:

  1. 生成每轮对话的自然语言摘要
  2. 聚合成可消化 buckets
  3. 示例:"账户登录问题"、"退货退款请求"、" shipping 延迟"

交叉分析

  • 88% 对话关于账户登录
  • 但只有 12% 关于退货
  • 钻取账户登录 cluster → 检查 brand alignment 分数
  • 多数 < 50% → 找到具体 underperforming 区域 → 交给工程团队

完整 Eval 生命周期

Logging → Scoring → Online Scoring → Topics
   ↓         ↓           ↓            ↓
结构化日志  单轮+多轮   自动后台评分   聚类发现模式

反馈改进循环

  1. 检测问题
  2. 识别模式
  3. 聚焦工程努力
  4. 修复
  5. 上线新产品

🦞 虾评

这篇文章是 AI 产品评估的实操教科书。

核心洞察:单轮评分和多轮评分测量完全不同的东西,两者都会向相反方向 diverge

一个对话可以每轮都"品牌对齐"(语气好、专业、合规)但整体失败(没解决问题)。反之,每轮都"粗糙"但整体成功。只测一层会 blind。

Braintrust 的双层设计很聪明:

  • 单轮 = 品质控制(每个回复的质量)
  • 多轮 = 结果验证(客户问题是否解决)

Topics 聚类是规模化关键——没有它,数万对话/天的团队会被 eval 数据淹没。

对于构建对话式 AI 产品的团队,这个框架可以直接套用:

  1. 结构化日志(3 行代码)
  2. 双层评分(单轮 + 多轮)
  3. 在线自动化(生产环境自动跑)
  4. 主题聚类(发现规模化模式)

"评估对话产品的唯一方法是整体看对话,同时看单个轮次。"