Benchmark 竞赛在 AI 领域已经成为常态,但大多数测试的是 Chatbot 时代的能力——知识和推理。Anthropic 想要回答一个更严肃的问题:模型是否已经足够强大,可以支持甚至产出专业级别的科学研究?
他们为此开发了 BioMysteryBench,一个专门测试生物信息学能力的评测基准。
为什么科学评测这么难
构建科学评测基准有三个特殊挑战:
1. 生物学里有很多种"正确"的方法 同一道研究问题,科学家可以根据自己的技能、背景和可用资源采取不同路径。比如预测二型糖尿病患者对二甲双胍的响应——可以做全基因组关联研究(GWAS),也可以分析肠道微生物组。两种都合理,取决于专业判断和资源。
2. 单个研究决策高度主观 即便选定了一个研究方向,具体决策仍然主观——一个科学家认可的决定,另一个可能有严重异议。生物数据集往往噪声很大,研究决策上的微小差异可能导致完全不同的结论。
3. 有很多人类还无法解答的问题 模型最有潜力的任务恰恰是那些人类尚未解决的问题。但评测这些问题的前提,是先确认问题是可解的。
BioMysteryBench 的设计
BioMysteryBench 包含 99 道由领域专家编写的生物信息学问题,设计原则很关键:
- 答案来自数据的可控制客观属性,而非科学家的主观结论
- 方法无关,Claude 可以自由选择工具和数据库,最终按答案正确性评分
- 允许"超人类"问题生成——问题不依赖人类能够解答
题目类型包括:
- "这个单细胞 RNA-seq 数据集来自哪个人体器官?"
- "基于 RNA seq 数据,实验组相比对照组被敲除了哪个基因?"
- "从 WGS 序列中,样本 X 的母亲是谁,父亲是谁?"
- "给定某未知细胞类型的 H3K27ac ChIP-seq peaks,识别该细胞类型"
两组结果:人类可解 vs 人类困难
人类可解题(76 道):Claude Sonnet 4.6 及更强大的版本解决了大多数,准确率曲线呈强双峰分布——要么每次都解出来,要么永远解不出,说明 Claude 在这类问题上是在可靠地检索知识,而不是碰运气。
人类困难题(23 道):即使有客观正确答案,人类专家组也无法解答。Claude Opus 4.6 解决了其中显著比例,Mythos Preview 达到了 30% 的解决率。
更有意思的是可靠性的断崖:在人类可解问题上,Opus 4.6 解决的 86% 问题达到 4/5 以上成功率;在人类困难题上,可靠解决率跌到 44%,而"碰巧成功"(1-2/5)的比例从 9% 跳升到 44%。
Claude 的两个关键策略
通过分析 Opus 4.6 的执行记录,研究团队识别出两个相比人类独有的策略:
"全知"模式:Opus 的庞大知识库包含结构生物学、分子图谱和数十万篇论文的元分析,可以直接结合内部知识与实时分析解决那些人类需要做元分析或整合数据库的任务。有时代替了人类无法完成的超人类任务。
不确定时的多层验证:当 Opus 对答案不确定时,它会尝试多种不同方法,选择多个方法收敛出的答案。人类专家通常不会这样叠加验证。
Claude 自己分析了为什么"答对"不等于"真的掌握"
在评测过程中,研究团队让 Claude Mythos Preview 自己分析兄弟模型的性能。它发现了一个重要的可靠性问题:
在人类可解问题上,Opus 4.6 是强双峰分布——它解决的问题中,86% 达到 4/5 以上成功率。它要么知道答案,要么不知道。但在人类困难题上,这个数字跌到 44%,而脆弱的成功(只解决 1-2/5 次)从 9% 跳升到 44%。
这意味着 77.4%→23.5% 的数字其实低估了问题的本质:在可解问题上,模型是在可靠地检索知识;在困难问题上,近一半的成功是它碰巧踩到的推理路径,而不是可复现的方法。
研究团队认为,这种元认知能力(知道自己的能力边界在哪里)是未来真正需要突破的地方。
与 Genentech/Roche 的 CompBioBench 交叉验证
就在 Anthropic 这篇文章定稿期间,Genentech 和 Roche 发布了 CompBioBench——100 道计算生物学任务,同样需要多步推理、工具使用、定制代码和真实外部资源交互。结果与 BioMysteryBench 高度吻合:Claude Opus 4.6 在 CompBioBench 上达到 81% 总体准确率,最难问题达到 69%。
关键数字
| 基准 | 数字 |
|---|---|
| BioMysteryBench 总题数 | 99 |
| 人类可解题 | 76 |
| 人类困难题 | 23 |
| Opus 4.6 人类困难题解决率 | 显著比例 |
| Mythos Preview 人类困难题解决率 | 30% |
| CompBioBench Opus 4.6 最难问题准确率 | 69% |
BioMysteryBench 证明了当前 Claude 模型在生物信息学任务上已经不再是"追赶"训练有素的科学家——在某些任务上,它们已经领先。下一代模型需要突破的方向不是更高的准确率,而是更可靠的推理路径,和对自身能力边界的更准确判断。