核心洞察
生物学不会直接跳到自主 AI 科学家。它会像软件一样,首先在工作可执行、反馈丰富、经济瓶颈明显的层加速:数据分析。
软件工程 Agent 的惊人崛起
一年前的共识
大多数专业工程师认为 AI 工具只是:
- 代码生成助手
- 格式化、重构、脚手架单元测试有用
- 不可能:理解复杂需求、修改大型代码库、做系统级工程决策
今天的现实
| 数据 | 来源 |
|---|---|
| 4% 的公共 GitHub 提交由 Claude Code 完成 | Anthropic 融资公告 |
| Mythos 自主发现数千个零日漏洞 | red.anthropic.com |
| Agent 构建浏览器 | cursor.com/blog/scaling-agents |
| Agent 构建编译器 | anthropic.com/engineering/building-c-compiler |
最怀疑的同行现在每天并行使用多个 Agent 处理高 stakes 工作。
事后看法的陷阱
人们事后认为这种能力增长是「不可避免的」:
- "软件毕竟是' obviously verifiable'"
- 不像其他 grounded 在混乱物理世界的领域
- 代码在计算机上确定性运行
但软件不只是代码。
前沿 Agent 开始在开放式任务上展示更高层次的工程判断。
软件先崩溃的原因
代码的理想属性
- 通过编译器快速运行
- 获得输出和错误
- 轻松检查中间状态(打印值、写入文件)
代码是 Agent 学习任务的理想 substrate。
但软件远不止代码
包含有主观性和开放式工程决策:
- 并发
- 缓存
- 延迟
- 安全
Agent 能自主构建浏览器——「代码的可验证性」无法解释从通过测试到做非平凡的系统决策的进展。
技能涌现的路径
- 首先专注训练代码的程序性技能
- 然后才能到达需要高阶概念的问题部分
- 很难学习如何 rate limit endpoint,如果你还在 struggle Python 函数语法
更微妙的点(对生物学类比很重要)
详细知识 of building material informing higher-level decisions。
- 很难做好浏览器级决策(缓存、渲染)
- without understanding lower-level behavior of code
生物学的类似分析 substrate
现代生物学论文的标准结构
1. 选择生物模型(细胞系、动物、类器官)和变量/对照
2. 从模型生成数据
3. 处理数据
4. 在先前文献背景下创造性思考分析结果
5. 做出科学声明
Agent 自主研究的论证
两个主张:
- assay-specific 数据分析是科学推理有用的必要前提
- 科学推理任务的形状像高级软件工程任务——在复杂性和对底层程序性技能的依赖上
分子数据分析的 thick underlying layer 以类似代码支撑复杂软件工程判断的方式,支撑科学思维。
实例:将成纤维细胞重编程为脑类器官
研究背景
- 从 55 名自闭症患者收获成纤维细胞
- 用 Yamanaka 因子重编程为干细胞
- 将每个干细胞转化为脑类器官
- 核心问题:不同突变是否影响自闭症发展
问题特征
没有「全局可验证性」:
- 不清楚如何产生正确值来评分
- 甚至不清楚什么类型的值有意义
- ground truth 依赖数十个中间观察
- 一些没有明确科学共识:
- 类器官如何质量控制
- 细胞类型如何注释
- 基因表达模块如何定义
可分解为更小步骤
步骤 1:细胞系 QC
任务:比较全基因组测序和 RNA-seq 数据中的突变,质量控制干细胞。
可评分:Agent 丢弃哪些细胞系、恢复哪些突变。
步骤 2:差异表达
任务:跨细胞系寻找随时间变化最大的基因。
可评分:与作者恢复的基因的一致性。
步骤 3:Perturb-seq
任务:用 CRISPRi 在实验室中「敲低」这些基因,分析 Perturb-seq 数据识别哪些基因有功能效应。
可评分:作者结论为重要的基因。
每个分析步骤从原始测量数据开始,构建到明确的科学结果。所有步骤都是科学家得出结论所必需的。
数据分析是科学推理的 gateway
数据分析后的高层任务
| 任务 | 特征 |
|---|---|
| 比较不同 assay 类型的数据验证结果 | 跨模态综合 |
| 比较技术(测序 lane、分化批次)和生物(供体、细胞系)协变量间的表达 | 判断 under uncertainty |
| 搜索现有文献寻找先前生物学证据 | 先前生物学知识 |
这些任务更「AI 科学家」形状。
与软件工程的对比
不比 Agent 开始在软件中执行的开放式工程判断更复杂。
实际 bar:匹配强科学家的判断——从可用测量、对照、分析选择和文献推理到证据最佳支持的结论。
生物学判断的实证性
Agent 必须:
- 从 noisy data 推理
- 理解分析假设
发展科学判断需要掌握分析步骤,不能与之分离。
具体例子:统计选择的影响
差异表达分析中的决策:
- 包含哪些样本
- 基因如何过滤
- 协变量(如测序 lane)如何因子化
Agent 可能错误结论:
- "某基因下调"
- 原因可能是真实共变,也可能是数据中的隐藏变量:
- 发育成熟度
- 细胞类型组成
- 测序深度
- 实验室温度
元数据构建的影响
寻找调控发育的基因时:
- 细胞类型标签的构建方式需要理解
- "早期发育中的细胞"的定义方式
- 低计数基因可能来自真实生物学或错误定义的人群
自己做分析的 Agent 有这些细节 fresh in context。
类比断裂的地方
生物学是经验科学最后的 frontier
研究对象(生物体)跨越尺度:
- 埃(蛋白质)
- 微米(细胞)
- 米(腿)
合成化学和物理的现象。
测量由人类知识前沿的仪器和协议产生——有噪声和错误。
断裂点 1:生物 ground truth 更难定义
| 任务 | 特征 |
|---|---|
| 聚类细胞 | 很少有一个标准答案 |
| 注释细胞类型 | 活跃研究领域 |
| 调用差异表达基因 | 有 ongoing work 约束模糊性 |
benchmarks.bio 正在开发实用方法和工具。
仍然非常困难。
断裂点 2:离开分析层后反馈更弱
| 层级 | 反馈特征 |
|---|---|
| 数据分析 | 类似软件:运行代码、检查输出、循环 |
| 高阶科学推理 | 需要控制数据生成过程 |
进展:使用类似代码构建和评分的 ground truths(没有控制这个循环)。
真正的自主科学:需要与所研究 substrate 的直接反馈。
这一层随生物学规模化变得更重要
数据生成趋势
- 分子数据生成呈指数曲线
- 分析成本正迅速超过试剂/准备劳动力
- 越来越多的生物学工作在实验结束后发生
瓶颈转移
从:产生测量
到:解释测量
不是 if,是 when。
未来图景
- 未来数据集将淹没过去生物学数据存量
- 人类分析能力不会同速扩展
- 答案:Agent 在 harness 中可靠地将数据转化为科学结论
- 部署在数据今天 bottlenecked 的 biotech R&D 工作流中
计算生物学的 surface area 正在增长
旧观念
计算生物学 = 狭窄分析工具(序列组装、差异表达软件)。
新观念
计算生物学 = "the broad use of computers to solve problems in biology"
组件已构建多年
| 组件 | 进展 |
|---|---|
| 快速累积的分子数据 | ✅ |
| 日益自动化的实验室 | ✅ |
| 迭代 design-build-test-learn 工作流 | ✅ |
但这些进展没有转化为明显的 aggregate R&D 生产力 step-change。
现在正在改变
行业围绕 AI 和计算重组:
计算机正在成为 Agent「看」、理解和最终操纵生命系统的接口。
第一个有用的部署
不是自主 AI 科学家,而是嵌入真实工作流的分析协作者。
原因:
- 真正的需求所在
- Agent 首先会擅长的
- 生物学不缺乏有趣的新想法
- 经济上最有价值的 Agentic 工作集中在计算机能在 R&D 周期上取得进展的地方
资源
- 作者:Ken (@kenbwork)
- 原文:https://x.com/kenbwork/status/2055664564923244611
- 相关研究:
- Gordon et al. Nature: https://www.nature.com/articles/s41586-025-10047-5
- benchmarks.bio: https://benchmarks.bio/
- Josh Comeau "The End of Frontend": https://www.joshwcomeau.com/blog/the-end-of-frontend-development
- Anthropic 融资公告: https://www.anthropic.com/news/anthropic-raises-30-billion-series-g-funding-380-billion-post-money-valuation
- Mythos Preview: https://red.anthropic.com/2026/mythos-preview/
- Cursor Scaling Agents: https://cursor.com/blog/scaling-agents
- Anthropic Building C Compiler: https://www.anthropic.com/engineering/building-c-compiler