Agentic Biology 的形状像软件

核心洞察

生物学不会直接跳到自主 AI 科学家。它会像软件一样，首先在工作可执行、反馈丰富、经济瓶颈明显的层加速：数据分析。

软件工程 Agent 的惊人崛起

一年前的共识

大多数专业工程师认为 AI 工具只是：

代码生成助手
格式化、重构、脚手架单元测试有用
不可能：理解复杂需求、修改大型代码库、做系统级工程决策

今天的现实

数据	来源
4% 的公共 GitHub 提交由 Claude Code 完成	Anthropic 融资公告
Mythos 自主发现数千个零日漏洞	red.anthropic.com
Agent 构建浏览器	cursor.com/blog/scaling-agents
Agent 构建编译器	anthropic.com/engineering/building-c-compiler

最怀疑的同行现在每天并行使用多个 Agent 处理高 stakes 工作。

事后看法的陷阱

人们事后认为这种能力增长是「不可避免的」：

"软件毕竟是' obviously verifiable'"
不像其他 grounded 在混乱物理世界的领域
代码在计算机上确定性运行

但软件不只是代码。

前沿 Agent 开始在开放式任务上展示更高层次的工程判断。

软件先崩溃的原因

代码的理想属性

通过编译器快速运行
获得输出和错误
轻松检查中间状态（打印值、写入文件）

代码是 Agent 学习任务的理想 substrate。

但软件远不止代码

包含有主观性和开放式工程决策：

并发
缓存
延迟
安全

Agent 能自主构建浏览器——「代码的可验证性」无法解释从通过测试到做非平凡的系统决策的进展。

技能涌现的路径

首先专注训练代码的程序性技能
然后才能到达需要高阶概念的问题部分
很难学习如何 rate limit endpoint，如果你还在 struggle Python 函数语法

更微妙的点（对生物学类比很重要）

详细知识 of building material informing higher-level decisions。

很难做好浏览器级决策（缓存、渲染）
without understanding lower-level behavior of code

生物学的类似分析 substrate

现代生物学论文的标准结构

1. 选择生物模型（细胞系、动物、类器官）和变量/对照
2. 从模型生成数据
3. 处理数据
4. 在先前文献背景下创造性思考分析结果
5. 做出科学声明

Agent 自主研究的论证

两个主张：

assay-specific 数据分析是科学推理有用的必要前提
科学推理任务的形状像高级软件工程任务——在复杂性和对底层程序性技能的依赖上

分子数据分析的 thick underlying layer 以类似代码支撑复杂软件工程判断的方式，支撑科学思维。

实例：将成纤维细胞重编程为脑类器官

研究背景

Gordon et al. 最近研究：

从 55 名自闭症患者收获成纤维细胞
用 Yamanaka 因子重编程为干细胞
将每个干细胞转化为脑类器官
核心问题：不同突变是否影响自闭症发展

问题特征

没有「全局可验证性」：

不清楚如何产生正确值来评分
甚至不清楚什么类型的值有意义
ground truth 依赖数十个中间观察
一些没有明确科学共识：
- 类器官如何质量控制
- 细胞类型如何注释
- 基因表达模块如何定义

可分解为更小步骤

步骤 1：细胞系 QC

任务：比较全基因组测序和 RNA-seq 数据中的突变，质量控制干细胞。

可评分：Agent 丢弃哪些细胞系、恢复哪些突变。

步骤 2：差异表达

任务：跨细胞系寻找随时间变化最大的基因。

可评分：与作者恢复的基因的一致性。

步骤 3：Perturb-seq

任务：用 CRISPRi 在实验室中「敲低」这些基因，分析 Perturb-seq 数据识别哪些基因有功能效应。

可评分：作者结论为重要的基因。

每个分析步骤从原始测量数据开始，构建到明确的科学结果。所有步骤都是科学家得出结论所必需的。

数据分析是科学推理的 gateway

数据分析后的高层任务

任务	特征
比较不同 assay 类型的数据验证结果	跨模态综合
比较技术（测序 lane、分化批次）和生物（供体、细胞系）协变量间的表达	判断 under uncertainty
搜索现有文献寻找先前生物学证据	先前生物学知识

这些任务更「AI 科学家」形状。

与软件工程的对比

不比 Agent 开始在软件中执行的开放式工程判断更复杂。

实际 bar：匹配强科学家的判断——从可用测量、对照、分析选择和文献推理到证据最佳支持的结论。

生物学判断的实证性

Agent 必须：

从 noisy data 推理
理解分析假设

发展科学判断需要掌握分析步骤，不能与之分离。

具体例子：统计选择的影响

差异表达分析中的决策：

包含哪些样本
基因如何过滤
协变量（如测序 lane）如何因子化

Agent 可能错误结论：

"某基因下调"
原因可能是真实共变，也可能是数据中的隐藏变量：
- 发育成熟度
- 细胞类型组成
- 测序深度
- 实验室温度

元数据构建的影响

寻找调控发育的基因时：

细胞类型标签的构建方式需要理解
"早期发育中的细胞"的定义方式
低计数基因可能来自真实生物学或错误定义的人群

自己做分析的 Agent 有这些细节 fresh in context。

类比断裂的地方

生物学是经验科学最后的 frontier

研究对象（生物体）跨越尺度：

埃（蛋白质）
微米（细胞）
米（腿）

合成化学和物理的现象。

测量由人类知识前沿的仪器和协议产生——有噪声和错误。

断裂点 1：生物 ground truth 更难定义

任务	特征
聚类细胞	很少有一个标准答案
注释细胞类型	活跃研究领域
调用差异表达基因	有 ongoing work 约束模糊性

benchmarks.bio 正在开发实用方法和工具。

仍然非常困难。

断裂点 2：离开分析层后反馈更弱

层级	反馈特征
数据分析	类似软件：运行代码、检查输出、循环
高阶科学推理	需要控制数据生成过程

进展：使用类似代码构建和评分的 ground truths（没有控制这个循环）。

真正的自主科学：需要与所研究 substrate 的直接反馈。

这一层随生物学规模化变得更重要

数据生成趋势

分子数据生成呈指数曲线
分析成本正迅速超过试剂/准备劳动力
越来越多的生物学工作在实验结束后发生

瓶颈转移

从：产生测量
到：解释测量

不是 if，是 when。

未来图景

未来数据集将淹没过去生物学数据存量
人类分析能力不会同速扩展
答案：Agent 在 harness 中可靠地将数据转化为科学结论
部署在数据今天 bottlenecked 的 biotech R&D 工作流中

计算生物学的 surface area 正在增长

旧观念

计算生物学 = 狭窄分析工具（序列组装、差异表达软件）。

新观念

计算生物学 = "the broad use of computers to solve problems in biology"

组件已构建多年

组件	进展
快速累积的分子数据	✅
日益自动化的实验室	✅
迭代 design-build-test-learn 工作流	✅

但这些进展没有转化为明显的 aggregate R&D 生产力 step-change。

现在正在改变

行业围绕 AI 和计算重组：

计算机正在成为 Agent「看」、理解和最终操纵生命系统的接口。

第一个有用的部署

不是自主 AI 科学家，而是嵌入真实工作流的分析协作者。

原因：

真正的需求所在
Agent 首先会擅长的
生物学不缺乏有趣的新想法
经济上最有价值的 Agentic 工作集中在计算机能在 R&D 周期上取得进展的地方

资源

作者：Ken (@kenbwork)
原文：https://x.com/kenbwork/status/2055664564923244611
相关研究：
- Gordon et al. Nature: https://www.nature.com/articles/s41586-025-10047-5
- benchmarks.bio: https://benchmarks.bio/
- Josh Comeau "The End of Frontend": https://www.joshwcomeau.com/blog/the-end-of-frontend-development
- Anthropic 融资公告: https://www.anthropic.com/news/anthropic-raises-30-billion-series-g-funding-380-billion-post-money-valuation
- Mythos Preview: https://red.anthropic.com/2026/mythos-preview/
- Cursor Scaling Agents: https://cursor.com/blog/scaling-agents
- Anthropic Building C Compiler: https://www.anthropic.com/engineering/building-c-compiler