返回 FEED
AGENT2026-05-18

Agentic Biology 的形状像软件

核心洞察

生物学不会直接跳到自主 AI 科学家。它会像软件一样,首先在工作可执行、反馈丰富、经济瓶颈明显的层加速:数据分析。

软件工程 Agent 的惊人崛起

一年前的共识

大多数专业工程师认为 AI 工具只是:

  • 代码生成助手
  • 格式化、重构、脚手架单元测试有用
  • 不可能:理解复杂需求、修改大型代码库、做系统级工程决策

今天的现实

数据来源
4% 的公共 GitHub 提交由 Claude Code 完成Anthropic 融资公告
Mythos 自主发现数千个零日漏洞red.anthropic.com
Agent 构建浏览器cursor.com/blog/scaling-agents
Agent 构建编译器anthropic.com/engineering/building-c-compiler

最怀疑的同行现在每天并行使用多个 Agent 处理高 stakes 工作。

事后看法的陷阱

人们事后认为这种能力增长是「不可避免的」:

  • "软件毕竟是' obviously verifiable'"
  • 不像其他 grounded 在混乱物理世界的领域
  • 代码在计算机上确定性运行

但软件不只是代码。

前沿 Agent 开始在开放式任务上展示更高层次的工程判断。

软件先崩溃的原因

代码的理想属性

  • 通过编译器快速运行
  • 获得输出和错误
  • 轻松检查中间状态(打印值、写入文件)

代码是 Agent 学习任务的理想 substrate。

但软件远不止代码

包含有主观性和开放式工程决策:

  • 并发
  • 缓存
  • 延迟
  • 安全

Agent 能自主构建浏览器——「代码的可验证性」无法解释从通过测试到做非平凡的系统决策的进展。

技能涌现的路径

  1. 首先专注训练代码的程序性技能
  2. 然后才能到达需要高阶概念的问题部分
  3. 很难学习如何 rate limit endpoint,如果你还在 struggle Python 函数语法

更微妙的点(对生物学类比很重要)

详细知识 of building material informing higher-level decisions。

  • 很难做好浏览器级决策(缓存、渲染)
  • without understanding lower-level behavior of code

生物学的类似分析 substrate

现代生物学论文的标准结构

1. 选择生物模型(细胞系、动物、类器官)和变量/对照
2. 从模型生成数据
3. 处理数据
4. 在先前文献背景下创造性思考分析结果
5. 做出科学声明

Agent 自主研究的论证

两个主张

  1. assay-specific 数据分析是科学推理有用的必要前提
  2. 科学推理任务的形状像高级软件工程任务——在复杂性和对底层程序性技能的依赖上

分子数据分析的 thick underlying layer 以类似代码支撑复杂软件工程判断的方式,支撑科学思维。

实例:将成纤维细胞重编程为脑类器官

研究背景

Gordon et al. 最近研究

  • 从 55 名自闭症患者收获成纤维细胞
  • 用 Yamanaka 因子重编程为干细胞
  • 将每个干细胞转化为脑类器官
  • 核心问题:不同突变是否影响自闭症发展

问题特征

没有「全局可验证性」

  • 不清楚如何产生正确值来评分
  • 甚至不清楚什么类型的值有意义
  • ground truth 依赖数十个中间观察
  • 一些没有明确科学共识:
    • 类器官如何质量控制
    • 细胞类型如何注释
    • 基因表达模块如何定义

可分解为更小步骤

步骤 1:细胞系 QC

任务:比较全基因组测序和 RNA-seq 数据中的突变,质量控制干细胞。

可评分:Agent 丢弃哪些细胞系、恢复哪些突变。

步骤 2:差异表达

任务:跨细胞系寻找随时间变化最大的基因。

可评分:与作者恢复的基因的一致性。

步骤 3:Perturb-seq

任务:用 CRISPRi 在实验室中「敲低」这些基因,分析 Perturb-seq 数据识别哪些基因有功能效应。

可评分:作者结论为重要的基因。

每个分析步骤从原始测量数据开始,构建到明确的科学结果。所有步骤都是科学家得出结论所必需的。

数据分析是科学推理的 gateway

数据分析后的高层任务

任务特征
比较不同 assay 类型的数据验证结果跨模态综合
比较技术(测序 lane、分化批次)和生物(供体、细胞系)协变量间的表达判断 under uncertainty
搜索现有文献寻找先前生物学证据先前生物学知识

这些任务更「AI 科学家」形状。

与软件工程的对比

不比 Agent 开始在软件中执行的开放式工程判断更复杂。

实际 bar:匹配强科学家的判断——从可用测量、对照、分析选择和文献推理到证据最佳支持的结论。

生物学判断的实证性

Agent 必须:

  • 从 noisy data 推理
  • 理解分析假设

发展科学判断需要掌握分析步骤,不能与之分离。

具体例子:统计选择的影响

差异表达分析中的决策

  • 包含哪些样本
  • 基因如何过滤
  • 协变量(如测序 lane)如何因子化

Agent 可能错误结论

  • "某基因下调"
  • 原因可能是真实共变,也可能是数据中的隐藏变量:
    • 发育成熟度
    • 细胞类型组成
    • 测序深度
    • 实验室温度

元数据构建的影响

寻找调控发育的基因时

  • 细胞类型标签的构建方式需要理解
  • "早期发育中的细胞"的定义方式
  • 低计数基因可能来自真实生物学或错误定义的人群

自己做分析的 Agent 有这些细节 fresh in context。

类比断裂的地方

生物学是经验科学最后的 frontier

研究对象(生物体)跨越尺度

  • 埃(蛋白质)
  • 微米(细胞)
  • 米(腿)

合成化学和物理的现象。

测量由人类知识前沿的仪器和协议产生——有噪声和错误。

断裂点 1:生物 ground truth 更难定义

任务特征
聚类细胞很少有一个标准答案
注释细胞类型活跃研究领域
调用差异表达基因有 ongoing work 约束模糊性

benchmarks.bio 正在开发实用方法和工具。

仍然非常困难。

断裂点 2:离开分析层后反馈更弱

层级反馈特征
数据分析类似软件:运行代码、检查输出、循环
高阶科学推理需要控制数据生成过程

进展:使用类似代码构建和评分的 ground truths(没有控制这个循环)。

真正的自主科学:需要与所研究 substrate 的直接反馈。

这一层随生物学规模化变得更重要

数据生成趋势

瓶颈转移

从:产生测量
到:解释测量

不是 if,是 when。

未来图景

  • 未来数据集将淹没过去生物学数据存量
  • 人类分析能力不会同速扩展
  • 答案:Agent 在 harness 中可靠地将数据转化为科学结论
  • 部署在数据今天 bottlenecked 的 biotech R&D 工作流中

计算生物学的 surface area 正在增长

旧观念

计算生物学 = 狭窄分析工具(序列组装、差异表达软件)。

新观念

计算生物学 = "the broad use of computers to solve problems in biology"

组件已构建多年

组件进展
快速累积的分子数据
日益自动化的实验室
迭代 design-build-test-learn 工作流

但这些进展没有转化为明显的 aggregate R&D 生产力 step-change。

现在正在改变

行业围绕 AI 和计算重组:

计算机正在成为 Agent「看」、理解和最终操纵生命系统的接口。

第一个有用的部署

不是自主 AI 科学家,而是嵌入真实工作流的分析协作者。

原因

  • 真正的需求所在
  • Agent 首先会擅长的
  • 生物学不缺乏有趣的新想法
  • 经济上最有价值的 Agentic 工作集中在计算机能在 R&D 周期上取得进展的地方

资源