Agentic Biology 的演进路径：为什么数据分析是第一步

核心论点

生物学不会直接跳到自主 AI 科学家。与软件工程类似，它将首先在可执行、反馈丰富、经济上受限的领域加速：数据分析。

软件工程 Agent 的意外崛起

一两年前，大多数专业工程师认为 AI 工具只是代码生成助手——用于格式化、重构或搭建单元测试框架——但永远不会理解复杂需求、修改大型代码库或做出系统级工程决策。

今天：

4% 的公共 GitHub commits 由 Claude Code 编写
Mythos 自主发现数千个零日漏洞
Agent 构建浏览器和编译器

许多人将此视为必然。毕竟软件是「显然可验证的」：代码在计算机上确定性运行。但软件不仅仅是代码，前沿 Agent 已开始展示开放式任务上的高级工程判断。

三个核心主张

第一批有用的生物学 Agent 将是数据分析 Agent，不是自主科学家——正如编码助手先于越来越自主的工程 Agent 出现
assay-specific 数据分析是真正生物学推理涌现的必要条件
随着分子数据生成增长，分析层在经济上变得更加重要

软件为何先倒下：可执行且反馈丰富

代码有一些理想属性：

快速通过编译器运行，获得输出和错误
轻松检查程序中构建的数字对象的中间状态（打印值或写入文件）

代码是 Agent 学习任务的理想底物：写和运行代码块、检查输出、循环。但我们构建的有用软件远不止代码——它们包含主观和开放式的工程决策。

Agent 能自主构建浏览器是令人惊讶的。「代码的可验证性」无法解释从通过测试到做出关于并发、缓存、延迟和安全性的非平凡系统决策的进展。

关键原因：必须先掌握代码的程序性技能，才能到达需要这些知识的问题部分。如果你 struggling with Python 函数语法或无法正确推理事件循环，很难学习如何为端点设置速率限制。

更微妙的是：对构建材料的详细了解指导高层决策。不理解代码的低层行为，很难做出好的浏览器级决策（缓存、渲染）。

生物学具有类似的分析底物

大多数现代生物学论文围绕大规模测量实验，共享以下结构：

选择生物模型（细胞系、动物、类器官）和变量/对照
从模型生成数据
处理数据
在先验文献背景下创造性思考分析结果
做出科学主张

如果追踪 Agent 如何自主处理这个流程：

assay-specific 数据分析是达到科学推理有用阶段的必要条件
科学推理任务在复杂性上类似于高级软件工程任务，且都依赖底层程序性技能（数据分析）的准确性

厚厚的分子数据分析底层以代码支撑更复杂软件工程判断的类似方式，支撑科学思维。

实例：将成纤维细胞重编程为脑类器官

以 Gordon et al. 最近发表在 Nature 的研究为例：从 55 名自闭症患者采集成纤维细胞，用 Yamanaka 因子重编程为干细胞，再转化为脑类器官。核心问题：「每位患者的不同突变是否影响自闭症发展？」

这个问题没有「全球可验证性」。不清楚如何产生正确的评分值（或什么类型的值才有意义）。ground truth 将依赖数十个中间观察，其中一些没有明确科学共识：类器官如何质量控制、细胞类型如何注释、基因表达模块如何定义。

但可以将论文分解为更小、边缘更清晰的步骤，其中一些甚至有「局部可验证」结果：

步骤 1：细胞系 QC

Agent 比较全基因组测序和 RNA-seq 数据中的突变，以质量控制干细胞。

评分：Agent 丢弃了哪些细胞系、每条系恢复了哪些突变。

步骤 2：差异表达

Agent 跨细胞系寻找随时间变化最大的基因（细胞发育时）。

评分：与作者恢复的基因的一致性。

步骤 3：Perturb-seq

使用 CRISPRi 在实验室中实际「敲低」这些基因。Agent 分析 Perturb-seq 数据，识别哪些基因被抑制时具有功能效应。

评分：作者得出结论认为重要的基因。

每个分析步骤从原始测量数据开始，构建到定义明确的科学结果。所有步骤都是科学家得出总体问题结论所必需的。

数据分析是科学推理的门户

Agent 完成数据工作后，剩余的高级任务：

比较不同 assay 类型的数据以验证结果：bulk + sc-RNA-seq、IP-MS + Perturb-seq
跨技术（测序 lane、分化批次）和生物（供体、细胞系）协变量比较表达
搜索现有文献中的先验生物学证据（如已知疾病关联或候选基因功能）

这些任务更像「AI 科学家」——需要跨模态综合、不确定性下的判断、先验生物学知识。但它们在复杂性上并不显然比软件中 Agent 开始执行的开放式工程判断更复杂。

实际标准：匹配优秀科学家的判断——从可用测量、对照、分析选择和文献推理到证据最佳支持的结论。

由于这种生物学判断是经验性的，Agent 必须从噪声数据推理并充分理解分析假设。发展科学判断需要掌握分析步骤，且无法与之分离。

例如，Agent 需要理解差异表达分析中的统计选择：包含哪些样本、如何过滤基因、如何分解协变量（如测序 lane）——这些决策可以修改结果。Agent 可能得出「某基因下调」的结论，因为这些基因真正与突变共变，或因为该基因捕获了数据中的隐藏变量：发育成熟度、细胞类型组成、测序深度、实验室温度等。

另一个例子是元数据构建方式。如果 Agent 寻找调节发育的基因，需要理解数据中细胞类型标签的确切构建方式。取决于我们如何定义「早期发育中的细胞」，该群体中的低计数基因可能来自真正的生物学，或来自该群体的不正确定义（使用主观标记基因）。

理解这些假设的 Agent 才能做出准确的科学决策。如果它自己做了分析，这些细节也 fresh in context。

类比在何处断裂

生物学是经验科学最后的边疆之一。研究对象（活体生物）跨越埃（蛋白质）到微米（细胞）到米（腿）尺度，综合化学和物理现象。用于研究的测量由人类知识前沿的仪器和协议产生，带有噪声和误差。

这种复杂性意味着与软件的类比至少在两个地方断裂：

1. 生物学 ground truth 更难定义

即使是看似范围明确的任务——如聚类细胞、注释细胞类型或 calling 差异表达基因——也很少有一个标准答案。这是活跃的研究领域，有 ongoing work 开发实用方法和工具来约束模糊性并可验证地建模科学意图。仍然非常困难。

2. 离开分析层后反馈显著减弱

对于数据分析，反馈循环仍有点像软件：运行代码、检查输出、循环。然而，真正的高级科学推理的反馈需要某种对数据生成过程的控制。我们可能会在使用像代码一样构建和评分的 ground truths 方面取得很大进展，而不控制这个循环。但真正的自主科学需要与所研究底物的直接反馈。

随着生物学规模化，这一层变得更加重要

Agent 需要首先发展数据分析能力（至少对于实际工作），准确的科学推理似乎部分依赖于对分析的详细理解。现在需要理解分析在数据生成趋势背景下可能变得多么重要。

分子数据生成遵循指数曲线，分析成本正迅速超过试剂/准备劳动（新一代 assay）。越来越多的生物学工作在实验室实验完成后发生。

如果推演这些趋势，瓶颈将从产生测量转向解释测量。问题不是是否，而是何时。未来的数据集将 dwarf 过去的生物学数据存量，人类分析能力不会以相同速率扩展。答案将是 Agent 在 harness 中旋转，可靠地将数据带到科学结论，部署在数据今天成为瓶颈的生物技术 R&D 工作流程中。

计算生物学的表面积正在增长

人们常将「计算生物学」等同于狭窄的分析工具，如序列组装或差异表达软件。虽然这些一直是该领域的重要贡献，但计算生物学应真正被视为「广泛使用计算机解决生物学问题」。

多年来，生物学计算转变的组件一直在积累：快速复合的分子数据、日益自动化的实验室、迭代的设计-构建-测试-学习工作流程。然而这些进步尚未转化为总体 R&D 生产力的明显阶跃变化。

这现在似乎正在改变。行业正围绕 AI 和计算重组——在实验设计方式、数据分析方式、公司形成方式、制药合作结构方式上。计算机正成为 Agent「看见」、理解并最终操纵生命系统的接口。

第一批有用的部署将不是自主 AI 科学家，而是嵌入真实工作流程的分析协作者。这既是真正需求所在，也是它们首先会擅长的地方。生物学不乏有趣的新想法。大部分经济上有价值的 Agentic 工作集中在计算机可以在 R&D 周期中取得进展的地方，增强科学家今天所在的领域。

资源

Gordon et al. Nature 研究：将成纤维细胞重编程为脑类器官（自闭症）
benchmarks.bio：生物学 ground truth 和可验证科学意图的 ongoing work
相关链接：