生物学 Agent 的软件工程类比：从数据分析到科学推理

软件工程 Agent 的崛起曾让大多数专业工程师感到惊讶。一两年前，AI 工具还被视为代码生成助手——对格式化、重构或搭建单元测试有用，但永远无法理解复杂需求、修改大型代码库或做出系统级工程决策。

今天，4% 的公共 GitHub 提交由 Claude Code 撰写，Mythos 自主发现数千个零日漏洞，Agent 构建浏览器和编译器。许多最怀疑的同行现在并行使用多个 Agent 处理日常高风险工作。

生物学将遵循类似路径。研究工作流将围绕 Agent 重组，原因与软件相同：两个领域都包含一层具体、可执行且反馈丰富的工作。

软件先行的原因：可执行性与反馈丰富

代码具有理想属性：可以快速通过编译器运行获得输出和错误，可以轻松检查数字对象的中间状态。代码是 Agent 学习任务的理想基质——它们可以编写和运行代码块、检查输出并循环。

但软件 Agent 的发展远超"代码可验证性"能解释的范围。它们现在能自主构建浏览器，做出关于并发、缓存、延迟和安全的非平凡系统决策。详细理解构建材料的能力支撑了更高层次的决策——没有理解代码的低级行为，很难做出好的浏览器级决策。

现代生物学论文通常围绕大规模测量实验，结构如下：

如果追踪 Agent 如何自主处理这个流程：

分子数据分析的厚底层以类似代码支撑复杂软件工程判断的方式，支撑科学思考。

Gordon 等人的研究从 55 名自闭症患者身上采集成纤维细胞，用 Yamanaka 因子重编程为干细胞，再转化为脑类器官。核心问题：不同患者的突变是否影响自闭症发展？

这个问题没有"全局可验证性"。但可以分解为具有更清晰边界的步骤：

细胞系 QC：Agent 比较全基因组测序和 RNA-seq 数据中的突变，对干细胞进行质量控制。评分标准：它丢弃了哪些细胞系、恢复了哪些突变。

差异表达：Agent 寻找跨细胞系随时间变化最大的基因。评分标准：与作者恢复的基因的一致性。

Perturb-seq：用 CRISPRi 在实验室中"敲低"这些基因，Agent 分析 Perturb-seq 数据以识别哪些基因被抑制时产生了功能效应。评分标准：作者认为重要的基因。

每个分析步骤都从原始测量数据开始，构建到明确定义的科学结果。所有这些都是科学家对核心问题得出结论所必需的。

上述步骤完成后，剩余的高级任务包括：

这些任务更像"AI 科学家"形状：需要跨模态综合、不确定性下的判断、先前生物学知识。但它们并不比软件 Agent 开始执行的开放式工程判断更复杂。

关键是：这种生物学判断是经验性的，Agent 必须从嘈杂数据中推理，并理解分析假设。例如，Agent 需要理解差异表达分析中的统计选择——包含哪些样本、如何过滤基因、如何排除协变量——这些决策可以修改结果。

生物学是经验科学最后的边疆之一。研究对象从埃（蛋白质）到微米（细胞）到米（肢体）跨越尺度，综合化学和物理现象。测量由人类知识前沿的仪器和协议产生，带有噪声和误差。

断裂点至少有两个：

生物 ground truth 更难定义。即使是明确定义的任务如细胞聚类、细胞类型标注或差异表达基因调用，也很少有一个标准答案
离开分析层后反馈更弱。数据分析的反馈循环还像软件：运行代码、检查输出、循环。但真正的科学推理反馈需要控制数据生成过程。没有这种控制，真正的自主科学难以实现

分子数据生成遵循指数曲线，分析成本正迅速超过试剂/制备劳动成本。越来越多的生物学工作发生在实验结束后。未来数据集将淹没过去的生物学数据存量，人类分析能力不会以相同速率扩展。答案将是 Agent 在 harness 中可靠地将数据转化为科学结论，部署在数据成为瓶颈的生物技术 R&D 工作流中。

第一个有用的生物学 Agent 部署不会是自主 AI 科学家，而是嵌入真实工作流的分析协作者。 这是真正需求所在，也是它们首先会擅长的。生物学不缺乏有趣的新想法，经济上有价值的 Agent 工作集中在计算机可以在 R&D 周期中取得进展的地方。