生物学 Agent 的软件工程类比:从数据分析到科学推理
软件工程 Agent 的崛起曾让大多数专业工程师感到惊讶。一两年前,AI 工具还被视为代码生成助手——对格式化、重构或搭建单元测试有用,但永远无法理解复杂需求、修改大型代码库或做出系统级工程决策。
今天,4% 的公共 GitHub 提交由 Claude Code 撰写,Mythos 自主发现数千个零日漏洞,Agent 构建浏览器和编译器。许多最怀疑的同行现在并行使用多个 Agent 处理日常高风险工作。
生物学将遵循类似路径。研究工作流将围绕 Agent 重组,原因与软件相同:两个领域都包含一层具体、可执行且反馈丰富的工作。
软件先行的原因:可执行性与反馈丰富
代码具有理想属性:可以快速通过编译器运行获得输出和错误,可以轻松检查数字对象的中间状态。代码是 Agent 学习任务的理想基质——它们可以编写和运行代码块、检查输出并循环。
但软件 Agent 的发展远超"代码可验证性"能解释的范围。它们现在能自主构建浏览器,做出关于并发、缓存、延迟和安全的非平凡系统决策。详细理解构建材料的能力支撑了更高层次的决策——没有理解代码的低级行为,很难做出好的浏览器级决策。
生物学的类似分析基质
现代生物学论文通常围绕大规模测量实验,结构如下:
- 选择生物模型和变量/对照
- 从模型生成数据
- 处理数据
- 在先前文献背景下创造性思考分析结果
- 做出科学声明
如果追踪 Agent 如何自主处理这个流程:
- 分析特定检测数据是达到科学推理有用阶段的必要步骤
- 科学推理任务在复杂性和对底层数据分析程序技能的依赖上,与高级软件工程任务相似
分子数据分析的厚底层以类似代码支撑复杂软件工程判断的方式,支撑科学思考。
具体例子:成纤维细胞重编程为脑类器官
Gordon 等人的研究从 55 名自闭症患者身上采集成纤维细胞,用 Yamanaka 因子重编程为干细胞,再转化为脑类器官。核心问题:不同患者的突变是否影响自闭症发展?
这个问题没有"全局可验证性"。但可以分解为具有更清晰边界的步骤:
细胞系 QC:Agent 比较全基因组测序和 RNA-seq 数据中的突变,对干细胞进行质量控制。评分标准:它丢弃了哪些细胞系、恢复了哪些突变。
差异表达:Agent 寻找跨细胞系随时间变化最大的基因。评分标准:与作者恢复的基因的一致性。
Perturb-seq:用 CRISPRi 在实验室中"敲低"这些基因,Agent 分析 Perturb-seq 数据以识别哪些基因被抑制时产生了功能效应。评分标准:作者认为重要的基因。
每个分析步骤都从原始测量数据开始,构建到明确定义的科学结果。所有这些都是科学家对核心问题得出结论所必需的。
数据分析是科学推理的门户
上述步骤完成后,剩余的高级任务包括:
- 比较不同检测类型的数据以验证结果(bulk + sc-RNA-seq, IP-MS + Perturb-seq)
- 跨技术和生物协变量比较表达
- 搜索现有文献中的先前生物学证据
这些任务更像"AI 科学家"形状:需要跨模态综合、不确定性下的判断、先前生物学知识。但它们并不比软件 Agent 开始执行的开放式工程判断更复杂。
关键是:这种生物学判断是经验性的,Agent 必须从嘈杂数据中推理,并理解分析假设。例如,Agent 需要理解差异表达分析中的统计选择——包含哪些样本、如何过滤基因、如何排除协变量——这些决策可以修改结果。
类比在哪里断裂
生物学是经验科学最后的边疆之一。研究对象从埃(蛋白质)到微米(细胞)到米(肢体)跨越尺度,综合化学和物理现象。测量由人类知识前沿的仪器和协议产生,带有噪声和误差。
断裂点至少有两个:
- 生物 ground truth 更难定义。即使是明确定义的任务如细胞聚类、细胞类型标注或差异表达基因调用,也很少有一个标准答案
- 离开分析层后反馈更弱。数据分析的反馈循环还像软件:运行代码、检查输出、循环。但真正的科学推理反馈需要控制数据生成过程。没有这种控制,真正的自主科学难以实现
分析层将变得更加重要
分子数据生成遵循指数曲线,分析成本正迅速超过试剂/制备劳动成本。越来越多的生物学工作发生在实验结束后。未来数据集将淹没过去的生物学数据存量,人类分析能力不会以相同速率扩展。答案将是 Agent 在 harness 中可靠地将数据转化为科学结论,部署在数据成为瓶颈的生物技术 R&D 工作流中。
第一个有用的生物学 Agent 部署不会是自主 AI 科学家,而是嵌入真实工作流的分析协作者。 这是真正需求所在,也是它们首先会擅长的。生物学不缺乏有趣的新想法,经济上有价值的 Agent 工作集中在计算机可以在 R&D 周期中取得进展的地方。