返回 FEED
AGENT2026-06-03

Agentic Biology 像软件

为什么 software agent 先爆发了?

一年多前,大部分职业工程师还把 AI 工具看作"代码生成助手"——能补全、refactor、写单测,但没人相信它能理解复杂需求、修改大型代码库、做出系统级工程判断。

而今天,4% 的公开 GitHub commit 由 Claude Code 写就,Mythos 在 workhorse software 里自主挖出几千个 day-zero 漏洞,CURSOR 的 agent 团队能造浏览器,Anthropic 自己用 agent 写 C 编译器。曾经的怀疑者现在并行用多个 agent 处理高 stakes 的日常工作。

回头看,很多人把这当成"必然"——软件本来就是"显然可验证"的嘛,代码在计算机上确定性运行。但软件不只是代码,frontier agent 已经在开放式任务上展现出更高层级的工程判断。

作者抛出一个类比:software engineering agent 的崛起路径,会在 biology 上重演一遍。 两个领域都有同一类工作:具体、可执行、反馈密集。软件里那一层是 code,biology 里那一层是 measurement-grounded 的 data analysis。

整篇文章用三层 claim 撑起这个类比:

  1. 第一个真正有用的 biology agent 是数据分析 agent,不是自主科学家——就像 coding assistant 先于 autonomous engineering agent 出现。
  2. 真正的生物学推理必须建立在 assay-specific 的数据分析之上。
  3. 随着分子数据生成爆发,分析层在经济上会越来越重要。

Code 为什么是理想的 agent 训练场?

软件工作里,code 有几个特别适合 agent 的属性:能通过 compiler 快速跑出输出和错误;能 print 中间状态、做断点、把数字写进文件。

但软件工程远不只是 code。Browser 这种系统级决策(concurrency、caching、latency、security)需要主观判断。"代码可验证"并不能解释从"过测试"到"做非平凡系统决策"的跳跃。

关键在于技能的层级关系:高阶概念的能力,是从低阶 procedural skill 训练之后涌现的。你连 Python 函数语法都搞不定、event loop 都理不顺,就别谈怎么给 endpoint 加 rate limit。更细一层,对建筑材料的细致认知会反哺高层决策——不懂代码的低层行为,很难做出 browser 层级的判断(caching、rendering)。

Biology 有一层类似的 analytical substrate

现代 biology 论文普遍长这样:

  1. 选一个 biological model(cell line、animal、organoid)和变量/对照
  2. 在 model 上生成数据
  3. 处理数据
  4. 结合文献思考分析结果
  5. 给出科学结论

如果让 agent 沿着这个流程自动跑,作者的判断是:

  • assay-specific 数据分析,是科学推理变有用的前提。
  • 科学推理任务在复杂度和依赖关系上,类似高层 software engineering 任务——都依赖底层 procedural skill 才能保证准确。

也就是说,分子数据分析这层厚实的底座,scaffold 了科学思考,就像 code scaffold 了更复杂的工程判断。

例子:把 fibroblast 重编程成 brain organoid

Gordon et al. 一项近期研究:从 55 位自闭症患者身上取 fibroblast(很常见的"结缔"细胞),用山中因子重编程成干细胞,再把每个干细胞养成 brain organoid。核心问题是"不同患者的不同突变,是否影响自闭症发育"。

这类问题没有"全局可验证性"。你根本不知道正确答案长什么样,更不知道该以什么形式评分。"Ground truth" 取决于一长串中间观察——organoid 怎么质控、cell type 怎么注释、gene expression module 怎么定义——其中很多连学界都没共识。

但论文可以拆成边界更清晰、甚至"局部可验证"的小步:

  • Cell line QC:agent 对比 WGS 和 RNA-seq 里的突变,质控干细胞。评分标准是丢掉了哪些 cell line、恢复了哪些 mutation。
  • Differential expression:agent 在 cell line 之间找发育过程中变化最大的基因。评分标准是它和作者找的基因重合度。
  • Perturb-seq:用 CRISPRi 在实验室里"敲低"这些基因,agent 分析 Perturb-seq 数据找出真正有功能效应的。评分标准是它和作者认定的基因重合度。

每一步都从原始测量数据出发,最终落到定义良好的科学结论。所有步骤都是科学家给出最终判断的必要条件。

数据分析是科学推理的 gateway

上面这套拆解,agent 每一步都从前一步的结果上累加。剩下的高层任务长这样:

  • 跨 assay 类型交叉验证(bulk + sc-RNA-seq,IP-MS + Perturb-seq)
  • 跨技术协变量(测序 lane、分化批次)和生物协变量(供体、cell line)比较表达
  • 在已有文献里搜刮先验证据(已知疾病关联、候选基因功能)

这些任务更像"AI Scientist"——需要跨模态综合、不确定性下的判断、生物学先验知识。但它们并不比软件工程里 agent 正在做的开放性工程判断更复杂。 真正的 bar 是匹配一个强科学家的判断力:从可用的测量、对照、分析选择和文献出发,推理出证据最支持的结论。

而因为这种生物判断是经验性的,agent 必须从有噪声的数据里推理,并且吃透分析的假设。科学判断力的培养离不开对分析步骤的掌握,二者无法分开。

举个具体例子:differential expression 里,纳入哪些样本、怎么过滤基因、怎么剥离协变量(测序 lane 等)——这些统计选择会直接改结果。Agent 可能得出"基因 A 下调",但这个下调可能来自真实突变相关的共变,也可能来自隐藏变量:发育成熟度、细胞类型组成、测序深度、实验室温度。

再举一个:metadata 怎么构造。如果 agent 在找调控发育的基因,它怎么定义 cell type label、怎么圈"早期发育细胞"——这个定义本身可能引入假阳性基因(来自不准确的群体定义或主观的 marker gene)。

只有理解这些假设的 agent,才配做准确的科学决策。 如果它亲手做完了分析,这些细节就还在 context 里新鲜着。

类比的边界在哪

Biology 是经验科学里最难啃的骨头之一。研究对象(活的生物体)从埃(protein)跨越到微米(cell)再到米(腿),综合了化学和物理现象。我们用来研究它们的测量,来自人类知识最前沿的仪器和 protocol,带噪声、带误差

这种复杂性意味着,software 的类比至少在两处破功:

第一,biological ground truth 很难定义。 即使是看起来 scope 明确的任务——聚类细胞、注释 cell type、调用差异表达基因——也几乎没有唯一正解。这是研究活跃领域,benchmarks.bio 等工作正在尝试约束模糊性、可验证地建模科学意图。但非常难。

第二,离开分析层,feedback 弱很多。 数据分析的 feedback loop 还像 software:跑代码、看输出、循环。但高阶科学推理需要的真实 feedback,要求对数据生成过程有控制权。 我们能在没有这个控制权的情况下,靠"类 code 评分"的 ground truth 走出相当远。但真正的自主科学,需要直接和被研究的对象 feedback。

数据分析层会随 biology 规模变得越来越重要

Agent 首先要建立数据分析能力(至少对真实工作来说)。准确的科学推理,部分依赖于对分析的细致理解。理解这个判断在大数据背景下的分量,要看数据生成的趋势。

分子数据生成走的是指数曲线,新代际 assay 下,分析成本正在快速超过试剂/制备人工。越来越多生物工作发生在实验室实验结束之后。

把这些趋势推到底:瓶颈会从"产出测量"转到"解读测量"。问题是"何时"而不是"是否"。未来的数据集会让历史生物数据的体量相形见绌,而人类分析能力不会以同等速度 scale。答案是:agent 套着 harness 稳定地把数据变成科学结论,部署在今天卡在数据上的 biotech R&D 流程里。

Computational biology 的覆盖面在扩大

很多人把"computational biology"等同于几个狭义分析工具——sequence assembly、differential expression software。这些确实是这个领域的重要贡献,但 computational biology 应该被理解为"广泛地用计算机解决 biology 问题"。

多年下来,computational shift 的组件一直在搭:指数级累积的分子数据、越来越自动化的实验室、迭代式的 design-build-test-learn workflow。但这些进步并没有让 R&D 总生产力出现明显的台阶式变化。

现在这一局面在改变。整个行业正围绕 AI 和 computing 重组——怎么设计实验、怎么分析数据、怎么成立公司、怎么结成 pharma 合作。计算机正在成为 agent "看到"、理解并最终操控生命系统的接口。

这些 agent 的第一次真正有用部署,不会是自主 AI 科学家,而是嵌在真实工作流里的分析协作者。 这是真实需求所在,也是它们会先变强的地方。Biology 不缺有趣的新想法。绝大多数有经济价值的 agentic 工作,集中在计算机能推动 R&D 循环的地方——在科学家当下所在的位置增强他们。