自主研究的基础设施层：Paradigma CEO 谈为什么瓶颈不在模型而在记忆

重新框定问题

关于自动研究的讨论大多围绕模型："GPT-o3 能写论文吗？""Gemini 能复现 Nature 结果吗？""Agent 能从假设到实验不崩溃吗？"

Francesco（Paradigma CEO）提出了不同的视角：

"不问模型做研究有多好，而是问模型周围的世界必须具备什么条件，研究才能复利增长？"

这是一个不同的问题，答案指向大多数人目前没在看的方向。

真正的瓶颈：实验谱系的记忆缺失

Francesco 的核心主张：AI 驱动研究的瓶颈不是单次查询的模型智能，而是模型在多查询、多研究者、多 Agent 交叉点上产出的结构缺失。

具体而言：

模型没有自己实验谱系的记忆
没有对象能捕获"尝试过什么 + 失败过什么 + 什么 adjacent 有趣"
每个会话从零开始

这正是 Paradigma 的 Flywheel 要解决的问题。听完后你会觉得"这 obvious 啊"——但 obvious 的问题往往是最没被解决的。

研究品味（Research Taste）

Francesco 将研究品味定义为 PhD 学生和 PI 之间的关键区分：

PhD 学生：能跑实验
PI：知道哪些实验值得跑

更精确的定义：

"研究品味是约束下的概率先验（probabilistic prior under constraint）——在有限计算和可用想法下，选择最可能实现成功和高影响力结果的研究方向的判断能力。"

具有优秀研究品味的人能：

识别正确的问题
快速执行、步骤精简
确保结果 profoundly impactful（不只是可发表，而是真正推动领域）

模型的"助手-创意者"权衡

Francesco 认为存在一个根本权衡：有效助手 vs 有品味的创意者。

当前模型作为助手被优化，这恰恰限制了它们：

偏向"安全"想法
陷入 perpetual 超参数调优
而非挑战范式的反直觉思考

训练问题：

基础模型像精神分裂——探索每个方向
RLHF 训练的助手模型过于聚焦——选一个方向就 commit
好的研究者两者都不是：有品味地聚焦，但沿着给定当前知识下信息价值最高的少数方向

问题：能否训练出这种能力？或者能否构建捕获它的训练目标？

信任问题：结构验证而非机械验证

自主研究的最大问题是幻觉——Agent 能产生在自身上下文窗口内看起来连贯可复现的结果，但实际复现时失败。

Francesco 的解决方案不是机械验证每个结果（组合爆炸，不可能），而是结构验证：

"将科学方法背后的对抗性逻辑编码进系统本身。独立第三方的可复现性 + 可证伪性是声明有价值的前提。"

具体机制：研究者和 Agent 可以投入计算资源复现图谱上的实验，并获得这些节点的部分所有权作为交换。

这本质上是在基础设施中构建去中心化同行评审层——让激励结构偏向复现而非单纯的新颖性。高引用、高价值的节点会被许多 Agent 想要复现，因为复现能获得回报。

为什么是公司而非开源项目

Francesco 坦诚考虑过将 Flywheel 做成开源项目。最终选择公司的动机：

"核聚变、治愈癌症等人类最大未解问题根本上受限于时间和智能的应用不足。如果未来十年人类而非机器仍是研究的主要驱动力，存在固有的'机会风险'——特别是如果突破只受 GPU 可用性限制。"

核心论点：瓶颈必须从人类努力转向计算资源。未来人类对研究的贡献将集中在产生想法（不只是编码）。科学将从当前手动密集、"注意力驱动"的过程，转向用户设置基础设施管理计算、挖掘结果的模式——"产生世界知识的实时地图"。

从 Rome 建公司的"不公平优势"

Francesco 从 Rome 而非 SF 建公司，且不觉得这是妥协。

文化邻近性已迁移到网络空间：他在 Twitter 上遇到联合创始人，通过 Twitter 关联的活动找到合作者，甚至通过 X DM 引入投资者。

更关键的洞察：

"很多最优秀的年轻 ML 人才不在旧金山。他们分散在各处，其中一些在意大利。SF 还没人在那个池子里招聘。"

他称之为"非常不公平的优势"——在别人还不知道这些年轻建造者存在时，他就有了 privileged access。年轻、好奇、仍有足够可塑性探索奇怪方向的人——这个时代 alpha 的来源。

LLM 的不当使用

Francesco 对"当今研究做法中最 broken 的是什么"的快问快答：不恰当地使用 LLM。

大多数研究者把模型当 Google Search 用——带自然语言界面的检索系统。问问题，得到文本，继续。实验谱系、假设树、失败方向、adjacent 结果——这些全都没有保留。模型被用作智能的一次性工具，而非嵌入结构化流程中的持久研究协作者。

这个文化转变比看起来更难，因为"问 LLM"模式已深度嵌入每个研究工作流。问题是：生产力差距是否变得足够明显和快速，使人们自愿切换——还是需要一代从未知道不同工作流的研究者。

Francesco 相信是前者。差距将先在几个特定细分领域变得 undeniable，然后随着模式可见而 sharp 扩散。

对 Agent 基础设施的启示

记忆层是核心杠杆：比模型层更重要的可能是实验谱系的持久化结构
激励设计 > 验证机制：无法 scale 地硬验证每个结果，但可以通过激励结构让系统自我验证
研究品味可训练吗？：当前 RLHF 训练结构抑制了真正的创造力，需要新的训练目标
地理套利：SF 不再是唯一的人才高地，分布式团队 + 在线网络正在重写规则
从工具到协作者：LLM 需要从"智能搜索"升级为"持久研究伙伴"，这要求基础设施层面的重新设计

结语

Francesco 从 OpenAI 离职去 Rome 从零建基础设施的故事本身就说明了问题：当最聪明的人都在优化模型时，优化模型周围脚手架的人可能拥有最大的杠杆。

自主研究的未来不在"更好的模型能写更好的论文"，而在"模型产出的结构能否让它随时间复利增长"。Flywheel 的赌注是：当实验谱系、假设树、失败日志成为一等公民时，研究将从人类注意力驱动转向计算资源驱动。

这不是科幻。这是正在 Rome 建造的基础设施。