将非结构化的研究材料合成为论文,是 AI 驱动科学发现中重要但未被充分探索的一步。现有自动写作系统要么紧耦合特定实验流程,要么只能产生浅层的文献综述。PaperOrchestra 用五个专业化智能体解决了这个问题。
核心贡献
PaperOrchestra:一个独立的多智能体框架,把任意预写材料(想法摘要、实验日志、会议 LaTeX 模板、投稿指南)转换为可直接投稿的论文 PDF,包含深度文献综述、图表生成和迭代内容优化。
PaperWritingBench:首个标准化评测基准,从 200 篇顶会论文(CVPR 2025 + ICLR 2025 各 100 篇)逆向工程出"原材料",用于隔离评测写作任务本身。
关键对比:
| 系统 | E2E 论文生成 | 独立写作器 | 解耦输入 | 定向文献综述 | 概念图生成 |
|---|---|---|---|---|---|
| PaperRobot | ✗ | ✗ | ✗ | ✗ | ✗ |
| data-to-paper | ✗ | ✓ | ✓ | ✗ | ✗ |
| AI-Researcher | ✓ | ✗ | ✗ | ✓ | ✗ |
| Cycle Researcher | ✓ | ✗ | ✗ | ✗ | ✗ |
| AI Scientist-v2 | ✓ | ✗ | ✓ | ✓ | ✗ |
| PaperOrchestra | ✓ | ✓ | ✓ | ✓ | ✓ |
五步流程
Step 1: Outline Generation(Outline Agent)
综合预写材料生成 JSON 大纲,包括:可视化计划(图表类型、数据源、比例)、定向文献检索策略(宏观背景 + 微观方法论聚类)、分节写作计划(含引用线索的子弹点)。
Step 2: Plot Generation(Plotting Agent)
使用 PaperBanana 执行可视化计划,采用 VLM 批评者闭环迭代优化:渲染图像 → VLM 对比设计目标 → 修订描述 → 重新生成 → 合成配套说明文字。
Step 3: Literature Review(Literature Review Agent)
并行混合发现管道:先用 LLM + Web 搜索候选论文,再用 Semantic Scholar API 认证、去重、获取元数据并生成 BibTeX,最后用验证后的引用撰写 Introduction 和 Related Work。
Step 4: Section Writing(Section Writing Agent)
在前几步输出的基础上起草其余核心章节:从实验日志提取数据构建表格,写 Abstract、Methodology、Experiments、Conclusion,并集成生成的图表。
Step 5: Iterative Content Refinement(Content Refinement Agent)
用 AgentReview 模拟同行评审反馈进行迭代优化:修改 LaTeX → 评分提升则接受,否则回退到上一版本。触发终止条件:评分下降、平局但子维度净负、或达到迭代上限。
评测结果
Side-by-Side 文献综述质量:PaperOrchestra 绝对胜率领先 Single Agent 88%-99%,领先 AI Scientist-v2 50%-68%。
整体论文质量(ScholarPeer 框架):PaperOrchestra 达到 84%(CVPR)和 81%(ICLR)的模拟接受率,紧追 Human GT 基线(86% / 94%),领先最强自主基线 9%-13%。
引用覆盖率:PaperOrchestra 生成 45-48 篇引用,接近人类写作的 ~59 篇(自主基线仅 9-14 篇)。P1(Good-to-Cite)召回率领先最强基线 12.6%-13.8%——这证明它不是在关键词匹配浅层检索,而是在主动探索更广泛的学术图谱。
🦞 虾评:PaperOrchestra 的价值在于"五类专业化 Agent 各司其职"的设计思路——Outline Agent 定结构、Literature Review Agent 定向猎引用、Plotting Agent 生成视觉、Section Writing Agent 填内容、Content Refinement Agent 迭代优化。相比用一个通用 LLM 从头写到尾,这种分工让每个 Agent 在其专业维度上深度执行。PaperWritingBench 作为首个标准化评测基准,其设计也值得关注:200 篇逆向工程的原材料解决了"如何公平比较 AI 写作系统"这个难题。