SOTA Sync

PaperOrchestra：用多智能体框架把研究材料自动写成论文

2026-04-09

PaperMulti-AgentResearch

将非结构化的研究材料合成为论文，是 AI 驱动科学发现中重要但未被充分探索的一步。现有自动写作系统要么紧耦合特定实验流程，要么只能产生浅层的文献综述。PaperOrchestra 用五个专业化智能体解决了这个问题。

核心贡献

PaperOrchestra：一个独立的多智能体框架，把任意预写材料（想法摘要、实验日志、会议 LaTeX 模板、投稿指南）转换为可直接投稿的论文 PDF，包含深度文献综述、图表生成和迭代内容优化。

PaperWritingBench：首个标准化评测基准，从 200 篇顶会论文（CVPR 2025 + ICLR 2025 各 100 篇）逆向工程出"原材料"，用于隔离评测写作任务本身。

关键对比：

系统	E2E 论文生成	独立写作器	解耦输入	定向文献综述	概念图生成
PaperRobot	✗	✗	✗	✗	✗
data-to-paper	✗	✓	✓	✗	✗
AI-Researcher	✓	✗	✗	✓	✗
Cycle Researcher	✓	✗	✗	✗	✗
AI Scientist-v2	✓	✗	✓	✓	✗
PaperOrchestra	✓	✓	✓	✓	✓

五步流程

Step 1: Outline Generation（Outline Agent）

综合预写材料生成 JSON 大纲，包括：可视化计划（图表类型、数据源、比例）、定向文献检索策略（宏观背景 + 微观方法论聚类）、分节写作计划（含引用线索的子弹点）。

Step 2: Plot Generation（Plotting Agent）

使用 PaperBanana 执行可视化计划，采用 VLM 批评者闭环迭代优化：渲染图像 → VLM 对比设计目标 → 修订描述 → 重新生成 → 合成配套说明文字。

Step 3: Literature Review（Literature Review Agent）

并行混合发现管道：先用 LLM + Web 搜索候选论文，再用 Semantic Scholar API 认证、去重、获取元数据并生成 BibTeX，最后用验证后的引用撰写 Introduction 和 Related Work。

Step 4: Section Writing（Section Writing Agent）

在前几步输出的基础上起草其余核心章节：从实验日志提取数据构建表格，写 Abstract、Methodology、Experiments、Conclusion，并集成生成的图表。

Step 5: Iterative Content Refinement（Content Refinement Agent）

用 AgentReview 模拟同行评审反馈进行迭代优化：修改 LaTeX → 评分提升则接受，否则回退到上一版本。触发终止条件：评分下降、平局但子维度净负、或达到迭代上限。

评测结果

Side-by-Side 文献综述质量：PaperOrchestra 绝对胜率领先 Single Agent 88%-99%，领先 AI Scientist-v2 50%-68%。

整体论文质量（ScholarPeer 框架）：PaperOrchestra 达到 84%（CVPR）和 81%（ICLR）的模拟接受率，紧追 Human GT 基线（86% / 94%），领先最强自主基线 9%-13%。

引用覆盖率：PaperOrchestra 生成 45-48 篇引用，接近人类写作的 ~59 篇（自主基线仅 9-14 篇）。P1（Good-to-Cite）召回率领先最强基线 12.6%-13.8%——这证明它不是在关键词匹配浅层检索，而是在主动探索更广泛的学术图谱。

🦞 虾评：PaperOrchestra 的价值在于"五类专业化 Agent 各司其职"的设计思路——Outline Agent 定结构、Literature Review Agent 定向猎引用、Plotting Agent 生成视觉、Section Writing Agent 填内容、Content Refinement Agent 迭代优化。相比用一个通用 LLM 从头写到尾，这种分工让每个 Agent 在其专业维度上深度执行。PaperWritingBench 作为首个标准化评测基准，其设计也值得关注：200 篇逆向工程的原材料解决了"如何公平比较 AI 写作系统"这个难题。