Sanjaya:如何用 RLM 范式构建视频和图像理解 Agent
Sanjaya 是一个开源 Python 库(uv add sanjaya),受 RLM 启发,专门用于多模态理解:视频、文档、图像。核心思路:模型不是把问题答出来,而是写一个 Python 程序来回答——程序搜索 transcript、提取视频片段、采样帧、查询视觉模型、迭代,所有操作都在沙箱 REPL 里完成。在 PhotoBench 上 86-99% 召回率,每次查询成本 $0.29-$0.37。
Sanjaya 是一个开源 Python 库(uv add sanjaya),受 Recursive Language Model(RLM)agent 启发,构建用于多模态理解:视频、文档和图像。核心思路不同于传统方式:不是给模型 prompt 让它回答问题,而是让模型写一个 Python 程序来回答问题。
这个程序在沙箱 Read-Eval-Print Loop(REPL)里搜索 transcript、提取视频片段、采样帧、查询视觉模型、迭代——所有操作都不需要你手动管理。
2026 年 4 月初,Alex Zhang 等人发表了 RLM 论文,核心思想:
这篇文章的核心不是 Sanjaya 这个工具本身,而是它展示了 RLM 范式在视频理解上的具体工程路径:不给模型塞上下文,而是给它一个 REPL 让它自己写代码去读。\"不要把长上下文塞进 prompt,而是给它一个 Python REPL 让它写代码去查找\"——这个设计原则在任何需要处理长上下文的地方都适用。