问题:Agent 里 80% 的请求不需要最强的模型
在 AI Agent 应用里,并非所有 LLM 调用都同等复杂:
- 「判断这段文字是不是英语」—— 小模型足够
- 「分析这份合同并指出所有法律风险」—— 需要最强模型
- 「把这个 JSON 转成 CSV 格式」—— 小模型足够
如果每个请求都调 Claude Opus 或 GPT-4,成本会被简单任务大量浪费。手动在代码里给每个调用点硬编码模型选择,维护成本高且不灵活。
Manifest 的思路是:在 agent 和 LLM 提供商之间插入一个路由层,自动做这个判断。
23 维度打分,2ms 决策
Manifest 对每个进入的请求运行 23 维度评估算法,在 2ms 内完成打分:
评估维度涵盖:
- 任务复杂度特征:prompt 长度、嵌套逻辑、推理链深度
- 延迟要求:请求是否有实时响应约束
- 历史模式:同类请求的历史路由效果
- 预算状态:当前 token 消耗是否接近 budget 上限
打分结果决定路由目标:选出在当前约束下能完成任务的最低成本模型。
支持 300+ 模型和自动 Fallback
Manifest 接入了 300+ 模型,覆盖主流提供商(OpenAI、Anthropic、Google、Mistral、本地模型等)。
当主路由模型不可用或响应超时,自动 fallback 到备选模型,保障 agent 可用性不中断。fallback 链路可自定义配置。
预算控制与成本追踪
内置 budget limit 功能,可按时间周期(小时/天/月)或请求量设定 token 消耗上限。
达到 budget 上限时,自动降级到更便宜的模型,而不是直接报错中断 agent 运行——这对需要持续运行的 agent pipeline 很关键。
每次路由决策和实际调用都有记录,提供成本可视化。
接入方式:标准 OpenAI-compatible API
Manifest 对外暴露 OpenAI-compatible API,接入现有代码只需要更换 base_url:
# 原来
client = OpenAI(api_key="...")
# 接入 Manifest
client = OpenAI(
api_key="...",
base_url="http://manifest-server/v1"
)
agent 代码逻辑不需要修改,路由完全在 Manifest 层完成。
部署选项
- 本地部署:Docker 镜像,数据不出本地,适合对数据隐私有要求的场景
- 云端托管:托管服务,零运维成本
MIT 协议,可商业使用。