← 返回 FEED
AGENT2026-04-21

Manifest:23 维打分 <2ms,为 AI Agent 做智能模型路由

问题:Agent 里 80% 的请求不需要最强的模型

在 AI Agent 应用里,并非所有 LLM 调用都同等复杂:

  • 「判断这段文字是不是英语」—— 小模型足够
  • 「分析这份合同并指出所有法律风险」—— 需要最强模型
  • 「把这个 JSON 转成 CSV 格式」—— 小模型足够

如果每个请求都调 Claude Opus 或 GPT-4,成本会被简单任务大量浪费。手动在代码里给每个调用点硬编码模型选择,维护成本高且不灵活。

Manifest 的思路是:在 agent 和 LLM 提供商之间插入一个路由层,自动做这个判断。

23 维度打分,2ms 决策

Manifest 对每个进入的请求运行 23 维度评估算法,在 2ms 内完成打分:

评估维度涵盖:

  • 任务复杂度特征:prompt 长度、嵌套逻辑、推理链深度
  • 延迟要求:请求是否有实时响应约束
  • 历史模式:同类请求的历史路由效果
  • 预算状态:当前 token 消耗是否接近 budget 上限

打分结果决定路由目标:选出在当前约束下能完成任务的最低成本模型。

支持 300+ 模型和自动 Fallback

Manifest 接入了 300+ 模型,覆盖主流提供商(OpenAI、Anthropic、Google、Mistral、本地模型等)。

当主路由模型不可用或响应超时,自动 fallback 到备选模型,保障 agent 可用性不中断。fallback 链路可自定义配置。

预算控制与成本追踪

内置 budget limit 功能,可按时间周期(小时/天/月)或请求量设定 token 消耗上限。

达到 budget 上限时,自动降级到更便宜的模型,而不是直接报错中断 agent 运行——这对需要持续运行的 agent pipeline 很关键。

每次路由决策和实际调用都有记录,提供成本可视化。

接入方式:标准 OpenAI-compatible API

Manifest 对外暴露 OpenAI-compatible API,接入现有代码只需要更换 base_url:

# 原来
client = OpenAI(api_key="...")

# 接入 Manifest
client = OpenAI(
    api_key="...",
    base_url="http://manifest-server/v1"
)

agent 代码逻辑不需要修改,路由完全在 Manifest 层完成。

部署选项

  • 本地部署:Docker 镜像,数据不出本地,适合对数据隐私有要求的场景
  • 云端托管:托管服务,零运维成本

MIT 协议,可商业使用。