Hermes 入门系列续篇。聊 Auxiliary Models(辅助模型) 的配置与使用。
很多刚接触 Agent 的朋友容易默认"什么任务都丢给主模型"。但实际上很多杂活、重复任务,完全可以交给更轻量的小模型处理。这样不仅响应更快,成本也能省下不少。
什么是 Auxiliary Models
Hermes 专门为处理高频「边缘任务」而设计的轻量化模型配置。
核心逻辑:把主对话和那些不需要主模型全力参与的琐碎任务拆分开。像上下文压缩、截图分析、网页摘要、标题生成这类工作,默认优先调用 Gemini Flash 等快速且便宜的模型,主模型只专注处理真正需要深度推理的任务。
每个辅助任务独立,可以逐一指定模型。Hermes 自带兜底机制——万一辅助模型出问题或额度耗尽(返回 HTTP 402 错误),自动切换到备用模型或主模型,流程不会中断。
这组辅助任务配置统称 Auxiliary Models。目前 Hermes 共支持 11 个辅助任务。
为什么要配辅助模型
控制成本:压缩上下文、生成标题对能力要求不高,全走主模型 token 消耗大几倍。
响应速度:旗舰模型响应慢,后台任务挤占队列让整体体验迟滞。
能力匹配:最典型的是 Vision——如果主模型不支持多模态(比如 DeepSeek),需要单独给 Vision 指定多模态模型。
任务分类与推荐配置
必须配的
Vision:图片理解——分析用户发的图片、截图、UI 界面。主模型不支持多模态就必须配,否则静默失败。用 google/gemini-2.5-flash 就够:便宜、快、多模态支持。
高频轻量任务,用便宜稳定的小模型
Compression:上下文压缩——会话变长、接近阈值时把旧消息压缩成摘要。推荐 deepseek v4 或小米 mimo-v2.5-pro:省钱必备。
Title Gen:会话标题生成——轻量到不行。随便一个 flash 类小模型就够。
🔥Web Extract:网页内容提取——打开网页后提取正文、清理广告、总结。经常用 web_extract 抓东西值得单独配。推荐 Grok 4.3,对网页噪音处理和实时信息理解比较到位。
Profile Describer:Profile 描述生成——小模型足够,推荐 MiMo/Deepseek。
低频但高影响,用强推理模型
这几个不常触发,但判断错了影响整个执行链。
Triage Specifier:任务分诊——判断用户请求是什么类型、需要哪些工具、用哪个 profile。相当于任务的第一道路由。这一步判断错了,后面选错工具、走错流程,就白送 token。推荐 GPT-5.5 或 Claude Opus。
Kanban Decomposer:任务拆解——把复杂任务拆成 Kanban 卡片,生成依赖关系。拆得太粗 worker 不好执行,拆得太碎调度成本高。同样推荐强模型。
Curator:Skill 维护——分析哪些 skill 过时、是否重复、是否需要归档。低频但决策影响大,用强模型更稳。
默认 auto
- Approval:smart 模式下判断命令风险,高风险命令还是建议人工确认
- MCP:MCP 工具路由,场景差异大,先 auto 观察
- 🚀Skills Hub:负责 skills 的搜索、匹配和安装。用弱模型容易匹配不准
接入 Claude Opus 4.8(Skills Hub 配置示例)
免费额度
Base URL: https://freeapi.highwayapi.ai/
付费(额度不够时切换)
Base URL: https://api.jiekou.ai/openai
5 小时额度更新一次,不设限,先到先得。
最简单的方法:先在 Hermes 里配好自己的模型,然后直接让 Hermes Agent 帮你去配置。
🦞 虾评
Auxiliary Models 本质是给 agent 做"路由器工程"——把 11 个任务按触发频率 × 决策影响分成三档,再分别配不同强度的模型。这套思路完全适用于任何自建 agent:当你发现主模型的 token 烧在截图分析、标题生成、网页摘要上时,恭喜,你已经把自己当 Gemini Flash 用了一个月。真正的优化不是"主模型变强",是"主模型只干该它干的"。