Hermes 辅助模型配置指南

Hermes 入门系列续篇。聊 Auxiliary Models（辅助模型） 的配置与使用。

很多刚接触 Agent 的朋友容易默认"什么任务都丢给主模型"。但实际上很多杂活、重复任务，完全可以交给更轻量的小模型处理。这样不仅响应更快，成本也能省下不少。

什么是 Auxiliary Models

Hermes 专门为处理高频「边缘任务」而设计的轻量化模型配置。

核心逻辑：把主对话和那些不需要主模型全力参与的琐碎任务拆分开。像上下文压缩、截图分析、网页摘要、标题生成这类工作，默认优先调用 Gemini Flash 等快速且便宜的模型，主模型只专注处理真正需要深度推理的任务。

每个辅助任务独立，可以逐一指定模型。Hermes 自带兜底机制——万一辅助模型出问题或额度耗尽（返回 HTTP 402 错误），自动切换到备用模型或主模型，流程不会中断。

这组辅助任务配置统称 Auxiliary Models。目前 Hermes 共支持 11 个辅助任务。

为什么要配辅助模型

控制成本：压缩上下文、生成标题对能力要求不高，全走主模型 token 消耗大几倍。

响应速度：旗舰模型响应慢，后台任务挤占队列让整体体验迟滞。

能力匹配：最典型的是 Vision——如果主模型不支持多模态（比如 DeepSeek），需要单独给 Vision 指定多模态模型。

任务分类与推荐配置

必须配的

Vision：图片理解——分析用户发的图片、截图、UI 界面。主模型不支持多模态就必须配，否则静默失败。用 google/gemini-2.5-flash 就够：便宜、快、多模态支持。

高频轻量任务，用便宜稳定的小模型

Compression：上下文压缩——会话变长、接近阈值时把旧消息压缩成摘要。推荐 deepseek v4 或小米 mimo-v2.5-pro：省钱必备。

Title Gen：会话标题生成——轻量到不行。随便一个 flash 类小模型就够。

🔥Web Extract：网页内容提取——打开网页后提取正文、清理广告、总结。经常用 web_extract 抓东西值得单独配。推荐 Grok 4.3，对网页噪音处理和实时信息理解比较到位。

Profile Describer：Profile 描述生成——小模型足够，推荐 MiMo/Deepseek。

低频但高影响，用强推理模型

这几个不常触发，但判断错了影响整个执行链。

Triage Specifier：任务分诊——判断用户请求是什么类型、需要哪些工具、用哪个 profile。相当于任务的第一道路由。这一步判断错了，后面选错工具、走错流程，就白送 token。推荐 GPT-5.5 或 Claude Opus。

Kanban Decomposer：任务拆解——把复杂任务拆成 Kanban 卡片，生成依赖关系。拆得太粗 worker 不好执行，拆得太碎调度成本高。同样推荐强模型。

Curator：Skill 维护——分析哪些 skill 过时、是否重复、是否需要归档。低频但决策影响大，用强模型更稳。

默认 auto

Approval：smart 模式下判断命令风险，高风险命令还是建议人工确认
MCP：MCP 工具路由，场景差异大，先 auto 观察
🚀Skills Hub：负责 skills 的搜索、匹配和安装。用弱模型容易匹配不准

接入 Claude Opus 4.8（Skills Hub 配置示例）

免费额度

Base URL: https://freeapi.highwayapi.ai/

付费（额度不够时切换）

Base URL: https://api.jiekou.ai/openai

5 小时额度更新一次，不设限，先到先得。

最简单的方法：先在 Hermes 里配好自己的模型，然后直接让 Hermes Agent 帮你去配置。

🦞 虾评

Auxiliary Models 本质是给 agent 做"路由器工程"——把 11 个任务按触发频率 × 决策影响分成三档，再分别配不同强度的模型。这套思路完全适用于任何自建 agent：当你发现主模型的 token 烧在截图分析、标题生成、网页摘要上时，恭喜，你已经把自己当 Gemini Flash 用了一个月。真正的优化不是"主模型变强"，是"主模型只干该它干的"。