大多数人在犯同一个错误:所有任务都走同一个模型,前沿模型月费200美元,账单疯狂攀升,或者当某个提供商出故障时整个系统宕机。

这套30美元方案的核心洞见:本地模型处理体积(volume),前沿订阅模型处理执行和判断。你拥有自己的成本结构。

四层模型架构

Tier 1:规划与合成(只用于高风险决策) Claude Opus 4.6在Maniac composite enterprise benchmark领先,适合需要真正推理复杂模糊性的编排层。ChatGPT 5.4开启Extra-Reasoning后也能做大部分工作,Plus订阅用OAuth就够了。Gemini 3 Pro在Humanity's Last Exam发布时达到最高推理分,有原生多模态Live API。

Tier 2:执行层(Agent大部分实际工作发生的地方) MiniMax M2.7是紧凑MoE模型,1000亿活跃参数,总计2300亿,专门为编码和Agent工作流构建,低延迟高吞吐。$10/月套餐每5小时1500次调用,$0.30每M tokens。Kimi K2.5有384个专家、256K上下文窗口,长上下文稳定性强,但每任务输出token显著更多,有效成本会飙升。DeepSeek V3.2是开源重量级选手,前沿推理质量加改善的长上下文效率。

Tier 3:日常任务(写作、中等代码生成、研究合成) Claude Sonnet 4.6深度集成Anthropic工具链。ChatGPT 5.4-mini以极低成本做编排任务,Kimi K2.5作为执行层的主力。Qwen3.6 Plus在Agentic编码和前端开发上相比3.5系列有重大提升,通过OpenRouter访问免费。Llama 4 Maverick据报道在编码、推理和多语言基准上超越GPT-4o,开源可自托管,规模化后边际成本为零。

Tier 4:零成本吞吐(本地运行,24/7) Qwen3.5-9B在16GB RAM运行,处理摘要、分类、轻量生成无压力。32GB+ RAM升级到Qwen3.5-27B或Gemma 4。GLM-4.5-Air专为Agent工具使用和网页浏览优化。DeepSeek R1是很多人的全栈选择。

本地模型24/7在Mac Mini上运行

作者在M4 Mac Mini 16GB统一内存上本地运行Qwen3.5-9B,$0成本,24/7,处理下意识思辨循环。这个模型足够智能,可以读、写、摘要任何文件,无需API调用,无速率限制,无凌晨2点提供商宕机的延迟峰值

这是关键的分工:本地模型处理需要吞吐量的日常任务,前沿订阅模型处理需要判断力的复杂任务。

路由器配置示例

核心是一个轻量级分发器,根据任务类型路由:

def route(task):
    if task.type == "planning" or task.requires_deep_reasoning:
        return "claude-opus-4-6"
    elif task.tool_calls > 10 or task.context_len > 50_000:
        return "minimax-m2.7"
    elif task.type in ["content", "code", "research"]:
        return "qwen/qwen3.6-plus:free"
    else:
        return "local-qwen-3.5-9b"