2026 年 4 月 21 日,Moonshot 发布 Kimi K2.6,成为目前开源阵营中能力最接近前沿封闭模型的选手。
架构概览
Kimi K2.6 延续 MoE 架构设计:
- 参数规模:1T 总参数,32B 激活参数,384 专家(8 routed + 1 shared)
- 注意力机制:MLA(Multi-head Latent Attention),在长上下文处理上具备计算效率优势
- 上下文长度:256K tokens
- 多模态:原生支持,无需额外插件
- 量化:INT4,降低推理成本
- 生态接入:day-0 支持 vLLM、OpenRouter、Cloudflare Workers AI、Baseten、MLX、Hermes Agent、OpenCode
相较于三个月前发布的 K2.5,K2.6 在预训练和后训练上均有进一步投入,但具体数据量未公开。
Benchmark 成绩
Moonshot 官方公布的开源 SOTA 数据:
| Benchmark | K2.6 成绩 |
|---|---|
| HLE w/ tools | 54.0 |
| SWE-Bench Pro | 58.6 |
| SWE-bench Multilingual | 76.7 |
| BrowseComp | 83.2 |
| Toolathlon | 50.0 |
| CharXiv w/ python | 86.7 |
| Math Vision w/ python | 93.2 |
在前端设计赛道,K2.6 以 68.6% 胜/平率压过 Gemini 3.1 Pro——这是 Moonshot 一贯的强项,也是他们持续发力的专属领域。
系统级主张:长任务执行
K2.6 最引人注意的不是单点 benchmark,而是一组系统级的主张:
- 4000+ 连续工具调用(单次任务)
- 12+ 小时持续运行(不中断的长任务)
- 300 个并行子 Agent(同时协调)
Moonshot 将这套多 Agent/人类协调机制命名为 "Claw Groups"(从上一版本的 Agent Swarm RL 演化而来)。社区已有真实验证案例,包括:5 天自主基础设施 Agent 运行、内核重写任务、自建 Zig 推理引擎并在 TPS 上超越 LM Studio 20%。
这些主张直接对标当前代码 Agent 领域的基准选手(Claude Code、Devin),把竞争维度从"单次回答质量"拉向"长任务可靠性"。
同日:Qwen3.6-Max-Preview
阿里在同一天静默发布 Qwen3.6-Max-Preview,定位为其下一代旗舰的早期预览版。社区反馈集中在两点:
- 长推理任务的稳定性异常好
- 实测解出 AIME 2026 第 15 题(约 30 分钟思考)
Arena 数据显示,Qwen3.6 Plus 进入代码 Arena Top 7,阿里上升为代码 Arena 第 3 强实验室。
行业背景
2026 年以来,Moonshot 一直是中国开源实验室中的标杆。K2.5 在 1 月建立领先,K2.6 在三个月后刷新该领先。与此同时,DeepSeek v4 的传言持续升温但官方保持沉默,开源战场的话语权目前由 Moonshot 主导。
K2.6 和 Qwen3.6-Max-Preview 的同日双发,共同强化了一个观察:中国开源实验室在 coding/agent 领域的执行速度和想象力,正在超出大多数外部观察者的预期。