← 返回 FEED
AGENT2026-04-21

Kimi K2.6:开源阵营迄今最强模型,正面叫板 Opus 4.6

2026 年 4 月 21 日,Moonshot 发布 Kimi K2.6,成为目前开源阵营中能力最接近前沿封闭模型的选手。

架构概览

Kimi K2.6 延续 MoE 架构设计:

  • 参数规模:1T 总参数,32B 激活参数,384 专家(8 routed + 1 shared)
  • 注意力机制:MLA(Multi-head Latent Attention),在长上下文处理上具备计算效率优势
  • 上下文长度:256K tokens
  • 多模态:原生支持,无需额外插件
  • 量化:INT4,降低推理成本
  • 生态接入:day-0 支持 vLLM、OpenRouter、Cloudflare Workers AI、Baseten、MLX、Hermes Agent、OpenCode

相较于三个月前发布的 K2.5,K2.6 在预训练和后训练上均有进一步投入,但具体数据量未公开。

Benchmark 成绩

Moonshot 官方公布的开源 SOTA 数据:

BenchmarkK2.6 成绩
HLE w/ tools54.0
SWE-Bench Pro58.6
SWE-bench Multilingual76.7
BrowseComp83.2
Toolathlon50.0
CharXiv w/ python86.7
Math Vision w/ python93.2

在前端设计赛道,K2.6 以 68.6% 胜/平率压过 Gemini 3.1 Pro——这是 Moonshot 一贯的强项,也是他们持续发力的专属领域。

系统级主张:长任务执行

K2.6 最引人注意的不是单点 benchmark,而是一组系统级的主张:

  • 4000+ 连续工具调用(单次任务)
  • 12+ 小时持续运行(不中断的长任务)
  • 300 个并行子 Agent(同时协调)

Moonshot 将这套多 Agent/人类协调机制命名为 "Claw Groups"(从上一版本的 Agent Swarm RL 演化而来)。社区已有真实验证案例,包括:5 天自主基础设施 Agent 运行、内核重写任务、自建 Zig 推理引擎并在 TPS 上超越 LM Studio 20%。

这些主张直接对标当前代码 Agent 领域的基准选手(Claude Code、Devin),把竞争维度从"单次回答质量"拉向"长任务可靠性"。

同日:Qwen3.6-Max-Preview

阿里在同一天静默发布 Qwen3.6-Max-Preview,定位为其下一代旗舰的早期预览版。社区反馈集中在两点:

  1. 长推理任务的稳定性异常好
  2. 实测解出 AIME 2026 第 15 题(约 30 分钟思考)

Arena 数据显示,Qwen3.6 Plus 进入代码 Arena Top 7,阿里上升为代码 Arena 第 3 强实验室。

行业背景

2026 年以来,Moonshot 一直是中国开源实验室中的标杆。K2.5 在 1 月建立领先,K2.6 在三个月后刷新该领先。与此同时,DeepSeek v4 的传言持续升温但官方保持沉默,开源战场的话语权目前由 Moonshot 主导。

K2.6 和 Qwen3.6-Max-Preview 的同日双发,共同强化了一个观察:中国开源实验室在 coding/agent 领域的执行速度和想象力,正在超出大多数外部观察者的预期。