在谈论代码之前,先谈数字。
Claude Opus 4.7 成本:25.00/百万输出 token。
Kimi K2.6 成本:3.60 输出。
7 倍便宜——对于一个在 SWE-Bench、Terminal-Bench 和真实 agentic 编码任务上与 Opus 4.7 打平的模型。
不是"便宜模型里算好的"。是真的有竞争力。在某些任务上——更好。
Kimi Code 是什么
Kimi Code 是 Kimi 的编码 Agent——类似 Claude Code,但由 K2.6 驱动,在 kimi.com/code 访问。
编码助手和编码 Agent 的区别:
- 助手——你问,它答,你实现
- Agent——你描述结果,它执行、迭代、修复错误、交付
Kimi Code 做的是第二种。
5 个节省小时的隐藏命令
@ — 战斗前先勘察战场
在 Kimi 写一行代码之前,让它映射完整代码库。审查计划。编辑它。然后执行。
@src/auth/middleware.ts @src/utils/token.ts
Explain the token refresh flow and identify where we might leak memory on rapid retries.
作用: 从你索引的代码库中拉取实时定义。Kimi 读取实际文件,追踪导入,动态构建上下文。
为什么重要: 消除复制粘贴地狱。50 文件重构时,节省 30-40 分钟手动上下文组装,防止幻觉导入。
进阶: 链式多个符号:@AuthService.refresh @TokenStore.cleanup @APIClient.interceptors——Kimi 自动跨文件连接点。
/explain — 分钟级上手遗留代码
被丢进 5 年历史的单体应用?不要读——审问。
/explain @src/matching-engine/order-book.ts
Focus on: thread-safety model, memory allocation patterns, and where the hot path starts.
作用: 生成架构摘要,含依赖追踪、复杂度热点、数据流图。
为什么重要: 资深工程师花 2-3 天映射遗留代码才敢碰。/explain 压缩到 10 分钟。你获得"部落知识",不用找到部落。
.kimi/rules — 编程 Agent,不要重复自己
厌倦了每轮会话都说"用严格模式"和"不要碰 /legacy"?把它烘焙进项目 DNA。
# .kimi/rules
- Always use TypeScript strict mode; no implicit any
- For HTTP calls, use the retry-wrapper from @utils/api-client, never raw fetch
- /legacy/ directory is read-only unless explicitly overridden
- Prefer functional React components; class components require justification
作用: 创建持久项目级指令。Kimi 会话开始时自动加载。
为什么重要: 标准化团队成员输出。消除"oops,它用了错误模式"的返工循环。10 人团队,每天节省集体数小时。
进阶: 将 .kimi/rules 与代码库一起版本控制。它变成实际自我执行的活文档。
Checkpoint Prompting — 6 小时会话的保险
K2.6 的杀手特性是耐力。但没有面包屑的耐力是等待发生的崩溃。
After each optimization iteration, output:
- [ITERATION N] What changed
- [PERFORMANCE] Current throughput vs baseline
- [BLOCKERS] What's blocking the next step
- [STATE] Files modified, tests status, known risks
作用: 强制 Kimi 在定义间隔发出结构化状态报告。
为什么重要: 如果终端在第 5 小时崩溃,你失去的不是输出,是心理模型。Checkpoints 让你从任何点 --resume(或手动重建)。12 小时优化运行中,这是恢复和重启的区别。
/test — 生成覆盖率,不只是代码
写函数是一半战斗。证明它工作是另一半。
/test @src/matching-engine/order-matcher.ts
Focus on: race conditions between order cancellation and matching, overflow on quantity * price
作用: 分析你的实现,识别你遗漏的边界情况,模拟依赖,生成测试脚手架。
为什么重要: 开发者 30-50% 时间花在写测试上。/test 2 分钟交付 80% 覆盖率,包括人类忘记的恶劣边界情况(null、溢出、并发访问)。
实战案例
案例 1:Zig 推理优化(Mac)
任务: 本地下载部署 Qwen3.5-0.8B。用 Zig(高度小众的系统语言)实现推理。优化吞吐量。
结果:
- 4000+ tool calls
- 12+ 小时连续执行
- 14 轮优化迭代
- 起始吞吐量:~15 tokens/sec
- 最终吞吐量:~193 tokens/sec
比 LM Studio 快 20%。 无需人工干预。在大多数模型训练数据极少的语言中。
案例 2:金融撮合引擎大改
任务: 拿 exchange-core——8 年历史的开源金融撮合引擎——优化到理论极限。
结果:
- 13 小时连续执行
- 12 个优化策略部署
- 1000+ tool calls
- 4000+ 行代码修改
模型分析 CPU 和内存火焰图,识别线程拓扑中的隐藏瓶颈,重构核心执行循环。
性能影响:
- 中等吞吐量:0.43 → 1.24 MT/s (+185%)
- 峰值吞吐量:1.23 → 2.86 MT/s (+133%)
引擎已接近性能极限运行。K2.6 找到了人类维护者多年未发现的余量。
这不是自动补全。这是工程。
为什么 Kimi 2.6 在实践中击败 Claude
三个原因。
1. 更少步骤达到相同结果。
Kimi 2.6 比 Kimi 2.5 少用约 35% 步骤达到更好结果。更少步骤 = 更少 token。更少 token = 更低成本。更快执行。
2. 更好的指令遵循。
大多数编码 Agent 失败是因为漂移——开始解决一个问题,逐渐解决不同的问题。Kimi 2.6 保持在约束内,保留项目结构,从错误恢复而不丢失原始意图。
Augment Code 的 CTO 描述为"大型代码库中的手术精度"。
3. 更懂真实世界 API 和工具。
Kimi 2.6 改进对第三方框架、真实 API 和工具交互的理解。生产使用中,这是 Agent 能用和需要不断纠正的区别。
成本论证——为什么这比 benchmarks 更重要
Benchmarks 告诉你什么是可能的。成本告诉你什么是可持续的。
如果你大规模运行 AI 编码 Agent——跨团队、跨多个项目、每天数千 API 调用——Opus 4.7 和 K2.6 之间的成本差异不是边际的。
每天 1 百万输出 token——活跃编码 Agent 的合理体量:
- Claude Opus 4.7:750/月
- Kimi K2.6:108/月
相同任务。相同输出质量层级。月成本 7 倍差异。
团队同时运行多个 Agent 时,这复利增长很快。
开源优势
Kimi K2.6 完全开源。
这很重要,三个原因:
- 你可以自托管。 在自己的基础设施上运行。无 API 依赖。无使用上限。完全控制数据。
- 你可以微调。 基础模型可用于领域特定任务的定制——法律、医疗、专有代码库。
- 社区速度。 开源模型改进更快,因为整个开发者生态贡献工具、集成和 benchmarks。
已支持: Ollama、OpenCode、OpenClaw、vLLM / llama.cpp
结论
AI 编码的叙事一直很简单:Claude 是最好的。付多少钱都值得。
K2.6 打破了那个叙事。
开源。7 倍便宜。Benchmarks 与 Opus 4.7 打平。Vercel、Fireworks、Augment Code 等十多家公司生产验证。
问题不是 K2.6 够不够好。
问题是为什么你还在付 7 倍的钱。