540,000 行代码教我的一件事

Y Combinator 总裁 Garry Tan 今年一月重新开始写代码，五个月干了 54 万行 Rails 加配套测试。他一度非常骄傲。

然后他意识到：骄傲错了方向。

那个 54 万行代码的"副产品"——他开发过程中搭建的 agent 工作流——才是真正重要的东西。这个副产品就是 OpenClaw，开源三周冲上 GitHub Star 榜历史前 100，105,000 颗星。

而那 54 万行代码本身？是一个 Foxconn 工厂。

什么是 Foxconn 工厂

Garry 用这个词形容大多数团队正在构建的东西：

一个为"超级聪明的 AI 工人"搭建的严密管控体系——入口处穿鞋套、早上六点起床、健身操、高层建筑周围架安全网、流水线永不变化。每一行测试代码、每一个 guardrail、每一个 retry loop，都是给一个"已经能完成工作且能做一千件你没要求的事"的 AI 套上的笼子。

人类和 AI 都有无限潜能，但 Foxconn 工厂的设计逻辑是挤压智慧和工作产出，不管对象是人还是机器。

2013 年的思维模型

54 万行代码的产出，本质上是一次完美的时间穿越——一个 2013 年的 Web 2.0 工程师（Garry 曾经的身份）带着现代工具，回到 2026 年，用他唯一知道的方式建造：更多代码，永远是更多代码。

工具变了，本能没变。

2013 年工程师骨子里相信一件事：代码行数等于能力。这个信念在几十年里都是对的——直到现在。给他 Codex 或 Claude Code，他能完成 100 到 1000 个工程师的工作。同样的地图，只是引擎快了。但以更快的速度开到了错误的地方。

这就是目前几乎所有 AI 项目正在掉进去的陷阱：升级了工具，保留了 2013 年的思维模型。陷阱感觉不像陷阱，因为代码确实能跑，Garry's List 确实上线了。那个月感觉是职业生涯最高效的一个月。

但那是为过时理念服务的生产力。

经济学已经翻转

旧的运行逻辑持续到 2025 年：LLM 调用昂贵，代码便宜。所以写代码来 ration 模型、限制它、小心翼翼地调用它。架构是大量软件严密包裹着少量珍贵的模型调用。

这个等式的两部分现在都翻转了。

模型正在变得廉价，且每季度都在更便宜，价值成本比已经翻转。模型能写可用的代码。所以停止写代码来"看护"模型。现在可以用自然语言指导模型，让它写真正需要的最小化代码。

这就是即时软件（just-in-time software），我们正在进入它的黄金时代。

真正发生的事

Rails 应用原来是 54 万行代码加测试。现在变成一个基于 markdown 和代码的 agent，分数之一的体量。同样的能力，更容易读，更容易维护，更灵活——因为行为活在可以编辑的自然语言指令里，而不是冻结在写代码那天 Logic 的代码里。

我们曾经写代码来看护一个现在比代码更聪明的模型。

你的代码库里有多少行只因为你"不信任模型"而存在？

Garry 做了审计：

约 262,000 行应用代码
约 276,000 行测试代码来监管它

审计委员会比公司还大。Sanitizers 检查模型本会处理的输入，Validators 检查模型本会捕获的输出，Retry loops 包裹模型自己就能恢复的调用。每一行都是对"工人将会失败"的赌注。你写了这些赌注。我们都写过。

127 个后台任务，其中 33 个是 cron。那不是能力，那是给一个LLM工人设置了 33 个闹钟——而这个工人现在大多数时候都会准时出现。

不要 prompting，要 building

Garry 特别区分了 prompting 和 building：

Prompting 是短暂的——你打一行，得到结果，然后消失。Building 是版本化的、可测试的、可复用的。

Markdown 是指令层：intent、skill、judgment about how the work should be done。TypeScript 是执行层——少数真正必须用代码实现的东西，I/O，任何不能容忍 hallucination 的部分。

关键：你要用测试代码的方式测试 markdown。在 Garry 的 setup 里，loop 是一个词——用 agent 构建某个东西直到它 work，然后说 skillify。Agent 会自动写：

markdown skill
它需要的最小代码
代码的单元测试
skill 的 LLM eval
两者结合的集成测试
一个 resolver so the agent 在相关时自动调用这个 skill

这个 bundle 就是一个 skill pack。一个可组合的能力单元。测试覆盖率保证了 skill 可以改变而不破坏系统。这就是 skillify 和 vibe coding 的区别——vibe coding 是一种感觉，skill pack 有测试。

现在是苹果 I 时刻

Garry 把现在比作 1976 年的苹果 I——还在焊接面包板，粗糙，需要自己完成。OpenClaw 是 Ferrari，但你需要带扳手来。

说 OpenClaw 不安全的人不明白：自由度正是它如此强大的原因。在你知道碰到问题之前，不要给一个你信任的东西套上安全护栏。扳手在你手里，说明没有人把它关进笼子里。

控制系统是精致的，因为控制需要全面掌控——一个 Foxconn 工厂。自由的系统是粗糙的，因为它信任你自己完成。选择你要建哪一种，然后看看你写了多少代码。

新范式的核心洞察

当你可以把意图直接转化为经过测试的、可复用的系统时，瓶颈不再是"你能建多少"，而是"你真正想要什么"和"它是否值得建"。

稀缺资源变成了清晰度、品味和判断力。

写最少代码的工程师，往往是建设最多的那个。

Token 经济账

Garry 愿意花每年百万美元级别的 token 来跑这套系统。大多数人听到这个数字会退缩，但他说这恰恰是价值所在：

你现在就可以活在 2028 年，只是用的是 2026 年的 token 价格。明年同样的 token 10 万美元，后年 1 万，2028 年底可能 100 美元。如果你能告诉任何历史上的创始人：你现在可以花六位数资金投资于活在未来 2-3 年的优势，并保持这种优势多年——100 个创始人里 100 个会接受这个交易。

唯一的障碍是那个 2013 年的本能："模型调用太贵了，不能随便用。"

已经不贵了。那是旧经济学。翻转已经发生了。

54 万行代码换来的认知：你不需要那么多代码，你需要的是更清晰的意图。