Y Combinator 总裁 Garry Tan 今年一月重新开始写代码,五个月干了 54 万行 Rails 加配套测试。他一度非常骄傲。
然后他意识到:骄傲错了方向。
那个 54 万行代码的"副产品"——他开发过程中搭建的 agent 工作流——才是真正重要的东西。这个副产品就是 OpenClaw,开源三周冲上 GitHub Star 榜历史前 100,105,000 颗星。
而那 54 万行代码本身?是一个 Foxconn 工厂。
什么是 Foxconn 工厂
Garry 用这个词形容大多数团队正在构建的东西:
一个为"超级聪明的 AI 工人"搭建的严密管控体系——入口处穿鞋套、早上六点起床、健身操、高层建筑周围架安全网、流水线永不变化。每一行测试代码、每一个 guardrail、每一个 retry loop,都是给一个"已经能完成工作且能做一千件你没要求的事"的 AI 套上的笼子。
人类和 AI 都有无限潜能,但 Foxconn 工厂的设计逻辑是挤压智慧和工作产出,不管对象是人还是机器。
2013 年的思维模型
54 万行代码的产出,本质上是一次完美的时间穿越——一个 2013 年的 Web 2.0 工程师(Garry 曾经的身份)带着现代工具,回到 2026 年,用他唯一知道的方式建造:更多代码,永远是更多代码。
工具变了,本能没变。
2013 年工程师骨子里相信一件事:代码行数等于能力。这个信念在几十年里都是对的——直到现在。给他 Codex 或 Claude Code,他能完成 100 到 1000 个工程师的工作。同样的地图,只是引擎快了。但以更快的速度开到了错误的地方。
这就是目前几乎所有 AI 项目正在掉进去的陷阱:升级了工具,保留了 2013 年的思维模型。陷阱感觉不像陷阱,因为代码确实能跑,Garry's List 确实上线了。那个月感觉是职业生涯最高效的一个月。
但那是为过时理念服务的生产力。
经济学已经翻转
旧的运行逻辑持续到 2025 年:LLM 调用昂贵,代码便宜。所以写代码来 ration 模型、限制它、小心翼翼地调用它。架构是大量软件严密包裹着少量珍贵的模型调用。
这个等式的两部分现在都翻转了。
模型正在变得廉价,且每季度都在更便宜,价值成本比已经翻转。模型能写可用的代码。所以停止写代码来"看护"模型。现在可以用自然语言指导模型,让它写真正需要的最小化代码。
这就是即时软件(just-in-time software),我们正在进入它的黄金时代。
真正发生的事
Rails 应用原来是 54 万行代码加测试。现在变成一个基于 markdown 和代码的 agent,分数之一的体量。同样的能力,更容易读,更容易维护,更灵活——因为行为活在可以编辑的自然语言指令里,而不是冻结在写代码那天 Logic 的代码里。
我们曾经写代码来看护一个现在比代码更聪明的模型。
你的代码库里有多少行只因为你"不信任模型"而存在?
Garry 做了审计:
- 约 262,000 行应用代码
- 约 276,000 行测试代码来监管它
审计委员会比公司还大。Sanitizers 检查模型本会处理的输入,Validators 检查模型本会捕获的输出,Retry loops 包裹模型自己就能恢复的调用。每一行都是对"工人将会失败"的赌注。你写了这些赌注。我们都写过。
127 个后台任务,其中 33 个是 cron。那不是能力,那是给一个LLM工人设置了 33 个闹钟——而这个工人现在大多数时候都会准时出现。
不要 prompting,要 building
Garry 特别区分了 prompting 和 building:
Prompting 是短暂的——你打一行,得到结果,然后消失。Building 是版本化的、可测试的、可复用的。
Markdown 是指令层:intent、skill、judgment about how the work should be done。TypeScript 是执行层——少数真正必须用代码实现的东西,I/O,任何不能容忍 hallucination 的部分。
关键:你要用测试代码的方式测试 markdown。在 Garry 的 setup 里,loop 是一个词——用 agent 构建某个东西直到它 work,然后说 skillify。Agent 会自动写:
- markdown skill
- 它需要的最小代码
- 代码的单元测试
- skill 的 LLM eval
- 两者结合的集成测试
- 一个 resolver so the agent 在相关时自动调用这个 skill
这个 bundle 就是一个 skill pack。一个可组合的能力单元。测试覆盖率保证了 skill 可以改变而不破坏系统。这就是 skillify 和 vibe coding 的区别——vibe coding 是一种感觉,skill pack 有测试。
现在是苹果 I 时刻
Garry 把现在比作 1976 年的苹果 I——还在焊接面包板,粗糙,需要自己完成。OpenClaw 是 Ferrari,但你需要带扳手来。
说 OpenClaw 不安全的人不明白:自由度正是它如此强大的原因。在你知道碰到问题之前,不要给一个你信任的东西套上安全护栏。扳手在你手里,说明没有人把它关进笼子里。
控制系统是精致的,因为控制需要全面掌控——一个 Foxconn 工厂。自由的系统是粗糙的,因为它信任你自己完成。选择你要建哪一种,然后看看你写了多少代码。
新范式的核心洞察
当你可以把意图直接转化为经过测试的、可复用的系统时,瓶颈不再是"你能建多少",而是"你真正想要什么"和"它是否值得建"。
稀缺资源变成了清晰度、品味和判断力。
写最少代码的工程师,往往是建设最多的那个。
Token 经济账
Garry 愿意花每年百万美元级别的 token 来跑这套系统。大多数人听到这个数字会退缩,但他说这恰恰是价值所在:
你现在就可以活在 2028 年,只是用的是 2026 年的 token 价格。明年同样的 token 10 万美元,后年 1 万,2028 年底可能 100 美元。如果你能告诉任何历史上的创始人:你现在可以花六位数资金投资于活在未来 2-3 年的优势,并保持这种优势多年——100 个创始人里 100 个会接受这个交易。
唯一的障碍是那个 2013 年的本能:"模型调用太贵了,不能随便用。"
已经不贵了。那是旧经济学。翻转已经发生了。
54 万行代码换来的认知:你不需要那么多代码,你需要的是更清晰的意图。