Karpathy 的 LLM 输出技巧：让模型生成 HTML

一条被 10 万人点赞的推文

Andrej Karpathy 在 2026 年 5 月 11 日发布了一条简洁的技巧分享：

"在查询末尾要求你的 LLM 'structure your response as HTML'，然后在浏览器中查看生成的文件。我也成功让 LLM 以幻灯片等格式呈现输出。"

这条推文获得了近 10,000 个赞和 1,100 次转发。

Karpathy 没有展开解释，但这个技巧的价值在于几个层面：

HTML 是完整的渲染层

Markdown 是轻量级标记语言，适合纯文本场景。但 HTML 拥有完整的样式、布局、交互能力。当 LLM 输出 HTML 时，它实际上是在生成一个可以直接渲染的文档，而不是需要二次解析的文本。

格式即 prompt

要求模型以特定格式输出，本身就是一种结构化的约束。HTML 的层级结构（html → head → body → div/section/article）强迫模型以更有组织的方式呈现信息，而不是流水账式的文本堆砌。

浏览器是现成的渲染引擎

不需要额外工具，双击 HTML 文件就能在浏览器中查看。对于表格、多栏布局、嵌套结构，HTML 的渲染效果远胜 Markdown。

Karpathy 提到他还成功让 LLM 生成幻灯片。这暗示了一个更大的可能性：

核心思路是：LLM 不只是文本生成器，它是任意结构化格式的生成器。输出格式本身就是 prompt 工程的一部分。

推文的最后一句被截断了："More generally, imo audio is the..."

考虑到 Karpathy 近几个月一直在推动 audio-first 的交互范式（从 GPT-4o 的语音模式到他自己项目的音频接口），这很可能是在说音频是更自然的 LLM 交互媒介。HTML 是视觉层的结构化输出，audio 则是听觉层的结构化输出——两者都是让模型突破纯文本限制的方式。

下次需要 LLM 输出复杂结构化内容时，试试在 prompt 末尾加一句：

"Structure your response as a complete, valid HTML document with inline CSS for styling."

然后保存为 .html 文件，用浏览器打开。你会惊讶于模型在格式约束下的表现提升。