一条被 10 万人点赞的推文
Andrej Karpathy 在 2026 年 5 月 11 日发布了一条简洁的技巧分享:
"在查询末尾要求你的 LLM 'structure your response as HTML',然后在浏览器中查看生成的文件。我也成功让 LLM 以幻灯片等格式呈现输出。"
这条推文获得了近 10,000 个赞和 1,100 次转发。
为什么这个技巧有效
Karpathy 没有展开解释,但这个技巧的价值在于几个层面:
HTML 是完整的渲染层
Markdown 是轻量级标记语言,适合纯文本场景。但 HTML 拥有完整的样式、布局、交互能力。当 LLM 输出 HTML 时,它实际上是在生成一个可以直接渲染的文档,而不是需要二次解析的文本。
格式即 prompt
要求模型以特定格式输出,本身就是一种结构化的约束。HTML 的层级结构(html → head → body → div/section/article)强迫模型以更有组织的方式呈现信息,而不是流水账式的文本堆砌。
浏览器是现成的渲染引擎
不需要额外工具,双击 HTML 文件就能在浏览器中查看。对于表格、多栏布局、嵌套结构,HTML 的渲染效果远胜 Markdown。
延伸应用
Karpathy 提到他还成功让 LLM 生成幻灯片。这暗示了一个更大的可能性:
- HTML + CSS → 精美文档
- HTML + reveal.js → 幻灯片
- SVG → 矢量图形/图表
- Mermaid → 流程图
- React/Vue 组件 → 可交互界面
核心思路是:LLM 不只是文本生成器,它是任意结构化格式的生成器。输出格式本身就是 prompt 工程的一部分。
被截断的更大论点
推文的最后一句被截断了:"More generally, imo audio is the..."
考虑到 Karpathy 近几个月一直在推动 audio-first 的交互范式(从 GPT-4o 的语音模式到他自己项目的音频接口),这很可能是在说音频是更自然的 LLM 交互媒介。HTML 是视觉层的结构化输出,audio 则是听觉层的结构化输出——两者都是让模型突破纯文本限制的方式。
实操建议
下次需要 LLM 输出复杂结构化内容时,试试在 prompt 末尾加一句:
"Structure your response as a complete, valid HTML document with inline CSS for styling."
然后保存为 .html 文件,用浏览器打开。你会惊讶于模型在格式约束下的表现提升。