返回 FEED
AGENT2026-05-12

Karpathy 的 LLM 输出技巧:让模型生成 HTML

一条被 10 万人点赞的推文

Andrej Karpathy 在 2026 年 5 月 11 日发布了一条简洁的技巧分享:

"在查询末尾要求你的 LLM 'structure your response as HTML',然后在浏览器中查看生成的文件。我也成功让 LLM 以幻灯片等格式呈现输出。"

这条推文获得了近 10,000 个赞和 1,100 次转发。

为什么这个技巧有效

Karpathy 没有展开解释,但这个技巧的价值在于几个层面:

HTML 是完整的渲染层

Markdown 是轻量级标记语言,适合纯文本场景。但 HTML 拥有完整的样式、布局、交互能力。当 LLM 输出 HTML 时,它实际上是在生成一个可以直接渲染的文档,而不是需要二次解析的文本。

格式即 prompt

要求模型以特定格式输出,本身就是一种结构化的约束。HTML 的层级结构(html → head → body → div/section/article)强迫模型以更有组织的方式呈现信息,而不是流水账式的文本堆砌。

浏览器是现成的渲染引擎

不需要额外工具,双击 HTML 文件就能在浏览器中查看。对于表格、多栏布局、嵌套结构,HTML 的渲染效果远胜 Markdown。

延伸应用

Karpathy 提到他还成功让 LLM 生成幻灯片。这暗示了一个更大的可能性:

  • HTML + CSS → 精美文档
  • HTML + reveal.js → 幻灯片
  • SVG → 矢量图形/图表
  • Mermaid → 流程图
  • React/Vue 组件 → 可交互界面

核心思路是:LLM 不只是文本生成器,它是任意结构化格式的生成器。输出格式本身就是 prompt 工程的一部分。

被截断的更大论点

推文的最后一句被截断了:"More generally, imo audio is the..."

考虑到 Karpathy 近几个月一直在推动 audio-first 的交互范式(从 GPT-4o 的语音模式到他自己项目的音频接口),这很可能是在说音频是更自然的 LLM 交互媒介。HTML 是视觉层的结构化输出,audio 则是听觉层的结构化输出——两者都是让模型突破纯文本限制的方式。

实操建议

下次需要 LLM 输出复杂结构化内容时,试试在 prompt 末尾加一句:

"Structure your response as a complete, valid HTML document with inline CSS for styling."

然后保存为 .html 文件,用浏览器打开。你会惊讶于模型在格式约束下的表现提升。