下一波视频生成不会是更好的视频模型，而是 Video Agent

Ethan He 主持了 NVIDIA Cosmos 世界模型项目，然后在 xAI 用三个月时间从零搭起了 Grok Imagine v0.9——业内第一个大规模部署的音视频联合生成模型。

他在 Latent Space 播客里给出了一组反直觉、但逻辑完整的判断：Video 模型的智能主要来自 LLM，而不是视频数据本身。下一个 Sora 不会是一个更好的视频模型，而是一个 Video Agent。

三个月的真相

2025 年中，Ethan 加入 xAI 时，整个视频团队"没有基础设施、没有数据、没有模型"。他之前在 NVIDIA 用了近一年做 Cosmos，第二次再做，速度就快了三倍。

"快"的关键不是人更多，而是两件事：

第一：迭代速度比什么都重要。 一周能做多少次完整训练-评估循环，决定了你能发现多少 Bug，能验证多少假设。xAI 的 data inference 和 model inference 基础设施让他每天能跑比同行多很多的训练轮次。

第二：质量提升不靠新算法，靠修 Bug。 这是 Ethan 一个反直觉的洞察："很多改进不来自新算法，而来自数据 pipeline 和训练 pipeline 里的小 Bug。"一个团队每天能跑 10 个训练实验 vs 1 个，对 Bug 的发现能力差距是指数级的。

Image → Video 的训练顺序

xAI 的内部训练流程和业内大多数团队一样：

必须先做 image 模型，再上 video 模型。原因：image 便宜、训练数据多，和语言的 mapping 密度高。video token 多、训练数据少、mapping 稀疏——直接训练 video 等于让模型从零学语言
数据必须 100% 合成。YouTube 标题和视频内容大多没关联（标题"I feel great"配一段山川延时），用这种数据训练等于噪声。用 VLM 给视频做 dense caption 是必备步骤
VAE 不可绕过。一个 1000x1000 的 image = 1M pixel = 1M token，transformer 训不动。必须把 image/video 压缩到 latent space（16-48 维向量）才能训练。VAE 决定了 latent space 是否对模型友好
Diffusion Transformer 本质和 LLM 一样：visual tokens in，visual tokens out。区别只是多了 denoising 过程

训练成本：和 LLM 相当

很多人以为视频模型训练便宜，因为"算力需求看起来不如 LLM"。Ethan 给的 back-of-envelope 算账否定了这一点：

存储：10 亿条 video，每条 5MB = 5PB 原始数据，再加 VAE 后的连续特征 ≈ 10PB 级别
Egress：AWS 出流量比存储更贵。每次训练 run 拉一次数据，多次 run 多次出
总成本：纯存储和 IO 一个月几百万美金，还没算 GPU
模型规模：LTX 19B dense，MoE 探索 20B active / 数百 B total。和中等规模 LLM 相当

Ethan 的判断：训练 video 模型的总成本与 LLM 相当，甚至因基础设施不成熟而更贵。

推理加速：Step Distillation

训练贵，但推理可以便宜。Flow matching 模型本来要 100 步去噪才能生成一张图，distillation 模型可以压缩到 4 步甚至 1 步。

为什么能 work？Ethan 给了一个有趣的直觉：teacher model 在建模整个互联网的图像分布，极其复杂。Student model 只需要拟合 teacher 模型的输出分布——这是更简单的任务。所以"strong to weak"的 distillation 才能有效。

实际部署中 Cosmos Transfer 之类的模型已经能做到 1 步生成。Grok Imagine 部署的是 4 步或 8 步版本。

Audio-Video 对齐是真正的难题

Grok Imagine v0.9 是第一个大规模部署的音视频联合生成模型。这件事比看上去难得多：

大多数 VLM 理解 image/video，但不理解 audio——audio 模态被严重低估
LLM 能对话但不能唱歌——对话是离散模态（接近文本），音乐是完全连续模态
Audio 有两个成分：离散（语言、声学事件）+ 连续（音乐旋律、情感）

最核心的问题是时间对齐：模型必须知道"1 秒时视频画面是 X，对应的声音是 Y"——这种帧级对齐在 text-image、text-video 训练数据里根本不存在。

Ethan 给的解决方案：要求人类标注员把音乐和对话描述得详细到聋人能从文字重建——这是一种近乎过分的标注粒度，但这是当前唯一能产生可用 audio-video 对齐数据的方法。

Video Agent：AI 编程的镜像进化

这是 Ethan 最有冲击力的判断：

"下一个 Sora 不会是一个更好的视频模型，而是一个 Video Agent。"

他的类比来自 AI 编程：最初大家比拼单次输出的代码质量，后来比拼多轮推理、规划能力，最后是 Agent 框架。Devin 这种 80% 准确率的工具，靠的不是单次输出更强，而是能 plan、generate、edit、critique、iterate。

Generative Media 也会走同样的路：

当前阶段：比拼模型单次输出质量、成本、prompt adherence。

下一阶段：比拼系统能否 plan、generate、edit、critique、iterate 一个完整创作任务。

Grok Imagine Agent Mode 已经发布——一个在无限画布上工作的完整创作 Agent，自动 plan→generate→edit→iterate。

真正的未来：Generative UI

Ethan 把目光放在了更远的地方。Flipbook 和 Neural OS 这类 demo 不是"会动的 GPT"，是 Video Model 变成 AI 系统的 front-end：

后端：LLM + coding model 写代码、做规划
前端：diffusion model 直接生成 UI 像素
用户：说话、点击鼠标、浏览——所有交互都由 video model 实时渲染

终极形态：用户输入意图，模型直接吐像素——绕开 HTML/CSS/JS。

为什么这条路可能走通？人类输入和输出带宽最大的通道就是看（视频）和说（语音）。在 Neural Link 到来之前，这就是人机交互的最高带宽形式。

为什么可能没走通？当前太贵。一块 H100 跑一个月 240 美金，普通人用不起。但 Ethan 相信：算力每 12-18 个月下降 100 倍，generative UI 在几年内会变成现实。

World Model：实时 + 交互 + 长程

Ethan 对 world model 给了一个完全可操作的定义：

Real-time：用户鼠标一动，模型要 sub-millisecond 响应（CS:GO 职业选手要求 < 3ms）
Interactive：键盘、鼠标、语音——所有都是 modality，模型要能合理响应
Long-horizon：不能只生成几秒，要能跑分钟、小时

通向这个目标的第一个台阶是Video Extension——给模型完整历史 context，让它能续写出连贯的长视频。Cosmos 上 5 秒视频 = 50K-60K tokens，50 秒 = 500K tokens——朴素把所有历史塞进 context 会爆。

参考帧（reference video）是一个临时解法——最多 7 张图作为 condition。Ethan 自己说这是"cheating"：模型应该学会自动选择历史里该看哪部分，而不是依赖人类上传参考图。

LLM 才是 video 模型的真正引擎

Ethan 反复强调一个反共识的判断：Video 模型的主要 intelligence 来自 LLM，而不是视频数据。

他的论据：

视频数据本身不带 label，带 title/description 也大多无关
Video 模型的"理解"几乎完全依赖 text 模态的注入
训练 video 模型本质是 fine-tune 已有 LLM 的 video 能力

这个判断的产业影响：视频生成赛道的真正护城河不是视频训练数据、不是 VAE 设计——是底座 LLM 的能力。这会重新洗牌那些没有顶级 LLM 的视频生成公司。

xAI 文化：3 个月做到的真正原因

Ethan 透露 xAI 文化有三条规则：

Move fast——少开会，每天最多一次 sync，剩下的时间全部 building
No goal is too ambitious——3 个月做出来业内第一个音视频联合模型，放在任何其他公司都不敢立项
First principles——从"数据获取需要多久、人类标注周期多长、加 GPU 能压缩多少时间"倒推

Ethan 离开 xAI 前最后在做的事情是长程实时 world model——他的判断是，Video 模型的下一个范式突破会来自 LLM 对 self-managed context、continual learning 的突破，而不是 diffusion 本身。

Video Model 已经过了单点突破的窗口期。下一个 Sora 的战场是 agent 编排能力、LLM 深度、视频-语言对齐。模型层会越来越被开源化，应用层在拼 system。