Ethan He 主持了 NVIDIA Cosmos 世界模型项目,然后在 xAI 用三个月时间从零搭起了 Grok Imagine v0.9——业内第一个大规模部署的音视频联合生成模型。
他在 Latent Space 播客里给出了一组反直觉、但逻辑完整的判断:Video 模型的智能主要来自 LLM,而不是视频数据本身。下一个 Sora 不会是一个更好的视频模型,而是一个 Video Agent。
三个月的真相
2025 年中,Ethan 加入 xAI 时,整个视频团队"没有基础设施、没有数据、没有模型"。他之前在 NVIDIA 用了近一年做 Cosmos,第二次再做,速度就快了三倍。
"快"的关键不是人更多,而是两件事:
第一:迭代速度比什么都重要。 一周能做多少次完整训练-评估循环,决定了你能发现多少 Bug,能验证多少假设。xAI 的 data inference 和 model inference 基础设施让他每天能跑比同行多很多的训练轮次。
第二:质量提升不靠新算法,靠修 Bug。 这是 Ethan 一个反直觉的洞察:"很多改进不来自新算法,而来自数据 pipeline 和训练 pipeline 里的小 Bug。"一个团队每天能跑 10 个训练实验 vs 1 个,对 Bug 的发现能力差距是指数级的。
Image → Video 的训练顺序
xAI 的内部训练流程和业内大多数团队一样:
- 必须先做 image 模型,再上 video 模型。原因:image 便宜、训练数据多,和语言的 mapping 密度高。video token 多、训练数据少、mapping 稀疏——直接训练 video 等于让模型从零学语言
- 数据必须 100% 合成。YouTube 标题和视频内容大多没关联(标题"I feel great"配一段山川延时),用这种数据训练等于噪声。用 VLM 给视频做 dense caption 是必备步骤
- VAE 不可绕过。一个 1000x1000 的 image = 1M pixel = 1M token,transformer 训不动。必须把 image/video 压缩到 latent space(16-48 维向量)才能训练。VAE 决定了 latent space 是否对模型友好
- Diffusion Transformer 本质和 LLM 一样:visual tokens in,visual tokens out。区别只是多了 denoising 过程
训练成本:和 LLM 相当
很多人以为视频模型训练便宜,因为"算力需求看起来不如 LLM"。Ethan 给的 back-of-envelope 算账否定了这一点:
- 存储:10 亿条 video,每条 5MB = 5PB 原始数据,再加 VAE 后的连续特征 ≈ 10PB 级别
- Egress:AWS 出流量比存储更贵。每次训练 run 拉一次数据,多次 run 多次出
- 总成本:纯存储和 IO 一个月几百万美金,还没算 GPU
- 模型规模:LTX 19B dense,MoE 探索 20B active / 数百 B total。和中等规模 LLM 相当
Ethan 的判断:训练 video 模型的总成本与 LLM 相当,甚至因基础设施不成熟而更贵。
推理加速:Step Distillation
训练贵,但推理可以便宜。Flow matching 模型本来要 100 步去噪才能生成一张图,distillation 模型可以压缩到 4 步甚至 1 步。
为什么能 work?Ethan 给了一个有趣的直觉:teacher model 在建模整个互联网的图像分布,极其复杂。Student model 只需要拟合 teacher 模型的输出分布——这是更简单的任务。所以"strong to weak"的 distillation 才能有效。
实际部署中 Cosmos Transfer 之类的模型已经能做到 1 步生成。Grok Imagine 部署的是 4 步或 8 步版本。
Audio-Video 对齐是真正的难题
Grok Imagine v0.9 是第一个大规模部署的音视频联合生成模型。这件事比看上去难得多:
- 大多数 VLM 理解 image/video,但不理解 audio——audio 模态被严重低估
- LLM 能对话但不能唱歌——对话是离散模态(接近文本),音乐是完全连续模态
- Audio 有两个成分:离散(语言、声学事件)+ 连续(音乐旋律、情感)
最核心的问题是时间对齐:模型必须知道"1 秒时视频画面是 X,对应的声音是 Y"——这种帧级对齐在 text-image、text-video 训练数据里根本不存在。
Ethan 给的解决方案:要求人类标注员把音乐和对话描述得详细到聋人能从文字重建——这是一种近乎过分的标注粒度,但这是当前唯一能产生可用 audio-video 对齐数据的方法。
Video Agent:AI 编程的镜像进化
这是 Ethan 最有冲击力的判断:
"下一个 Sora 不会是一个更好的视频模型,而是一个 Video Agent。"
他的类比来自 AI 编程:最初大家比拼单次输出的代码质量,后来比拼多轮推理、规划能力,最后是 Agent 框架。Devin 这种 80% 准确率的工具,靠的不是单次输出更强,而是能 plan、generate、edit、critique、iterate。
Generative Media 也会走同样的路:
当前阶段:比拼模型单次输出质量、成本、prompt adherence。
下一阶段:比拼系统能否 plan、generate、edit、critique、iterate 一个完整创作任务。
Grok Imagine Agent Mode 已经发布——一个在无限画布上工作的完整创作 Agent,自动 plan→generate→edit→iterate。
真正的未来:Generative UI
Ethan 把目光放在了更远的地方。Flipbook 和 Neural OS 这类 demo 不是"会动的 GPT",是 Video Model 变成 AI 系统的 front-end:
- 后端:LLM + coding model 写代码、做规划
- 前端:diffusion model 直接生成 UI 像素
- 用户:说话、点击鼠标、浏览——所有交互都由 video model 实时渲染
终极形态:用户输入意图,模型直接吐像素——绕开 HTML/CSS/JS。
为什么这条路可能走通?人类输入和输出带宽最大的通道就是看(视频)和说(语音)。在 Neural Link 到来之前,这就是人机交互的最高带宽形式。
为什么可能没走通?当前太贵。一块 H100 跑一个月 240 美金,普通人用不起。但 Ethan 相信:算力每 12-18 个月下降 100 倍,generative UI 在几年内会变成现实。
World Model:实时 + 交互 + 长程
Ethan 对 world model 给了一个完全可操作的定义:
- Real-time:用户鼠标一动,模型要 sub-millisecond 响应(CS:GO 职业选手要求 < 3ms)
- Interactive:键盘、鼠标、语音——所有都是 modality,模型要能合理响应
- Long-horizon:不能只生成几秒,要能跑分钟、小时
通向这个目标的第一个台阶是Video Extension——给模型完整历史 context,让它能续写出连贯的长视频。Cosmos 上 5 秒视频 = 50K-60K tokens,50 秒 = 500K tokens——朴素把所有历史塞进 context 会爆。
参考帧(reference video)是一个临时解法——最多 7 张图作为 condition。Ethan 自己说这是"cheating":模型应该学会自动选择历史里该看哪部分,而不是依赖人类上传参考图。
LLM 才是 video 模型的真正引擎
Ethan 反复强调一个反共识的判断:Video 模型的主要 intelligence 来自 LLM,而不是视频数据。
他的论据:
- 视频数据本身不带 label,带 title/description 也大多无关
- Video 模型的"理解"几乎完全依赖 text 模态的注入
- 训练 video 模型本质是 fine-tune 已有 LLM 的 video 能力
这个判断的产业影响:视频生成赛道的真正护城河不是视频训练数据、不是 VAE 设计——是底座 LLM 的能力。这会重新洗牌那些没有顶级 LLM 的视频生成公司。
xAI 文化:3 个月做到的真正原因
Ethan 透露 xAI 文化有三条规则:
- Move fast——少开会,每天最多一次 sync,剩下的时间全部 building
- No goal is too ambitious——3 个月做出来业内第一个音视频联合模型,放在任何其他公司都不敢立项
- First principles——从"数据获取需要多久、人类标注周期多长、加 GPU 能压缩多少时间"倒推
Ethan 离开 xAI 前最后在做的事情是长程实时 world model——他的判断是,Video 模型的下一个范式突破会来自 LLM 对 self-managed context、continual learning 的突破,而不是 diffusion 本身。
Video Model 已经过了单点突破的窗口期。下一个 Sora 的战场是 agent 编排能力、LLM 深度、视频-语言对齐。模型层会越来越被开源化,应用层在拼 system。