返回 FEED
AGENT2026-05-07

Codex + GPT Image-2 视频制作工作流:先出图再复刻成代码

外包一个几十秒的产品视频要上万块,但可以不打开任何剪辑软件,只用代码跑出来。

工作流的关键:先用 GPT-Image-2 把每个场景的视觉预演图出好,再把图交给 Codex 复刻成代码。

为什么要先出图

用 Codex 写界面,没有图,就像让人画画但不告诉他画什么:能动笔,但结果全靠运气。

做视频也一样。「深色调、有科技感、简洁大气」AI 能理解这些词,但落到实际画面,十次有七次不是你想要的。

所以,结合生图软件,先生成一张预览图,AI 就有了可视化的参考,而且比起文字也更直观。

从「帮我做一个有科技感的场景」,变成「按照这张图的布局、颜色、层级,复刻成动画」。

视觉目标从模糊变成可执行。这一步,是整个工作流能跑通的原因。

Step 1:写分镜文档

每个场景确认四件事:

  • 画面里有什么(元素、位置、数字)
  • 情绪基调(紧张感、讽刺感、转折感)
  • 需要出现哪些文字和标注卡
  • 动效的出现顺序

不需要任何工具,写文档就行。几个场景,就写几份分镜描述,这是之后所有东西的地基。

Step 2:每个场景出一张图

每个场景写一份图片 Prompt,格式如下:

A [界面类型] in 16:9 landscape format, [色调].
[主要元素,精确到位置、层级、数字、颜色]
Floating annotation card · [位置] · semi-transparent dark background
+ white border · large: "[主标注]" / small: "[副标注]"
Overall tone: [情绪基调,如 clinical and quietly wasteful]

实际示例(数据看板场景):

A clean dark analytics dashboard in 16:9 landscape format.
Left: large donut chart, 68% muted red "Answered in docs", 32% dark gray.
Right: "4.2 hrs" in large white text,
label "avg. weekly support time per user · same questions".
Minimal grid lines, no decorative elements.
Floating annotation card lower-right · semi-transparent dark background
+ white border · large: "68%" / small: "of tickets · already in the docs".
Overall tone: clinical and quietly wasteful.

每张图只问一件事:这个视觉方向对不对?对了才进下一步。

不同场景类型的 Prompt 调整

人物插图型(透明背景,叠在代码 UI 上方):

A [halftone / editorial illustration] character, [posture/expression].
Warm color palette: ivory, soft purple, warm white. Transparent background preferred.
No background objects, no text, no UI elements. Minimum 1024px tall.
Style: product editorial illustration, not photo-realistic.
Avoid: dark tones, heavy shadows, corporate clipart.

背景纹理型(铺在 UI 下层用):

A 16:9 paper grain background texture, [warm ivory / cool white].
Extremely subtle — this will be covered by UI layers above it.
No patterns, no icons, no text, no focal point.
1920×1080. Zero distracting elements.

原则:纹理和插图用生图解决,文字、数字、布局、动效全在代码里重建。各司其职。

Step 3:图传给 Codex,分层实现

给图之前,先把场景拆成两层:

  • 代码层:文字、数字、卡片、气泡、按钮、所有动效——全在代码里重建,不依赖图片
  • 图片层:背景纹理、人物插图——作为静态资源 import 进来,代码不负责生成

这层分工要写进 Codex 的 prompt 里:

严格按照我上传的这张预览图,复刻成一个 React 动画场景。

先不要写代码,先做三件事:
1. 分析图片的布局结构和视觉层级
2. 列出需要哪些主要组件
3. 确认动效执行顺序

然后:
- 先实现静态布局,还原颜色、字号、间距、圆角
- 再按以下动效顺序加入动画:[你在分镜里写的动效描述]
- 使用 [你的技术栈,如 React + Tailwind + CSS keyframes]
- 只做这一个场景,不要碰其他文件

「先分析,再写代码」这一句很重要。跳过它,Codex 会直接开写,容易写歪。

Step 4:对照原图调整

每个场景单独跑,对照原图。有偏差就说具体的:

「标注卡片出现得太早,改成主内容 fade-in 完成后再 slide-in」
「donut chart 颜色偏橙,改成 #d45d5d」

越具体,Codex 越好改。说「再好看一点」只会让它加阴影和渐变。

Step 5:浏览器预览 + 录屏

四个场景全跑通之后,浏览器直接预览,系统自带录屏。

不需要 After Effects,不需要 Premiere,不需要任何视频软件。

配个 BGM,就完成了。

核心思路

适合想做产品演示视频、工具教程视频,但没有视频制作背景的人。你不需要懂剪辑,不需要懂动效工程。

你需要的是:知道每个场景要长什么样,然后用一张图把这件事说清楚。

先确认视觉,再执行工程。把两个判断拆开,效率会更高。