外包一个几十秒的产品视频要上万块,但可以不打开任何剪辑软件,只用代码跑出来。
工作流的关键:先用 GPT-Image-2 把每个场景的视觉预演图出好,再把图交给 Codex 复刻成代码。
为什么要先出图
用 Codex 写界面,没有图,就像让人画画但不告诉他画什么:能动笔,但结果全靠运气。
做视频也一样。「深色调、有科技感、简洁大气」AI 能理解这些词,但落到实际画面,十次有七次不是你想要的。
所以,结合生图软件,先生成一张预览图,AI 就有了可视化的参考,而且比起文字也更直观。
从「帮我做一个有科技感的场景」,变成「按照这张图的布局、颜色、层级,复刻成动画」。
视觉目标从模糊变成可执行。这一步,是整个工作流能跑通的原因。
Step 1:写分镜文档
每个场景确认四件事:
- 画面里有什么(元素、位置、数字)
- 情绪基调(紧张感、讽刺感、转折感)
- 需要出现哪些文字和标注卡
- 动效的出现顺序
不需要任何工具,写文档就行。几个场景,就写几份分镜描述,这是之后所有东西的地基。
Step 2:每个场景出一张图
每个场景写一份图片 Prompt,格式如下:
A [界面类型] in 16:9 landscape format, [色调].
[主要元素,精确到位置、层级、数字、颜色]
Floating annotation card · [位置] · semi-transparent dark background
+ white border · large: "[主标注]" / small: "[副标注]"
Overall tone: [情绪基调,如 clinical and quietly wasteful]
实际示例(数据看板场景):
A clean dark analytics dashboard in 16:9 landscape format.
Left: large donut chart, 68% muted red "Answered in docs", 32% dark gray.
Right: "4.2 hrs" in large white text,
label "avg. weekly support time per user · same questions".
Minimal grid lines, no decorative elements.
Floating annotation card lower-right · semi-transparent dark background
+ white border · large: "68%" / small: "of tickets · already in the docs".
Overall tone: clinical and quietly wasteful.
每张图只问一件事:这个视觉方向对不对?对了才进下一步。
不同场景类型的 Prompt 调整
人物插图型(透明背景,叠在代码 UI 上方):
A [halftone / editorial illustration] character, [posture/expression].
Warm color palette: ivory, soft purple, warm white. Transparent background preferred.
No background objects, no text, no UI elements. Minimum 1024px tall.
Style: product editorial illustration, not photo-realistic.
Avoid: dark tones, heavy shadows, corporate clipart.
背景纹理型(铺在 UI 下层用):
A 16:9 paper grain background texture, [warm ivory / cool white].
Extremely subtle — this will be covered by UI layers above it.
No patterns, no icons, no text, no focal point.
1920×1080. Zero distracting elements.
原则:纹理和插图用生图解决,文字、数字、布局、动效全在代码里重建。各司其职。
Step 3:图传给 Codex,分层实现
给图之前,先把场景拆成两层:
- 代码层:文字、数字、卡片、气泡、按钮、所有动效——全在代码里重建,不依赖图片
- 图片层:背景纹理、人物插图——作为静态资源 import 进来,代码不负责生成
这层分工要写进 Codex 的 prompt 里:
严格按照我上传的这张预览图,复刻成一个 React 动画场景。
先不要写代码,先做三件事:
1. 分析图片的布局结构和视觉层级
2. 列出需要哪些主要组件
3. 确认动效执行顺序
然后:
- 先实现静态布局,还原颜色、字号、间距、圆角
- 再按以下动效顺序加入动画:[你在分镜里写的动效描述]
- 使用 [你的技术栈,如 React + Tailwind + CSS keyframes]
- 只做这一个场景,不要碰其他文件
「先分析,再写代码」这一句很重要。跳过它,Codex 会直接开写,容易写歪。
Step 4:对照原图调整
每个场景单独跑,对照原图。有偏差就说具体的:
「标注卡片出现得太早,改成主内容 fade-in 完成后再 slide-in」
「donut chart 颜色偏橙,改成 #d45d5d」
越具体,Codex 越好改。说「再好看一点」只会让它加阴影和渐变。
Step 5:浏览器预览 + 录屏
四个场景全跑通之后,浏览器直接预览,系统自带录屏。
不需要 After Effects,不需要 Premiere,不需要任何视频软件。
配个 BGM,就完成了。
核心思路
适合想做产品演示视频、工具教程视频,但没有视频制作背景的人。你不需要懂剪辑,不需要懂动效工程。
你需要的是:知道每个场景要长什么样,然后用一张图把这件事说清楚。
先确认视觉,再执行工程。把两个判断拆开,效率会更高。