Google AI 发布了 Gemini Omni 视频生成模型的官方提示工程指南。这不是一份泛泛而谈的技术文档,而是五个可以直接复制到提示框里的实操技巧。
1. 利用真实世界知识
Gemini Omni 内置了 Gemini 对历史、科学和文化的深度理解。你不需要在提示词里过度解释世界如何运转,直接使用文化符号、历史时期或科学术语即可。
示例提示:
- "宇航员的火星第一人称视角"
- "弹珠在连锁反应轨道上快速滚动,连续平滑镜头"
关键洞察:跳过颗粒化描述,用文化锚点直接触发模型的知识库。
2. 控制文本渲染
Omni 不仅能生成文字,还能将文本无缝融入视觉。你可以指定字体、空间位置、动画样式,甚至复杂的视觉效果如双重曝光。
示例提示:
- "逐字显示,每次屏幕上一个词:did, you, know... 每个词以不同动画样式出现,节奏完美匹配音乐节拍"
- "在视频物理环境上叠加运动跟踪的极简文字评论,代表主体的内心独白"
3. 像导演一样思考
Gemini Omni 对精确的摄影指导、相机类型和构图指令响应极佳。将以下术语整合进你的提示:
镜头与角度: "一镜到底"、"oner"、"静态"、"固定角度" 相机运动: "推近"、"pan left"、"dolly zoom" 相机风格: "自然手机变焦"、"复古胶片相机"、"颗粒感网络摄像头风格"
4. 迭代编辑(保留有效部分)
不需要从零重写整个提示来修复单个错误。Omni 支持针对性的局部更新,同时保留视频的核心结构。
示例:
- "把小提琴移到新环境"
- "让小提琴隐形"
- "改变相机角度,从提琴手肩膀上方拍摄"
5. 实时修改动作
你可以直接提示 Omni 修改场景中角色的移动方式或情绪,而不会破坏角色模型的连续性。
示例:
- "让角色踮脚走路"
- "加快节奏"
- "让他们跳到空中"
Google 将 Gemini Omni Flash 部署到了 Gemini App、Gemini API、Vertex AI 和 YouTube Shorts / Create 平台。这意味着视频生成正在从"玩具"走向"基础设施"——创作者可以在自己已有的工作流里直接调用,而不是跳转到专门的 AI 视频工具。