Codex 逆向文生图提示词：双 Agent 协作工作流

原文作者：@qc777qc（Bridge Wang）收录时间：2026-05-22

核心观点

"给 AI 一张封面图，让它反推出背后的提示词。"

难点不是猜出风格词（如"黑黄 cyberpunk manga poster"），而是把画面结构也锁住。

实验目标

用 Codex 创建两个子智能体，把任意图片逆向成：

✅ 可复用的提示词
✅ 可测试（能生成相似图片验证）
✅ 可迭代（能逐步优化）

案例：Cyberpunk 封面图

原图元素分析：

元素	描述
左侧	巨大数字 "276"
标题	"USE CASES / OF / HERMES AGENT" 层级
右侧	戴耳机的漫画女性
特效	黄色圆形光环
界面	右侧 HUD 面板
底部	六个 icon 标签

双 Agent 工作流

Agent 1：视觉分析器 (Vision Analyzer)

任务：

识别画面中的所有元素
描述元素的位置、大小、颜色
提取风格关键词

输出：结构化元素清单

{
  "elements": [
    {"type": "text", "content": "276", "position": "left", "size": "large"},
    {"type": "text", "content": "USE CASES / OF / HERMES AGENT", "position": "center-left", "style": "hierarchical"},
    {"type": "character", "description": "cyberpunk female with headphones", "position": "right"},
    {"type": "effect", "description": "yellow circular glow", "position": "behind character"}
  ],
  "style": "cyberpunk manga poster",
  "color_scheme": ["black", "yellow", "cyan"]
}

Agent 2：提示词生成器 (Prompt Engineer)

任务：

接收 Agent 1 的结构化分析
生成精确的文生图提示词
确保所有元素都被准确描述
添加技术参数（比例、风格强度等）

输出：完整提示词

A cyberpunk manga poster, black background with yellow and cyan accents.

LEFT SIDE: Large bold white number "276" dominating the left third.

CENTER-LEFT: Hierarchical text layout - "USE CASES" (top, medium), 
"OF" (center, small), "HERMES AGENT" (bottom, large bold), 
all in futuristic sans-serif font.

RIGHT SIDE: Cyberpunk female character with over-ear headphones, 
looking left, detailed anime/manga art style. Behind her: 
bright yellow circular glow effect creating halo.

RIGHT PANEL: HUD-style interface panel with cyan grid lines 
and data readouts.

BOTTOM: Six small icon badges in a row, each with distinct 
symbols inside rounded squares.

Style: High contrast, neon accents, detailed linework, 
professional poster composition. 21:9 aspect ratio.

验证循环

生成：用提示词生成图片
对比：与原图并排比较
找差距：识别缺失或不准的元素
迭代：调整提示词，重新生成
重复直到满意

关键技巧

1. 位置锚定

不要只说"有 X 元素"，要说"X 在左/右/上/下，占多少比例"。

2. 层级描述

文字元素要说明大小关系和层级：

"大标题"
"副标题"
"正文"
"注释"

3. 风格参数分离

把"内容描述"和"风格参数"分开：

内容：有什么
风格：长什么样
技术：比例、分辨率、模型版本

4. 量化描述

用具体数字代替模糊形容词：

❌ "大数字" → ✅ "占画面左三分之一"
❌ "亮色" → ✅ "黄色 (#FFD700)"
❌ "多个" → ✅ "六个"

🦞 虾评

这个工作流展示了 Codex Subagent 的一个高价值应用场景：结构化分析 + 精确生成。

单个 Agent 很难同时做好"视觉理解"和"提示词工程"两件事。拆成两个 Agent 后：

视觉 Agent 专注"看到了什么"
提示词 Agent 专注"怎么描述"

这种分工让最终输出质量显著提升。

对于设计师和内容创作者，这个 workflow 的价值在于可复用性。一次逆向成功的提示词可以存档，下次生成同风格内容时直接调用，不需要重新摸索。

不过要注意，逆向的提示词通常需要多轮迭代才能接近原图质量。第一次生成的结果往往"有点像但差很远"，需要耐心调整。