# GPT Image 2 Workflows Skill 测试报告

## 目的

验证新建 skill `gpt-image-2-workflows` 是否能把用户的简短视觉需求转成更适合 GPT Image 2 的商业级提示词，并对比“原始描述直接生成”和“Skill 优化描述生成”的画面差异。

## Skill 位置

`/root/hermes-data/skills/media/gpt-image-2-workflows/SKILL.md`

## 测试方法

- 生成模型：media-gen GPT provider，模型通道 `gpt-image-2`
- 对比方式：每个测试用例生成两张图
  - 原始描述：用户几句话直接交给 media-gen
  - 优化描述：按 `gpt-image-2-workflows` 原则改写后交给 media-gen
- 评估维度：
  - 指令遵循
  - 商业完成度
  - 构图/留白/可用性
  - 文字准确性（如适用）
  - 输出稳定性

## 测试用例

### 1. 护肤品电商广告图

原始描述：

> 生成一张高端护肤精华的广告图，适合电商首页。

优化策略：

- 明确用途：电商 landing page hero image
- 明确主体：一瓶磨砂玻璃精华瓶
- 明确场景：暖米色摄影棚、柔和晨光
- 明确构图：横版 hero banner，保留后期文字空间
- 明确约束：无文字、无 logo、无人物、无多余瓶子

观察结论：

- 原始描述生成效果已经很强，但模型自行添加了大量广告文案、卖点和品牌元素。
- 优化描述更可控，生成了无文字、留白充分、适合作为品牌可复用底图的商业摄影图。
- 如果目标是“完整广告海报”，原始描述反而更自动化；如果目标是“可控品牌素材”，优化描述更好。

### 2. 小红书发型封面

原始描述：

> 做一张小红书封面，主题是普通女生如何找到适合自己的发型。

优化策略：

- 明确平台：小红书移动端封面
- 明确标题和副标题
- 明确视觉结构：中心人物 + 发型对比卡片
- 明确色彩：粉色、奶油色、生活方式风格
- 明确文字约束：不加额外文字，不乱码

观察结论：

- 原始描述生成了非常成熟的小红书风格封面，自动补充了内容结构。
- 优化描述更接近指定标题和版式，但有轻微 AI 手部痕迹。
- 对于社媒封面，优化 prompt 的价值主要在“标题、平台、构图、色彩的一致性”，而不是绝对画质提升。

### 3. AI 入门信息图

原始描述：

> 做一张关于如何开始学习 AI 的信息图。

第一次直接生成时，模型返回了文字描述而不是图片；补充“请直接生成图片”后成功。

优化策略：

- 明确正方形信息图
- 明确 2x2 结构
- 明确标题和四个栏目文字
- 限制文字数量，减少密集文本风险
- 明确现代教育风格和可读性

观察结论：

- 原始描述生成的信息图内容更丰富，包含 6 步路线和更多技术名词。
- 优化描述生成的信息图更简洁、文字完全可控，更适合课程封面/社媒收藏图。
- 此处 skill 的明显价值是降低信息图文字失控风险，让输出更像可复用模板。

### 4. 餐饮菜单牛肉面图片

原始描述：

> 生成一张适合餐厅菜单的牛肉面图片，看起来好吃。

优化策略：

- 明确菜单 hero photo
- 明确具体食材：牛肉片、葱花、香菜、辣椒油、手擀面
- 明确摄影角度：三分之四俯拍、横版菜单 banner
- 明确留白：一侧可放菜单文字
- 明确约束：无文字、无手、无多余菜品

观察结论：

- 原始描述生成了完整餐饮海报，带“牛肉面”等文字，非常适合直接营销。
- 优化描述生成了无文字、高质感、左侧留白的菜单摄影图，更适合作为可后期排版素材。
- 这个用例说明：优化 prompt 并不一定让画面更“热闹”，而是让输出更符合生产工作流。

## 总体结论

`gpt-image-2-workflows` 的主要价值不是让 GPT Image 2 “画得更漂亮”，因为 GPT Image 2 对简单描述本身就有很强自动补全能力。它真正提升的是：

1. **可控性**：指定是否要文字、是否留白、是否保持品牌/商品/人物元素。
2. **商业可复用性**：优化后的图更像生产素材，而不是一次性自动海报。
3. **模板化能力**：同类需求可以稳定输出同类结构。
4. **后期友好度**：明确留白、无额外文字、无乱加元素。
5. **产品化适配**：适合做“用户输入一句话 → 后台路由模板 → 输出可控图像”的 SaaS 流程。

## 重要发现

- GPT Image 2 对原始短 prompt 已经很强，甚至会主动生成完整海报、广告文案和结构。
- 但这种自动补全有时会违反生产需求，例如：用户只想要底图，它却加了品牌、文案、数据、图标。
- Skill 优化后的 prompt 更适合商业工作流，因为它会显式声明用途、构图、文字策略和约束。
- 对“文字图/信息图”，优化 prompt 的收益更明显：文字更少、更准、结构更稳定。
- 对“餐饮/电商海报”，原始 prompt 容易生成成品海报，优化 prompt 更容易生成可编辑素材。

## 建议下一步

1. 增加 image-edit 测试：发型试戴、换装、家装改造、商品背景替换。
2. 加入自动 vision 质检：生成后检查文字、主体、构图、AI 痕迹。
3. 为每个商业场景沉淀更细的模板变量。
4. 把测试案例加入 skill 的 reference 文件，方便未来回归测试。