最近在整理一套更稳定的 AI 出图协作方式时,我越来越明显地感受到一个问题:很多时候,用户不是不会写 prompt,而是不知道该先补哪几个信息。于是对话常常会变成两种极端,要么只有一句很短的需求,比如“日出”“做一张海报”;要么为了追求效果,堆满一串风格词、质量词、镜头词,最后 prompt 很长,但可控性并没有真正变强。
image-prompt-workflow 这个 skill,就是为了解决这个问题做的。它不把“提示词写长”当成目标,而是把“把关键维度问清楚、补完整、整理成可复用的 prompt package”当成目标。简单说,它想做的不是帮你多写一点词,而是帮你少走很多无效迭代。
skill 地址:
https://github.com/Y2138/zz-agent-plugins/blob/main/media-prompt/skills/image-prompt/SKILL.md
先说背景:为什么还需要一个 image prompt workflow
如果你经常做 AI 出图,大概率会遇到这些场景:
- 用户给的信息很少,只说“做个海报”“来一张壁纸”“想要电影感”
- 需求其实不模糊,但缺少关键控制项,比如用途、比例、风格方向、构图、氛围
- 一上来就输出完整 prompt,结果第一轮图偏得很远,后面只能靠反复返工修
- 不同模型对负向提示词、自然语言、关键词堆叠的偏好并不完全一样,通用写法很容易失真
我做这个 skill 的出发点,是把“提问”和“成稿”之间的关系理顺。真正影响出图结果的,往往不是多加几个华丽形容词,而是有没有先确认这些高影响变量: - 主体是什么
- 场景在哪里
- 想要什么风格
- 构图是远景、中景还是特写
- 光线和情绪是什么
- 最终是拿去做壁纸、海报还是社媒配图
- 比例、方向和限制项是什么
当这些信息没被确认时,prompt 再长也可能只是“更长的不确定性”。
这个 skill 的作用,不是代写,而是把出图过程变得可控
image-prompt-workflow 的核心作用,我会概括成四件事。
第一,它会先判断当前请求属于哪一类任务。是从零开始的 text-to-image,还是用户已经有了一版 prompt 需要优化,或者是给定参考图反推可复用描述。不同入口,后面的提问方式和交付形式会完全不一样。
第二,它不会一次性甩出一大串问卷,而是优先追问“最影响结果的缺口”。比如一个非常短的需求,它通常会先问用途和风格,因为这两个维度往往最先决定构图、比例和表达方向。这样做的好处是,对话成本低,但信息增益很高。
第三,它会把最终输出整理成标准化的 prompt package,而不是只给一段散乱提示词。最后交付里会包含:
- 一句话目标
- 最终提示词
- 负向限制或规避项
- 参数建议
- 假设说明
这让它不仅适合“当场出图”,也适合团队复用、交接、二次修改。
第四,它把“自然语言、结构化表达、模型兼容性”放在一起考虑。这个 skill 背后的研究结论很明确:高质量 prompt 的关键不只是变长,而是结构清楚;相比噪声很多的关键词堆叠,连贯、具体、自然的描述通常更稳;而负向提示词也不是永远越多越好,要结合模型支持程度来决定是给Negative Prompt,还是给更通用的Avoid约束。
它是怎么使用的
这个 skill 的上手方式其实很轻。用户可以只给一个极短的输入,比如:
日出
或者:
做一张护肤品海报,偏高级感
甚至也可以是:
帮我把这张参考图整理成可复用提示词
收到请求后,它会先做一个最小工作流:
- 判断任务类型:从零生成、优化现有 prompt,还是从参考图反推描述。
- 检查关键信息是否足够:主体、场景、风格、构图、光线/情绪、用途、比例、限制项这些维度清不清楚。
- 如果不够清楚,只问当前最值得补的一两个问题,而不是一次问满。
- 在信息达到可控阈值之后,再输出完整 prompt package。
这里我很喜欢它的一点是,它不是死板地“必须把每个字段都问完”。它内部有一个 final checklist,会先判断当前清晰字段是否已经够用。如果大部分关键维度已经明确,就直接进入最终整理;如果还差关键字段,比如壁纸场景却没有比例、海报需求却没确认要不要文字,它才继续追问。这个节奏对真实使用非常重要,因为它能避免“问得太多”和“问得不够”两种常见问题。
如果用户回答“你定”,这个 skill 也不会卡住,而是会按更稳妥的默认方向往下走,并把默认值明确写进假设里。换句话说,它既支持高控制度,也支持快速代决策。
使用前后,差别到底在哪
我觉得这个 skill 最适合拿“使用前后对比”来理解。
使用前
常见流程是这样的:
- 用户给一句模糊需求
- 我们凭经验脑补一大段 prompt
- 第一轮出图不对
- 再根据结果猜测到底是主体错了、风格错了、构图错了,还是用途根本没对齐
- 一轮轮返工
这个过程中,最大的问题不是“不会写”,而是信息收集顺序不对。很多返工,本质上都来自前面没把高影响问题问清楚。
使用后
流程会变成:
- 先识别任务类型
- 再补齐最关键的控制维度
- 用自然语言把视觉目标整理成一段连贯 prompt
- 同时给出负向限制、参数建议和假设
结果上会有几个很明显的变化: - 第一轮命中率更高,因为 prompt 不再建立在含糊前提上
- 用户更容易继续修改,因为 package 是结构化的,不是一坨难以下手的长串词
- 团队协作更顺畅,因为别人能看懂这个 prompt 是怎么得来的
- skill 的行为更稳定,因为它不是靠“灵感发挥”,而是靠固定的检查维度推进
如果用一句话概括,我会说:使用前是在“猜用户想要什么”;使用后是在“把用户真正想要的画面逐步收敛出来”。
示例
过程:
结果:
我觉得它适合谁
image-prompt-workflow 特别适合这几类场景:
- 经常接收模糊出图需求的人
- 想把 prompt 从“经验活”变成“可交付流程”的团队
- 需要在多轮沟通里快速收敛视觉方向的 AI 设计工作流
- 想把参考图分析、prompt 优化、从零生图统一到一个入口的人
它未必是为了让每次 prompt 都变得“更华丽”,而是为了让每次交付都更稳定、更清楚、更容易复用。
最后
做这个 skill 之后,我最大的感受是:很多人以为 prompt workflow 的价值在“帮你生成更专业的文字”,但其实真正的价值在于“帮你更早发现哪些信息缺失,会直接决定结果质量”。
image-prompt-workflow 的重点,从来不是把一句短需求包装得很复杂,而是把影响结果的关键变量尽早找出来,再把它们整理成一份可直接执行、可继续迭代、也可给他人接手的 prompt package。
如果你也在做 AI 出图协作,尤其是经常接到“就帮我做一张有感觉的图”这种需求,我会很推荐把这类 workflow 加进自己的 skill 体系里。它带来的不只是 prompt 质量提升,更是整个沟通和收敛过程的提效。



