AI绘画提示词入门:从零开始写出高质量的图像生成指令
2026年5月3日 · 阅读约12分钟
AI绘画工具(Midjourney、DALL-E、豆包AI、Stable Diffusion等)的核心交互方式是"提示词"(Prompt)—— 用自然语言描述你想要的画面,AI据此生成图像。但很多人发现,同样的工具, 别人能生成惊艳的作品,自己却只能得到平庸的结果。差距通常不在工具本身,而在提示词的写法上。
本文不会给你几百个现成的提示词模板(那些你可以在任何地方找到), 而是帮助你建立系统的提示词思维,让你能独立创作出高质量的描述。
提示词的结构框架
虽然不同AI工具的语法和特性有所差异,但一个完整的提示词通常包含以下几个层次。 你可以根据实际需要省略某些部分,但理解这个框架有助于你全面思考画面构成。
提示词结构公式
示例对比
来看一个从"新手级"到"进阶级"的演变过程:
❌ 模糊描述
"一只猫"
问题:AI不知道猫在做什么、在哪里、什么风格,只能随机生成最平庸的猫
⚠️ 稍有改进
"一只橘猫趴在窗台上晒太阳"
问题:有主体和动作了,但缺少风格、光线、构图信息
✅ 完整描述
"一只橘白相间的英国短毛猫,蜷缩在老式木质窗台上,午后阳光透过蕾丝窗帘洒在它身上形成斑驳光影。 背景是充满绿植的阳台,远处城市天际线隐约可见。温暖柔和的色调,类似日系胶片摄影的风格, 浅景深虚化背景,85mm镜头视角,自然温馨的氛围"
优势:主体、动作、环境、风格、光线、镜头、氛围全部涵盖,AI有充分的信息构建画面
关键词的选择技巧
1. 使用具体的视觉描述词
AI对抽象词的理解往往不如对具体视觉词的理解准确。例如:
| 模糊描述 | 具体视觉描述 |
|---|---|
| "漂亮的" | "五官精致,皮肤细腻,长发微卷" |
| "古老的" | "斑驳的砖墙,褪色的木质门窗,爬满常春藤" |
| "科幻的" | "全息投影界面,金属质感外壳,蓝紫色霓虹灯光" |
| "自然风景" | "晨雾弥漫的湖面,远处雪山倒映,金色芦苇摇曳" |
具体描述不仅能帮助AI更准确地生成画面,还能引导观者产生更丰富的视觉联想。
2. 善用风格和艺术参照
AI模型在训练时学习了大量艺术作品,因此可以直接引用艺术家名字、艺术流派或作品风格来精确控制画面气质。
- 艺术家风格:"in the style of Studio Ghibli"、"inspired by Van Gogh"、"reminiscent of Makoto Shinkai"
- 艺术流派:"impressionist painting"、"art nouveau"、"cubism"、"ukiyo-e"
- 媒介质感:"oil painting on canvas"、"watercolor illustration"、"pencil sketch"、"digital art"、"3D render"
- 时代风格:"vintage 1950s advertisement"、"cyberpunk 2077 aesthetic"、"80s retro synthwave"
注意:直接引用在世艺术家可能存在版权争议,建议组合多个风格或使用描述性词汇替代名字。 例如不用"in the style of Greg Rutkowski",而用"epic fantasy art style, highly detailed digital painting, dramatic lighting"—— 这些正是该风格的视觉特征描述。
3. 控制负面元素:负面提示词
很多时候,问题不在于你想要什么,而在于你不想要什么。AI可能生成你不期望的元素, 这时需要用负面提示词(Negative Prompt)来排除。
不同工具处理负面提示的方式不同:
- Stable Diffusion:专门的 negative prompt 输入框,直接列出不想出现的元素
- Midjourney:使用 --no 参数,如 "--no text, watermark, blurry"
- DALL-E 3 / 豆包:没有专门的负面提示机制,需要在正面描述中明确排除
常见的负面提示词包括:low quality, blurry, distorted, deformed, extra limbs, bad anatomy, watermark, text, signature, noise, grainy。根据具体场景灵活调整。
不同平台的提示词特点
Midjourney
- 自然语言理解较好,但需要结构化。Midjourney v6+对自然语言的理解已经很好, 但仍然建议把最重要的概念放在前面(前15-20个词权重最高)。
- 参数控制放在末尾。如 --ar 16:9(纵横比)、--style raw(减少默认美化)、 --s 250(风格化程度,0-1000)等。
- 多用 --no 排除不想要的元素。负面提示在 MJ 中非常有效。
- 风格关键词放在前面。"A cinematic photo of..."比"A photo of... cinematic"效果更好。
DALL-E 3
- 最擅长理解自然语言。DALL-E 3 的优势在于对复杂描述和长句子的理解能力。 你甚至可以写一段完整的场景描述,它会自动解析关键元素。
- 不太需要复杂的参数。DALL-E 3 的设计初衷就是让用户用自然语言描述, 不需要学习特殊的语法或参数。
- 中文支持最好。在所有主流AI绘画工具中,DALL-E 3 对中文提示词的理解最准确, 可以直接用中文描述。
- 默认会美化。如果你需要写实风格,需要在提示词中明确说明"photorealistic"或"raw photo"。
豆包AI
- 中文原生,日常场景效果好。豆包AI对中文的理解很好,适合生成日常、生活化的图片。 对复杂艺术风格和专业术语的理解可能不如 Midjourney 或 DALL-E 3 精确。
- 描述简洁有效。不需要写很长的英文提示词,用中文简洁描述场景和风格即可得到不错的结果。
- 生成的图片带水印。免费生成的图片会带有"豆包AI生成"水印, 如需使用可以使用去水印工具去除。
Stable Diffusion
- 最灵活但也最复杂。SD 是开源的,可以通过换模型、LoRA、ControlNet 等实现精确控制, 但学习曲线也最陡峭。
- 提示词权重可以手动调整。使用 (keyword:1.3) 增加权重,[keyword:0.8] 降低权重, 精确控制每个元素的重要性。
- 负面提示词非常重要。SD 的负面提示框是核心功能之一, 精心编写的负面提示词能显著提升画质。
进阶技巧
多轮迭代优化
AI绘画很少一次就完美。推荐的工作流:
- 第一轮:快速试错。用简洁的描述快速生成几张,看看AI对你意图的理解方向是否正确。 不要花太多时间打磨细节。
- 第二轮:基于最佳结果细化。选择最满意的一张,分析它做对了什么、少了什么, 在提示词中补充缺失的元素或调整不满意的细节。
- 第三轮:微调参数。调整风格强度、光照方向、构图比例等参数, 使画面达到最理想的状态。
- 第四轮(可选):局部修复。对于不满意的小区域,使用局部重绘(Inpainting)或图像编辑工具手动调整。
利用参考图片
很多AI工具支持上传参考图片(Image Prompt):
- Midjourney:在提示词开头添加图片URL,让AI以这张图为参考生成新内容
- DALL-E 3:上传图片后可以用文字描述修改要求
- Stable Diffusion:使用 img2img 功能,基于已有图片重新生成或局部修改
参考图功能特别适合"我想要类似这张图片的效果,但是改变某些元素"的场景。 比如上传一张你喜欢的构图,但要求AI把主体换成另一个对象。
常见问题与解决方法
问题:生成的图像和描述不符
可能是描述过于抽象或包含AI难以理解的词汇。尝试用更具体的视觉描述替换抽象词, 或者把最重要的概念放在提示词前面(大多数工具对前面的词权重更高)。
问题:画面元素被忽略或变形
提示词太长时,后面的内容可能被模型忽略。尝试缩短描述,只保留最重要的元素, 或者重复关键概念。对于 Stable Diffusion,可以用权重调整确保重要元素不被忽略。
问题:画风不稳定
在提示词中明确指定艺术风格关键词,如 "oil painting style"、"digital illustration"、 "photorealistic 3D render"。同时可以在负面提示中排除不想要的风格。
练习建议
提示词写作是一项技能,需要通过实践来提升。建议的入门练习:
- 描述身边的事物。拿起手机,描述你面前的场景——不拍照,只用文字。 尽量包含主体、环境、光线、风格、构图等信息。然后输入AI工具看结果, 对比实际场景和生成结果,思考描述中遗漏了什么。
- 分析优秀的AI作品。在 Midjourney 社区或其他平台找到你喜欢的AI生成图像, 尝试"逆向工程"——分析这张图的构成元素,然后自己写一段描述来重现它。
- 逐步增加复杂度。从简单的 "a cat" 开始,每次添加一个元素(品种、动作、环境、光线、风格), 观察每次添加如何改变结果。
生成了带水印的AI图片?一键去除
免费去水印 →