AI绘画提示词入门：从零开始写出高质量的图像生成指令

AI绘画工具（Midjourney、DALL-E、豆包AI、Stable Diffusion等）的核心交互方式是"提示词"（Prompt）—— 用自然语言描述你想要的画面，AI据此生成图像。但很多人发现，同样的工具，别人能生成惊艳的作品，自己却只能得到平庸的结果。差距通常不在工具本身，而在提示词的写法上。

本文不会给你几百个现成的提示词模板（那些你可以在任何地方找到），而是帮助你建立系统的提示词思维，让你能独立创作出高质量的描述。

提示词的结构框架

虽然不同AI工具的语法和特性有所差异，但一个完整的提示词通常包含以下几个层次。你可以根据实际需要省略某些部分，但理解这个框架有助于你全面思考画面构成。

提示词结构公式

[主体]画面的核心对象是什么？一个人、一座建筑、一只动物？

[动作/状态]主体在做什么？处于什么状态？

[环境]主体在哪里？室内还是室外？什么天气？什么时间段？

[风格]画面应该是什么艺术风格？写实、卡通、油画、赛博朋克？

[光线]光源方向和性质？自然光、霓虹灯、烛光？

[构图/镜头]视角和构图方式？特写、广角、鸟瞰、对称构图？

[质量/参数]分辨率要求？渲染质量？特定平台参数？

示例对比

来看一个从"新手级"到"进阶级"的演变过程：

❌ 模糊描述

"一只猫"

问题：AI不知道猫在做什么、在哪里、什么风格，只能随机生成最平庸的猫

⚠️ 稍有改进

"一只橘猫趴在窗台上晒太阳"

问题：有主体和动作了，但缺少风格、光线、构图信息

✅ 完整描述

"一只橘白相间的英国短毛猫，蜷缩在老式木质窗台上，午后阳光透过蕾丝窗帘洒在它身上形成斑驳光影。背景是充满绿植的阳台，远处城市天际线隐约可见。温暖柔和的色调，类似日系胶片摄影的风格，浅景深虚化背景，85mm镜头视角，自然温馨的氛围"

优势：主体、动作、环境、风格、光线、镜头、氛围全部涵盖，AI有充分的信息构建画面

关键词的选择技巧

1. 使用具体的视觉描述词

AI对抽象词的理解往往不如对具体视觉词的理解准确。例如：

模糊描述	具体视觉描述
"漂亮的"	"五官精致，皮肤细腻，长发微卷"
"古老的"	"斑驳的砖墙，褪色的木质门窗，爬满常春藤"
"科幻的"	"全息投影界面，金属质感外壳，蓝紫色霓虹灯光"
"自然风景"	"晨雾弥漫的湖面，远处雪山倒映，金色芦苇摇曳"

具体描述不仅能帮助AI更准确地生成画面，还能引导观者产生更丰富的视觉联想。

2. 善用风格和艺术参照

AI模型在训练时学习了大量艺术作品，因此可以直接引用艺术家名字、艺术流派或作品风格来精确控制画面气质。

艺术家风格："in the style of Studio Ghibli"、"inspired by Van Gogh"、"reminiscent of Makoto Shinkai"
艺术流派："impressionist painting"、"art nouveau"、"cubism"、"ukiyo-e"
媒介质感："oil painting on canvas"、"watercolor illustration"、"pencil sketch"、"digital art"、"3D render"
时代风格："vintage 1950s advertisement"、"cyberpunk 2077 aesthetic"、"80s retro synthwave"

注意：直接引用在世艺术家可能存在版权争议，建议组合多个风格或使用描述性词汇替代名字。例如不用"in the style of Greg Rutkowski"，而用"epic fantasy art style, highly detailed digital painting, dramatic lighting"—— 这些正是该风格的视觉特征描述。

3. 控制负面元素：负面提示词

很多时候，问题不在于你想要什么，而在于你不想要什么。AI可能生成你不期望的元素，这时需要用负面提示词（Negative Prompt）来排除。

不同工具处理负面提示的方式不同：

Stable Diffusion：专门的 negative prompt 输入框，直接列出不想出现的元素
Midjourney：使用 --no 参数，如 "--no text, watermark, blurry"
DALL-E 3 / 豆包：没有专门的负面提示机制，需要在正面描述中明确排除

常见的负面提示词包括：low quality, blurry, distorted, deformed, extra limbs, bad anatomy, watermark, text, signature, noise, grainy。根据具体场景灵活调整。

不同平台的提示词特点

Midjourney

自然语言理解较好，但需要结构化。Midjourney v6+对自然语言的理解已经很好，但仍然建议把最重要的概念放在前面（前15-20个词权重最高）。
参数控制放在末尾。如 --ar 16:9（纵横比）、--style raw（减少默认美化）、 --s 250（风格化程度，0-1000）等。
多用 --no 排除不想要的元素。负面提示在 MJ 中非常有效。
风格关键词放在前面。"A cinematic photo of..."比"A photo of... cinematic"效果更好。

DALL-E 3

最擅长理解自然语言。DALL-E 3 的优势在于对复杂描述和长句子的理解能力。你甚至可以写一段完整的场景描述，它会自动解析关键元素。
不太需要复杂的参数。DALL-E 3 的设计初衷就是让用户用自然语言描述，不需要学习特殊的语法或参数。
中文支持最好。在所有主流AI绘画工具中，DALL-E 3 对中文提示词的理解最准确，可以直接用中文描述。
默认会美化。如果你需要写实风格，需要在提示词中明确说明"photorealistic"或"raw photo"。

豆包AI

中文原生，日常场景效果好。豆包AI对中文的理解很好，适合生成日常、生活化的图片。对复杂艺术风格和专业术语的理解可能不如 Midjourney 或 DALL-E 3 精确。
描述简洁有效。不需要写很长的英文提示词，用中文简洁描述场景和风格即可得到不错的结果。
生成的图片带水印。免费生成的图片会带有"豆包AI生成"水印，如需使用可以使用去水印工具去除。

Stable Diffusion

最灵活但也最复杂。SD 是开源的，可以通过换模型、LoRA、ControlNet 等实现精确控制，但学习曲线也最陡峭。
提示词权重可以手动调整。使用 (keyword:1.3) 增加权重，[keyword:0.8] 降低权重，精确控制每个元素的重要性。
负面提示词非常重要。SD 的负面提示框是核心功能之一，精心编写的负面提示词能显著提升画质。

进阶技巧

多轮迭代优化

AI绘画很少一次就完美。推荐的工作流：

第一轮：快速试错。用简洁的描述快速生成几张，看看AI对你意图的理解方向是否正确。不要花太多时间打磨细节。
第二轮：基于最佳结果细化。选择最满意的一张，分析它做对了什么、少了什么，在提示词中补充缺失的元素或调整不满意的细节。
第三轮：微调参数。调整风格强度、光照方向、构图比例等参数，使画面达到最理想的状态。
第四轮（可选）：局部修复。对于不满意的小区域，使用局部重绘（Inpainting）或图像编辑工具手动调整。

利用参考图片

很多AI工具支持上传参考图片（Image Prompt）：

Midjourney：在提示词开头添加图片URL，让AI以这张图为参考生成新内容
DALL-E 3：上传图片后可以用文字描述修改要求
Stable Diffusion：使用 img2img 功能，基于已有图片重新生成或局部修改

参考图功能特别适合"我想要类似这张图片的效果，但是改变某些元素"的场景。比如上传一张你喜欢的构图，但要求AI把主体换成另一个对象。

常见问题与解决方法

问题：生成的图像和描述不符

可能是描述过于抽象或包含AI难以理解的词汇。尝试用更具体的视觉描述替换抽象词，或者把最重要的概念放在提示词前面（大多数工具对前面的词权重更高）。

问题：画面元素被忽略或变形

提示词太长时，后面的内容可能被模型忽略。尝试缩短描述，只保留最重要的元素，或者重复关键概念。对于 Stable Diffusion，可以用权重调整确保重要元素不被忽略。

问题：画风不稳定

在提示词中明确指定艺术风格关键词，如 "oil painting style"、"digital illustration"、 "photorealistic 3D render"。同时可以在负面提示中排除不想要的风格。

练习建议

提示词写作是一项技能，需要通过实践来提升。建议的入门练习：

描述身边的事物。拿起手机，描述你面前的场景——不拍照，只用文字。尽量包含主体、环境、光线、风格、构图等信息。然后输入AI工具看结果，对比实际场景和生成结果，思考描述中遗漏了什么。
分析优秀的AI作品。在 Midjourney 社区或其他平台找到你喜欢的AI生成图像，尝试"逆向工程"——分析这张图的构成元素，然后自己写一段描述来重现它。
逐步增加复杂度。从简单的 "a cat" 开始，每次添加一个元素（品种、动作、环境、光线、风格），观察每次添加如何改变结果。

生成了带水印的AI图片？一键去除

免费去水印 →