Stable Diffusion安装教程(2026年最新):全平台部署方案、生成速度实测与ComfyUI配置指南
引子:2026年的 Stable Diffusion 生态已经完全不同了
如果你在2023年接触过 Stable Diffusion(以下简称SD),当时的体验大概率是:下载秋叶整合包、安装一堆依赖、调半天参数,最后生成一张勉强能看的人像。但2026年的情况已经发生了根本变化——SD 生态从模型质量、工作流工具到部署方式,都经历了两代以上的迭代。
Stability AI 在2024年发布了 Stable Diffusion 3(SD3)系列,2025年推出 SD3.5 和 SD4,同时 FLUX.1 生态(由 Black Forest Labs 团队打造)也迅速崛起,成为开源图像生成领域与 SD 并行的主力线路。两个生态共享相同的底层工具链——ComfyUI 已经取代 Automatic1111 WebUI 成为事实标准,模型格式从传统的 .ckpt / .safetensors 演进到支持更高效的量化格式如 GGUF、FP8 和 NF4。
更重要的是,部署方式变了。2023年你需要一张12GB显存的 NVIDIA 显卡才能勉强跑起来;2026年,你在 MacBook M3 上用 ComfyUI + GGUF 量化模型就能实现实时预览,在云平台上用 A100 40GB 一键部署整套工作流也只需几分钟。
本教程将从零开始,覆盖 Windows、macOS、Linux 三大平台,提供五种安装方案(一键包、手动安装、macOS 原生、Linux 部署、云端 GPU),并附带2026年最新的生成速度实测数据和安装后必做的优化配置。
2026年为什么还要本地安装 Stable Diffusion
在 Midjourney、DALL·E 3、Ideogram 等在线服务越来越成熟的背景下,本地部署 SD 的价值不在于”更简单”,而在于完全可控和成本更低。以下是本地部署与在线服务的核心对比:
| 对比维度 | 本地 Stable Diffusion | 在线服务(Midjourney / DALL·E) |
|---|---|---|
| 单张生成成本 | 约 ¥0.01-0.05(电费) | ¥0.8-2.0 / 张 |
| 月生成1000张成本 | ¥10-50(电费 + 硬件折旧) | ¥800-2000 |
| 模型选择 | 无限(Civitai 10万+模型) | 有限(官方限定) |
| 工作流自动化 | 完整支持(ComfyUI 节点链) | 基本不支持 |
| 隐私性 | 完全本地,数据不出机器 | 上传云端,受服务条款约束 |
| 商用授权 | 多数开源模型可商用 | 需单独购买商用许可 |
| 定制训练(LoRA/微调) | 完全支持 | 不支持或受限 |
| 批量生成速度 | 取决于硬件,可达 10-30 张/分钟 | 约 1-5 张/分钟(受排队限制) |
如果你每月生成量超过500张,或者有商用需求、隐私需求、工作流自动化需求,本地部署的 ROI 非常明确。如果你想先了解在线 AI 图像工具的选择,可以参考我们的2026年Midjourney国内使用全指南,它详细对比了主流在线服务的使用方式。
安装前的硬件要求与显卡选择
显存(VRAM)是决定 SD 生成体验的关键参数。2026年的主流模型对显存的要求因模型架构和量化方式不同而有较大差异:
显卡显存与模型适配表
| 显存容量 | 推荐显卡 | 可运行模型 | 典型生成速度(1024×1024) | 体验评价 |
|---|---|---|---|---|
| 4GB | RTX 3050 / GTX 1650 | SD 1.5 + 量化FLUX(GGUF Q4) | 8-15秒/步,约60-90秒/张 | 勉强可用,受限较大 |
| 6GB | RTX 2060 / RTX 4050 | SD 1.5 / SDXL / 量化SD3.5 | 5-10秒/步,约40-60秒/张 | 入门级体验 |
| 8GB | RTX 3060 / RTX 4060 / RTX 3070 | SDXL / SD3.5 Medium / 量化FLUX.1 | 3-7秒/步,约25-45秒/张 | 主流推荐,性价比最高 |
| 12GB | RTX 3060 12GB / RTX 4070 | SD3.5 Large / FLUX.1-dev(FP16) | 2-5秒/步,约15-30秒/张 | 流畅体验 |
| 16GB | RTX 4080 / RTX 5060 Ti | 所有主流模型 + LoRA | 1.5-3秒/步,约10-20秒/张 | 专业级体验 |
| 24GB+ | RTX 4090 / RTX 5090 | 所有模型 + 并行批量 + 视频生成 | 0.8-2秒/步,约5-12秒/张 | 顶级体验 |
其他硬件建议
- 内存(RAM):最低 16GB,推荐 32GB。运行 SD3.5/FLUX 等大模型时,系统内存不足会导致频繁使用硬盘交换空间,速度骤降。
- 存储:SSD 必须。模型文件单个可达 2-12GB,HDD 读取速度会严重拖慢模型加载。建议预留 100GB+ 可用空间。
- CPU:对 NVIDIA 方案影响较小(主要依赖 GPU),但对 macOS Metal 方案和 CPU 量化方案影响显著。
- 电源:RTX 4090 需 850W+,RTX 4080 需 750W+,请确认电源额定功率。
方案一:Windows 一键安装(秋叶整合包)
秋叶(Aki)整合包是国内 SD 用户最常用的入门方案,2026年版本已经内置 ComfyUI 和 WebUI 双界面,预装常用插件,适合不想折腾环境的用户。
适用人群
Windows 用户、零基础入门、只想快速体验 SD 生成效果。
前置条件
- Windows 10 / 11 64位
- NVIDIA 显卡(6GB+ 显存推荐)
- 100GB+ 可用磁盘空间(SSD)
安装步骤
- 下载整合包:访问秋叶的 GitHub 仓库(github.com/Akegarasu/lora-scripts 或 B站主页),下载最新版本的 SD 整合包(2026年版本约 8-12GB 压缩包)。确保从官方渠道下载,避免被植入挖矿程序。
- 解压到非中文路径:解压到例如
D:\SD\Aki-SD,路径中不要包含中文字符或空格,否则 Python 依赖加载会出错。 - 启动器配置:运行
启动器.exe,首次启动会弹出配置界面:- 选择界面类型:推荐选 ComfyUI(2026年主流)
- 选择 Python 版本:默认 3.10.12,无需修改
- 选择 CUDA 版本:自动检测,如手动选请选 cu121 或 cu124
- 下载模型:启动器内置模型管理器,首次使用建议下载:
- SDXL 基础模型:sd_xl_base_1.0.safetensors(约 6.9GB)
- 推荐 VAE:sdxl_vae.safetensors(约 335MB)
- 中文提示词插件:可选安装
- 启动 ComfyUI:点击”一键启动”,浏览器自动打开
http://127.0.0.1:8188。如果端口被占用,在启动器设置中修改端口号。 - 验证安装:加载默认工作流,点击”Queue Prompt”,如果能正常生成一张 1024×1024 图片,说明安装成功。
秋叶整合包优缺点
- 优点:开箱即用、中文界面、内置丰富插件和模型管理、社区活跃更新频繁
- 缺点:体积庞大(完整安装后可达 50-80GB)、自定义灵活性较低、更新速度可能滞后于官方版本、部分插件版本兼容性问题需要手动处理
方案二:Windows 手动安装
手动安装适合需要精确控制每个组件版本、或者想深度定制开发环境的用户。
安装步骤
- 安装 Python 3.10:从 python.org 下载 Python 3.10.x(不要用 3.12+,部分依赖不兼容)。安装时勾选”Add Python to PATH”。
- 安装 Git:从 git-scm.com 下载安装。安装后打开终端验证:
git --version。 - 安装 NVIDIA CUDA Toolkit:下载 CUDA Toolkit 12.4(developer.nvidia.com/cuda-downloads),安装后验证:
nvcc --version。 - 克隆 ComfyUI:
git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI - 创建虚拟环境并安装依赖:
python -m venv venv venv\Scripts\activate pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt - 下载模型文件:从 Hugging Face 下载模型,放入
ComfyUI/models/checkpoints/目录。推荐起点:- FLUX.1-dev:约 23.8GB(FP16)或 11.5GB(NF4 量化)
- SD3.5 Large:约 9.6GB
- SDXL Base 1.0:约 6.9GB
- 启动 ComfyUI:
python main.py浏览器访问
http://127.0.0.1:8188即可使用。
手动安装优缺点
- 优点:完全掌控环境、方便调试和开发、体积更精简、可灵活切换 CUDA/ROCm 版本
- 缺点:安装步骤多、需要一定的命令行经验、遇到依赖冲突时排查成本高
方案三:macOS 安装
2024年 Apple 推出 MLX 框架后,macOS 上的 AI 推理体验有了质的飞跃。ComfyUI 已原生支持 Apple Silicon(M1/M2/M3/M4 系列)的 Metal Performance Shaders(MPS)加速。
适用机型与预期性能
| Mac 机型 | 统一内存 | 可运行模型 | 1024×1024 生成速度 |
|---|---|---|---|
| MacBook Air M1 (8GB) | 8GB | SD 1.5 / 量化 SDXL | 约 45-80 秒/张 |
| MacBook Pro M2 (16GB) | 16GB | SDXL / SD3.5 Medium | 约 25-40 秒/张 |
| MacBook Pro M3 Pro (18GB) | 18GB | SD3.5 Large / 量化 FLUX | 约 20-35 秒/张 |
| MacBook Pro M3 Max (36GB) | 36GB | FLUX.1-dev / SD4 | 约 12-20 秒/张 |
| Mac Studio M2 Ultra (192GB) | 192GB | 所有模型 + 大批量并行 | 约 8-15 秒/张 |
Apple Silicon 的统一内存架构是一个独特优势——不像独立显卡受限于显存大小,Mac 的内存可以直接用于模型推理。一台 64GB 内存的 Mac 可以加载 FLUX.1-dev 的完整 FP16 模型而不需要任何量化。
安装步骤(Homebrew 方式)
- 安装 Homebrew(如已安装可跳过):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" - 安装 Python 3.10:
brew install python@3.10 - 克隆 ComfyUI:
git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI - 安装依赖:
python3.10 -m venv venv source venv/bin/activate pip install torch torchvision torchaudio pip install -r requirements.txtPyTorch 在 macOS 上会自动检测 MPS 并启用 Metal 加速。
- 下载模型:同 Windows 方案,放入
models/checkpoints/目录。 - 启动:
python main.py --lowvram对于内存较小的 Mac(16GB 以下),建议加
--lowvram参数减少内存占用。
方案四:Linux 部署
Linux 是服务器部署的首选平台,适合需要长期运行、批量生成、或者集成到自动化流水线的场景。2026年主流发行版(Ubuntu 22.04/24.04)的驱动支持已经非常完善。
NVIDIA GPU 方案
- 安装驱动和 CUDA:
sudo apt update sudo apt install nvidia-driver-550 sudo apt install nvidia-cuda-toolkit验证:
nvidia-smi能正确输出 GPU 信息。 - 安装 Python 和依赖:
sudo apt install python3.10 python3.10-venv python3-pip git git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI python3.10 -m venv venv source venv/bin/activate pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 pip install -r requirements.txt - 配置模型路径:将模型文件放入对应目录,或通过
extra_model_paths.yaml配置自定义路径。 - 后台运行:
nohup python main.py --listen 0.0.0.0 --port 8188 > comfyui.log 2>&1 &--listen 0.0.0.0允许局域网其他设备访问。
AMD GPU 方案(ROCm)
AMD 显卡用户可以使用 ROCm(Radeon Open Compute)运行 SD。ComfyUI 对 ROCm 6.0+ 的支持已经相当稳定,但性能仍比同价位 NVIDIA 显卡低约 15-30%。
- 安装 ROCm:参考 ROCm 官方文档,安装 ROCm 6.x。
- 安装 PyTorch ROCm 版:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.2 - 启动 ComfyUI:与 NVIDIA 方案相同,PyTorch 会自动检测 ROCm 设备。
Docker 部署(推荐)
使用 Docker 可以避免环境配置的麻烦,一行命令即可启动:
docker run -d --gpus all \
-v /path/to/models:/app/models \
-v /path/to/output:/app/output \
-p 8188:8188 \
ghcr.io/ai-dock/comfyui:latest
GPU Docker 需要 NVIDIA Container Toolkit 支持。Docker 方案的优点是环境隔离、升级方便,适合多项目并行开发。
方案五:云端 GPU 部署
如果你没有合适的本地硬件,或者需要临时使用高性能 GPU,云端部署是最佳选择。2026年国内的 GPU 云服务已经非常成熟,按小时计费,灵活度高。
主流云平台对比
| 平台 | 可选 GPU | A100 80GB 价格 | RTX 4090 价格 | 预装环境 | 国内访问 |
|---|---|---|---|---|---|
| AutoDL | A100/H100/4090/L40 | ¥2.5-4.0/时 | ¥1.5-2.5/时 | ComfyUI / WebUI 一键镜像 | 国内直连 |
| 恒源云(GPUSHARE) | A100/4090/3090 | ¥3.0-5.0/时 | ¥1.8-3.0/时 | SD 整合镜像 | 国内直连 |
| RunPod | A100/H100/RTX6000 | $0.74-1.64/时 | $0.44/时 | ComfyUI 模板 | 需科学上网 |
| Vast.ai | 社区共享 GPU | $0.5-1.5/时 | $0.2-0.5/时 | 自定义 | 需科学上网 |
| Featherless.ai | A100/L40S | $0.8-1.2/时 | — | ComfyUI 预装 | 需科学上网 |
以 AutoDL 为例,从开租到生成第一张图片的流程:
- 注册 AutoDL 账号并充值(支持支付宝)。
- 在”社区镜像”中搜索”ComfyUI”,选择包含 SDXL + FLUX 模型的镜像(约 40GB)。
- 选择 GPU 型号(推荐 RTX 4090 24GB,¥1.8/时)。
- 创建实例后等待 2-3 分钟初始化完成。
- 通过 AutoDL 提供的”自定义服务”链接直接访问 ComfyUI 界面。
- 加载工作流,开始生成。用完即关机,按实际使用时长计费。
云端方案特别适合以下场景:临时需要生成大量图片、训练 LoRA/SDXL 模型、测试不同模型效果、或者你的本地硬件实在带不动大模型。按需使用、用完即停的成本远低于购买一张高端显卡。
2026年主流模型生成速度实测
以下数据基于不同硬件平台,使用 ComfyUI,20步 Euler A 采样,生成 1024×1024 单张图片的实测时间(包含模型加载后的纯推理时间):
| 模型 | RTX 4090 (24GB) | RTX 4060 (8GB) | RTX 3060 (8GB) | Mac M3 Pro (18GB) | A100 80GB (云端) |
|---|---|---|---|---|---|
| SD 1.5 | 2.3 秒 | 5.1 秒 | 7.8 秒 | 12.5 秒 | 1.8 秒 |
| SDXL Base 1.0 | 4.1 秒 | 9.6 秒 | 14.2 秒 | 22.3 秒 | 3.2 秒 |
| SDXL Lightning(4步) | 0.9 秒 | 2.0 秒 | 3.1 秒 | 5.2 秒 | 0.7 秒 |
| SD 3.5 Medium | 5.8 秒 | 13.5 秒 | —(显存不足) | 28.6 秒 | 4.5 秒 |
| SD 3.5 Large | 8.2 秒 | —(显存不足) | —(显存不足) | 42.1 秒 | 6.3 秒 |
| FLUX.1-dev (FP16) | 9.5 秒 | —(显存不足) | —(显存不足) | —(内存不足) | 7.1 秒 |
| FLUX.1-dev (NF4 量化) | 5.3 秒 | 11.8 秒 | —(显存不足) | 18.5 秒 | 4.0 秒 |
| FLUX.1-schnell(4步) | 2.1 秒 | 4.8 秒 | 7.5 秒 | 9.8 秒 | 1.6 秒 |
几个关键发现:
- 量化模型的实用价值很高:FLUX.1-dev 的 NF4 量化版本在几乎不损失画质的前提下,将显存需求从 24GB 降至 8GB,速度提升约 44%。
- 蒸馏模型是实时体验的关键:SDXL Lightning 和 FLUX.1-schnell 通过步数蒸馏,在 RTX 4090 上实现了亚秒级生成。
- 8GB 显卡是分水岭:RTX 4060 (8GB) 能流畅运行 SDXL 和量化后的 FLUX,但无法运行 FP16 的大模型。
- Apple Silicon 的差距在缩小:M3 Pro 运行 SDXL 的速度已经接近 RTX 3060,对于日常使用完全够用。
安装后必做的5件事
成功安装 ComfyUI 后,不要急着生成图片。以下5项配置能显著提升你的使用体验:
1. 下载并配置核心模型
新安装的 ComfyUI 不包含任何模型。建议按以下优先级下载:
- FLUX.1-schnell(4步极速模型,约 23.8GB FP16 / 11GB NF4):日常快速出图的首选。
- SDXL Base 1.0 + Refiner(约 6.9GB + 6.2GB):生态最成熟,插件和 LoRA 支持最丰富。
- SD 3.5 Large(约 9.6GB):文字渲染能力优于 SDXL,适合设计场景。
- ControlNet 模型(每个约 1.5-5GB):用于精确控制构图、姿势、深度等。
模型下载推荐从 Hugging Face 或 Civitai 获取。国内用户可使用 HuggingFace 镜像站加速下载。
2. 安装 ComfyUI Manager 插件
ComfyUI Manager 是最重要的社区插件,提供以下功能:
- 一键安装/更新/卸载其他插件
- 从 ComfyUI Registry 浏览和安装自定义节点
- 模型管理(下载、导入、版本切换)
- 工作流导入/导出
安装方法:将 ComfyUI-Manager 仓库克隆到 ComfyUI/custom_nodes/ 目录,重启 ComfyUI 即可。
3. 设置中文界面和提示词翻译
ComfyUI 原生为英文界面,但社区提供了完善的中文支持:
- 安装
ComfyUI-Impact-Pack(增强功能包)。 - 安装
comfyui-translation-helper插件实现界面汉化。 - 在设置中选择语言为中文。
提示词方面,推荐使用 bilingual_clip 节点,它能在生成时自动将中文提示词翻译为英文,无需手动翻译。
4. 配置 VAEOptimizer(sdxl_vae)
SDXL 默认使用的 VAE 在高饱和度颜色下可能出现偏色问题。安装 sdxl_vae.safetensors 并在模型加载节点中指定 VAE,可以显著改善色彩还原度。这个配置很多人会忽略,但它对最终出图质量的影响非常大。
5. 建立自己的工作流模板库
ComfyUI 的工作流(Workflow)以 JSON 格式保存,可以导入导出。建议建立以下基础工作流模板:
- 文生图基础模板:包含模型加载、正负面提示词、采样器、VAE 解码、保存图片等基本节点。
- 图生图模板:在基础模板上增加图片输入和 LATENT 叠加节点。
- ControlNet 模板:增加 ControlNet 预处理器和应用节点。
- 高清放大模板:集成 Hires.fix 或 UltimateSDUpscale 节点链。
可以从 ComfyUI 官方 Gallery(comfyanonymous.github.io/ComfyUI_examples/)获取现成工作流,修改后保存为自己的模板。良好的工作流管理是提升效率的关键——这和选择合适的 AI 编程助手提升开发效率是同一个道理。
ComfyUI vs WebUI:2026年该怎么选
2023年,Automatic1111 的 WebUI 是绝对的主流。到2026年,局面已经完全反转。以下是两者的详细对比:
| 对比维度 | ComfyUI | Automatic1111 WebUI | Forge(WebUI 分支) |
|---|---|---|---|
| 界面形态 | 节点式工作流 | 传统表单式 | 传统表单式(增强版) |
| 学习曲线 | 较高(需理解节点概念) | 低(填参数即可) | 低 |
| 工作流复用 | 极佳(JSON导入导出) | 较差(需手动配置) | 一般 |
| 内存效率 | 优秀(自动显存管理) | 一般 | 优秀(针对优化) |
| 插件生态 | 快速增长中(2026年最多) | 成熟但增长放缓 | 与 WebUI 共享生态 |
| 大模型支持 | 原生支持 SD3.5 / FLUX | 需第三方补丁 | 部分支持 |
| 批量自动化 | 天然支持 | 有限支持 | 有限支持 |
| 社区活跃度 | 极高(2026年主流) | 下降中 | 稳定 |
| 适合人群 | 进阶用户 / 专业用户 | 纯新手入门 | WebUI 用户升级 |
建议:如果你是2026年刚开始接触 SD,直接学 ComfyUI。虽然学习曲线稍陡,但一旦理解了节点式工作流的逻辑,后续扩展和定制的能力远超传统界面。如果你已经在用 WebUI,可以迁移到 Forge 获得更好的性能,同时逐步学习 ComfyUI。
模型下载与管理的实用建议
模型管理是 SD 使用中最容易被忽视但最影响体验的环节。以下是2026年的模型管理最佳实践:
模型格式选择
| 格式 | 典型大小 | 画质损失 | 显存需求 | 推荐场景 |
|---|---|---|---|---|
| FP32 | 2x 基准 | 无损 | 最高 | 训练/研究用 |
| FP16(safetensors) | 1x 基准 | 几乎无损 | 高 | 标准使用 |
| FP8 | 0.5x 基准 | 极小 | 中 | 12GB 显存推荐 |
| GGUF Q4 | 0.25-0.35x 基准 | 较小 | 低 | 4-6GB 显存/Mac |
| NF4(bitsandbytes) | 0.3x 基准 | 小 | 低 | 8GB 显存跑大模型 |
推荐模型来源
- Hugging Face:官方模型的首发平台,Stability AI、Black Forest Labs 等都在此发布模型。
- Civitai:社区模型聚合平台,提供模型预览、评分、下载,是目前最活跃的 SD 模型社区。
- GitHub Releases:部分项目(如 ComfyUI 官方示例)在 GitHub 发布模型。
磁盘空间管理
一个活跃的 SD 用户通常会在几个月内积累 200-500GB 的模型文件。建议:
- 使用符号链接(symlink)将模型目录指向大容量硬盘。
- 定期清理不常用的模型(ComfyUI Manager 提供模型使用频率统计)。
- 对于不常用的模型保留量化版本,删除 FP16 原版。
从生成图片到生成视频:SD 生态的延伸
2026年的 SD 生态已经不局限于静态图片。Stable Video Diffusion(SVD)、AnimateDiff、SVD-XT 等工具让本地视频生成成为现实。ComfyUI 的工作流可以无缝串联图片生成和视频生成节点。
视频生成对硬件的要求显著高于图片生成。以 AnimateDiff 生成 512×512 分辨率、16帧动画为例:
- RTX 4090:约 15-25 秒/片段
- RTX 4060:约 45-80 秒/片段
- Mac M3 Pro:约 60-120 秒/片段
如果你对 AI 视频生成有更广泛的需求,包括文生视频、图生视频等多种工具的对比,可以参考我们的 AI 视频生成工具怎么选 一文,它涵盖了 Sora、Runway、Kling、Pika 等主流工具的详细对比。
安全与隐私注意事项
本地部署 SD 的一个核心优势是数据不出本机,但这并不意味着完全没有安全风险:
- 模型来源安全:只从可信来源(Hugging Face、Civitai 高评分模型、官方 GitHub)下载模型。.safetensors 格式比 .ckpt 格式更安全,因为它不能包含可执行代码(pickle 反序列化攻击)。
- ComfyUI 网络暴露:如果开启了
--listen 0.0.0.0,局域网内任何人都能访问你的 ComfyUI。建议设置密码或使用 VPN。 - LoRA 训练数据:训练 LoRA 使用的图片数据可能包含个人信息,注意训练数据的存储和清理。
- 开源协议合规:不同模型有不同的授权协议。SDXL 系列多数允许商用,但 FLUX.1-dev 的非商用版不允许直接商用,购买 FLUX.1-pro 授权后才能商用。
2026年值得关注的模型推荐
模型生态是 SD 最大的优势,但也是新手最容易迷茫的地方。Civitai 上有超过 10 万个模型,如何挑选?以下是按用途分类的推荐清单,所有模型均在2025-2026年间发布或更新:
写实人像类
- FLUX.1-dev + RealVisXL LoRA:当前写实效果的天花板。FLUX.1-dev 提供基础画质,叠加 RealVisXL 系列的 LoRA 可以精确控制肤色、光影、质感。适合人像摄影、电商产品图。
- SDXL + Juggernaut XL:老牌写实模型,经过多次迭代后在细节表现上非常稳定。对 ControlNet 的兼容性比 FLUX 更好,适合需要精确姿态控制的场景。
- SD 3.5 Large +写实 LoRA:文字渲染能力优于 SDXL,适合海报设计、广告素材等需要嵌入中文/英文文字的场景。
二次元/动漫类
- SD 1.5 + Anything V5 / CounterfeitXL:二次元领域 SD 1.5 仍然是王者——不是因为画质好,而是因为积累的 LoRA 和 Embedding 太丰富了。社区有超过 2 万个针对 SD 1.5 的二次元 LoRA。
- SDXL + Animagine XL 3.1:SDXL 架构下的二次元模型,画质显著优于 SD 1.5 系列。如果你不需要使用 SD 1.5 专属的 LoRA,优先选这个。
- FLUX.1-schnell + NoobAI:最新的二次元 FLUX 模型,生成速度极快,风格偏日系赛璐璐画风。
设计/插画类
- SDXL + DreamShaper XL:通用的艺术插画模型,画风偏油画质感,适合概念设计、游戏素材。
- FLUX.1-dev + Kolors LoRA:快手 Kolors 团队发布的模型,对中文提示词的理解能力在开源模型中名列前茅。
- SDXL + Lyriel:偏奇幻、梦幻风格,适合书籍封面、卡片设计等场景。
模型选择的核心原则:先确定用途,再选基础模型,最后叠加 LoRA 微调风格。不要盲目追求最新最大的模型——SD 1.5 在特定领域(如二次元)仍然有不可替代的价值。
SD 生成的常见陷阱与避坑指南
即使是经验丰富的用户也会踩一些坑。以下是2026年社区总结的高频问题:
1. 提示词过长不等于效果更好
很多人以为提示词写得越详细,生成效果越好。实际上,SDXL 和 FLUX 等现代模型对提示词的理解能力很强,50-100 个 token 的精炼提示词往往比 500 个 token 的堆砌式提示词效果更好。关键是抓住核心描述词:主体、动作、光线、风格、色调。
2. 采样器选择的重要性被低估
不同采样器对生成结果的影响比很多人想象的大。2026年的推荐选择:
- Euler a:通用首选,收敛稳定,适合大多数场景。
- DPM++ 2M Karras:细节更丰富,适合写实风格。
- DPM++ SDE Karras:创意性更强,适合艺术风格。
- LCM:配合 LCM 模型使用,可以 4-8 步快速生成。
3. CFG Scale 不是越大越好
CFG Scale(提示词引导强度)控制模型对提示词的遵循程度。SDXL 推荐值 5-7,FLUX 推荐值 3.5-4.5。超过推荐值太多会导致画面过饱和——颜色失真、细节崩坏。如果你发现生成的图片颜色不自然,首先检查 CFG Scale 是否设置过高。
4. 种子(Seed)的管理
固定种子可以复现生成结果,这对于需要微调参数、逐步优化的工作流非常重要。建议在 ComfyUI 的工作流中添加一个固定种子节点,方便在调试时锁定随机性。同时,准备一个种子库,记录效果好的种子值和对应的参数组合。
5. 高清放大不是简单的拉大分辨率
直接提高生成分辨率(比如从 1024 拉到 2048)会导致画面出现重复纹理和细节崩坏。正确的高清放大流程是:先在低分辨率生成基础构图,再用 Hires.fix 或 UltimateSDUpscale 进行分块放大,最后用 ControlNet Tile 或 ADetailer 补充细节。这个过程在 ComfyUI 中可以用节点链完美实现。
常见问题
Q1:安装后启动 ComfyUI 提示”CUDA out of memory”怎么办?
这是最常见的错误,说明模型的显存需求超过了你的显卡容量。解决方案按优先级排列:
- 使用量化模型:将 FP16 模型替换为 FP8 或 GGUF Q4 版本,显存占用可降低 50-75%。
- 添加启动参数:
--lowvram或--cpu。低显存模式会将部分计算转移到 CPU 和系统内存,速度会变慢但不至于无法运行。 - 降低生成分辨率:从 1024×1024 降到 768×768 或 512×512。
- 关闭其他占用 GPU 的程序:浏览器硬件加速、游戏、其他 AI 应用等。
- 考虑云端部署:如果本地硬件确实不够,AutoDL 上租一台 RTX 4090 每小时不到 2 元。
Q2:生成速度很慢,如何优化?
除了升级硬件,软件层面的优化措施包括:
- 使用蒸馏模型:FLUX.1-schnell(4步)比 FLUX.1-dev(20步)快约 5 倍,画质差异在多数场景下可接受。
- 降低采样步数:大多数模型在 20-25 步时已收敛,不需要跑到 50 步。
- 使用 Turbo / Lightning 变体:SDXL Turbo 可以 1 步生成,SDXL Lightning 可以 4 步生成。
- 启用 xFormers:ComfyUI 默认会自动启用 xFormers 内存优化,确认它没有被禁用。
- 更新 PyTorch:确保使用最新版本的 PyTorch,每个版本都会带来一定的性能优化。
- 关闭不必要的插件:ComfyUI 的某些插件(如图片预览增强)会占用额外显存,拖慢速度。
Q3:SD 1.5、SDXL、SD3.5、FLUX 到底该选哪个模型?
简短回答:日常使用选 FLUX.1-schnell,需要精确控制选 SDXL,需要文字渲染选 SD3.5 Large。
- SD 1.5:2026年主要用于 LoRA 训练和特定风格模型(如二次元动漫),因为它训练成本低、社区积累的 LoRA 最丰富。但原生画质已明显落后。
- SDXL:综合画质好、生态最成熟、插件支持最完善。适合需要大量使用 ControlNet、Inpainting 等高级功能的用户。
- SD 3.5:Stability AI 的最新力作。Medium 版本在 8GB 显存上可流畅运行,Large 版本画质与 FLUX.1 接近,且文字渲染能力更强。
- FLUX.1:Black Forest Labs(Stable Diffusion 原始团队成员创立)出品。schnell 版本速度极快,dev 版本画质顶级,是目前社区最活跃的模型生态之一。
Q4:macOS 上运行 SD 和 Windows 上有什么区别?
核心区别在于 GPU 架构:Windows/NVIDIA 使用 CUDA,macOS/Apple Silicon 使用 Metal(MPS)。实际体验上的差异包括:
- 速度:同价位下 NVIDIA 仍然快 30-50%,但 Apple Silicon 的优势在于大容量统一内存——一台 36GB 的 MacBook Pro M3 Max 能运行 FP16 的 FLUX.1-dev,而同价位 Windows 笔记本可能只有 8-12GB 显存,只能跑量化版本。
- 兼容性:极少数插件依赖 CUDA 特有功能,在 macOS 上无法使用。但 ComfyUI 核心功能在 macOS 上完全正常。
- 量化支持:GGUF 量化在 macOS 上表现特别好,因为 Apple 的 MLX 框架对 GGUF 有原生优化。
- 发热和噪音:MacBook 在长时间生成时发热明显,可能会触发降频。建议外接散热支架。
Q5:如何训练自己的 LoRA 模型?
LoRA(Low-Rank Adaptation)是最常用的模型微调方式,可以用 10-30 张图片训练一个专属于特定人物、风格或物体的微调模型。2026年推荐的训练工具是 kohya_ss(图形化界面)或 sd-scripts(命令行工具)。
基本流程:
- 准备训练素材(10-30 张,统一裁剪和标注)。
- 安装 kohya_ss(ComfyUI 的 custom_nodes 中有集成版本)。
- 配置训练参数:学习率 1e-4 到 4e-4,训练步数 1000-2000 步,批次大小根据显存调整。
- 开始训练(RTX 4090 约 15-30 分钟,RTX 4060 约 1-2 小时)。
- 在 ComfyUI 中加载训练好的 LoRA 模型进行测试。
如果你在训练过程中需要自动化脚本或其他 AI 工具辅助,可以参考我们的 2026年 AI 大模型排名实测,了解哪些 AI 大模型在代码生成和技术文档方面表现最好。
Q6:ComfyUI 的工作流 JSON 在哪里获取?
获取工作流的主要渠道:
- ComfyUI 官方示例库(comfyanonymous.github.io/ComfyUI_examples/):官方维护,质量可靠,覆盖常见场景。
- ComfyUI Workflows(comfyworkflows.com):社区工作流分享平台,可按模型类型和功能筛选。
- OpenArt(openart.ai/workflows):大型工作流社区,支持在线预览效果。
- B站/YouTube:搜索”ComfyUI 工作流”,有大量教程附带工作流 JSON 下载。
- Civitai:部分模型页面附带推荐工作流。
总结与展望
2026年的 Stable Diffusion 安装已经比2023年简单了很多,但模型生态的复杂度也在增加。选择适合自己的方案并不难:
- Windows 新手→ 秋叶整合包,10分钟搞定。
- Windows 进阶→ 手动安装 ComfyUI,完全掌控。
- Mac 用户→ 原生 ComfyUI + MPS 加速,体验越来越接近 NVIDIA。
- 服务器/自动化→ Linux + Docker,稳定可靠。
- 没有好硬件→ 云端 GPU 按需使用,成本可控。
安装只是第一步。真正决定你产出质量的是:模型选择、提示词能力、工作流设计、以及持续的实践迭代。SD 生态的核心价值在于开放和可定制——你不需要等待官方更新,社区每周都在产出新的模型、插件和工作流。
如果你已经在用 AI 工具提升工作效率,不妨看看我们的其他专题:AI 思维导图工具选型指南 帮你梳理思路,AI 做 PPT 工具对比 帮你快速出片。AI 工具的组合使用,才是2026年效率提升的正确打开方式。