优享资讯 | 从零开始搭建 Stable Diffusion，本地出图、无损放大就这么简单

小黑盒游戏新闻 ( ) • 2024-05-05 20:04

从零开始搭建 Stable Diffusion，本地出图、无损放大就这么简单

写在前面

OpenAI 这两年是整活不断，GPT 系列的语言模型、DALL-E 图像生成模型和 Codex 编程辅助模型等工具的发布，都在文本生成、图像创作和代码编写等领域得到广泛应用，年初发布的 Sora ，更是实现了文本到视频直接生成，对于创作者来说简直是神器。

这段时间我折腾的比较多的则是 Stable Diffusion，毕竟这玩意开源，模型众多，绘制出的图像素质也高，创作时找不到相关图直接用它生成一张，还没有版权纠纷，多好。顺便推荐下 tensor 这个网站，支持多种模型，可以实现文字绘图，关键是这家的免费额度非常高。

网站支持中文显示，中文关键词还能自动转换为英文，放几张我绘制的机甲美女

尽管在线绘图 Midjourney（Mid）使用方便，但本地部署另有秒处，这次和大家分享利用显卡进行本地绘图的方案 Stable Diffusion

本地部署绘图工具 Stable Diffusion

▼以前搭建 Stable Diffusion 还需要折腾 Python 环境，自从出现整合包以后，搭建过程就相当惬意了，就连后续的更新也是自动的。

现在流行的整合包是秋葉aaaki 和独立研究员星空，两者使用的内核一样，区别主要界面和集成的插件不同，这里我用秋葉aaaki 整合包作为演示。

▼初次运行先安装依赖包

▼解压下载好的整合包，运行”A绘世启动器.exe“。

注意：解压文件不要放在中文目录。

▼启动界面如下图，点击“一键启动”。程序就会自动加载必须的启动项

▼启动成功后的界面如下图，强烈建议大家下载最新的版本，常用的插件都已经设置好了，比如汉化包、无边图像浏览等等，甚至连 CLIP 终止层数也自动显示在右上角，老版本都需要手动安装的。

▼AI 出图效果的好坏就是模型，软件内置了模型下载通道，直接点击即可安装。

点击模型类别再点击上方的按钮，还能快速定位模型保存目录，这也是很实用的地方。

▼不过更建议从专业站点下载模型，比如 civitai 和 liblibAI ，模型不仅数量多还能预览风格，点击下载按钮即可。

▼Stable Diffusion 的模型种类虽然多，但类别就那么几种，网站下载模型时能看到模型对应的类别，下载好后也要放入对应目录。

▼Stable Diffusion 使用界面如下，不同模型、不同提示词，不同设置出来的图像都各不相同，而这也是 AI 生图最好玩的地方。初次使用各项参数可以参考网上发布的成品图，然后自己微调，以此理解各项参数的作用。

下面两张图对照成品图的设置，对应功能如下

1 主模型、2 终止层数、3 正向提示词、4 反向提示词、5 采样方法、6 提示词引导系数（通常7~11）、7 迭代步数（步数越高细节越多耗时越长）、8 随机种子数（同一个种子数生成的图片类似，-1 表示随机）

▼输出的图质量不错，但脸有点崩，因为我没有使用专门的脸部模型

▼再来实战一张，下面这张图，首先观察它使用了三个模型，将其下载并复制到对应目录。

▼对照参数进行设定，数量选择一次生成 4 张

▼生成结束，下方可以看到耗时 41s，显存占用接近 12G，现在可以体会到大显存的优势了吧。可惜我这是块 4070TI，下篇打算做个不同显卡跑 SD 的对比测试。

▼只要模型和种子数和原图一样，那成品可以完美复刻原图。

通常来讲，初次绘图都会以低分辨率作为基准，这样对显卡的符合要小点，后续再利用模型、插件进行放大和细节调整，来实战一波。

▼首先利用关键词一次多张生图，分辨率设为 540 * 960 实现快速产出，选出自己喜欢的一张，这个过程被戏称为“摸奖”。

创建的图片分辨率较小，自然需要先将其进行放大，这方面的操作手法很多，有单纯放大，有放大加美化或者重绘细节的，介绍 2 种个人用的比较多的技巧。

▼选中需要放大的图片，点击下方“发送到后期处理”

▼参考下图选择算法和缩放比例，这里我只是将图片从 540*960 提升到 2144*3840，放大倍数 4 倍，耗时 4.9s，显存占用 10G 。

▼这种放大是速度最快的，而且因为没有技能扩散，所以对显卡的要求也不是很高，放大后的图片在相同尺寸下清晰度是吊打原图的。

▼再来看看Control Net （Tile）+ Ultimate SD upscale，这是目前最流行的放大算法，放大的同时还会增加许多细节，缺点就是对显卡要求较高。

首先还是将图片发送到后期处理，启用 Control Net 和完美像素、预处理器（tile_resample）、脚本（Ultimate SD upscale）、尺寸放大（4X）、类型（Chess）

这次耗时就长多了，好在显卡给力没崩，再次体会到大显存的优势。

▼放大后的图片肤色更加自然，细节更多，额头的刘海更有光泽度。

▼局部放大更加直观，这次放大我给了一定的重绘额度，可以看到放大后的效果更加像真人，鼻子没有那么尖了，是不是有点像超杀女科洛·莫瑞兹。

最后

一篇简单的 Stable Diffusion 搭建教程，其实玩 SD 最重要的还是模型，下次考虑做显卡性能对比，或者专门推荐模型，感兴趣的朋友可以关注一波。