优享资讯 | 喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德

InfoQ 推荐 ( ) • 2024-06-13 14:48

喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德

整理 | 华卫、核子可乐

6月12日，Stability AI 推出了 Stable Diffusion 3 Medium，这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是，该模型可以在消费级PC、笔记本电脑等个人消费系统以及企业级GPU上运行时生成这些图像。

要体验SD3 Medium，可使用Stability Platform（https://platform.stability.ai/"）上的API，注册Stable Assistant（https://stability.ai/stable-assistant"）以获取三天免费试用，也可通过Discord体验Stable Artisan（https://stability.ai/stable-artisan"）。

据介绍，SD3 Medium 由 20 亿个参数组成，无需复杂的工作流程即可获得逼真的结果。模型的大小也是SD3 Medium 的核心亮点，该模型比许多 Stable Diffusion 3 模型都要小，后者的参数范围在 8 亿到 80 亿之间。

Stability 公司表示，其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示，它还能克服手部和面部常见的伪影和瑕疵。但意外的是， SD3 Medium 一经发布，却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

面对SD3 Medium 生成的离谱画面，甚至有不少用户纷纷吐槽：“这个版本是来搞笑的吗？”

SD3 Medium有何突破性？

根据官方说法， SD3 Medium是一套拥有20亿参数的SD3模型，其显著特点包括：

出色的整体质量与照片级真实感：提供包含出色细节、色彩及光照的图像，可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过16通道VAE等创新，成功解决了手部及面部真实感不足等其他模型中常见的缺陷。提示词理解：能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合，用户可以在性能与效率之间做出权衡。排版功能：凭借Diffusion Transformer架构，SD3 Medium实现了“前所未有”的文本输出质量，能够减少拼写、字距调整、信函格式及字母间距等方面的错误。资源高效：由于所占用的VRAM空间小，所以非常适合在标准消费级GPU上运行，且不致牺牲模型性能。微调：能够从小型数据集中吸纳微小细节，非常适合满足定制化需求。

使用“一只猫在车里抱着一罐啤酒”作为提示词，在SD3 Medium中生成的示例

同时，Stability 与英伟达和AMD开展合作。利用英伟达RTX GPU以及TensorRT增强全体Stable Diffusion模型（包括SD3 Medium）的性能，TensorRT优化版本更可提供50%的一流性能提升；AMD已针对各类AMD设备（包括最新APU、消费级GPU以及MI-300X企业级GPU）优化了SD3 Medium的推理性能。

此外，Stability 强调安全、负责任的AI实践原则，并已经采取并将继续通过合理措施以防范恶意行为者对SD3 Medium的滥用行为。其表示，安全自模型训练之时起，贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试，同时制定并实施了多项保护措施以防止危害发生。

因人体绘制问题被狂嘲

然而，SD3 Medium的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型（例如Midjourney及DALL-E 3）似乎反而有所倒退，会生成一些在结构上诡异扭曲的视觉效果。

Reddit用户使用SD3 Medium创建的AI生成图像，提示词为“一个人在客厅里打盹”

Reddit上的原帖题为《这个版本是来搞笑的吗？（Is this release supposed to be a joke? [SD3-2B] ）》，其中详细介绍了SD3 Medium在渲染人物，特别是在手、脚等肢体方面的离谱操作。

Reddit用户使用SD3 Medium创建的AI生成图像，提示词为“海滩上穿着裙子的女子”。

受到早期训练数据集中高质量示例不足的影响，绘制手部一直是AI图像生成工具面临的关键挑战。但近来，不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在Reddit上的图像合成爱好者们来说，SD3的表现似乎确有倒退之嫌——特别是与去年11月发布的SD XL Turbo等Stability版本相比。

使用SD3 Medium创建的三张AI生成图像，手部明显残缺不全

一位Reddit用户写道，“不久之前，Stable Diffusion还在与Midjourney分庭抗礼；可现如今，它看起来就像是个笑话。唯一能拿出来说说的，就只有数据集安全和符合道德原则了！”

另一篇题为《SD3在生成躺在草地上的女孩时为何表现糟糕？（Why is SD3 so bad at generating girls lying on the grass?）》也展示了类似的问题，只是这回出问题的是整个躯体。

使用SD3创建的AI生成图像，提示词是“一位女子躺在草地上”

AI图像爱好者们目前将SD3的人体绘制问题，归咎于Stability坚持从SD3的训练数据中过滤掉成人内容（所谓「不适合工作时间观看」的内容，简称NSFW），因此图像生成质量有所下降。一位Reddit用户写道，“分享一条冷知识，对模型的严格审查也会过滤掉人体解剖素材，于是……就变成现在这样了。”

也就是说，每当用户的提示词表达了AI模型未能在训练数据集中充分接触过的概念，图像合成模型就会自行捏造对于用户要求的最佳解释，扭曲诡异的图像也由此产生。

2022年发布的Stable Diffusion 2.0在描绘人体方面也出现过类似的问题。当时，AI研究人员很快发现，筛除包含裸露内容的成人素材很可能会严重妨碍AI模型准确生成人体解剖结构的能力。随后发布的SD 2.1和SD XL成功扭转了局面，恢复了一部分因严格过滤NSFW内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题，是研究人员设计的NSFW过滤器在删除数据集中成人图像时可能过于挑剔，意外排除了那些并不存在冒犯性的内容，这就导致模型偶尔无法准确描绘人体。一位Reddit用户在帖子中写道，“只要图片不涉及人物，SD3的工作就一切正常。所以我认为是他们用于过滤训练数据的NSFW过滤器敏感度过高，把所有人类图像都划入了NSFW范畴。”

使用Hugging Face上的SD3免费在线演示，即可快速输入提示词并看到与Reddit用户们上报情况类似的结果。例如，使用“一名男子伸出双手”的提示词，模型生成了一张男子举起两只硕大且左右颠倒手部的图像，好在指头倒是正确的五根。

使用“一名男子伸出双手”作为提示词，在SD3 Medium中生成的示例

结语

SD3 Medium 在 Stability 的动荡时期到来。

这家初创公司成立于 2020 年，很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱，Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年，投资者对这家初创公司的估值为 10 亿美元。

然而，从那时起，一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道，Stability 公司也曾讨论过出售事宜，因为它面临着资金紧张的问题。

今年2月，Stable Diffusion 3模型的延迟发布也激起了不少传闻。有声音认为，Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境，其创始人兼CEO Emad Mostaque已经于3月辞职，随后又经历了一系列裁员。在此之前，三位核心工程师Robin Rombach、Andreas Blattmann和Dominik Lorenz也已决定离去。

在一部分Stable Diffusion粉丝看来，SD3 Medium如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现，也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产，但不少用户在看到SD3 Medium的表现后尖锐地讽刺称：“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

但无论如何，SD3 Medium 是Stability 打造的Stable Diffusion 3家族中最新、最先进的文本转图像AI模型，代表着生成式AI发展的重要里程碑，将继续为这项强大技术的普及贡献力量。Stability 表示，其将根据用户反馈不断改进SD3 Medium模型，扩展其功能并优化性能。目标是为生成式AI的艺术创作领域树立新的标杆，并使SD3 Medium成为服务专业人士与业余爱好者的重要工具。

参考链接：

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator"

https://stability.ai/news/stable-diffusion-3-medium"

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/"