InfoQ 推荐 ( ) • 2024-06-13 14:48

整理 | 华卫、核子可乐

 

6月12日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级PC、笔记本电脑等个人消费系统以及企业级GPU上运行时生成这些图像。

 

要体验SD3 Medium,可使用Stability Platform(https://platform.stability.ai/")上的API,注册Stable Assistant(https://stability.ai/stable-assistant")以获取三天免费试用,也可通过Discord体验Stable Artisan(https://stability.ai/stable-artisan")。

 

据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。 模型的大小也是SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。

 

Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

 

面对SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

 

SD3 Medium有何突破性?

 

根据官方说法, SD3 Medium是一套拥有20亿参数的SD3模型,其显著特点包括:

 

出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过16通道VAE等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。排版功能:凭借Diffusion Transformer架构,SD3 Medium实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。资源高效:由于所占用的VRAM空间小,所以非常适合在标准消费级GPU上运行,且不致牺牲模型性能。微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。

 

使用“一只猫在车里抱着一罐啤酒”作为提示词,在SD3 Medium中生成的示例

 

同时,Stability 与英伟达和AMD开展合作。利用英伟达RTX GPU以及TensorRT增强全体Stable Diffusion模型(包括SD3 Medium)的性能,TensorRT优化版本更可提供50%的一流性能提升;AMD已针对各类AMD设备(包括最新APU、消费级GPU以及MI-300X企业级GPU)优化了SD3 Medium的推理性能。

 

此外,Stability 强调安全、负责任的AI实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对SD3 Medium的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

 

因人体绘制问题被狂嘲

然而,SD3 Medium的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如Midjourney及DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

 

Reddit用户使用SD3 Medium创建的AI生成图像,提示词为“一个人在客厅里打盹”

 

Reddit上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了SD3 Medium在渲染人物,特别是在手、脚等肢体方面的离谱操作。

 

Reddit用户使用SD3 Medium创建的AI生成图像,提示词为“海滩上穿着裙子的女子”。

 

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是AI图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在Reddit上的图像合成爱好者们来说,SD3的表现似乎确有倒退之嫌——特别是与去年11月发布的SD XL Turbo等Stability版本相比。

 

使用SD3 Medium创建的三张AI生成图像,手部明显残缺不全

 

一位Reddit用户写道,“不久之前,Stable Diffusion还在与Midjourney分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

 

另一篇题为《SD3在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

 

使用SD3创建的AI生成图像,提示词是“一位女子躺在草地上”

 

AI图像爱好者们目前将SD3的人体绘制问题,归咎于Stability坚持从SD3的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称NSFW),因此图像生成质量有所下降。一位Reddit用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

 

也就是说,每当用户的提示词表达了AI模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

 

2022年发布的Stable Diffusion 2.0在描绘人体方面也出现过类似的问题。当时,AI研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍AI模型准确生成人体解剖结构的能力。随后发布的SD 2.1和SD XL成功扭转了局面,恢复了一部分因严格过滤NSFW内容而失去的绘图能力。

 

模型预训练期间可能出现的另一个问题,是研究人员设计的NSFW过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位Reddit用户在帖子中写道,“只要图片不涉及人物,SD3的工作就一切正常。所以我认为是他们用于过滤训练数据的NSFW过滤器敏感度过高,把所有人类图像都划入了NSFW范畴。”

 

使用Hugging Face上的SD3免费在线演示,即可快速输入提示词并看到与Reddit用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

 

使用“一名男子伸出双手”作为提示词,在SD3 Medium中生成的示例

 

结语

 

SD3 Medium 在 Stability 的动荡时期到来。

 

这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。

 

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

 

今年2月,Stable Diffusion 3模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼CEO Emad Mostaque已经于3月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师Robin Rombach、Andreas Blattmann和Dominik Lorenz也已决定离去。

 

在一部分Stable Diffusion粉丝看来,SD3 Medium如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到SD3 Medium的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

 

但无论如何,SD3 Medium 是Stability 打造的Stable Diffusion 3家族中最新、最先进的文本转图像AI模型,代表着生成式AI发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进SD3 Medium模型,扩展其功能并优化性能。目标是为生成式AI的艺术创作领域树立新的标杆,并使SD3 Medium成为服务专业人士与业余爱好者的重要工具。

 

参考链接:

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator"

https://stability.ai/news/stable-diffusion-3-medium"

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/"