36氪 - 最新资讯频道 ( ) • 2024-06-13 16:59

6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。模型的大小也是 SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。

Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

面对 SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

SD3 Medium 有何突破性? 

根据官方说法, SD3 Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:

出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过 16 通道 VAE 等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。

提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。

排版功能:凭借 Diffusion Transformer 架构,SD3 Medium 实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。

资源高效:由于所占用的 VRAM 空间小,所以非常适合在标准消费级 GPU 上运行,且不致牺牲模型性能。

微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。

使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3 Medium 中生成的示例

同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50% 的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。

此外,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

因人体绘制问题被狂嘲 

然而,SD3 Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”

Reddit 上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了 SD3 Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。

Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SD XL Turbo 等 Stability 版本相比。

使用 SD3 Medium 创建的三张 AI 生成图像,手部明显残缺不全

一位 Reddit 用户写道,“不久之前,Stable Diffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”

AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”

使用 Hugging Face 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

使用“一名男子伸出双手”作为提示词,在 SD3 Medium 中生成的示例

结语 

SD3 Medium 在 Stability 的动荡时期到来。

这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

今年 2 月,Stable Diffusion 3 模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEO Emad Mostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已决定离去。

在一部分 Stable Diffusion 粉丝看来,SD3 Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3 Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

但无论如何,SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进 SD3 Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3 Medium 成为服务专业人士与业余爱好者的重要工具。

参考链接:

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/

本文来自微信公众号“AI前线”(ID:ai-front),整理:华卫、核子可乐,36氪经授权发布。