优享资讯 | 麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法

cnBeta.COM - 中文业界资讯站 ( ) • 2024-03-27 05:42

生成式人工智能服务可以生成高质量的视觉拼凑，但通常相当缓慢。麻省理工学院和 Adobe 公司的研究人员针对这一耗时问题开发出了一种潜在的解决方案，即一种对图像质量影响最小的全新超快速图像生成方法。该技术每秒可生成约 20 幅图像。

图像生成人工智能通常采用一种称为扩散的过程，通过几个采样步骤来完善视觉输出，以达到最终希望"逼真"的结果。研究人员表示，扩散模型可以生成高质量的图像，但需要数十次前向传递。

Adobe 研究中心和麻省理工学院的专家们正在引入一种名为"分布匹配蒸馏"（DMD）的技术。这一程序将多步扩散模型简化为一步图像生成解决方案。由此产生的模型可以生成与Stable Diffusion 1.5 等"传统"扩散模型相当的图像，但速度要快上几个数量级。

"我们的核心理念是训练两个扩散模型，不仅能估计目标真实分布的得分函数，还能估计假分布的得分函数。"研究人员称，他们的模型可以在现代 GPU 硬件上每秒生成 20 幅图像。

上面的视频短片重点介绍了 DMD 与 Stable Diffusion 1.5 相比的图像生成能力。标清每幅图像需要 1.4 秒，而 DMD 只需几分之一秒就能生成类似的图像。虽然在质量和性能之间有所权衡，但最终结果仍在普通用户可接受的范围之内。

该团队发表的关于新渲染方法的文章展示了使用 DMD 生成图像结果的更多示例。它比较了稳定扩散和 DMD，同时提供了生成图像的重要文字提示。主题包括通过虚拟数码单反相机镜头取景的一只狗、多洛米蒂山脉、森林中一只神奇的鹿、一只鹦鹉宝宝的 3D 渲染、独角兽、胡须、汽车、猫，甚至更多的狗。

分布匹配蒸馏法并不是第一种用于生成人工智能图像的单步方法。Stability AI 公司开发了一种被称为逆向扩散蒸馏（ADD）的技术，用于实时生成 100 万像素的图像。该公司通过 ADD 训练其 SDXL Turbo 模型，在单个 NVIDIA A100 AI GPU 加速器上实现了仅 207 毫秒的图像生成速度。Stability 的 ADD 采用了与麻省理工学院的 DMD 类似的方法。