优享资讯 | 微软发表VASA-1 AI框架，可即时生成逼真且生动的虚拟对嘴人像

新聞 | iThome ( ) • 2024-04-19 14:18

微软公开其最新虚拟人像技术VASA-1框架，该框架只要使用一张肖像照以及一段语音音讯，就能够产生精确逼真的人脸对嘴说话影像，影像中人物甚至可展现自然的表情和头部动作。VASA-1框架可即时生成高达40 FPS的512×512影像，适合虚拟形象的即时互动用例。

以人工智慧生成能够说话的脸孔，可使人工智慧技术更具互动性，丰富数位通讯体验，也能强化沟通的无障碍性，在教育、医疗和社交都有许多用处。但过去的技术，距离产生真实且自然的说话脸孔还有一大段距离，不少研究聚焦在对嘴上，脸部动态行为通常被忽视，因此生成的脸部也会显得僵硬且缺乏说服力。

除了表情之外，头部运动在增强虚拟人像的真实感，也发挥极大的作用，但与模拟脸部表情所遭遇的问题相同，目前生成的动画和人体运动模式之间存在相当大的差距。另外，生成效率也是该项技术的一大重点，唯有足够低延迟，脸部生成技术才能良好地支援即时通讯等应用。

微软VASA-1框架克服了以往虚拟人像生成技术的限制。此框架的特别之处在于，研究人员利用扩散Transformer模型，在整体脸部动态和头部运动潜在空间进行训练，该模型将所有可能的脸部动态，包括嘴唇动作、表情、眼睛注视和眨眼等行为，视为单一潜在变数，并统一建模其机率分布。

研究人员针对整体脸部动态建模，在加上联合学习的头部运动模式，最终产生各种逼真且情感丰富的说话行为。同时，微软利用3D技术辅助表示脸部特征，并特别设计损失函式，使得VASA-1不只能够生成高品质脸部影像，且能有效地捕捉和重现脸部3D结构。

VASA-1不只图像生成品质自然良好，另一大优点更是能高效运作，即时生成逼真的说话脸部，而这对于通讯的即时互动更是关键性的能力。研究人员在Nvidia RTX 4090 GPU桌上型电脑进行评估VASA-1，线上串流模式512×512解析度可达40 FPS，延迟时间仅有170 ms。