财新网 - 首页 ( ) • 2024-05-14 21:04

本次推出的文生图模型是腾讯第一款开源模型


资料图:腾讯混元大模型logo。图:视觉中国

  【财新网】腾讯大模型团队发布首款开源模型。5月14日,腾讯混元大模型宣布推出15亿参数的开源文生图模型,该模型采用和OpenAI于2月发布的文生视频模型Sora相同的DiT架构。腾讯称,采用了该架构的文生图模型较前一代视觉生成在语义理解、画面质感和真实性等方面较大提升,整体效果提升20%。

  DiT(Diffusion with Transformer)可以简单理解为将此前多用于文本的Transformer架构和多用于多模态的Diffusion架构相结合,可以实现更好的多模态理解能力,和更丰富的内容生成。今年2月OpenAI率先发布了采用该架构的文生视频模型Sora,可生成长达1分钟的视频,由于其效果惊艳在业界引爆了文生视频热潮,国内产业界也加快了将该架构用于多模态模型能力的探索。(详见《财新周刊|Sora再进阶》)