优享资讯 | 中国首个 Sora 级视频大模型发布，该大模型设计有何亮点？

知乎热榜 ( ) • 2024-04-28 10:21

简枫的回答

中国首个 Sora 级视频大模型 Vidu 发布了。

生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到 Sora 级别的视频大模型，标志着中国在视频生成技术领域的重要进展。

不过现在信息太少了，只能看到视频展示的效果，效果很不错，但是很难细节的谈该大模型设计有什么亮点，只能浅浅的说一下：

一键生成16秒高清视频：Vidu 能够根据文本描述，一键生成长达 16 秒、1080P 分辨率的高清视频。这就好比是给 AI 一个剧本，它就能给你拍出一个小电影来。
多镜头生成与时空一致性：Vidu 的视频内容在多镜头切换和时空连续性上做得很好，这在以往的AI视频生成中是一个挑战，但现在 Vidu 做到了。
理解并生成中国元素：Vidu 在理解中国特色文化元素方面表现出色，能够生成具有中国元素的视频内容，比如熊猫、龙等，这对于文化输出和内容创新来说意义重大。
端到端的生成方式：Vidu 采用的是“一步到位”的生成方式，从文本到视频的转换是直接且连续的，这种端到端的技术路线简化了生成过程，提高了效率。
原创架构U-ViT：Vidu 背后的核心技术U-ViT架构，据说是全球首个 Diffusion 与 Transformer 融合的架构。
产业合作的愿景：Vidu 的命名寓意“We do！”，表明了该团队希望与产业链上下游企业和研究机构合作，推动视频大模型的进一步发展。

Vidu 的发布不仅是技术上的突破，更是对中国 AI 产业发展的一次有力推动，它可能会成为未来媒体、娱乐、教育等多个领域的“香饽饽”，再继续观望一段时间吧。