36氪 - 最新资讯频道 ( ) • 2024-06-21 17:48

2024年过半,围绕视频和图片内容,快手大模型应用落地加速。

6月21日,在计算机视觉领域盛会CVPR2024上,快手可灵大模型正式推出图生视频功能,支持将任意静态图像转化为5秒动态视频,其间可以搭配创作者输入的文本,生成多种运动效果。

此次可灵大模型还同步发布了视频续写功能,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。

这意味着,可灵大模型可以通过多次续写的功能,在AI视频生成的时长上超越Sora。

快手可灵视频生成大模型于6月6日发布,可支持生成最高达120s的视频,对标Sora。

如今国内的AI竞赛,已经从去年卷数据、算力和算法,争相发布基础大模型的状态,演变成了验证大模型应用落地能力的比拼。

而掀起这一浪潮的节点性事件,仍旧源于Open AI。其于2月16日发布了文生视频模型Sora,并首次由AI生成了长达1分钟的多镜头长视频,展现出了对于真实世界的高度模拟和细节还原,被视作科技行业的革命。

随后,国内各大厂商也竞相追赶。快手作为国内头部的内容平台自然也不会落下。

在今年Q1的财报电话会上,快手CEO程一笑表示,今年一季度,快手会稳步推进自研大模型各项性能的迭代提升,并且加快大模型在各业务场景的应用。更早之前,快手还发布了文生图和图生图大模型产品“可图”。

可灵大模型演示使用图片

快手以外,字节跳动从去年开始就已经成立了Flow部门,致力于大模型应用的研发,但至今尚未有成熟产品落地。

此前,曾有传闻表示,字节跳动在Sora引爆文生视频领域之前,已经在研发对标Sora的名为Boximator的创新性视频模型。随后字节跳动辟谣表示,Boximator是视频生成领域控制对象运动的技术方法研究项目,还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

今年4月和3月,国内AI赛道中的学院派选手还分别推出了视频生成AI模型“Vidu”和“Follow-Your-Click”,但生成视频的时长在10s-20s的区间,且画面质量也相对较低,与Sora仍存在较大差距。

在AI视频生成的竞争中,时长和画面质量已经成为了国内厂商争相突破的两个重要维度。如今,快手快了一步。