36氪 - 最新资讯频道 ( ) • 2024-07-01 19:26

AI 视频界又「打」起来了! 

6 月 29 日,著名生成式 AI 平台 Runway 宣布,其最新模型 Gen-3 Alpha 向部分用户开启测试。 

同一天,Luma 推出关键帧新功能,并向所有用户免费开放使用。 

可谓是「你有张良计,我有过墙梯」,二者斗得不亦乐乎。 

这可把网友们高兴坏了,「6 月,多么美好的一个月!」 

「疯狂的 5 月、疯狂的 6 月,疯狂到根本停不下来!」 

Runway超绝镜头,干掉好莱坞

两周前,AI 视频「王者」Runway 祭出全新视频生成模型 Gen-3 Alpha 时,就预告 —— 

将在「几天内」首先向付费用户提供,免费版本也将在未来某个时间点向所有用户开放。

6 月 29 日,Runway 兑现承诺,宣布其最新推出的 Gen-3 Alpha 向部分用户开启测试。 

Gen-3 Alpha 之所以备受追捧,是因为它与上一代相比,无论在光影、质量、构图,还是文本语义还原、物理模拟、动作一致性等方面,均实现大幅度提升,就连宣传语都是「For artists,by artists(为艺术家而生,由艺术家而生)」。 

Gen-3 Alpha 效果究竟咋样?向来整花活的网友最有发言权。接下来请欣赏—— 

一个可怕的怪物从伦敦泰晤士河升起的电影镜头: 

一只悲伤的泰迪熊在哭泣,哭到伤心处还拿纸巾擤鼻涕: 

身穿华丽礼服的英国女郎,行走在古堡耸立的大街上,旁边有疾驰的车辆、缓行的马匹: 

一个巨大的蜥蜴,全身镶嵌着华丽的珠宝、珍珠,穿过茂密的植被。蜥蜴在光线下闪闪发光,画面逼真程度堪比纪录片。 

还有一只满身红蓝宝石的镶钻蛤蟆: 

夜晚的城市街道,雨水泛起霓虹灯的倒影。 

镜头从水坑中反射的灯光开始,缓缓升起,展现出那发光的霓虹广告牌,随后继续向后拉远,呈现出整条被雨水浸湿的街道。 

镜头的移动:一开始对准水坑中的倒影,接着一气呵成向上提起,向后拉开,以展现这雨夜的都市风光。 

培养皿中生长的黄色霉菌,在暗淡而神秘的灯光下,呈现出冷色调,动态感十足。 

秋天的森林中,地面被各种橙色、黄色和红色的落叶覆盖。 

轻风拂过,镜头紧贴地面向前推进,一阵旋风开始形成,将落叶卷起,形成一道螺旋。 镜头随着落叶升起,绕着旋转的落叶柱旋转 。 

从满是涂鸦的隧道的低视角开始,镜头平稳地沿着道路推进,穿过一段短而暗的隧道, 镜头在另一侧出现后迅速升高,展现出一大片五彩缤纷的野花田,周围是雪山环绕。 

一个弹钢琴的特写镜头,手指在琴键上跳跃,没有手部畸变,动作流畅,唯一的不足是,无名指上没有戒指,但影子「无中生有」。 

网友们的整活还炸出了 Runway 联合创始人 Cristóbal Valenzuela,他为自创的蜜蜂相机生成了一段视频。 

那么,这个袖珍相机长啥样呢? 

AI 再这样进化下去,好莱坞的演员们又要闹罢工了。 

Luma的关键帧新功能,画面过渡丝滑

6 月 29 日,Luma AI 推出了关键帧功能,而且大手一挥,直接向所有用户免费开放使用。 

用户只需上传起始和结束图片,并添加文字描述,Luma 就能生成具有好莱坞级别的特效视频。 

例如,X 网友 @hungrydonke 上传了两张关键帧照片: 

然后输入提示词是:A bunch of black confetti suddenly falls(突然,一堆黑色纸屑纷纷扬扬地落下来)效果如下 —— 

网友 @JonathanSolder3 先用 midjourney 生成两张图片: 

接着使用 Luma 关键帧功能生成一段超级赛亚人变身的动画。据作者介绍,Luma 不需要增强提示,只输入「超级赛亚人」即可。 

还有网友使用该功能完成每一个镜头过渡,从而将经典童话进行混搭生成一段名为《The Wolf, The Warrior, and The Wardrobe》动画。 

魔鬼变天使: 

橘子变小鸡: 

星巴克 logo 变身: 

还有网友将 20 个梗图利用 Luma 进行无缝衔接: 

AI 视频界战况如此焦灼,天晓得 Sora 怎么这么沉得住气,到现在都不露面。 

Yann LeCun「炮轰」:它们压根不懂物理

早在年初 Sora 发布时,「世界模型」一下子成了火热的概念。 

后来,谷歌的 Genie 也打出「世界模型」的旗号,这次 Runway 推出 Gen-3 Alpha 时,官方称「朝着构建通用世界模型迈出了重要一步」。 

到底啥是世界模型呢? 

其实这并没有一个标准的定义,但 AI 科学家们认为,人和动物会潜移默化地掌握世界的运作规律,从而可以「预知」接下来发生的事情并采取行动。 世界模型的研究就是让 AI 学习这种能力。 

很多人认为,Sora、Luma、Runway 等应用生成的视频相当逼真,还能按照时间顺序往后生成新的视频内容,它们似乎学会了「预知」事物发展的能力。 这与世界模型研究追求的目标不谋而合。 

不过,图灵奖得主 Yann LeCun 一直「泼冷水」。 

他认为,「根据提示产生看起来最真实的影片并不代表系统理解物理世界,生成与世界模型的因果预测有很大不同。 」 

7 月 1 日,Yann LeCun 连发 6 条帖子炮轰视频生成模型。 

他转发了一个 AI 生成体操的视频。 视频中的人物要么脑袋凭空消失,要么惊现 4 条腿,各种奇葩画面满天飞。 

Yann LeCun 称,视频生成模型并不理解基本的物理原理,更不用说人体结构了。 

「Sora 和其他视频生成模型都有类似的问题。毫无疑问,视频生成技术会随着时间的推移而变得更加先进, 但是,真正理解物理的优秀世界模型不会是生成式的。所有的鸟类和哺乳动物都比任何视频生成模型更懂物理,然而它们中没有一种能生成详细的视频。」Yann LeCun 说。 

有网友质疑: 人类不正是根据对物理的理解,在脑海中不断生成详细的「视频」吗? 

Yann LeCun 线上答疑,「我们构想的是可能发生的抽象情景,而不是生成像素图像。 这就是我想表达的观点。 」 

还有网友认为,鸟类和哺乳动物的大脑时刻在生成详细的「视频」,只是它们无法将其外化展现出来。 

Yann LeCun 反驳道: 不,它们不会。 它们只是生成可能发生的抽象情景,这和生成详细的视频有很大的区别。 

本文来自微信公众号“机器之能”(ID:almosthuman2017),编辑:杨文,36氪经授权发布。