知乎热榜 ( ) • 2024-04-26 16:27
数字生命卡兹克的回答

两个月前,曾有一个模型刷屏了AI圈,更是刷屏了外网。

这个模型叫:EMO

用非常简单的话说,就是照片说话。

用一段音频,让一张静态照片直接说话或者唱歌。

其实这个东西已经非常常见了,去年爆火的类似产品有DID、Heygen、奇妙元等等。

而EMO的演示,它长这样。

https://www.zhihu.com/video/1767205110315409408

基本对现有产品处于碾压姿态。神情、嘴型、头部运动、眼睛等等,都表现极佳。

他们的项目地址:

humanaigc.github.io/emo


然而阿里老传统了,每次放出来的都是期货,要等很久才能实际用上。

比如去年刷屏过的AnimateAnyone。

也是过了快两个月,才上线在了通义千问的APP上。

所以阿里每次都是东西很屌,但是吊人胃口。

这一眨眼,离EMO发布又过了快两个月了。

我掐指一算,按照阿里的速度,这玩意估计就快上线了。

毕竟两个月之期,就快到了。

果不其然,想啥来啥。

阿里云的好朋友昨天给我发了一个消息,基本等于心有灵犀。

在给了我的手机号开内测名单,又等了一段时间之后。

终于,我如愿以偿的用上了EMO。

我用我随手在MJ上跑的妹子,生成了一段视频。

https://www.zhihu.com/video/1767205216321990656

这效果,屌爆了。。。。

想哭,真的。

这神情,这动作幅度,甚至头发丝都特么在动。

我愿称为当前最强。阿里,你是有点东西的。

然后我又跑了几个好玩的demo。

比如让兵马俑来唱一段《野狼Disco》。

https://www.zhihu.com/video/1767205288103698432

兵马俑听得不够爽的话,让腾格尔再来一段。

https://www.zhihu.com/video/1767205341761458176

朋友Simo_阿文也跑了一个有趣的demo。

https://www.zhihu.com/video/1767205410770350080

今天正好也是WayToAGI的一周年生日,他们也用EMO跑了一个贼搞的奥特曼唱生日歌哈哈哈哈哈,来庆祝WayToAGI一岁生日快乐。

https://www.zhihu.com/video/1767205463043747840

当然最骚的还是我的群友们。。。

把我之前参加CCTV6活动的照片拿来,然后...

https://www.zhihu.com/video/1767205524544815104

说下怎么用。

EMO跟AnimateAnyone一样,被集成到了通义千问里。

对着通义千问APP,在聊天对话界面,发送"EMO"。就可以进去了。

AnimateAnyone叫全名舞王,而EMO叫全名演唱。阿里直接直接让照片唱歌跳舞,齐活了。

比较可惜的是现在只能使用通义千问里面的音频模板,而不能自己上传音频,这个比较可惜,但是没办法,懂得都懂,不展开说了。

点进去模板,传一个大头照。

然后等就行了。

估计用户涌入的太多,在我发文的时候,一段视频等待时间已经1个小时以上了。。。

所以你看,有趣的东西,好玩的爆款,是一定会被大家所冲爆的。

一键照片说话/唱歌。

未来能带来的想象和场景,那可太广阔了。

对话、唱歌、表情包、经典梗等等。

我都能预期到未来的短视频生态里,一定会有大量的基于这种照片说话的玩梗的内容出现。

或者是像汗青的AI.Talk一样,去做很多从前所不可能的对话内容形式。

比如乔布斯和马斯克。

阿里,这个曾经的巨兽。

在AI时代,每一次的技术发布,都证明自己还是这个时代的技术最前沿的崽。

我期待着他在正在进行中的AI时代。

来重建,曾经属于自己的,超级王朝