优享资讯 | 通义 APP 上线照片唱歌功能，可让「赫本唱上春山，爱因斯坦说中文段子」，视频生成大模型竞争格局如何？

知乎热榜 ( ) • 2024-04-26 16:27

通义 APP 上线照片唱歌功能，可让「赫本唱上春山，爱因斯坦说中文段子」，视频生成大模型竞争格局如何？

数字生命卡兹克的回答

两个月前，曾有一个模型刷屏了AI圈，更是刷屏了外网。

这个模型叫：EMO。

用非常简单的话说，就是照片说话。

用一段音频，让一张静态照片直接说话或者唱歌。

其实这个东西已经非常常见了，去年爆火的类似产品有DID、Heygen、奇妙元等等。

而EMO的演示，它长这样。

https://www.zhihu.com/video/1767205110315409408

基本对现有产品处于碾压姿态。神情、嘴型、头部运动、眼睛等等，都表现极佳。

他们的项目地址：

https://humanaigc.github.io/emote-portrait-alive/

然而阿里老传统了，每次放出来的都是期货，要等很久才能实际用上。

比如去年刷屏过的AnimateAnyone。

也是过了快两个月，才上线在了通义千问的APP上。

所以阿里每次都是东西很屌，但是吊人胃口。

这一眨眼，离EMO发布又过了快两个月了。

我掐指一算，按照阿里的速度，这玩意估计就快上线了。

毕竟两个月之期，就快到了。

果不其然，想啥来啥。

阿里云的好朋友昨天给我发了一个消息，基本等于心有灵犀。

在给了我的手机号开内测名单，又等了一段时间之后。

终于，我如愿以偿的用上了EMO。

我用我随手在MJ上跑的妹子，生成了一段视频。

https://www.zhihu.com/video/1767205216321990656

这效果，屌爆了。。。。

想哭，真的。

这神情，这动作幅度，甚至头发丝都特么在动。

我愿称为当前最强。阿里，你是有点东西的。

然后我又跑了几个好玩的demo。

比如让兵马俑来唱一段《野狼Disco》。

https://www.zhihu.com/video/1767205288103698432

兵马俑听得不够爽的话，让腾格尔再来一段。

https://www.zhihu.com/video/1767205341761458176

朋友Simo_阿文也跑了一个有趣的demo。

https://www.zhihu.com/video/1767205410770350080

今天正好也是WayToAGI的一周年生日，他们也用EMO跑了一个贼搞的奥特曼唱生日歌哈哈哈哈哈，来庆祝WayToAGI一岁生日快乐。

https://www.zhihu.com/video/1767205463043747840

当然最骚的还是我的群友们。。。

把我之前参加CCTV6活动的照片拿来，然后...

https://www.zhihu.com/video/1767205524544815104

说下怎么用。

EMO跟AnimateAnyone一样，被集成到了通义千问里。

对着通义千问APP，在聊天对话界面，发送"EMO"。就可以进去了。

AnimateAnyone叫全名舞王，而EMO叫全名演唱。阿里直接直接让照片唱歌跳舞，齐活了。

比较可惜的是现在只能使用通义千问里面的音频模板，而不能自己上传音频，这个比较可惜，但是没办法，懂得都懂，不展开说了。

点进去模板，传一个大头照。

然后等就行了。

估计用户涌入的太多，在我发文的时候，一段视频等待时间已经1个小时以上了。。。

所以你看，有趣的东西，好玩的爆款，是一定会被大家所冲爆的。

一键照片说话/唱歌。

未来能带来的想象和场景，那可太广阔了。

对话、唱歌、表情包、经典梗等等。

我都能预期到未来的短视频生态里，一定会有大量的基于这种照片说话的玩梗的内容出现。

或者是像汗青的AI.Talk一样，去做很多从前所不可能的对话内容形式。

比如乔布斯和马斯克。

阿里，这个曾经的巨兽。

在AI时代，每一次的技术发布，都证明自己还是这个时代的技术最前沿的崽。

我期待着他在正在进行中的AI时代。

来重建，曾经属于自己的，超级王朝