优享资讯 | 腾讯和清华、香港科大推出图生视频大模型Follow-Your-Click

即時不分類 - 聯合新聞網 ( ) • 2024-03-16 12:21

腾讯和清华、香港科大推出图生视频大模型Follow-Your-Click

一只小狗的图片加上一个提示词Raise head，Follow-Your-Click就能生成这只小狗将头抬起再垂下的重复动作影片。不同提示词可生成不同动作影片。取自Follow-Your-Click网站

《证券时报》官网创业板资讯网站《券商中国》报导，3月15日，腾讯和清华大学、香港科技大学联合推出全新图生视频大模型「Follow-Your-Click」，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成影片。

报导称，在目前的图生影片大模型中，一般的生成方法不仅需要使用者在提示词中描述运动区域，还需要提供运动指令的详细描述，过程较为复杂。另外，从产生的效果来看，现有影像产生视讯技术在移动影像的指定部分上缺乏控制，产生的影片往往需要移动整个场景，而不是影像上的某一个区域，精准度和灵活性上有所欠缺。

/*.innity-apps-underlay-ad {z-index: 34 !important; }*/ .innity-apps-underlay-ad ~ .header {z-index: 35;} .innity-apps-underlay-ad ~ .main-content .inline-ads { background: transparent;} #eyeDiv ~ .footer{ position: relative; z-index: 2;} /* sizmek_underlay 投递调整置底 z-index 权重 */ .article-content__abbr__text {display:inline-block;} /* to be remove */

为了解决这些问题，腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click，带来更加便捷的交互，也让图片「一键点，万物动」成为现实。

不过，券商中国并未再深入报导更多细节。实际探访其网站，Follow-Your-Click似只能将图片转换成2、3秒钟的影像，譬如将一只小狗的图片加上一个提示词Raise head，就能生成这只小狗重复将头抬起再垂下的重复动作影片。网页上也注明这一技术的限制，这一技术路径仍在生成大型复杂的人类动作上，有所限制，这可能是与动作与复杂性以及相关的训练样本仍十分稀缺有关。

报导说，腾讯混元大模型团队，正在持续研究探索多模态技术，拥有业界领先的影片产生能力。此前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造原创视频《江山如此多娇》，生成中国大美河山的精美视频片段，展示出了较强的内容理解、逻辑推理和画面生成能力。

2月15日，OpenAI在全球AI生成影片领域丢出一枚爆炸性讯息。当日，该公司发布了一款名为Sora的「文字生成影片」模型，并向部分研究人员和创作者开放Sora的存取权。Sora除了可以根据文字描述生成视频外，还可以根据现有的图片生成视频，目前可生成的视频长度在1分钟左右。

紧跟著Sora，2月26日，GoogleDeep Mind团队发布了110亿参数的AI基础世界模型Genie。仅用一张图片，便可产生一个互动式世界，生成的世界「动作可控」，用户可以其中逐帧行动。谷歌表示，Genie开启了「图/文生成互动世界」的时代，也将成为实现通用AI Agent的催化剂。

平安证券表示，OpenAI、Google相继发布多模态大模型Sora、Genie，AGI浪潮或将加速到来。

报导说，2月28日，阿里巴巴智慧计算研究所发表了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO只需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容「张嘴」唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。

报导指出，EMO为多模态领域的视频AI带来新玩法。不同于文生视频模型Sora，EMO主攻图+音频生成视频的方向：输入单张照片+任意语速的人声音频，EMO即可自动产生具有丰富面部表情和头部姿势的声音肖像影片。