优享资讯 | AI视频技术突破静默，让每一帧画面实现声色同步

InfoQ 推荐 ( ) • 2024-06-26 09:49

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

视频生成模型的发展速度令人瞩目，在人工智能领域的竞争已经达到了白热化阶段。各大厂商之间的激烈角逐不仅推动了技术的快速进步，也为整个行业营造了一个更加公正和开放的竞争环境。尽管如此，从年初令人瞩目的Sora到近期的可灵、Luma、Gen-3 Alpha等模型，它们所生成的视频作品均未能突破声音的局限。然而，Google DeepMind推出的V2A技术，为这一问题提供了解决方案。从技术应用来看，V2A技术与Veo等视频生成模型的结合，将能够创造出既具有戏剧性配乐、逼真音效，又能与视频中的角色、风格完美融合的对话镜头。这一创新标志着AI视频即将告别无声时代，迎来一个充满活力、充满创新的有声世界。

二、具体内容

大模型持续更新

6月19日，中国气象局发布人工智能全球中短期预报系统“风清”、人工智能临近预报系统“风雷”和人工智能全球次季节—季节预测系统“风顺”。这三个大模型都是由中国气象局与清华大学联合攻关团队开发的。这三个大模型完成了基于国产全球大气再分析资料CRA-40、雷达观测资料、风云卫星遥感资料的训练和检验评估，显著降低了当前主流气象预报大模型对国际再分析资料的依赖，提升了自主数据源的应用效率和准确性。6月21日，Anthropic发布最新大模型Claude 3.5 Sonnet，拥有前代模型2倍的推理速度和1/5的调用成本，在多项评测中超过了GPT-4o。

多模态领域

6 月 17 日，Runway公司发布了其最新力作——视频生成基础模型Gen-3 Alpha，该模型能够生成包含丰富场景变换、多样电影风格以及精细艺术指导的视频作品。6 月 18 日，松鼠Ai全新多模态智适应大模型发布会在上海召开，不仅宣布了教育大模型及系统的全方位升级，还推出了多款全新智适应教育硬件产品。在大模型方面，全新多模态智适应大模型在多模态智能错因分析与追根溯源、多模态智能人机互动、多模态智能测试与评估三大维度进行了全面迭代。在硬件方面，松鼠Ai推出了三款全新松鼠Ai智能老师——S211白鹭松鼠Ai智能老师、S139松鼠Ai智能老师以及Z29松果Ai智能老师，能给匹配不同用户需求，并全系搭载松鼠Ai最新多模态智适应教育大模型。

开源领域

6月15日，英伟达宣布推出 Nemotron-4 340B，其包含一系列开放模型，可用于生成合成数据，训练大语言模型，以及所有行业的商业应用。6月18日，潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展，支持无缝产出任意风格的高质量短片，模型权重和训练代码已经全面开源。6月18日，基于文本生成音效工具，ElevenLabs开源视频生成音效工具。无需寻找合适的音效，用户可以通过输入文本来生成配音，且大部分音效具有Shutterstock 的商业授权。6月19日，B站开源了轻量级 Index-1.9B 系列模型，包含基座模型、对照组、对话模型、角色扮演模型等多个版本。6月19日，Hedra Labs发布视频生成模型Character-1的研究预览版，对多平台用户开放使用。Character-1是一款能够通过文本和图片生成说话和唱歌视频的模型，最长支持60秒的免费体验，还是一个全新的创作平台，为用户提供视频创作机会。

科研领域

6月16日，由上海科技大学、影眸科技以及宾夕法尼亚大学联合研发的DressCode，标志着3D服装生成技术的重大突破。作为首个全面支持CG操作，并无缝融入工业生产流程的框架，DressCode通过文本驱动的方式，能够自动生成具备卓越渲染品质、高度可编辑性、可驱动性以及仿真特性的3D服装。

应用探索

新产品新应用/功能新动态

6 月 17 日，谷歌DeepMind发布了V2A技术进展，该技术可以结合视频像素和自然语言文本提示，为无声视频添加逼真的音效，能够实现同步的视听生成。6月19日，OpenAI宣布和Color Health 合作，探索通过GPT-4o创建AI工具Cancer Copilot，帮助医生根据患者数据制定筛查和治疗计划，从而能够就癌症筛查和治疗做出更加合理的决策。6月19日，Meta发布AudioSeal，一款音频水印技术，能在音频片段中精准识别AI生成的音频内容。6月19日，月之暗面Kimi开放平台将启动Context Caching内测，将支持长文本大模型以及上下文缓存机制。6月19日，前小度CEO景鲲和前小度CTO朱凯华联合创立的AI创新产品公司MainFunc推出了旗下首款AI Agent搜索产品GenSpark。该产品是一款AI Agent引擎，旨在“利用AI提供更好的搜索体验”。6月19日，Luma AI对其视频生成模型Dream Machine进行了重大更新，推出了Extend功能。这项新功能允许用户在保持原有视频风格和人物特征一致性的前提下，将原本生成的5秒视频延长至10秒以上。6月20日，百度智能云的曦灵数字人平台即将经历一次重大升级。此次升级不仅优化了2D和3D数字人的生成过程，实现了成本效益和效率的双重提升，而且还在直播、短视频和对话等多种应用场景中实现了无缝集成。用户仅需提供一段简短的描述，系统便能迅速模仿人类的创意思维，仅需10分钟就能自动创造出栩栩如生的3D数字人形象。

智能体

6月20日，斯坦福大学研究人员研发了一款仿人机器人HumanPlus，这款机器人可以模仿人类的行为，并支持模仿动作来进行学习，例如自主叠衣服、搬运物品、弹钢琴等。

报告推荐

Sora来袭，国内发展文生视频模型的土壤如何？各公司用脚投票开闭源路线的当下，开源在大模型市场进程中的价值正在被重新定义吗？人型机器人重回视野，大模型是否助力其刷新能力上限？Devin和智能编码助手是同一条赛道上的不同节点？多家企业宣布All in AI，对市场意味着什么？答案尽在InfoQ研究中心发布的《2024 年第 1 季度大模型监测报告》，关注「AI前线」公众号，回复「季度报告」免费下载，一睹为快吧~

报告预告

金融行业是否找到了AGI应用的最佳路径？取得了哪些具体应用成果? 又存在哪些难以逾越的挑战与桎梏？金融机构一定要做AGI建设吗？如何考量金融AGI应用产品的效果？欢迎大家持续关注InfoQ研究中心即将发布的《AGI在金融领域的应用实践洞察》。

活动推荐

InfoQ 将于 8 月 18 日至 19 日在上海举办 AICon 全球人工智能开发与应用大会，汇聚顶尖企业专家，深入端侧AI、大模型训练、安全实践、RAG应用、多模态创新等前沿话题。现在大会已开始正式报名，6 月 30 日前可以享受 8 折优惠，单张门票节省 960 元（原价 4800 元），详情可联系票务经理 13269078023 咨询。

原文链接：https://aicon.infoq.cn/2024/shanghai/schedule?utm_source=wechat&utm_medium=aiart2-0624