InfoQ 推荐 ( ) • 2022-01-19 16:25

元宇宙无疑是2021年的概念顶流,在巨头下场、web 3.0加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。

1月14日,百度智能云AI人机交互实验室负责人李士岩在百度AI开放日上围绕当前数字人产业的发展格局、技术难点和底层驱动力进行了系统分享。

李士岩表示,虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。但在工具、应用层,中国企业已开始崭露头角。

不过,数字人规模化落地还面临三大难点:产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高。

为系统解决这些难题,百度推出了数字人平台“曦灵”,未来数字人生产、内容创作、业务配置服务将可以在一个平台上实现全链路制作和调优,降本增效。“我们近两年的奋斗目标是,通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”李士岩表示。

数字人大规模落地要突破三大难题

目前,数字人经历了以“纸片人”为代表的1.0阶段,以Vtuber主播为代表的2.0时代,已进化至3.0阶段,具备模型高精、人工智能驱动特点的数字人3.0成为行业主流。

李士岩介绍,第三代数字人的建模和内容生产均有AI参与,这使得数字人的制作效率更高,也更智能,能面向更多应用场景。可面向全群体用户,可由视频、直播、chatbot等载体承载,更具备千人千面的互动能力。

数字人3.0已展现出巨大的市场空间。根据次元光谱不完全统计,2021年国内虚拟偶像/数字人领域里至少发生19笔融资,2021年产业上下游也纷纷从自己擅长的角度切入市场。虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。

中国企业中,数量最多的是资产制作和策划运营类的公司,比如推出超写实数字人的AYAYI燃麦科技,推出虚拟人物柳夜熙的创壹视频,但这类公司面临的挑战是门槛较低、可替代性高。

此外,掌握技术和场景的互联网公司则扮演综合性技术服务商的角色,一边推出基于自身优势场景的数字人,打造应用标杆;一边推出数字人平台,将产品继续落地到更细化的场景中,点、线互相推进。

李士岩表示,数字人产业有三大核心推动力,第一级火箭是用户需求与技术升级、第二级是政策支持与资本涌入、第三级是计算平台的迭代。

“每一次数字人发展本质上都是技术推动的,用户从平面的图文影音获取信息与交互,向实时3D交互反馈的需求转变,将成为数字人长期发展的根本动能,未来也将创造大量需求。“李士岩说。

虽然数字人行业拥有强劲的驱动力,但李士岩认为,当下国内数字人要大规模产业落地还面临三大难题:

首先,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒,目前行业中大多数公司只是数字人制作与运营全流程上的一环或其中几环。

其次,服务场景与演艺场景没有有效打通,表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流。

第三是满足高机动性、高频需求的成本依旧很高,这一问题归根结底还是数字人的生产效率问题。

百度推出数字人平台 “曦灵”

针对当前数字人制作存在的高门槛问题,2021年12月,在百度AI开发者大会上,百度CTO王海峰正式发布了“百度智能云曦灵数字人平台"”, 搭建了集数字人生产、内容创作、业务配置服务为一体的平台级产品。

百度智能云曦灵 整体架构图

据介绍,百度的数字人平台曦灵具有全场景、一站式、平台化的特点,能支持从最初数字人形象定制、人设管理再到业务编排、内容创作,最后到多种驱动模式下与用户互动的全部需求,这也意味着在一个平台上即可实现数字人的全链路调优,从而将效果做到最好。

李士岩以数字人生成环节为例,演示了百度智能云曦灵平台的功能。用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被AI驱动的2D数字人像,以前需要两三个月时间做出来的3D数字人,现在可以压缩到小时级,同时还可以通过一句话语音描述或简单捏脸等多种形式快速生产数字人。

在内容生产维度,通过人像驱动、自然语言理解、语音交互、智能推荐等四大AI引擎,支持真人场景下多样化内容的快速生成、业务配置。目前,数字人个性化功能开发也较之前更加完善,以百度刚刚发布的3D超写实口语数字人为例,基于面部4D数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达98.5%。

据悉,早在2019年,百度就开始了“虚拟数字人战略”。基于多年的AI技术沉淀, AI能力已成为百度智能云曦灵平台的核心能力,现在百度也在把这种能力开放给外界。李士岩表示,“我们近两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”

详解曦灵三大优势

具体而言,百度智能云曦灵具有三大优势:

(一)、全场景:

百度智能云曦灵除了提供通用解决方案外,还覆盖银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经济等领域,提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。

(二)、 一站式:

百度智能云曦灵通过四大引擎,一站式实现数字人的“能听、能说、能理解、可互动”。

人像驱动引擎

通过4D 扫描、智能绑定等 AI 技术,实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,增强角色表现力,让数字人从表情到动作更生动具体。

智能对话引擎

拥有智能对话平台UNIT,服务于智能对话系统的开发者,在对话理解和对话管理技术方面拥有强大的技术积累。可为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。

语音交互引擎

该引擎拥有在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。还拥有全双工ASR、个性化TTS、变声器、定制唤醒词等各类功能或开发工具。

智能推荐引擎

依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。

(三)平台化:

百度智能云曦灵目前已具备标准平台的快速交付能力,在AI引擎和资产生产线的基础上设置三大平台,帮助不同领域客户快速实现敏捷型需求,降本增效。

人设管理平台: 在人设管理平台上根据不同的场景搭配设置不同的人设,比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高。业务编排与技能配置平台: 通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。内容创作与IP孵化平台: 偏向于演艺型数字人,如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或直播数字人需要做直播推流等,该平台均可提供相应能力。

曦灵数字人应用案例:明星数字人探索

在技术催生的数字人3.0阶段,虚拟人可与不同行业产生更紧密的融合。

基于市场使用场景,数字人可以分为演艺型数字人、服务型数字人两类。

演艺术型数字人包括虚拟主播、虚拟偶像以及数字孪生的虚拟品牌代言人。目前百度已经打造了AI手语主播、央视网虚拟主持人小C、航天局火星车数字人祝融号、百度虚拟代言人希加加、百度APP代言人龚俊数字人。

值得一提的是,龚俊数字人是百度在明星代言人方向的数字孪生探索,让明星的IP价值得以向元宇宙以数倍价值延伸。

不久前,龚俊数字人发布新歌《2021在说啥》刷屏全网。这是国内率先由可交互明星数字人参与作词作曲和演唱的歌曲。

龚俊拥有近两千万粉丝,但他不可能随时与每一个粉丝对话。但通过百度APP,每个人都可以拥有龚俊数字人,且24小时都可以与之进行互动。龚俊数字人拥有真人龚俊一样的脸和声音,甚至他能听懂你在问什么,并做出回答。目前,“龚俊数字人”通过AI驱动实现了广大用户的UGC,在百度App内的语音包被使用数百万次。

AI手语主播是数字人另一个颇有价值的应用,是技术向善的代表案例。AI手语主播采用语音识别、自然语言理解等人工智能技术,构建出一套复杂而精确的手语翻译引擎,实现了文字及音视频内容到手语的翻译;再通过专为手语优化的自然动作引擎,进行虚拟形象的驱动,将手语实时演绎为数字人的表情动作。

服务型数字人包括数字员工、虚拟员工、虚拟业务员等,可以帮助金融、运营商、政府、零售等行业提供基于数字人的新一代客户服务能力,解决排队长、回应慢、人力成本大等问题。目前,百度已经和浦发银行、光大银行、中国联通等合作推出了一对一服务型数字人。数字人客户能够提供全天候智能问答及线上业务办理服务、提供虚拟大堂经理服务,大幅提升了用户体验。