36氪 - 最新资讯频道 ( ) • 2022-01-12 17:59

文|乔纳斯

一次深谈:你是谁,以及你要成为谁

2019年底,小冰公司COO徐元春与每日经济新闻(以下简称“每经”)董事长、总编辑闻达有过一次深谈。

彼时,小冰与每经顺利合作了第一期项目“金融摘要”,通过小冰的 AI 文本生成技术,每经得以在浩如烟海的上市公司公告中迅速提取关键信息,再生成简单的新闻报道,给读者及时提供内容服务。

双方合作状态正酣,那场深谈,也围绕着如何开展新项目展开。

作为长期与小冰共创项目、且持续合作的关键合作伙伴,每经董事长闻达想了解的,不是简单的项目规划,他所关心的,不只是“小冰是谁”,而是“小冰想要成为谁。”

“董事长问,你们做技术,真正想实现的是什么?”徐元春对 36 氪回忆到,“我就在想,我们常说用技术改变世界,但改变世界,不是让原来 50 分钟的事情变成25 分钟,而是让这件事情产生根本性的变化。”

如果从小冰公司的业务层面理解这段话,徐元春谈到的,其实是小冰作为人工智能的创造力。

那次深谈后,小冰与每经合作的“虚拟人”项目很快上马。2021 年 12 月,双方宣布全球首个全流程由人工智能驱动的视频直播“每经AI电视”正式上线,在视频画面中,每经的“虚拟人”主播“N 小黑”、“N 小白”能够保持 24 X 365 不间断地播报资讯。由于面貌、形态与真人完全一致,几乎没有用户识别出这是两位“AI 主播”。

“虚拟人”,正是徐元春谈到的小冰AI 创造力的体现。

如果只是仿照人形的影像,业内早有先例,常见的做法要么用纯CG(Computer Graphic,计算机图形学)渲染,比如科幻大片《最终幻想》系列;如果要更逼真一些,就需要将 CG 配合真人动作捕捉,比如英伟达CEO黄仁勋去年 4 月就用“替身”参与了一段发布会。

但CG 渲染的缺点也很明显。一个是贵——单单是静态的人物建模,不包含头发、衣物,就需要几十万;如果给人物装点上合适的形象,再自然地“动”起来,这个费用就到了百万级别,耗时则以“数月”为单位计算。

不论从效率还是经济模型,重复前人的技术路线不是小冰想要的选择。“如果技术不能在一个月内生产并交付(虚拟人),那就是没有意义的,所以我们在想,能不能有一种技术可以绕过原有的路线。”徐元春对 36 氪说到。

XNR(深度神经网络渲染技术)是小冰交上的“答卷”。利用 XNR 与 CG 技术的融合,可以通过深度学习,在大量数据中提取特征,加速传统的渲染流程,在提升渲染速度的同时,让虚拟人的视觉形象、表情、肢体动作更加近似于真人。

在耗时上,以每经的两个虚拟人主播“N 小黑”、“N 小白”为例,通过小冰框架小样本学习技术,只需要一周的训练周期,两个数字孪生人就诞生了,成本也比传统 CG 渲染缩减了数十倍。

如今,“虚拟人”项目已经成为小冰重要的业务版图。除了每经AI 主播,通过小冰框架生成的“虚拟人”形象,还有负责万科财务催收的“崔筱盼”、央美毕业生“夏语冰”、清华虚拟大学生“华智冰”等。

小冰的技术、产品每年都在更新,如果单从业务角度观察这家公司,你可能会搞不清重点。事实上,弄懂小冰这家公司,只需要了解一点,即:通过人工智能技术的持续研发、快速产品化和广泛应用,让 AI 发挥创造力,对现有的生产力、生产方式进行颠覆式的重塑,而不仅仅是生产效率的提升。

回到每经董事长开头关于“小冰要成为谁”的发问,小冰正在用自己的技术信仰与价值投入,践行着“AI 创造力”的路线。

“虚拟人”爆发:见于未萌,相向而行

在中关村小冰的办公室,当 36 氪问起“虚拟人”项目的源起,徐元春短暂地思考了一下:“从外界来看,似乎是客户提出了需求我们来完成,但事实上不是这样的。”

在徐元春看来,我们今天看到的小冰“虚拟人”,是小冰多年通过技术积累,水到渠成的一种结果;换句话说,小冰的底层逻辑一直都没有变。

回顾小冰的发展,从 2014 年第一代小冰诞生,她从初始阶段只有文字的聊天对谈、到对答如流的语音交互,再到有了少女形象的二维动画,最终长成今天生动、丰满的虚拟形象;而“小冰”这个名词指代的,也从一个妙龄少女,扩展到可以对照无数人物(Human being)形象、角色、功能的“AI being”。

小冰得以成为今天的样子,技术是塑造她的那支“画笔”。如同女娲造人的过程,小冰也经历了从文字、图文、全双工语音、实时多模态交互的“虚拟人”的代际更迭,她能切入的场景、实现的功能也随着版本升级变得更加丰富。

把时间倒回去看,沿着让小冰从AI bot长成“AI beings”的路线,几乎每年都有新技术发布。

2014年,第一代小冰发布会上,小冰团队发布了开放域对话和对话式人工智能,也就是让AI少女小冰不受限制、漫无目的地去聊天,话题可以涉及任何领域。或者化身古灵精怪的少女去陪用户聊天。

2016年,小冰实现了人工智能全双工语音技术(Full Duplex),让每个人都能无需唤醒词与小冰进行多轮实时语音对话,适用于智能手机、智能音箱、智能驾驶等多种场景——这一技术在一年半之后被谷歌CEO在当年的Google I/O大会上效仿,并称之为Duplex,但这一Demo,半年后被《纽约时报》报道说其实是人工+AI的客服。

2017年,小冰提出了人工智能内容生成(AIC),并在文本、声音、视觉三个方向上同步展开探索,而小冰框架的诗歌、绘画、音乐词曲的创作和演绎,均已在商业化场景落地。

2018 年,小冰发布了第四版人工智能歌曲DNN模型。这个模型在内部又被称为“沙鲁小冰模型”。其中,“沙鲁”的名字源于英文Cell,意为可以像细胞一样不断复制和变异。通过该模型,小冰可以在自身嗓音中融合人类后天的技巧,比如模仿腾格尔的唱歌特色。

2019 年,小冰发布了多模态交互感官技术,融合了语音、视觉与对话引擎的交互体验,能够让用户与人工智能同时边听、边说、边看。

2021 年7 月,小冰公司发布超级自然语音技术。该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度,能突破单一场景限制,使人工智能交互主体能够在说话、交谈、歌唱等人类全场景中,进行高度拟人交互。公开技术示范视频显示,人工智能与真实人类的声音已很难区分。

可以看出,小冰形态的持续进化,背后是技术演进的支持。徐元春也坦陈,如果没有“超级自然语音技术”(人声)与“深度神经网络渲染技术”(图像),小冰的“虚拟人”项目也无从谈起。

“技术的储备是没有噱头的,就像盖房子一样,得把砖头一块一块的垒,如果没有技术,所有的故事都不成立。”徐元春说。

如果单从研发进展来看,小冰的技术储备毋庸置疑,但从技术到产品、产品到市场,小冰还要去验证技术带来的落地价值——它要找到市场上敢于第一个吃螃蟹的人。

采访中,徐元春多次向 36 氪谈及一个关键词:见于未萌。

在事物还没有萌发之前预先看到价值,是徐元春对早期合作伙伴的定义。不论是与每经合作的 AI 主播,还是万科的财务专员“崔筱盼”,都是第一波体现小冰 AI 创造力的标杆案例,而每经、万科之所以敢于“尝鲜”,也是因为预先看到了技术创新能够带来生产力的巨大变革。

还是以每经为例,在董事长闻达的远期规划里,每经作为国内一流的财经新闻平台,理应长成彭博社那样兼具消息产出广度、密度与速度的全球性新闻采编机构,但挑战在于,要想再造一个彭博,不算系统技术层面的投入,单单在全球各地设立采编团队,就是一笔不菲的开支。

虽然“复制彭博”不是个现实的方案,但在合作中,每经与小冰对于信息资讯的生产与触达方式愈发清晰。

首先,金融信息机构解决的是全世界金融信息不对称的问题,要更快获取并且结构化处理信息,小冰在 2019 年以前就通过“金融摘要”产品已经实现,当时小冰公布过一组数据:中国的金融机构中已经有 90%的交易员使用小冰生成的金融摘要。

可文字获取信息的形式毕竟有限,人类大脑的信息输入特征中,视频天然有着比文字更高的接受效率,这给了小冰团队新的挑战,是否能够发挥 AI 的创造力,绕过彭博社的人力密集型采编路线,不要用几十年、也不用花那么多钱,达成近似的目标。

“虚拟人”应运而生。与市面上大多数依靠“传统CG+中之人”方式制造和驱动的虚拟人不同,为了让虚拟主播更加生动,每经采用了小冰神经网络渲染技术(XNR),可以通过构建数据模型,去模拟人类说话时嘴型、眼神、脸部肌肉的变化,让虚拟人在播报时的面部表情变得自然流畅,更容易被用户接受。

上线“虚拟人”项目也让每经组织内部产生了显见的积极变化。从内容部门来说,原先的内容生产与传播速度产生了质的变化,这让每经从管理层到一线员工都对技术革新有了新的审视。“很多内容以外的部门,都开始思考,能不能用 AI 技术进行新一轮重塑。”徐元春形容道。

如今,“虚拟人”已走到了爆发前夜,从抖音上大火的美妆形象“柳夜熙”,到江苏卫视元旦晚会上的虚拟邓丽君,从影视工业到游戏,再到娱乐和传统行业,这个需求一直存在,从商业维度来看,多个分析机构对虚拟人均看好。比如中信证券预计,2030年我国虚拟人市场规模将达到2700亿。

小冰进化:长大,狂奔

2020 年 7 月,微软官方宣布,将人工智能小冰业务分拆为独立公司运营,传闻已久的“小冰分拆”尘埃落定。如今,小冰已经以独立创业公司的身份冲刺了18个月。

走进小冰位于中关村的新办公室,由小冰创作的油画随处可见,在公司门口还摆放着一架钢琴,好像掀开琴盖,小冰就能随时化身作曲家演奏一番——搬出微软大楼后,小冰的一切,都变得更加富有“小冰”的气质。

不过,离开微软,也意味着小冰要离开依附了多年的“大树”,以完全独立的姿态寻求生存。2021 年 7 月,“小冰公司”完成A轮融资,由高瓴领投,五源、Neumann、IDG、GGV纪源资本及上轮投资人北极光与网易公司跟投。小冰官方表示:“目前估值已超过独角兽(10 亿美元)规模。”

很多东西有了变化。分拆独立后,小冰打磨产品、直面市场的能力都有了飞速提升,在新近结束的内部组织调整上,小冰围绕“虚拟人”、“小冰岛”(小冰于2021 年发布的社交网络平台APP,用户可以创造各种 AI 个体)成立了单独的事业部,让技术、产品、运营、市场、销售更紧密地协同奔跑,以便更好地为客户提供服务。

“拆分的十几个月里,我们想聚焦的赛道和场景越来越明确,这个过程是对方向的判断,通过大量测试,我们能发现什么是擅长的,什么是该收敛的。”徐元春告诉 36 氪。

“做与不做”是小冰团队几乎每天都在面临的选择题,随着每经、万科这样的标杆客户影响力愈发扩大,找上门的客户需求越来越多,小冰需要从纷繁的需求中,找到对应自身战略与技术路线的合作伙伴。

更有趣的是,随着小冰“虚拟人”项目的成熟,小冰的商业团队还创造出了一种全新的解决方案交付模式。徐元春介绍到,小冰“虚拟人”的商业模式不再是按照过去的解决方案订制化收费,而是按照 AI 能产出的劳动力和价值,以“人力”的逻辑去进行商业报价。

“小冰输出了一个实实在在的劳动力,那他每年能做多少工作,可以按照产出来付工资。”徐元春介绍到。

目前,小冰的商业客户已覆盖金融、智能车机、零售、体育、地产等十多个垂直领域,知名客户还有中国外汇交易中心、香港证监会、万得资讯、国家体育总局冬运中心、中国联通、宝马、日产、蔚来、小鹏、万科集团等。从底层技术维度,据不完全统计,由小冰创建并承载的人工智能交互主体,拥有全球范围人工智能交互总流量约60%,超过亚马逊、谷歌及苹果同类产品的流量总和。

也有很多东西没有发生变化。

即使形态不断升级,小冰对人工智能的理解有着一以贯之的内核:一个是情感、一个是创造力。

小冰在2013年以“聊天机器人”微软内部创业项目的方式问世,但小冰团队从未将“Chatbot”作为终点,而是将“聊天”作为自然语言处理技术的数据试炼场,不断打磨AI背后的情感计算拟合能力,这都是小冰现在能够充满温度地与人进行交互,理解人的基础。

随着计算机语音、计算机视觉、人工智能内容生成的延伸,小冰也从纯文本交互的形态进化成如今的AI beings,更重要的是,因为技术维度的扩展,小冰在人工智能的创造力上也有了更多突破。

小冰框架已孵化出数以千万计的AI beings,既有少女小冰、少女Rinna、世博会参展画家夏语冰、儿童画家小可、主播F201、歌手何畅、人类观察者MERROR等具体形象;还有更广泛的比如数千万个陪伴在普通用户身边的虚拟男友、虚拟女友;还有许多在垂直场景里默默工作的AI being,如每经AI主播N小黑和N小白、万科虚拟员工崔筱盼、金融摘要撰稿人万小冰、智能座舱同行者HiPhiGo,以及冬奥AI裁判和教练、电视台主持人、时装设计师、音乐制作人、金融风控师等。

“实在”,则是小冰作为技术公司从微软保留至今的标签。在小冰团队来看,每公布一则技术进展,都需要做大量验证可行性的工作,等技术相当成熟了才向业界宣布。这种做法对于合作伙伴也是一种保护,如果技术的噱头大于实力,最终产品没有办法落地,带来的伤害将是行业性的。

对于如今的小冰来说,技术研发仍然是这家公司的绝对重心,也因为持续的技术突破,它展现出一家 AI 公司不断进化的形态,脱胎于巨头,正朝着成为小巨头的方向迈进,18个月的小冰公司处于企业进化中的关键时期。