InfoQ 推荐 ( ) • 2024-03-27 00:11

编者按:

 

3月21日,GTC AI大会,黄仁勋对话7位Transformer框架论文作者。他们认为,AI行业被困在了六七年前的原型上,这个世界需要更好的模型。 “我认为世界需要比Transformer更好的东西。我觉得现在与六七年前的情况相似。”“所以尽管原始模型可能不是现在可拥有的最强大的东西,但我们仍然固守在原来的模型上。” Transformer架构的诞生源于自然语言处理(NLP)领域的迫切需求。在过去,传统的循环神经网络(RNN)和卷积神经网络(CNN)在处理序列数据时面临一些挑战。RNN虽然能够捕捉序列中的依赖关系,但由于其顺序处理的方式,导致计算效率低下,并且难以处理长距离依赖。而CNN虽然可以并行计算,但在处理变长序列时不够灵活。 为了克服这些挑战,2017年,谷歌的8名研究人员联合发表了名为《你所需要的是注意力》(Attention Is All You Need)的论文,并在这篇论文中提出了Transformer架构,它能真正地解决RNN和CNN在处理序列数据时存在的问题。 Transformer采用了自注意力机制(Self-Attention Mechanism),使得模型能够同时关注序列中的所有位置,从而捕捉长距离依赖关系。此外,Transformer还采用了多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)等技术,进一步提高了模型的性能。这项具有划时代意义的技术变革彻底改变了技术发展路径。技术背后,这8位一同提出该理论的研究人员有的已经离开了谷歌,有的已经创办了自己的公司或是加入了新团队。 近日,国外知名杂志《连线》的资深编辑史蒂文·利维(Steven Levy)近期撰写了一篇文章,为我们揭秘了Transformer架构诞生背后的故事。

 

以下为翻译全文:

 

他们偶然相遇,迷上了共同的探索目标,最终设计出近代历史上最具突破性的关键技术——Transformers。

 

Transformer架构的诞生

 

2018年春季发表的一篇科学论文《Attention Is All You Need》共有八位作者,他们都是来自谷歌的研究人员,不过当时其中一人已经离开了公司。而最资深的贡献者Noam Shazeer手捧文章初稿却颇感讶异,因为他的名字出现在了第一位。面对各位合作伙伴对自己贡献的肯定,他坦言“我实在没有想到”。

 

NOAM SHAZEER,Character AI公司联合创始人兼CEO

 

论文作者的姓名排序其实很有讲究,谁在前谁在后可谓相当重要。特别是在这篇奠定了现代AI的关键文章中,每位参与者都凭借自己的努力给整个科技史竖起不朽的丰碑。而在论文终于定稿之后,大家决定“颠覆”按贡献度排名的惯例,添加标注强调每位作者都做出了“彼此相当的贡献,排名不分先后”。文章在截止日期前被发给知名AI会议,并旋即引发了如今人们耳熟能详的这场技术革命。

 

值此七周年之际,这篇论文已经拥有了传奇般的历史地位。作者们从神经网络这项蓬勃发展且不断改进的技术入手,打造出一套极为强大的数字系统,该系统的输出就如同是外星智能的产物。这种架构被命名为Transformer,是当今一切令人兴奋的AI产品背后的秘密武器,其中也包括ChatGPT、Dall-E和Midjourney等重量级成果。Shazeer开玩笑说,早知道这篇文章会拥有这样的份量,那当初就该“认真考虑一下作者排序”。现在这八位作者都成了技术圈的名人,在文章署名中位列第五的Llion Jones表示“现在会有人要求跟我合影,就是因为我是论文的作者之一!”

 

Llion Jones,SAKANA AI公司联合创始人

 

虽然并非论文作者,但身为全球最知名的AI科学家之一,Geoffrey Hinton表示“如果没有transformers,我觉得AI技术不可能达到目前的高度。”在他看来,我们生活在一个翻天覆地的新时代,OpenAI等厂商构建起的系统在很多方面几乎可与人类比肩,有时甚至已经成功超越了人类。

 

文章发表之后,这八位作者先后离开了谷歌。与其他数百万科技从业者一样,他们仍在以某种方式使用自己在2017年创造的成果开发更多AI系统。我有幸与这位八位transformers元老面对面交流,希望拼凑出那个开天辟地的重要时刻,了解他们如何依托人类的思维创造出拓展未来的智能机器。

Jakob Uszkoreit,Inceptive公司联合创始人兼CEO

 

Transformers的故事,始于八位署名作者中的第四人:Jakob Uszkoreit。

 

Uszkoreit的父亲是著名计算语言学家Hans Uszkoreit。上世纪60年代末,Hans还是一名高中生,并因为抗议苏联入侵捷克斯洛伐克而在祖国东德被判监禁15个月。获释之后他逃往西德,在柏林学习计算机和语言学。Jakob出生时他们举家迁往美国,在位于加利福尼亚州门洛帕克一家研究机构SRI的AI实验室工作。后来他们全家又迁回德国,Jakob也在那里接受了大学教育。

 

Jakob对于语言学兴趣不大,并在研究生阶段前往谷歌位于山景城的总部实习,并加入该公司的翻译小组。看来Uszkoreit家的人终究摆脱不了语言这个体系。在放弃继续攻读博士学位后,Jakob于2012年加入了谷歌的一支系统开发团队,其目标就是搜索页面内容并直接回答用户提问,避免再跳转至其他页面。当时苹果刚刚推出了Siri,这是一款虚拟助手,号称能在自然顺畅的对话中直接给出答案。谷歌高层从中嗅到了巨大的竞争威胁:Siri可能会吞噬他们的搜索流量。也正因为如此,Uszkoreit所在的这支新团队开始受到重视。

 

Uszkoreit表示,“这种恐慌实在没有必要。”Siri从未真正威胁过谷歌,但他很高兴能有机会深入研究计算机与人类话语之间的神秘联系。当时,曾经如一潭死水般的循环神经网络突然开始超越其他AI工程学方法。这类网络由多个层组成,信息在各层之间不断传递以识别最佳响应。神经网络在图像识别等领域取得了巨大胜利,AI技术的复兴也在一夜之间成为现实。于是谷歌疯狂调整员工队伍以应用这些技术,并希望系统能够生成与人类相当的响应能力——包括自动补全电子邮件中的句子,或者创建出相对简单的客服聊天机器人。

 

但这个方向很快就走进了死胡同。循环神经网络很难解析较长的文本片段。我们以这样一段话为例,“Joe是名棒球运动员,在吃了一顿丰盛的早餐后,他去球场并打出了两记安打。”要想理解“两记安打”,语言模型必须记住前面“Joe是名棒球运动员”的部分。如果按人类的语言处理习惯讲,那就是需要在这里集中注意力。当时公认的解决方案是所谓“长短期记忆”(LSTM),这种技术创新允许语言模型处理更大、更复杂的文本序列。但计算机仍会严格按照顺序处理这些序列(也就是按序排列的单词),且往往无法把握段中稍后可能出现的上下文线索。Uszkoreit解释称,“当时使用的方法就像是创可贴,基本是在缝缝补补,没办法获得能够真正发挥规模化作用的正确素材。”

 

于是2014年左右,他开始研究一种前所未有的方法,并将其称为自注意力(self-attention)机制。这种网络可以引用段落内的任意其他部分来理解单词含义,这些其他部分将作为上下文以阐明单词意图并帮助系统输出更优质的翻译结果。他指出,“这实际上是在通盘思考,并提供一种行之有效的方法,可以同时关注多条输入,再以有选择性的方式提取出某些内容。”尽管AI科学家们一直谨慎行事,不希望把“神经网络”的表述跟生物学大脑的实际工作方式相混淆,但Uszkoreit却信心满满,似乎认定自注意力与人类的语言处理方式确有共性。

 

Uszkoreit认为自注意力模型应该比循环神经网络更快、更高效。它处理信息的方式也更适合那些为支持机器学习热潮而大量产出的并行处理芯片。自注意力模型不再使用线性方法(按固定顺序查看各个单词),转而选择了并行方法(一次观察一大堆单词)。Uszkoreit怀疑,只要操作得当,单凭自注意力就能带来更好的文字理解和生成效果。

 

但当时并不是人人看好这种颠覆性的研究方向,包括Uszkoreit的父亲。就在儿子为谷歌工作的几年中,老Hans拿下了两项谷歌学院研究奖。Jakob Uszkoreit回忆道,“当时人们普通对此感到惊讶,因为它抛弃了一切原有神经架构。”放弃循环神经网络?这简直是异端!“从我跟父亲在餐桌上的沟通结果来看,咱们爷俩的观点着实是大相径庭。”

 

但Uszkoreit还是成功说服了几位同事参与自注意力实验。初步工作带来了希望,于是他们在2016年发表了一篇相关论文。Uszkoreit希望进一步推动研究,毕竟初期的团队实验只使用到数量极小的文本,但合作者们纷纷表示没有兴趣。就如同普通玩家赚点小钱就想离开赌桌一样,首批合作者开始尝试把这些初步发现转化成应用成果。Jakob指出,“自注意力确实能行。那篇论文的研究人员也对获取回报,并将成果部署在谷歌各个业务领域的前景感到兴奋,包括搜索乃至广告等。从种种方面来看,这都是一场惊人的成功,但我并不想就此止步。”

 

在Uszkoreit看来,自注意力完全可以做得更多、更好。于是他开始向所有感兴趣和不感兴趣的同事推销自己的理论,并在园区内1945号楼的白板上详尽阐述了自己的技术愿景。

Illia Polosukhin,NEAR公司联合创始人

 

2016年的一天,Uszkoreit和一位名叫Illia Polosukhin的科学家在谷歌园区的咖啡馆里共进午餐。Polosukhin出生于乌克兰,已经在谷歌工作了快三年。他被分配到了一支专项团队,探索如何在搜索字段中直接就查询问题给出答案。当时项目进展得不太顺利。Polosukhin表示,“要在Google.com上直接回答问题,相应的底层技术必须性能超高且成本低廉,毕竟整个回答窗口就只有几毫秒。”就在Polosukhin发泄着满腹牢骚时,Uszkoreit毫不犹豫地给出了解决办法,“他建议说,为什么不试试自注意力呢?”

 

当时,Polosukhin经常一位名叫Ashish Vaswani的同事合作。Vaswani出生于印度,但成长阶段主要生活在中东,曾经前往南加州大学求学,并在校内的精英机器翻译小组中拿下了博士学位。之后他搬到山景城并加入了谷歌,成为“Google Brain”新部门的一员。根据他的描述,Google Brain是一个“激进派团体”,坚信“神经网络将更新人类的理解方式”。但他的野心不止于此,希望参与到更宏大的项目当中。他的团队在1965号楼,跟Polosukhin语言团队所在的1945号楼相邻。在听说了自注意力技术之后,他马上表现出兴趣并同意放手一试。

 

Ashish Vaswani,Essential AI公司联合创始人兼CEO

 

三位研究人员共同起草了一份名为《Transformers:迭代自注意力与多种任务处理(Transformers: Iterative Self-Attention and Processing for Various Tasks)》的设计文件。

 

Uszkoreit指出,大家之所以在起步阶段选择了“transformers”这个名字,是因为此项机制能够转变接收到的信息,让系统尽可能从中提取更多理解信息,或者至少要实现类似于理解的效果。此外,Uszkoreit还记得孩童时代把玩孩之宝“变形金刚”玩具的美好时光,其原词正是transformers。“我小时候就有两个变形金刚玩具”,所以文件最后选择以六位变形金刚角色在山间相互开炮的图片收尾。

 

抱着满满的自信,作者们在文章开头写下了有些狂妄的序言:“我们太牛了。”

 

2017年初,Polosukhin离开谷歌创办了自己的公司。但与此同时,新的合作者也陆续加入。一位名叫Niki Parmar的印度工程师当时刚刚移居美国,此前在某美国软件公司的印度分部工作。她于2015年获得南加州大学硕士学位,还收到多家科技企业的录用函。她最终选择了谷歌,并在入职后马上参与Uszkoreit团队,致力于研究如何利用模型变体改进谷歌搜索服务。

 

Niki Parmar,Essential AI公司联合创始人

 

另一位新成员则是Llion Jones。他在威尔士出生长大,而且热爱计算机那种“非常规”的运行逻辑。他在伯明翰大学学习AI课程,并将自己一以贯之的好奇心倾注在了神经网络身上。他于2009年7月拿下硕士学位,但在经济危机期间找不到工作,所以几个月间只能靠救济金生活。他曾在当地一家公司找到过工作,之后靠着半申请半恳求的方式拿到了谷歌的录用资格。他随后加入谷歌研究院,顶头上司正是Polosukhin。有一天,Jones从一位名叫Mat Kelcey的同事那听说了自注意力的概念,并随后加入transformers团队。(后来Jones又认真向Kelcey介绍过transformers项目,但对方并不买账。Kelcey回忆道,「我也不确定这到底能不能行,而这可谓是我一生中最大的错误判断。」

 

Transformers项目也吸引到了其他正尝试改进大语言模型的Google Brain研究人员。第三波参与者包括波兰出生的理论计算机科学家Lukasz Kaiser和他的实习生Aidan Gomez。Gomez出生于加拿大安大略省的一处小农庄,每年春天他的家人都在当地采摘枫树糖浆。在多伦多大学读在三时,他“深深迷上”了AI,并加入Geoffrey Hinton实验室的机器学习小组。他开始主动联系谷歌那些发表过有趣论文的员工,申请帮助对方扩展研究范围。Kaiser回应了他的请求并邀请他参加实习。但直到几个月后,Gomez才意识到这些实习岗本来是面向博士生的,压根不该对他这样的本科生开放。

 

Kaiser和Gomez很快意识到,自注意力对于他们正尝试解决的问题来说,似乎确实是种前途光明、也更为激进的解决方案。Gomez表示,“我们当时还就是否应该合并这两个项目进行过深入对话”,并最终决定合二为一。

 

当时Transformer团队正着手开发一套自注意力模型,希望将文本从一种语言翻译成另一种语言。他们使用名为BLEU的基准测试来衡量其性能,本质上就是把机器输出结果与人工翻译内容进行比较。而且从起步阶段,他们的新模型就表现良好。Uszkoreit回忆称,“也就是说,我们终于从连概念验证都没有,迅速推进到了与最强LSTM相当的程度。”但他也承认与这种长短期记忆方案相比,自注意力模型“也没能做得更好”。

 

团队进入平台期,新队友成为了破局关键

 

团队由此进入了平台期,直到2018年的一天,Noam Shazeer偶然听说了他们的项目。Shazeer是谷歌公司的资深员工(早在2000年就加入谷歌),并凭借对谷歌早期广告系统的贡献而成为公司内的传奇人物。Shazeer研究深度学习已经有五年之久,最近开始对大语言模型产生了兴趣。但这些模型距离他所期待的流畅开展对话还差得很远。

 

据Shazeer回忆,当时他穿过1965号楼的一条走廊里,正好经过Kaiser的工作区。他被那里激烈的讨论声所吸引,“我记得Ashish正在讨论该如何使用自注意力,Niki对此非常兴奋。我突然想到,这似乎是个好主意,这群有趣且聪明的员工正在做未来可期的探索。”再加上原先的循环神经网络实在“令人恼火”,所以Shazeer决定“那咱们就试试自注意力!”

 

Shazeer的加入至关重要。Uszkoreit表示,“像自注意力这样的纯理论或者直觉机制,在实际部署时往往需要非常认真的规划,而这种能力只掌握在少数经验丰富的「魔术师」手中。这不是技术,而更像是种艺术。”Shazeer立刻开始施展他的魔法,决定编写自己的Transformer项目代码版本。他表示,“我保留了他们的基本思路,然后按自己的理解完成了开发。”他偶尔会向Kaiser提几个问题,但大多数情况下,他“只是默默开发一段时间,然后回头检查能不能起效。”用团队成员们的话来说,凭借着一系列“神奇”且“令人眼花缭乱”的操作,Shazeer成功把系统提升到了新的水平。

 

Gomez指出,“于是冲刺阶段终于到了。”每个人都充满动力,希望能在5月19日全球最大的AI盛会、也就是计划于12月召开的神经信息处理系统大会的论文投递截止日期之前,把自己的心血提交上去。随着硅谷送走寒冬、迎来暖春,实验的步伐也一再加快。他们测试了两种Transformer模型:其一只经过12个小时的训练,另一种更强大的Big版本则接受了为期三天半的训练。其功能非常简单:尝试将英语内容翻译成德语。

 

这套基础模型的表现优于全部竞争对手,Big在BLEU测试中的得分直接打破了原有纪录,且计算效率也有提升。Parmar指出,“我们的总耗时比其他人都少,而且这还只是开始,后续的性能测试又带来一个个破纪录的分数。”在听到这个消息后,Uszkoreit打开了自己收藏多年的一瓶香槟。

投入截止日期前最后两周是段疯狂的时光,尽管名义上团队成员们仍在1945号楼里办公,但他们已经把大部分时间都花在了1965号楼里——理由也很简单,那边咖啡机的出品更好喝。身为实习生的Gomez也全身心投入到了这波调试狂潮当中,还为论文制作了可视化图表,“大伙完全就是不眠不休”。当然还有此类项目中常见的消融实验,即把某些部分拆出来,看看余下的部分还能不能继续工作。

 

Gomez回忆道,“不同方法和模块间可以构成千千万万种组合,我们得想办法证明哪些有效、哪些无效。唯一的办法就是逐个尝试。为什么模型会表现出某种反直觉的效果?哦,那是因为我们进行正确掩码。好了?那就进行下一步。总之,transformers中的所有组件都经历过这种节奏极快的迭代试验与输出纠错。”Jones则补充称,在Shazeer那强大实现能力的帮助下,消融实验最终产生了“极简形式的成果,Shazeer简直是个大法师。”

 

Vaswani则分享道,有天晚上团队正在写论文,而他因为劳累而瘫倒在了办公室的沙发上。就在盯着沙发后的窗帘时,他被面料上的图案震惊了——在他眼中,这就像一个个突触与神经元。Vaswani激动地揪过一旁的Gomez,喊叫着他们的成果将超越传统机器翻译。“最终,就像人脑一样,所有这些模态——包括语音、音频、视觉——都将被统一在单一架构之下。我有一种强烈的预感,我们研究的是真正具有普适性的东西。”

 

但在谷歌高层,很多人认为transformers只是又一个有点亮点的AI项目。我询问几位团队成员,他们的老板有没有把他们召集起来介绍项目的最新进展,答案是很少。但Uszkoreit对此不以为意,“我们自己知道这可能是件大事,所以我们才急于把论文赶出来,并且在结尾处对后续工作做出了展望。”

 

而文章结尾的展望也正确宣告了这项技术的前进方向——transformers模型将应用于几乎所有形式的人类表达。他们写道,“我们对基于注意力的模型的未来前景感到兴奋。我们计划将transformers扩展到文本之外的更多输入与输出模态中”,包括研究“图像、音频与视频”。

 

给项目取名字,灵感来自一首歌曲

 

距离投稿截止日期还剩下几天,Uszkoreit意识到他们需要为论文起个标题。Jones强调团队已经彻底否决了当时行业公认的最佳实践,特别是LSTM,同时全面转向注意力机制。正好披头士乐队有首名曲叫《All You Need Is Love》,所以不妨就把文章定名为《Attention Is All You Need》。

 

Jones坦言,“我是英国人,所以只花了几秒钟就想到了这个梗。意外的是大家都觉得可以。”

团队成员们继续收集实验结果,一直忙到截止日当天。Parmar表示,“直到我们提交文章的五分前,英语译法语的得分才刚刚出来。我当时坐在1965号楼的小餐吧旁,一行行看着最新的分数。”不到两分钟后,这篇文章就被投递了出去。

 

与几乎任何一家科技企业一样,谷歌很快就为这项工作申请了临时专利。其目的不是为了阻止其他人使用这些成果,而是出于自我保护的专利组合。(毕竟谷歌一直秉持着「技术进步,谷歌受益」的原则。)

 

大会评审员的意见很快被发回了transformer研究团队这边。Parmar还记得“一条很积极,一条非常积极,还有一条说「似乎不错」。”总之,文章顺利被接收并入选了论文海报展。

 

到12月份,这篇论文已经引发了广泛轰动。12月6日,团队成员们在长达四个小时的会议上面对着人头攒动的到场科学家。作者们一直聊到声音嘶哑,直到当天晚上10点30分会议结束时,人们仍留在现场久久不愿离去。Uszkoreit提到,“于是保安不得不护送我们先行离开。”而对他来说,最值得铭记的时刻可能就是计算机科学家Sepp Hochreiter现身会场并高度赞扬这份工作——作为长短期记忆机制的共同发明者,Hochreiter的赞许就是最高肯定。从这一刻起,transformers就是AI技术储备中最新、最有力的工具。

 

但transformers并没有立刻占领整个世界,甚至在谷歌内部也没有马上普及。Kaiser回忆道,在论文发表前提下,Shazeer曾向谷歌高管提议放弃原有搜索索引机制,利用transformer训练一套巨大的网络,从根本上改变谷歌的信息组织方式。其实在当时,就连Kaiser自己也觉得这个主意太过荒谬。可现在哪怕最保守的观点,也认为这项改革将只是时间问题。

 

在此期间,一家名叫OpenAI的初创公司行动更快,明显占得了先机。在论文发表后不久,OpenAI公司首席研究员Ilya Sutskever(他在谷歌工作期间就接触过transformers团队)建议科学家Alex Radford认真研究这个方向,最终成果就是首款GPT产品。正如OpenAI公司CEO Sam Altman在去年的采访中所言,“在transformers论文发表时,我感觉谷歌那边还没有真正意识到它的深远影响。”

 

公司内部的情况确实更为复杂。Uszkoreit解释道,“对我们自己来说,transformers显然可以发挥一些神奇的功效。所以大家可能会问,谷歌为什么没在2018年推出ChatGPT?实际上,一切顺利的话在2019年甚至2020年推出GPT-3甚至3.5也是有可能的。而且人们最大的疑问在于,既然谷歌已经看到了transformers的魔力,为什么会不采取任何行动?这个问题的答案其实相当复杂。”

Aidan Gomez,COHERE公司联合创始人兼CEO

 

不少技术评论家都指出,谷歌已经从当初以创新为中心的精锐力量蜕变成了只注重利润的官僚机构。Gomez在接受英国《英国时报》采访时就提到,“他们并没有推动技术现代化,也压根没有实际采用。”对于谷歌这样一家长期领先行业并在数十年间赚取到巨额利润的大厂来说,这样的迟钝确实难以理喻。但也必须承认,谷歌确实从2018年起曾尝试将transformers集成至产品当中,一马当先的就是旗下翻译工具。同年,谷歌还推出基于transformer的BERT语言模型,并于次年起开始将其应用于搜索业务。

 

但与OpenAI的巨大飞跃和微软将基于transformers的系统大胆整合进产品线的举措相比,谷歌的这些小打小闹实在太过儿戏。去年,我曾问起谷歌CEO Sundar Pichai,为什么他的公司没有率先推出像ChatGPT这样的大语言模型。他认为在当时的情况下,谷歌觉得让其他企业走在前面更为有利。“我不太确定transformers到底能不能真正起效。而在其他人把路走通之后,我们也可以迅速跟进并做更多尝试。”

 

不可否认的是,如今这篇论文的所有八位作者都已离开谷歌。Plosukhin创立的Near公司专司开发区块链,其代币市值约为40亿美元。Parmar和Vaswani于2021年以业务合作伙伴的方式共同创立了Adept(目前估值为10亿美元),且正在联手创办第二家公司Essential AI(已融资800万美元)。Llion Jones在日本东京开设的Sakana AI公司估值2亿美元。Shazeer于2021年10月离职,参与创立了Character AI(目前估值为50亿美元)。谷歌实习生Aidan Gomez于2019年在多伦多联合创立了Cohere(当前估值约22亿美元)。Jakob Uszkoreit的生物科技公司Inceptive估值为3亿美元。而且除Near以外,所有创立企业均以transformers技术为业务基础。

 

Lukasz Kaiser,OpenAI公司研究员

 

Kaiser是唯一没有选择创业的作者,他加入了OpenAI,并成为新技术Q*的发明者之一。Altman去年曾表示,Q*技术将“揭开无知的面纱,推动发现的前沿。”当我在采访中想就此事询问Kaiser时,OpenAI的公关人员几乎马上跳起来提醒他别乱讲。

 

那现在的谷歌会怀念这群曾经的贡献者吗?当然,但考虑到他们大多另立门户建立了自己的AI初创企业,所以似乎也没有那么怀念。Pichai还特别提醒我,不光是谷歌transformers团队存在严重的人才流失,业界宠儿OpenAI同样无法幸免:“AI领域确实非常非常有活力。”但谷歌至少可以吹嘘说他们提供了支撑AI落地的企业环境,鼓励员工们追求各种不那么传统的思路。Parmar也承认,“从很多方面来讲,谷歌都是遥遥领先——他们会投资于正确的人才,创造出供我们探索和挑战极限的环境。其实没有第一时间跟进技术实践也可以理解,毕竟谷歌面临的风险要比一般人想象中大得多。”

 

如果没有谷歌的环境,也就不会出现transformers。论文作者们不单是谷歌员工,而且都聚到同一处办公室工作。而走廊上的偶遇和午餐时不经意的对话共同促成了这个重要时刻。谷歌的文化多样性和包容态度也发挥着关键作用:八位作者中,有六位出生在美国以外;余下的两人则分别是持有绿卡、在加州暂时居住的德国人,和一位随家人逃离迫害的二代移民。

 

Uszkoreit在伯林办公室中接受采访时提到,创新必须要依托于合适的条件。“良好的环境能让人们在人生的正确阶段对正确的事物产生浓厚兴趣。所以如果你恰好具备这种理想环境,正在面对正确的问题,再加上一点运气,那么奇迹就会从天而降。”

 

最后不得不提Uszkoreit和他老父亲之间的趣事。前文提到,Uszkoreit和他的父亲曾在餐桌上起过争执,但老Hans如今也已联合创立了一家大语言模型开发公司,使用的当然正是transformers技术。

 

原文链接:

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/"