AI大神首次承认参与神秘模型Q*研发, 把OpenAI吓坏了

虎嗅APP2024-03-27 22:14:30  137

“一次人类智慧的汇聚,创造出一台机器,而这台机器最终可能会主宰一切”。这篇来自WIRED的专访,为我们讲述了现代人工智能的起源,以及Transformer创始团队8人组偶遇的背后故事:

1.科学论文“AttentionIsAllYouNeed”如今已经到达了传奇地位,其中所提及的Transformer架构正在影响着所有人的生活。

2.Transformer的故事始于Uszkoreit,递归神经网络在解析较长文本时遇到困难,因此从2014年起他开始构思一种不同的方法:自注意力(self-attention)。

3.Uszkoreit与Google的两位同事共同起草了文档,他们用“Transformer”命名除了单词意义与技术原理相近,还因为Uszkoreit本人小时候对孩之宝玩具有着美好的回忆。

4.Shazeer的加入对团队至关重要,他拿出了自己的基本想法,并且把它做出来了。Shazeer将整个架构提升到了一个新的水平。

5.在论文截止提交之前,他们测试了两种Transformer模型超越了所有竞争对手,并彻底打破了之前的纪录。

6.后来,该模型几乎应用于所有形式的人类表达,研究团队计划将其扩展“图像、音频和视频”领域的研究。

7.这篇改变世界的论文标题,来源于TheBeatles(披头士乐队)的一首歌“AllYouNeedIsLove”,Uszkoreit提议把论文命名为“AttentionIsAllYouNeed”。

8.OpenAI首席执行官SamAltman所说“当Transformer论文发表时,我想Google的任何人都没有意识到这意味着什么。”

9.论文在2017年12月引起了巨大关注,在长达四个小时的会议中,挤满了想了解更多信息的科学家,创始团队聊到嗓子沙哑,直到晚上10:30,人们仍然聚集在那里。

10.论文的8位作者都相继离开了Google,但他们创立的公司和旗下产品,都是基于Transformer技术。

2017年春天,一篇名为“AttentionIsAllYouNeed”的科学论文中,列出了8位作者。他们都是Google的研究人员,尽管其中一人那时已离开了公司。

当团队中最资深的研究者NoamShazeer看到论文初稿时,他惊讶地发现自己的名字排在第一位,暗示着他的贡献是最重要的。

“我没有想太多”他说。

在确定作者排名时,总是要小心翼翼——谁获得那个令人垂涎的第一作者,谁被挤到后面。特别是在这样一个案例中,每个参与者都在一个真正的集体努力中留下了独特的印记。

研究人员们急于完成他们的论文,最终决定“破坏”对贡献者排名的惯例。他们在每个名字旁边加了一个星号,并附上脚注:“平等贡献者,排名顺序是随机的”。

作者们在最后期限前将论文提交给了一个人工智能会议,并引发了一场革命。

现在,“Attention”论文即将迎来第七个周年纪念日,它已经达到了传奇地位。

作者们从一个蓬勃发展且不断改进的技术——神经网络的AI——中汲取灵感,并将其变成了另一种东西:一个如此强大的数字系统,其输出感觉像是外星智能的产物。

这种架构被称为Transformer,它是那些令人惊叹的AI产品(包括ChatGPT和图形生成器,如Dall-E和Midjourney)背后的秘密武器。

Shazeer现在开玩笑说,如果知道那篇论文会变得如此出名,他“可能会更担心作者顺序”。现在,这8个签名者都小有名气。

“有人找我自拍,因为我出现在一篇论文上!”排名第5的LlionJones说。

“没有Transformer,我想我们现在就不会在这里了。”GeoffreyHinton说。他不是作者之一,但可能是世界上最著名的AI科学家。他指的是我们所处的时代,指的是OpenAI和其他公司正在建立可以与人类输出相媲美甚至超越的系统。

自从论文发表以来,这8位作者都离开了Google,像其他数百万人一样,他们现在以某种方式与他们在2017年创造的系统合作。在与Transformer8人组交谈里,我们试图拼凑出创新的本质:

一次人类智慧的汇聚,创造出一台机器,而这台机器最终可能会主宰一切。

Transformer的故事始于第4个名字:JakobUszkoreit。

Uszkoreit是知名计算语言学家HansUszkoreit的儿子。20世纪60年代末,Hans还是一名高中生时,因抗议苏联入侵捷克斯洛伐克而在东德被监禁15个月。获释后,他逃到西德,在柏林学习计算机和语言学。后来他到了美国,在加州门洛帕克的一个研究机构SRI的人工智能实验室工作时,Jakob出生了。

最终,他和家人一起回到了德国,Jakob也在那里一直上完了大学。一开始,他并没有打算专注于语言,但在开始研究生学习时,他在Google的山景城办公室实习,进入了公司的翻译组。

后来他选择加入家族企业,为此还放弃了博士计划,并于2012年决定加入Google的一个团队,该团队正在研究一个系统,可以在不将用户转向其他网站的情况下,在搜索页面本身对用户的问题做出响应。

那时,苹果刚刚推出Siri,一个承诺提供一次性答案的虚拟助手,Google的高管闻到了巨大的竞争威胁:Siri可能会吞噬他们的搜索流量。他们开始更加关注Uszkoreit的新团队。

“这是一场假恐慌。”Uszkoreit说。Siri从未真正威胁过Google。但他欢迎有机会深入到那些可以与我们进行某种对话的系统。

当时,递归神经网络——曾经是学术界的冷门——突然开始超越其他AI工程方法。这些网络由许多层组成,信息通过这些层传递,再传递,以确定最佳的响应效果。神经网在图像识别等领域取得了巨大的胜利,AI复兴突然开始。

Google也在同一时期疯狂地重新安排其劳动力以采用这些技术。它们希望拥有能够生成类似人类的响应系统——在电子邮件中自动完成句子,或创建相对简单的客服聊天机器人。

但是,这个领域正遇到局限性:递归神经网络在解析较长文本时遇到困难。

例如,“Joe是一名棒球运动员,吃了一顿好早餐后,他去了公园并得到了两次击球”,为了理解“两次击球”,语言模型必须记住关于棒球的知识。

公认的解决方案是一项名为“长短期记忆”(LSTM)的发明,这项创新允许语言模型处理更大、更复杂的文本序列。

但是,计算机仍然严格按顺序处理这些序列——逐字逐句——并且错过了后来在段落中可能出现的内容线索。“我们应用的方法基本上是创可贴。”Uszkoreit说,“我们无法让正确的东西真正大规模工作。”

大约在2014年,他开始构思一种不同的方法:自注意力(self-attention)。这种网络可以通过参考段落中的任何部分来翻译一个词。这些部分可以澄清一个词的意图,并帮助系统产生良好的翻译。

Uszkoreit说“它实际上考虑了所有内容,并为您提供了高效地查看许多输入同时取出的方式。”尽管人工智能科学家小心翼翼,尽量不将神经网络的比喻与生物大脑的实际工作方式混淆,但Uszkoreit似乎相信,自注意力与人类处理语言的方式在某种程度上相似。

Uszkoreit认为,自注意力模型可能比递归神经网络更快、更有效。它处理信息的方式也正好适合大量生产出来的强大并行处理芯片,以支持机器学习热潮。它没有采用线性方法(按顺序查看每个词),而是采用更并行的方法(一起查看一堆词)。如果做得正确,Uszkoreit怀疑,人们可以专门使用自注意力来获得更好的输出结果。

并非所有人都认为这个想法会颠覆世界,包括Uszkoreit的父亲。

Uszkoreit在Google工作时,还获得了两项GoogleFaculty研究奖。

“人们扬起眉毛,因为这抛弃了所有现有的神经网络架构”JakobUszkoreit说,“我和我爸爸在餐桌上的对话中,我们并不一定看法一致”,爸爸甚至认为舍弃递归神经网络是“异端”的想法。

Uszkoreit说服了一些同事和他一起研究自注意力。他们的工作很快证明了这项新技术的前景,并在2016年发表了一篇论文。

Uszkoreit想要推动他们的研究更深入——团队实验只使用了微小的文本片段——但他的合作者都不感兴趣。不过这依然无法阻止他的脚步:

懂得那篇论文的人,对收获成果并将其部署在Google的各种地方感到兴奋,包括搜索,最终还包括广告。在很多方面,这都是一个惊人的成功,但我并不想就此止步。

Uszkoreit认为,自注意力可以承担更大的任务。这时,他在Google园区北缘查尔斯顿路1945号的白板上,勾勒出他的愿景。

2016年的一天,Uszkoreit在Google咖啡馆与一位名叫IlliaPolosukhin的科学家共进午餐。出生在乌克兰的Polosukhin已经在Google工作了近三年。他被分配到提供直接回答搜索领域问题的团队,但是工作并不顺利。

要在Google.com上回答问题,你需要非常便宜且高性能的东西,因为你有只有毫秒级的响应时间。

当Polosukhin抱怨时,Uszkoreit毫不费力地提出了解决方案:“为什么不使用自注意力?”

Polosukhin偶尔会与AshishVaswani(Google的同事)合作,他出生在印度,于中东长大,后来去了南加州大学,在该校的精英机器翻译组获得博士学位。之后,他搬到山景城,加入Google中一个名为Brain的新兴组织。

他将Brain描述为“一个激进的小组”,相信“神经网络将推动人类理解”。但他仍在寻找一个大项目来工作。Vaswani的团队在1965号楼工作,隔壁刚好是1945号楼的语言团队,他听说了自注意力的想法后,觉得这可能就是期待中的大项目,因此也参与到了这项研究当中。

这三位研究者一起起草了一份名为“Transformers:IterativeSelf-AttentionandProcessingforVariousTasks”的设计文档。Uszkoreit说,他们从“dayzero”选择了“Transformer”这个名字。因为,这项技术的机制是转换它所接收的信息,允许系统提取尽可能多的理解——或者至少给人留下印象。

另外,Uszkoreit小时候对孩之宝玩具(变形金刚的英文是Transformers,由美国孩之宝公司与日本特佳丽公司合作制作)有着美好的回忆。

文档最后是一幅卡通图像,六个变形金刚在山区地形中相互发射激光。

2017年初,Polosukhin离开Google,并创办了自己的公司,新的合作者纷纷加入。

一位名叫NikiParmar的印度工程师在美工作时移居美国。她于2015年从南加州大学获得硕士学位,并且收到了所有大型科技公司抛来的橄榄枝,她最终选择了Google。刚开始工作时,她就加入了Uszkoreit的团队,致力于改进Google搜索的模型变种。

另一位新成员是来自威尔士的LlionJones。在伯明翰大学就读期间,他上了一门人工智能课程,并对神经网络产生了好奇心,这些网络在当时被视为历史遗留问题。

2009年7月,Jones获得了硕士学位,不过他在毕业后失业了一段时间,靠救济生活了几个月。后来,他在当地一家公司找到了工作,然后向Google递交了一份“绝望的赌注”申请。不出意外,他得到了这份工作并最终加入了GoogleResearch,他的经理就是Polosukhin。

有一天,Jones从一位名叫MatKelcey的同事那里听说了自注意力的概念,后来他也加入了Transformer团队。

有意思的是,在Jones加入了Transformer后,还向引荐人Kelcey介绍了该项目,但Kelcey并不买账,她并不认为这项技术会起作用,

“这基本上是我一生中最大的错误预测。”Kelcey说。

Transformer的工作吸引了其他也在尝试改进大型语言模型的GoogleBrain研究员。这当中包括波兰出生的理论计算机科学家?ukaszKaiser和他的实习生AidanGomez。

Gomez在加拿大安大略省的一个小农场村长大,每年春天他的家人都会在枫树上取糖浆。作为多伦多大学的一名三年级学生,他“爱上了”人工智能,并加入了机器学习小组——GeoffreyHinton的实验室。

在此期间Gomez开始联系在Google写过有趣论文的人,并提出扩展他们工作的想法。Kaiser就上钩了,还邀请他到Google实习。直到几个月后,Gomez才得知这些实习机会是给博士生准备的,而不是像他这样的本科生。

Kaiser和Gomez很快就会明白,自注意力看起来像是一个有前途的、更激进的解决方案,而且他们正在解决这个问题,Gomez说:

我们曾就是否想要合并这两个项目进行过一次深思熟虑的讨论,答案是肯定的。

此时,Transformer团队开始构建一个自注意力模型,用于将文本从一种语言翻译成另一种语言。他们使用一个名为BLEU的基准来衡量其性能,该基准将机器的输出与人类翻译员的工作进行比较。

从一开始,他们的新模型就表现良好,Uszkoreit说“我们已经从没有任何概念,证明到了至少与当时最好的LSTM替代方法相媲美的水平,但与长短期记忆相比,它并没有表现得更好”。

他们已经达到了一个平台期——直到2017年的一天,NoamShazeer偶然听说了他们的项目。

Shazeer是一位经验丰富的Google员工——他在2000年入职,并以公司早期广告系统方面的工作而成为内部传奇人物。Shazeer在深度学习领域工作了五年,最近对大型语言模型产生了兴趣。但这些模型远未达到他所相信的可能产生流畅对话的水平。

正如Shazeer回忆的那样,他当时正在1965号楼的走廊里走着,经过Kaiser的工作空间。他发现自己正在听一场热烈的谈话:“我记得Ashish在谈论使用自注意力的想法,Niki对此非常兴奋。我想,哇,这听起来是个好主意。这看起来是一群有趣、聪明的人在做一些有前途的事情。”

Shazeer发现现有的递归神经网络“令人烦躁”,他想:“我们去替换它们吧!”

Shazeer的加入对团队至关重要。“这些理论,如自注意力,总是需要非常仔细的实施,通常由少数经验丰富的魔法师来展示”Uszkoreit说,对此Shazeer立即开始施展他的魔法。他决定自己编写Transformer团队代码的版本。

对于这段经历,Shazeer分享到“我拿出了基本想法,并且自己把它做出来了”。他在此期间使用的一些技术和技巧,团队后来会用“魔法”、“炼金术”和“铃铛和哨子”这样的词来描述,

总之,Shazeer将系统提升到了一个新的水平。

“那引发了冲刺。”Gomez说。他们充满动力,也想要赶上即将到来的截止日期——5月19日,这是年度最大AI活动,12月神经信息处理系统会议提交论文的截止日期。随着硅谷的冬天变成春天,实验的步伐加快了。

他们测试了两种Transformer模型:一种经过12小时训练产生的模型,以及一个经过三天半训练的更强大的版本,名为Big。他们将它们用于英德翻译。

基本模型超越了所有竞争对手——Big获得的BLEU分数,彻底打破了之前的纪录,同时计算效率也更高。

Parmar说“我们用的时间比外面任何人都要少,而且这才刚刚开始,因为数字还在不断提高”。当Uszkoreit听到这个消息时,他从他的卡车里拿出一瓶陈年香槟。

在截止日期前的最后两周,他们陷入了疯狂。尽管团队中有些人名义上仍在1945号楼有办公桌,但他们大部分时间都在1965号楼工作,因为那里有一个更好的浓缩咖啡机。“大家都没睡觉”Gomez说,作为实习生,他一直处于不断地调试狂潮中,并为论文制作了一些图表。

在这样的项目中,剥离是很常见的过程,拿掉一些看似累赘的东西,看看剩下的是否足以完成工作。

“这里面有各种技巧和模块组合——哪个有用,哪个没用。我们把一些部分扯出来,再用其他的来代替”Gomez说。

在Shazeer的助力下,Transformer产生了“一些极简的东西”,对此,Jones认为Noam是个巫师。

Vaswani回忆起一天晚上,在团队写论文时,他在办公室沙发上睡着了。他盯着将沙发与房间其他部分隔开的窗帘,被上面的图案吸引,这让他想起了突触和神经元。Gomez在那里,Vaswani告诉他,他们正在研究的东西将超越机器翻译:

最终,就像人脑一样,你需要将所有这些模式——语音、音频、视觉——统一在一个架构下,我有一种强烈的预感,我们正在研究更通用的事情。

然而,在Google的高层看来,这项工作只是另一个有趣的AI项目。

但Uszkoreit说在当时“我们明白这可能是一件相当大的事情,这让我们真正着迷于论文最后一段中的一句话,我们在那里评论未来的工作。”

后来,Transformer模型几乎应用于所有形式的人类表达。研究团队对基于注意力的模型的未来感到兴奋,并计划将Transformer扩展到涉及除文本以外的输入和输出模式的问题,而且还要继续开展在“图像、音频和视频”领域的研究。

在截止日期前的几个晚上,Uszkoreit意识到他们需要一个标题。Jones觉得他们的团队已经对注意力进行了激进的拒绝,特别是长短期记忆网络(LSTM),TheBeatles(披头士乐队)有一首歌叫“AllYouNeedIsLove”,那为什么不把论文命名为“AttentionIsAllYouNeed”?

他们一直在收集实验结果,直到截止前的最后两分钟的时候,他们发送了论文。

几乎和所有科技公司一样,Google迅速为这项工作申请了临时专利。这样做的目的不是阻止他人使用这些想法,而是为了建立专利组合以进行防御。(该公司的理念是:如果技术进步,Google将从中受益。)

当Transformers团队从会议同行评审员那里得到反馈时,他们的反应是复杂的:“一个正面,一个极其正面,还有一个说这个还可以”。

这篇论文被列为其中一个晚上的海报会议。

到了12月,这篇论文终于引起了人们的关注。12月6日,在长达四个小时的会议中,会议室一直挤满着想了解更多信息的科学家。创始团队成员一直聊到嗓子沙哑,直到晚上10:30,人们仍然聚集在那里,在保安告知不得不散场离开后,回忆才算结束。

对Uszkoreit他来说,这个过程中,最满意的时刻之一可能是计算机科学家SeppHochreiter走过来赞扬这项工作,考虑到Hochreiter是长短期记忆的联合发明者,这对Transformers来说是一个很大的赞美,因为Transformer刚刚取代了它在AI工具包中的首选地位。

Transformer并没有立即接管世界,甚至Google。Kaiser回忆说,在论文发表的时候,Shazeer建议Google的高管放弃整个搜索,并用Transformer训练一个巨大的网络——这基本上是改变Google组织信息的方式。

那时,即使是Kaiser也认为这个想法很荒谬。但现在,普遍的观点是:这只是时间问题。

一家名为OpenAI的初创公司反应非常快。论文发表后不久,OpenAI的首席研究员IlyaSutskever建议科学家AlecRadford跟进这个想法。结果,诞生了第一批GPT产品。

正如OpenAI首席执行官SamAltman去年所说:

当Transformer论文发表时,我想Google的任何人都没有意识到这意味着什么。

而Google内部的情况更为复杂,Uszkoreit说“对我们而言,Transformer很明显能做到神奇的事情,现在你可能会问,为什么2018年Google没有ChatGPT?实际上,我们可能在2019年,甚至2020年就有了GPT-3或3.5。关键问题不是他们看到了什么?问题是,我们看到了什么,为什么不去做任何事情?这个问题的答案很棘手。”

许多技术评论家指出,Google正在从以创新为中心的游乐场,转变为以底线为重点的官僚机构。正如Gomez告诉《金融时报》的那样,“他们没有现代化。他们没有采用这项技术”。

但对于一个技术领先行业几十年并从中获得巨大利润的巨头公司来说,这样做需要很大的勇气。

Google确实在2018年开始将Transformer集成到产品中,从翻译工具开始。同年,它还引入了一种名为BERT的新基于Transformer的语言模型,从第二年开始应用于搜索。

但这些底层变化与OpenAI的量子跃进和微软大胆地将基于Transformer的系统集成到其产品线相比,似乎有些畏缩。去年,当被问及为什么Google没有率先推出像ChatGPT这样的大型语言模型时,CEOSundarPichai争辩说:

在这种情况下Google发现让别人领导是有利的。对我来说,这并不是完全清楚它可能会成功。事实是,人们看到了它的工作方式后,我们可以做得更多。

一个不可否认的事实是,论文的8位作者都相继离开了Google:

Polosukhin的公司Near建立了一个市值约40亿美元的区块链。

Parmar和Vaswani在2021年成为商业伙伴,创办了Adept(估值10亿美元),现在正在创办他们的第二家公司,名为EssentialAI(800万美元资金)。

LlionJones的总部位于东京,他们研发的SakanaAI估值为2亿美元。

Shazeer在2021年10月离职,与他人共同创办了CharacterAI(估值50亿美元)。

实习生AidanGomez在2019年与他人共同创办了位于多伦多的Cohere(估值22亿美元)。

JakobUszkoreit的生物技术公司Inceptive,估值为3亿美元。

除了Near,上述所有的公司和旗下产品,都基于Transformer技术。

Kaiser是唯一一个没有创立公司的人。他加入了OpenAI,并且是名为“Q*”的新技术的发明者之一,Altman去年表示这项技术“将无知之幕推回,并将发现的前沿推向前进。”

在接受WIRED的采访时,记者试图向Kaiser询问有关Q*的业务时,OpenAI的公关人员几乎跳过桌子来阻止他出声。

Google是否想念这些“逃亡者”?当然,除了从公司迁移到新的AI初创公司的人,因为AI领域的流动非常非常动态。但Google可以吹嘘它创造了一个支持追求非传统想法的环境。

Parmar认为“在很多方面,Google一直走在前列——他们投资了正确的大脑,并创造了我们可以探索和突破的环境,花时间接受它是疯狂的,而Google实际上有更多的赌注”。

没有这样的环境,就没有Transformer。不仅是因为作者都是Google员工,他们还在同一栋办公楼里工作,走廊相遇和无意间听到的午餐对话导致了重要的时刻。

并且,这个团队在文化上也是多元化的。八个作者中有六个出生在美国以外;另外两个分别是两个持绿卡的德国人在加州暂住期间生的孩子,以及一个逃离迫害的第一代美国人。

在柏林办公室的Uszkoreit说,创新完全取决于正确的条件:

这是要找到那些对某事超级兴奋的人,他们正处于生活中的正确时刻,如果你有这个(条件),并且在做这件事的时候感到快乐,并且你在正确的问题上工作——而且你很幸运——那么魔法就会发生。

Uszkoreit和他的著名父亲之间也发生了某种神奇的事情。他的儿子报告说,在所有那些餐桌上的辩论之后,HansUszkoreit现在与人共同创立了一家公司,该公司正在构建大型语言模型。

当然,它们使用的也是Transformer。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/79238.html
0
最新回复(3)