谷歌: 假如AI大模型支持无限长上下文, 会如何?

虎嗅APP2024-04-12 10:36:13  102

为解决大模型(LLMs)在处理超长输入序列时遇到的内存限制问题,本文作者提出了一种新型架构:Infini-Transformer,它可以在有限内存条件下,让基于Transformer的大语言模型(LLMs)高效处理无限长的输入序列。实验结果表明:Infini-Transformer在长上下文语言建模任务上超越了基线模型,内存最高可节约114倍。

背景介绍

对于人工智能来说,内存资源是神经网络模型进行高效计算的必要条件。然而,由于Transformer中的注意力机制在内存占用和计算时间上都表现出二次复杂度,所以基于Transformer的大模型就更加依赖内存资源。

例如,对于批量大小为512、上下文长度为2048的500B模型,注意力键值(KV)状态的内存占用为3TB。这意味着对于标准的Transformer架构大模型,要想支持越长的上下文,那么需要的内存成本也将越高。既要降低内存成本,且要让LLMs能够支持更长的上下文,这无疑是一项非常具有挑战的任务。

面对超长序列,相比注意力机制,内存压缩技术更具扩展性。内存压缩不使用随输入序列长度而增长的数组,而是在有限的内存资源上,维护固定数量的参数来进行信息的存储和回调。然而,目前的LLMs尚未有一种有效、实用的内存压缩技术,可以在简单性与质量之间取得平衡。

基于以上背景,本文作者提出了一种新架构:Infini-Transformer,能够让基于Transformer的大模型在有限内存、计算资源的条件下,处理无限长的上下文输入。

Infini-Transformer模型

下图是本文Infini-Transformer模型、Transformer-XL模型的对比图。与Transformer-XL类似,Infini-Transformer处理的是一系列片段。即在每个片段内计算standardcausal点积attentioncontext(注意力上下文)。因此,点积注意力计算在某种意义上是局部的,它覆盖了索引为S的当前片段的总共N个标记。

然而,局部注意力在处理下一个片段时会丢弃前一个片段的注意力状态。在Infini-Transformer中,并没有忽略旧的键值(KV)注意力状态,而是通过内存压缩技术重新使用它们来保持整个上下文历史。

因此,Infini-Transformer的每个注意力层都具有全局压缩和局部细粒度状态,这就是前面提到的无限注意力(Infini-attention)。

Infini-attention

Infini-Transformer模型的关键组成部分为:Infini-attention,这是一种新型attention技术,如下图所示。它将计算局部和全局上下文状态,并将它们组合到一块作为输出。与多头注意力(MHA)类似,除了点积注意力之外,它还为每个注意力层维护H个并行压缩内存(H是注意力头的数量)。

其中:

“缩放点积Attention”在Infini-attention机制中发挥了重要作用。ScaledDot-productAttention是多头注意力(Multi-headAttention,MHA)的一个变种,它在处理序列数据时能够有效地捕捉序列中的依赖关系。对于MHA,本文并行地为序列中的每个元素计算H个注意力上下文向量,将它们沿着第二维拼接起来,最后将拼接后的向量投影到模型空间以获得注意力输出。

“CompressiveMemory”它通过固定数量的参数关联矩阵来存储和检索信息,当处理新的输入序列时,模型会更新关联矩阵中的参数,以存储当前序列的信息。更新过程通常涉及到将新的键值对(KV)与记忆矩阵中的现有参数进行某种形式的结合。在处理后续序列时,模型会利用查询向量(Query)来检索关联矩阵中的信息,从而获取之前序列的上下文信息。

实验结果

如下图所示,在PG19和Arxiv-math数据集上,Infini-attention在长上下文语言建模任务上取得了优于基线模型的性能,同时在内存大小上实现了114倍的压缩比。

如下图所示,在1M序列长度的密钥检索任务中,Infini-attention在仅使用5K长度输入进行微调后,成功解决了任务,展示了其在处理极长输入序列时的能力。

如下图,在500K长度的书籍摘要任务中,Infini-attention通过持续的预训练和任务微调,达到了SOTA,证明了其在长文本摘要任务上的性能。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/193143.html
0
随机主题
邻国总理底气十足, 美国算什么, 与中国的合作, 才是头等大事参展机构增加2419家! 几组数据看深圳文博会蓬勃生机亚特兰大勇夺欧联杯冠军,并终结药厂不败神话,温格推行越位新规DNF手游疲劳值用完, 除了站街还有7种游戏玩法: PVP、深渊、试炼最新战况: 波克罗夫斯克局势紧张, 泽连斯基谈论哈尔科夫形势![中国有约]漳州古城迎来国际友人, 共赏闽南文化瑰宝生涯第4冠, 36岁韩德君退役? 谁注意郭艾伦喊话, 大韩举动感人朱元璋为什么要列出15个不征之国? 它们分别是谁?李天一梦鸽卷钱赴美不归? 84岁李双江投靠前妻儿子晒与大儿子合斗罗大陆: 92%神性, 唐三成为封号斗罗, 99级以下没人能将他打败美联储会议纪要“放鹰”: 官员暗示必要时考虑加息辽篮夺冠发布会杨导感谢所有人!夸赞新疆主场新疆球迷!5d3翻车啦!卖家居然说传感器有坏点正常?江天化学: 公司不生产共聚聚甲醛、偏苯三酸酐(TMA)等产品没有社媒的小因扎吉通过妻子账号告别张康阳: 谢谢你困扰美国近百年的难题, 被中国攻克! 半年发电6.5亿度, 世界第一底盘革新之作——问界新M7 Max焕新版即将正式上市庄菁雄接掌一年后, 上汽通用仍未走出下滑通道落选欧国杯 拉什福德失望给予祝福银行降薪潮来袭, 如何保稳钱袋子?与预售价一样 2.4T乘用炮、商用炮上市 12.58万元起售
最新回复(0)