1997 年,IBM 的超级计算机 Deep Blue 击败了世界象棋冠军 Garry Kasparov,这标志着超级计算机技术的一大飞跃,并首次预示了高性能计算有朝一日可能超越人类智能。在随后的 10 年中,我们开始将 AI 应用于各种实际任务,比如面部识别、语言翻译、以及推荐电影和商品。
之后的十五年,AI 已经进步到能够创造和理解知识的地步。例如,生成式 AI(如 ChatGPT 和 Stable Diffusion)不仅能够创作诗歌、艺术作品,还能诊断疾病、撰写摘要报告和编写计算机代码,甚至设计出可与人类设计相媲美的集成电路。
AI 将成为支持人类各种工作的数字助手,拥有巨大的潜力。以 ChatGPT 为例,它展现了 AI 如何让高性能计算变得普及,使每个人都能从中受益。
这些令人惊叹的 AI 应用,得益于三大因素的结合:高效的机器学习算法创新、大量用于训练神经网络的数据,以及在节能计算上通过半导体技术进步所取得的成就。尽管半导体技术对生成式 AI 革命的贡献极为关键,但它并未获得足够的认可。
在过去三十年中,AI 的每一个重大突破都得益于当时最先进的半导体技术。Deep Blue 利用的是 0.6 微米和 0.35 微米节点的芯片制造技术。赢得 ImageNet 竞赛的深度神经网络使用了 40 纳米技术,AlphaGo 征服围棋是依靠 28 纳米技术,而最初版本的 ChatGPT 则是在 5 纳米技术制造的计算机上进行训练的。最新版的 ChatGPT 则运行在更为先进的 4 纳米技术服务器上。从软件和算法到架构、电路设计和设备技术,计算机系统的每一层都在推动 AI 性能的飞跃。但不可否认的是,基础的晶体管设备技术为上述所有层面的进步提供了可能。
如果 AI 技术要保持当前的速度发展,它还需要半导体行业的更多支持。在未来十年内,AI 将需要拥有高达 1 万亿晶体管的 GPU,也就是说,相较于现在的标准,其设备数量将增加 10 倍。
半导体技术的进步(红线)—— 包括新材料、光刻技术的进步、新型晶体管和先进封装 —— 推动了功能更强大的 AI 系统的开发(蓝线)
过去五年中,AI 训练所需的计算和内存访问量急剧增加。例如,训练 GPT-3 需要相当于每秒进行超过 50 亿次的计算,持续一整天(相当于 5,000 petaflops / 天),并且需要 3 万亿字节(3TB)的内存。
新兴的生成式 AI 应用对计算能力和内存访问的需求持续快速增长。我们面临一个紧迫的难题:半导体技术如何跟得上这种步伐?
从集成设备到集成小芯片
自集成电路发明以来,半导体技术一直致力于缩小元件尺寸,以便在拇指大小的芯片中集成更多晶体管。今天,我们的集成水平更上一层楼,超越了 2D 缩放,进入 3D 系统集成的新境界。现在,我们将许多芯片集成为一个紧密相连、高度互联的系统。这标志着半导体技术集成的一个重大转变。
在 AI 时代,系统的能力直接取决于集成到系统中的晶体管数量。一个主要的限制是,光刻芯片制造工具设计用来制造面积不超过大约 800 平方毫米的集成电路,即所谓的光罩限制。但现在,我们可以将集成系统的规模扩大到超过光刻光罩限制。通过将多个芯片连接到一个内置互连的更大硅片上,我们可以集成一个比单个芯片上可能的设备数量更多的系统。例如,台积电的芯片在晶圆上封装(CoWoS)技术,可以容纳高达六个掩模版的计算芯片,以及十几个高带宽内存(HBM)芯片。
台积电的 CoWoS 技术 —— 一种先进的硅基芯片封装技术,已经应用于多款产品。例如,Nvidia 的 Ampere 和 Hopper GPU 就是这种技术的应用案例。每个 GPU 包括一个主 GPU 芯片和六个高带宽内存模块,它们都安装在一块硅互连器上。这些计算用的 GPU 芯片的尺寸几乎达到了当前芯片制造工具所能允许的最大限度。Ampere 拥有 540 亿个晶体管,而 Hopper 则有 800 亿个。从 7 纳米技术升级到更密集的 4 纳米技术,使得在大致相同的面积上集成了多达 50% 的晶体管。Ampere 和 Hopper 已成为当今 LLM 训练的核心设备。例如,训练 ChatGPT 这样的模型需要成千上万这样的处理器。
HBM 是对 AI 至关重要的另一项关键半导体技术:通过将芯片堆叠起来集成系统。我们在台积电将这称为系统集成芯片(SoIC)。HBM 是由一堆垂直互联的 DRAM 芯片堆叠在控制逻辑 IC 之上,它使用称为硅通孔(TSVs)的垂直互连来传输每个芯片的信号,并使用焊点连接内存芯片。如今,高性能 GPU 广泛使用 HBM 技术。
展望未来,3D SoIC 技术可以提供一种更高密度的垂直互连方式,这是一种超越现有 HBM 技术的 “无凸点替代品”。最近的进展展示了使用混合键合的 HBM 测试结构,这种铜对铜连接的密度比焊点更高。这种内存系统被低温键合在更大的基础逻辑芯片上,总厚度仅为 600 微米。
随着大量芯片组成的高性能计算系统运行大型 AI 模型,高速有线通信可能很快成为计算速度的瓶颈。今天,光互连已经被用于连接数据中心的服务器机架。我们很快将需要基于硅光子学的光接口,与 GPU 和 CPU 打包在一起。这将使我们能够扩展更高效的能源和面积带宽,实现直接的光 GPU 对 GPU 通信,让数百台服务器能够像一个具有统一内存的巨型 GPU 那样运作。因应 AI 应用的需求,硅光子学将成为半导体行业最重要的支持技术之一。
迈向万亿晶体管 GPU
正如前文所述,目前用于 AI 训练的典型 GPU 芯片已经达到了光刻工艺的极限,其晶体管数量大约为 1000 亿个。为了继续增加晶体管数量,我们需要通过 2.5D 或 3D 集成技术将多个芯片互联来执行计算。利用 CoWoS 或 SoIC 等先进的封装技术,可以实现比单一芯片更大规模的晶体管集成。我们预测,在未来十年内,多芯片 GPU 将拥有超过 1 万亿晶体管。
我们需要将这些芯片在 3D 堆叠中链接起来。幸运的是,行业已经能够快速缩小垂直互连的间距,增加连接密度。而且未来还有更大的提升空间。
3D 芯片中垂直连接密度的增长速度与 GPU 中晶体管数量的增长速度大致相同。
GPU 的高效能性能趋势
那么,这些创新的硬件技术是如何提高系统性能的呢?
我们可以从服务器 GPU 在能源效能性能(EEP)方面的稳步提升中看到趋势。过去 15 年里,半导体行业大约每两年就将能源效能性能提高了三倍。我们相信这一趋势将继续保持。它将由包括新材料、器件与集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及这些技术元素的综合优化等多种创新驱动。
很大程度上得益于半导体技术的进步,一种称为节能性能的衡量标准有望每两年增加两倍(EEP 单位为 1 / 飞焦耳皮秒)。
特别值得一提的是,先进封装技术将是推动 EEP 提高的关键因素。此外,如系统技术协同优化(STCO)的概念,即将 GPU 的不同功能部分分别集成在各自的芯片上,并采用各自最佳的性能和经济技术,这将变得日益重要。
3D 集成电路的 Mead-Conway 转折点
1978 年,加州理工学院的 Carver Mead 教授和施乐 PARC 的 Lynn Conway 发明了一种集成电路的计算机辅助设计方法。他们使用一套设计规则简化了芯片缩放的描述,使工程师能够轻松设计超大规模集成电路(VLSI),而无需深入了解工艺技术。
3D 芯片设计也需要这样的能力。如今,设计师需要了解芯片设计、系统架构设计以及硬件和软件优化。制造商需要掌握芯片技术、3D IC 技术和先进的封装技术。我们需要一种共通语言,就像 1978 年那样,以一种电子设计工具可以理解的方式来描述这些技术。一种名为 3Dblox 的开源标准,已经被当今多数技术公司和电子设计自动化(EDA)公司所采用,它赋予设计师在 3D IC 系统设计上的自由发挥空间,无论底层技术如何。
穿越隧道的未来
在 AI 时代,半导体技术成为了推动新 AI 能力和应用的关键力量。现代的 GPU 不再受限于过去传统的尺寸和形态。新兴的半导体技术也不仅局限于在二维平面上缩小下一代晶体管的尺寸。一个集成 AI 系统可以包含尽可能多的节能晶体管、为特定计算任务设计的高效系统架构,以及软件与硬件间的优化协同。
在过去的半个世纪里,半导体技术的发展就像在一条明确的隧道中前行,道路清晰,目标明确:不断缩小晶体管的尺寸。
如今,我们已经抵达这条隧道的尽头。从这一点向前,半导体技术的发展将变得更加艰难。然而,在隧道之外,展现的是更多的可能性和无限的天地。我们不再受限于过去的框架和局限。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/116487.html