Meta 正在不遗余力地想要在生成式 AI 领域赶上竞争对手,目标是投入数十亿美元用于 AI 研究。这些巨资一部分用于招募 AI 研究员。但更大的一部分用于开发硬件,特别是用于运行和训练 Meta AI 模型的芯片。
性能相比MTIA v1提升了3倍
去年,Meta推出的首款自研AI芯片MTIA(MTIA v1)采用的是台积电7nm制程,而下一代MTIA同样是交由台积电代工,不过制程工艺升级到了5nm。并且,下一代MTIA配备更多处理核心,片内存储(on-chip memory)也翻倍到了256MB(MTIA v1 仅有128MB),off-chip LPDDR5也提高到了128GB(MTIA v1 为 64GB),主频也从800MHz上升到了1.35GHz,当然功耗也增加到了90W(MTIA v1 为 25W)。
Meta表示,在四个关键模型中,“下一代MTIA”性能比MTIA v1提升了3倍,“由于我们控制整个堆叠,所以与商用GPU相比,可以达成更高的运算效率。”
Meta透露,“下一代MTIA”目前已投入16个数据中心区域使用。不过,目前Meta还没有使用“下一代MTIA”训练生成式AI,尽管该公司声称有多项项目正在进行。此外,Meta承认“下一代MTIA”不会取代目前用于训练模型的GPU,而是补充运算资源。
对于头部的云服务厂商来说,亚马逊已经推出了多款自研AI芯片和Arm服务器CPU。微软去年也已AI芯片Azure Maia 100和服务器CPU Azure Cobalt 100。谷歌近日也向Google Cloud客户推出用于训练AI模型的TPU v5p,并发布了首款为数据中心设计的Arm构架Axion CPU。
Meta近年不遗余力加强AI技术开发,自行研发定制化AI芯片以满足自身的运算需求。该公司一直是英伟达H100 GPU的大客户,今年底前Meta运算基础设施预计采购达到35万颗H100。同时Meta也在加速推进自研MTIA系列AI芯片的进程,以降低对于英伟达的依赖,并降低采购成本。
软件栈引入新的编译器
随着新硬件的发布,Meta也加大了他们在软件栈上的开发力度。作为PyTorch的开发者,MTIA的软件栈从设计之初就做到了PyTorch 2.0的完全集成,也支持TorchDynamo和TorchInductor等新特性。
但与此同时,为了简化应用开发者的工作,为MTIA v1开发的代码,也能向下兼容新的MTIA v2硬件。而且Meta表示,因为已经将全部的软件栈集成在新的MTIA芯片内,在发布之际,他们已经在自己的服务器上用MTIA v2跑了一段时间了。正因为有这种兼容的软件栈方案,Meta可在九个月内就能让商用模型运行在16个地区的服务器上。
为了为全新的MTIA硬件生成更高性能的代码,Meta还打造了一套新的Triton-MTIA编译器。Triton是由OpenAI开发的一套开源语言和编译器,用于编写高效的ML计算内核。Triton极大地提高了开发者编写GPU代码的速度,但Meta发现Triton也很适合用于MTIA这样非GPU的硬件架构。
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/242442.html