搞 AI 的是真没钱了

虎嗅APP2024-04-06 11:47:54 79

出品|虎嗅科技组

作者|王一鹏

头图|视觉中国

4月5日上午，一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE，宣布用10万美元的训练成本，就可以训练出媲美LLaMA2级别的大模型——后者成本高达数十亿美元。贾扬清第一时间进行了转评赞，直指其核心在于MoE架构。

此前，MoE架构始终是一个位于舆论水面下的大模型技术，人们醉心于大模型的技术突破，而以吃瓜的心态看待其背后的成本问题。但当StabilityAICEO及核心团队相继离职，公司被曝每月运营成本高达800万美元以上，完全入不敷出时，大家才真正的认识到：不是中国AI圈穷，而是全球AI圈都真的没钱了——大模型就像个“碎钞机”，无论硅谷公司，还是中国公司，都难以承受。

因此，MoE作为一种可以降低运营成本、提升训练效率的架构，骤然成为全世界大模型公司的关注重点。

去年12月，MistralAI发布8x7B-MoE模型，成为全球首个开源的MoE大模型；今年1月，Minimax宣布发布国内首个MoE大语言模型abab6；在接下来的几个月，Google、APUS、达观、阶跃星辰等企业以及马斯克，都纷纷发布了自己的MoE模型。考虑到研发周期的问题，至少在GPT-4刚发布的时间（2023年3月），有远见的公司就已经确定了MoE的架构方向。

即便是OpenAI，当下对其GPT-4技术猜测的主流观点也认为，他们一定采用了MoE架构。

MoE不太省心，但确实可以降本

MoE架构的中文名称是混合专家架构，是神经网络的一种架构模式。它将神经网络拆分成多个专家子网络，面对一次输入，既可以指定某一位“专家”来回答，也可以要求多位“专家”回答，甚至全部参与回答，最终依据权重综合给出结果。

这使得MoE架构的可扩展性优秀，开发者可以在一个巨型模型上，继续增加参数量，进行横向扩展。同时因为MoE可以选择只启用部分专家子模型，也在保持性能的同时，降低了推理成本。另外MoE架构允许数据在多个专家模型之间进行分配和并行处理，因此可以提高模型的训练和推理速度。

听起来全是优点，但是MoE架构的训练难度很大。

一个最主要的问题是，MoE架构很难保证每个“专家”都能得到充分训练。决定了哪些“专家”，以多大权重参与回答的核心部件是门控网络（GateNetwork）。如果门控网络倾向于选择某些特定的“专家”，可能会导致其他“专家”得不到充分的训练，从而造成训练不稳定。而且在MoE架构中，不同的“专家”可能会被分配到不同数量的输入样本。如果某些“专家”被分配的样本过多或过少，可能会导致负载不平衡，影响模型的训练效率和最终性能。

但对于全球AI企业，尤其是中国企业而言，这已经是两年来的最好局面了——至少我们可以用软件技术解决问题，而不是看着芯片和账户干着急。

从实际情况来看，国内MoE架构的产品进展也较为乐观。

MiniMax作为最早发力MoE架构的主儿，一直在干闷声发大财的事儿，投资人看重的有场景、有客户等几个要点，MiniMax都具备。根据其官方为数不多的、对外透露的信息显示，金山办公、小红书、腾讯、小米、阅文集团都是其客户。尽管这类大客户很可能同时采购了多个基础模型服务，但依然显示出MiniMax进展好像不错。今年3月，阿里被曝参与MiniMax下一轮融资，领投6亿，据称红杉也承诺将参与本轮融资。某种程度上，这也代表着头部资本对MoE这一技术路线的认可。

而就在4月1日，APUS（麒麟合盛）放出的信息更加露骨地说明了这一问题——其联合新旦智能训练的大模型APUS-xDAN大模型4.0（MoE）将于近日宣布开源。

在早期放出的信息中，APUS重点提到了两点：

●参数规模为1360亿，国内开源模型中参数规模最大；

●是国内首个支持在4090低端算力上训练的千亿参数开源大模型；

说白了，便于横向扩展，是事实，但可能不是主要因素，物美价廉，才是核心。

不玩MoE，就搞小模型

这种降本的决心贯彻的有多彻底，再看看不搞MoE架构的厂商就知道了。

面壁智能2月份发布了自己的端侧模型Minicam，官方称该模型以2B的尺寸可以超越Mistral-7B，媲美Llama2-13B。虎嗅3月邀请了面壁智能曾国洋参与AI内参会聊到该模型，曾国洋表示，现在业内普遍没有将小尺寸模型的潜力挖掘干净，面壁追求的是如何实现更合理的训练，而不是单纯的堆模型参数量。

从产品定位上来讲，当然可以说这是做端侧模型的应有之义。但从成本价角度而言，这也是除开MoE架构外的又一次降本尝试。CEO李大海在面壁的发布会上重点聊过这个问题：成本是大模型的隐形竞争力。面壁MiniCPM在端侧的部署中，可以支持CPU推理，同时发布的量化版本，可以做到压缩75%，性能基本无损。如果使用骁龙855芯片，成本约600元人民币，按照运行5年计算，每秒7.5tokens，那么170万tokens的推理成本需人民币1元。成本为Mistral-Medium的百分之一。

小模型这套路能走多远，是否因为短期的苟且，导致在AGI层面的发展继续落后？如果之前还存在这个疑惑，那么AIPC、AI手机热潮的兴起，多少给大家增加了些信心。

尽管现在AIPC、AI手机是噱头成分居多，真正在C端有决定意义的价值点较少。但这趟列车已经绑定了太多的人：高通、英特尔、三星、联想……以及一系列基础模型厂商、模型中间件厂商。某种意义上，这是“元宇宙Plus”版的概念列车，必须找到终点，也必须驶到终点。与当年元宇宙的情况不同的是，大模型当下的技术发展曲线，仍在陡峭上升中——

至少在GPT-5发布前，所有的商业故事，都会如约讲下去。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/128069.html

随机主题

英超蛋糕冠绝欧洲足坛, 瓜迪奥拉获誉三亿欧元玩家, 利物浦切尔西换帅相煎何急?郭艾伦评论金佳悦: 自己挺好的, 千万别谈恋爱哦曝下一款《古墓丽影》以印度为背景! 完全开放世界日本等了足足4年, 终于等来北京的高官, 开口就对中方提2个要求我国网络拍卖领域首个规范性文件发布, 明确线上线下监管一致性了解交法我有责安全交通为大家江苏: “夜经济”持续升温, 激活夜间消费活力乌军7天阵亡近1万人, 俄军杀入恰索夫亚尔城内, 所到之处全炸平庆余年2唯一输家: 最牛星二代跌下神坛, 演技尴尬, 全程被吊打高铁为什么能转弯? 看完一清二楚全程约203公里, 这场骑行活动将进行交通管制中方增兵按加速键, 美航母连夜撤退, 印度军舰抵菲, 为2件事而来迪马股份大股东已增持100万股黄金纯度分为几种, 99999和9999黄金有什么区别韩国央行预期2024年CPI为2.6%和国家队退役冯极内部教学赛实景，对抗性非常高，能力差距有点大茅台的主营业务是什么? 你真的了解吗?为了面子, 贷款19万买了一辆SUV, 现在养不起了。暑期中美航线增至每周92班! 机票怎么买便宜?泰消保风险提示: 利率下行时期, 这样选择保险, 稳稳守住你钱袋子美国涨新能源车关税因为拆了海鸥？中国新能源车崛起老美挡不住

最新回复(0)