央广网北京4月12日消息(记者 黄昂瑾)国家网信办网站消息显示,为促进生成式人工智能服务创新发展和规范应用,网信部门会同相关部门按照《生成式人工智能服务管理暂行办法》要求,有序开展生成式人工智能服务备案工作。目前,包括文心一言、星火认知大模型、通义千问大模型、腾讯混元助手大模型、“天工”大模型在内的117个大模型已完成备案工作。
记者注意到,近期,通义千问大模型、腾讯混元助手大模型、“天工”大模型等多个大模型公布的进展中,都提到了混合专家模型(MoE:MixtureofExperts)。
3月29日,通义千问团队开源首个Qwen系列MoE模型,名为Qwen1.5-MoE-A2.7B。4月1日,昆仑万维宣布其自研大语言模型“天工3.0”将于4月17日正式开启公测。据悉,“天工3.0”采用4千亿级参数MoE混合专家模型。4月2日,腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示,多模态大模型正在加速到来,并将重构整个内容产业,而基于多模态的应用也会呈现出百花齐放之势。自2023年9月首次亮相以来,腾讯混元大模型技术架构已升级为混合专家模型(MoE)架构,参数规模达万亿,尤以处理复杂场景和多任务场景见长。
混合专家模型有何特点?对于大模型应用有何积极作用?
国家人工智能标准化总体组副组长、北京航空航天大学人工智能研究院教授吴文峻对央广网记者指出,“混合专家模型其实是一种组合方式,即把大模型分成若干个模块,然后用MoE的方式给它连接在一块。训练的时候,只有部分专家模块被激活,输出产生结果。好处是,专家跟专家之间的连接是一种稀疏连接,可降低训练中的开销成本。相对应地,如果采用神经网络稠密连接的方式,神经传送的架构是一层一层连在一块的,训练和推理的开销会比较大。”
吴文峻表示,这里的“专家”可以理解为“模块”。“大模型训练涉及到很多神经元计算,也就需要花费很多计算资源,用专家混合模型,相当于每个专家是稠密模型,但是多个专家之间是稀疏连接,所以它训练的效率和推理的效率都会有比较大的提升。”
据吴文峻介绍,MoE架构在多年前已被提出,仍以Transformer为基础。随着大模型时代的到来,训练成本随之增加。“MoE是在现阶段对架构没有进行根本性变化之前的一个降本增效的方式。”
以“天工”大模型为例,今年2月6日,昆仑万维正式发布新版MoE大语言模型“天工2.0”与新版“天工AI智能助手”APP。昆仑万维董事长兼CEO方汉介绍,“天工AI智能助手”以昆仑万维“天工2.0”MoE大模型为核心技术引擎,其技术原理是将复杂的大模型任务拆解为多个更小、更细分的子任务,每个子任务都由垂直领域的专家模型处理,从而大幅提高了模型训练与推理的性能和效率,更能实现多个垂直领域的知识融合,使模型能够更好地理解和处理不同应用场景下的复杂问题,为用户提供更准确、更全面的回答方案。
方汉在接受央广网记者采访时指出,MoE是当前大语言模型赛道技术最顶尖、研发最前沿的底层架构,是全球最领先的大模型核心技术路径之一。MoE在应对复杂任务能力更强、模型响应速度更快、训练及推理效率更高、可扩展性更强。
此外,从大模型落地应用角度考虑,吴文峻指出,使用MoE架构的大模型,在垂直领域落地的时候,可能会根据那个领域的需要选择不同的专家组合。在架构设计上可做一些裁剪,从而减少垂直领域的训练、推理开销。“比如原来有12个专家,可能在某个领域实际应用时,只需要一半专家就够了,这样训练、微调的效率就会提升。”
“当前大模型普遍面临落地成本较高的情况,包括实际应用中的微调,以及电费、维护等成本,所以用MoE或者将来发展的一些方案,在落地的时候就更为经济和实用。”吴文峻表示。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/196271.html