跑分性能比肩GPT-4o? 大模型价格“屠夫”DeepSeek发布最新开源模型

蓝鲸财经2024-06-18 10:35:00 61

蓝鲸新闻6月18日讯（记者朱俊熹）在火热的大模型竞赛中，比拼性能已不再是一件新鲜事。随着技术迭代的加速，几乎每隔一段时间就能看到又一代更新版的AI大模型，挂上“比肩GPT-4”的名号。

6月17日，AI公司深度求索（DeepSeek）正式上线开源模型DeepSeek-Coder-V2。据DeepSeek介绍，该模型在代码、数学的多个榜单上位居全球第二，介于最强闭源模型GPT-4o和GPT-4-Turbo之间。

此外，DeepSeek-Coder-V2开源大模型还具有良好的通用性能，在中英通用能力上位列国内第一梯队。DeepSeek表示，该模型沿用了上一代DeepSeek-V2模型的创新架构，具有2360亿总参数，但处理每个token时只需激活210亿参数，不仅能够减少内存使用，也能提高计算效率。

DeepSeek最新的开源模型支持32K上下文，并延续了此前的定价，每百万tokens输入价格为1元、输出价格为2元。DeepSeek此前率先拉低大模型定价，随后字节跳动、阿里云、百度等行业巨头加入低价队列，引发国内大模型价格战。

为了彰显性能排名的权威性，各企业在发布大模型时通常会附上评测榜单，其中涵盖了不同的评测集。评测集就像是AI大模型的考卷，用来测试其在各类任务和场景下的表现，但考察的侧重点会有所不同。通过给大模型打分，可以直观地对比它们的性能高低。

具体而言，在评估大模型代码生成能力的HumanEval评测集上，DeepSeek新推出的开源模型得分为90.2，仅次于分数为91.0的GPT-4o。在数学算数领域，GSM8K是由OpenAI发布的大模型数学推理能力评测基准，DeepSeek-Coder-V2模型的该项得分为94.9，同样超过了众多开闭源模型。

但是在通用能力的评测上，以目前使用最多的MMLU评测集为例，DeepSeek-Coder-V2模型的得分为79.2，与GPT-4仍有一定差距，也不及其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得82.3的分数，而Meta的Llama3-70B模型为80.2。

DeepSeek表示，虽然DeepSeek-Coder-V2较前一代模型的综合得分更高，但两个模型在实际应用中各有所长，“DeepSeek-V2是文科生，DeepSeek-Coder-V2是理科生，精通的技能点不同”。最新发布的大模型更擅长代码编程、数学计算和逻辑推理，而上一代模型则在文本创作、任务规划等方面表现更优。

当地时间6月14日，“AI卖铲人”英伟达宣布开源Nemotron-4340B（3400亿参数）系列模型。据称该模型的表现超过了一众开源竞争对手，包括Llama3-70B、Qwen2-72B、法国创企MistralAI的Mixtral-8x22B等，甚至能够与闭源模型GPT-4o相媲美。

Nemotron-4340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中，Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中获得了较高分数，表现确实优于其他开源模型。Reward模型则是在此基础上进一步优化得到的，能够通过反馈输出更符合人类预期的高质量结果，在专门用于评估奖励模型的基准测试RewardBench中获得92.0的最高分数，远超得分为84.7的GPT-4o。

英伟达称，这三类模型形成了一个管道，能够生成高质量的合成数据，用于大语言模型的训练中。在指令对齐模型Instruct的训练过程中，英伟达就使用了超过98%的合成数据。合成数据也被认为是解决大模型训练“数据荒”的有效手段之一。

至少目前来看，此轮AI浪潮的最大受益者仍然是英伟达。当地时间6月17日，英伟达市值曾一度赶超苹果，距排名第一的微软仅差100亿美元。截至收盘，英伟达市值达3.22万亿美元，为全球市值第三大公司。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/759917.html

随机主题

超美小直屏! OPPOReno12首发天玑8250, 台积电4纳米汪峰女友森林北旧照，牙齿参差不齐黑眼圈严重，与普通人没差别杨幂狐妖小红娘彩！彩！彩！荣耀magic6保时捷pk华为pura70ultra！陕西榆林: “双碳”引领绿色变革能源产业转型迎潮而上内蒙古打掉一个网络水军团伙, 13人获刑乌克兰宣布参加巴黎奥运会。但对代表团提出了一个严苛的条件。vivo S19系列预热: 有直屏有长焦, 还有赵今麦法国宣布试射空射核导弹爆笑漫画《阿U校园爆笑王》、免费奶茶、雪极星滑雪体验券, 橙柿福利爆款上新 | 橙柿福利经济学门类包括哪些专业国内首台甲醇双燃料低速机在中船发动机成功交验扛不住了？乌总统呼吁西方参战，乌民众请愿：征召泽连斯基入伍！年轻人的第1台插混SUV, 星途追风C-DM 赵燕菁: 房地产新政本质是救债务端, 这关乎中美博弈的走势一口价6.99万起，标配1.5T+双大屏+独悬，探店2024款瑞虎7 联手恩比德? 76人追逐乔治, 东决G1报告出炉, 肖华签下70亿大合同都2024年了, 为何还有那么多人选择买手动挡? 我说这才是根本原因 Kpop 现役大型女团 Triple S！！！谁能懂！MV的概念真的很绝！！！TES有救了? 涵艺: 前EDG教练茂凯将加入TES! 教练组均将重新洗牌免费生选拔现场精彩镜头。岳博和丁一的对阵十分精彩，摘取其中片段和各位分享。

最新回复(0)