拆解AI|“白菜价”始作俑者、大模型 “价格屠夫”DeepSeek是谁?

蓝鲸财经2024-05-22 11:47:31 70

在众多AI应用眼花缭乱地涌入市场时，AI公司深度求索（DeepSeek）上周公告DeepSeekChat已通过北京市生成式人工智能服务备案，或将很快向公众开放服务。

DeepSeek由知名私募巨头幻方量化于2023年4月创立。与月之暗面、智谱AI、Minimax、百川智能等获得大厂投资的AI初创公司不同，DeepSeek与科技巨头间并无直接关系。但这家公司仍然被视为一匹可能改变国内AI市场格局的“黑马”。

5月初，DeepSeek宣布开源第二代MoE大模型DeepSeek-V2。据介绍，该模型在性能上比肩GPT-4Turbo，价格却只有GPT-4的仅百分之一，这也让DeepSeek收获了“AI届拼多多”的名号。

而直到本周，阿里巴巴和百度才争先恐后加入大模型价格战，DeepSeek的掀桌子举动甚至比智谱AI和字节跳动对旗下大模型产品的高调降价更早。

高性价比或许是DeepSeek的显著优势，但随着诸多企业纷纷入局AI价格战，已经卷出“白菜价”的大模型很快变得不再稀缺，DeepSeek又该走出怎样的商业模式来应对呢？

价格战的导火索渐失低价优势

DeepSeek-V2推出后，DeepSeek一度被AI圈称作“价格屠夫”。

它的中文综合能力是目前开源模型中最强的，与GPT-4Turbo，文心4.0等闭源模型处于同一梯队。英文综合能力与最强的开源模型LLaMA3-70B处于同一梯队，超过最强MoE开源模型Mixtral8x22B。而这些竞争者都背靠科技大厂，或者拥有科技业界明星团队。

相较于出色的性能，有分析公司直言DeepSeek-V2的价格“便宜得难以置信”。该模型每百万tokens输入价格为1元、输出价格为2元，而GPT-4Turbo每百万tokens的输入/输出价格为72元、217元。

同为中国公司，尽管DeepSeek率先定下了大模型的低价，但在过去一周，关于价格战的讨论却更多地围绕字节跳动、阿里等行业巨头。

5月15日，字节发布豆包大模型，其主力模型的定价为输入0.0008元/千tokens，当时称较行业便宜99.3%。阿里云周二宣布，通义千问对标ChatGPT-4的主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。百度随之公告，文心大模型的两款入门级主力模型ENIRESpeed、ENIRELite全面免费。此前，智谱AI入门级产品GLM-3Turbo模型的调用价格也从5元/百万tokens降至1元/百万tokens。

虽然国外AI公司仍将竞赛焦点放在技术的迭代升级和产品的应用场景上，但一些大模型今年也相继宣布下调价格。2月底，法国人工智能企业MistralAI发布大模型MistralLarge，其输入、输出价格比GPT-4Turbo便宜约20%，成为OpenAI的强劲对手。自去年以来，OpenAI已进行4次降价，5月发布的GPT-4o价格较前一代模型降低了50%。

降价有助于大模型快速抢占市场，争取更多的用户。而使用量越大，大模型也能被调用得更好。但并非所有玩家都有资格加入价格战，降价涉及到大模型的研发、训练、推理等成本的优化，一些中小企业会难以跟上大厂的脚步。

正如字节旗下火山引擎总裁谭待所说，“豆包模型的超低定价，来源于我们有信心用技术手段优化成本，而不是补贴或是打价格战争夺市场份额。”

对于DeepSeek-V2而言，定出低价的底气在于其架构的创新。该模型没有沿用传统的大模型架构，而是采用新的多头潜在注意力（Multi-HeadLatentAttention）和DeepSeekMoE架构，在处理信息时能够更智能和高效，降低大模型的推理成本。

DeepSeek-V2具有2360亿总参数，但处理每个token时只需激活210亿参数。这不仅能够减少内存使用，也能提高计算效率。一些大模型需要激活所有参数来提供响应，参数越多，计算成本也就越高。

AI明星公司Anthropic联合创始人、OpenAI前政策主管JackClark也关注到DeepSeek-V2的突破，并表示：“DeepSeek组建了一支团队，他们对训练雄心勃勃的模型所需的基础设施有着深刻的理解。中国制造也将成为AI模型的发展趋势。”

此外，也有业界人士认为，DeepSeek可能是中国几家大厂之外，拥有英伟达高性能GPU最多的公司。

随着头部厂商们陆续入局，大模型价格战越发声势浩大，创新能力或可成为DeepSeek参与竞争的资本。

不做应用做研究

除了开始卷价格，国内AI行业还卷起了应用的落地。如果说过去一年上演的还是“百模大战”，2024年则被认为将会是AI应用落地元年。

今年3月，月之暗面宣布旗下的Kimi智能助手已支持200万字超长无损上下文，随后拉动Kimi概念股大涨，反映出市场对于AI技术的商业化应用的信心。据AI产品榜数据，4月Kimi访问量达2004万，超过百度文心一言的1691万。

横空出世的Kimi抢占风口后，巨头们也开始加速推出一系列AI应用。百度联合创始人兼首席执行官李彦宏多次表态，“卷大模型没有意义，卷应用机会更大。”字节跳动更是一气推出十多款AI产品，从“App工厂”转型为“AI应用工厂”。大厂们在推动大模型落地时大多遵循由内到外的逻辑，先基于AI重构内部产品，再实现对外的输出。

在一片AI应用浪潮中，DeepSeek却显得有些安静。其母公司幻方量化的创始人梁文锋去年在接受媒体采访时表示，公司不会过早地设计基于模型的一些应用，而是会专注在大模型上。幻方的目标是探索AGI（人工通用智能），认为语言大模型可能是通往AGI的必经之路，并且初步具备了AGI的特征，所以会从大模型开始。

梁文锋也承认，很多风投对于优先做研究、不做应用的策略有顾虑，希望能尽快实现产品商业化，这让DeepSeek很难获得融资。但其拥有的算力和工程师团队相当于“有了一半筹码”。

有云计算专家提出，1万枚英伟达A100芯片是做AI大模型的算力门槛。当中国云厂商受限于紧缺的GPU芯片时，幻方却早早押中了大模型赛道的入场券。据报道，除商汤科技、百度、腾讯、字节、阿里等科技巨头外，幻方也手握着超1万枚GPU。

梁文锋在媒体采访中表示，幻方对算力的储备并不突然。在2019年，幻方就已投资2亿元自研深度学习训练平台“萤火一号”，搭载了1100块GPU。到了2021年，“萤火二号”的投入增加到10亿元，搭载了约1万张英伟达A100显卡。一年后，OpenAI发布ChatGPT的公开测试版本，拉开全球新一轮AI热潮的序幕。

顶着高昂的研发成本，百度、阿里等头部玩家已开始大打价格战，抢占市场，期望有更多的真实使用场景以推进产品训练。而事实上率先掀起本轮大模型价格战，喊着“不做应用做研究”的DeepSeek，却并没有在各家大厂密集召开降价发布会时发声，显得无心参战。尽管背后有幻方量化提供研发经费，DeepSeek不计ROI的坚持究竟会导向领先，还是落后的未来呢？

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/575622.html

随机主题

003赛事预测: 乌德勒支VS鹿特丹斯巴达比赛看点解析那些演绎帝王专业户，你心中的最佳帝王是谁？两将替补更合适, 陈蒲先消耗对手, 山东泰山谨防国际比赛日后遗症掌握牛头滚，轻松应对屏风马两头蛇#象棋泽连斯基介绍西方套路: 西方援乌看似前进了一步, 但提前退了两步现在你明白，是怎么储存数据的了吗？石家班硬核实力“拒绝锁喉”不信你试试？舒淇宝格丽之夜疑似被日本女星针对…珠海一工厂突发火灾, 当地回应: 系仓库着火, 无人员伤亡英国惊天丑闻曝光，美西方信用彻底崩塌！再续“父辈”之荣耀? 荣耀小折叠V Flip手机曝光, 若隐若现华为身影中国螺纹钢市场分析: 产量下降, 价格走势波动别不信, 甄子丹31年前就该火!索尼X90L看大片优秀，玩游戏过瘾前央视主持离世, 曾解说中国女排夺冠成名, 与郎平魏秋月等是好友四部门: 营造良好的货币金融环境李金羽辞去中甲云南玉昆队主教练职务伍尔特: 2023财年销售额204亿欧元, 新增超过1, 400名员工姚振华及宝能等新增2则被执行人信息, 执行标的合计22.88亿逆水寒手游制作人的万字发言稿, 让玩家彻底折服: 不玩没天理!DNF: 新深渊2.0“爆率实测”! 一管疲劳7件史诗+雾神传说融合石

最新回复(0)