新一代旗舰端侧模型: 面壁 MiniCPM 2.0 发布

科技派嘎嘎香2024-04-28 17:10:55 144

全球领先的旗舰端侧模型系列面壁 MiniCPM 上新！一口气带来：

l 端侧最强的多模态模型 MiniCPM-V 2.0：OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;

l 适配更多端侧场景的基座模型 MiniCPM-1.2B：性能超越 Llama2-13B、推理速度达到人类语速近 25 倍;

l 最小的 128K 长文本模型 MiniCPM-2B-128K ;

l 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B

此前发布的 MiniCPM 第一代，凭借其强有力的性能与极致低成本，堪称大模型里的小钢炮。两个月后的今天，我们秉承高效 Scaling Law 的科学方法论，持续挖掘小钢炮的性能极限，将其升级为新一代 MiniCPM 2.0 系列模型。

端侧最强的多模态模型

刷新OCR综合性榜单开源模型最佳表现，部分能力比肩Gemini-Pro、GPT-4V

多模态能力已成为当前大模型的核心竞争力之一，智能终端设备由于其影像视觉处理的高频需求,对在端侧部署的人工智能模型提出了更高的多模态识别与推理能力要求。

这一次，MiniCPM-V 2.0 不仅带来最强端侧多模态通用能力，更带来极为惊艳的 OCR 表现。通过自研的高清图像解码技术，可以突破传统困境，让更为精准地识别充满纷繁细节的街景、长图在端侧成为可能。

甚至，还能识读 2300 多年前的清华简上一些难以辨别的古老字迹，以卓越的 OCR 能力，为我们叩响识读老文字的大门。譬如，它不仅可以在三根竹简中准确找到最短的竹简，也能精准地识别出上面的字迹。甚至，连无从辨别的复杂楚文字都被正确解读。

作为多模态识别与推理能力的硬核指标，新一代 MiniCPM-V 2.0 在 OCR(光学字符识别)方面的成绩，已被一项项权威榜单验证。

在权威 OCR 综合能?榜单 OCRBench 中，MiniCPM-V 2.0 秉承面壁「小钢炮」系列「以小博大」传统，刷新了开源模型 SOTA。在场景图片文字识别榜单 TextVQA 中，越级超越全系 13B 量级通用模型，甚至部分能力比肩多模态领域代表性模型 Gemini Pro。

这一次，新一代 MiniCPM-V 2.0 还加速解锁了过去难以识别的高清图像信息识别，譬如街景、长图这类典型场景。

为什么我们在手机上随手可得的影像，用于 OCR 识别却如此困难?这是由于传统处理方法，只能处理固定尺寸图片，会将大像素或不规则图片强制压缩，导致原始图片中丢失大量信息、难以识别，这对充满了细节文字信息、又大量零散分布的街景类画面提出了极大挑战。

得益于自研高清图片解码技术，新一代 MiniCPM-V 2.0 带来清晰大图识别体验的大幅提升。可以处理最大 180 万像素高清大图，甚至 1:9 极限宽高比的高清图片(譬如要翻阅好几屏的长图)，对它们进行高效编码和无损识别。

具体效果如下：

不仅如此，在中文OCR 能力方面，MiniCPM-V 2.0 展现的性能效果明显超越了 GPT-4V。例如，识别同一张街景图，MiniCPM-V 2.0 可以准确地叫出大厦的名字，但 GPT-4V 却只能回答“看不清楚”。

此外，多模态通用能力是衡量基座模型水平的重要指标。

目前，在多模态大模型综合评测权威平台 OpenCompass 榜单上，MiniCPM-V 2.0 仅以 2B 量级规模，以小博大超过了一众10B、17B甚至34B量级主流模型(如Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B) 。

在又一项多模态大模型性能的重要指标：幻觉能力方面，MiniCPM-V 2.0 取得与 GPT-4V 持平水平(Object HalBench 榜单)。

目前，MiniCPM-V 2.0 已经可部署于智能手机，在图像理解和推理效率方面取得了卓越的表现：

小钢炮四连发，还带来

更适配端侧场景的1.2B尺寸，以及长文本、MoE版本

在「高效大模型」的路径下，把大模型变得更小!更强!推动大模型落地应用!

我们再次追求极致，制造了一颗小小钢炮—— MiniCPM-1.2B。参数减少一半，速度提升 38%，成本下降 60%(1元= 4150000 tokens) 。在手机上的推理速度达到 25 token / s，甚至相当于人的语速的 15 ～25 倍。

在公开测评榜单上，MiniCPM-1.2B 延续以小博大、越级超越的传统，取得了综合性能超过 Qwen1.8B、Llama2-7B 甚至超过 Llama2-13B 的优异成绩。

25 token / s，则是将 MiniCPM-1.2B 离线部署于 iPhone 15 的实测成绩。

同时而来的，还有当前最小的“128K长文本”模型，将原先4K上下文窗口一口气扩增至 128K(20万字)。

在多维度长文本评测集 InfiniteBench 上，在多维度综合性能评测中表现卓越，综合性能超过了 Yarn-Mistral-7B-128k、Yi-6B-200k、ChatGLM3-6B-128k、LWM-Text-7B 等 6/7B 量级模型。此评测集针对大模型在长文本方面的五项能力(检索、数学、代码、问答和摘要)而设计，相较于当前主流的仅关注检索能力的大海捞针测试更加全面。

此外，我们通过 MoE 的性能增强，让 2B 小钢炮(MiniCPM 1.0)在其原来的基础之上性能平均提高 4.5 个百分点。从榜单成绩上来看，MiniCPM-MoE-8x2B 模型做到了在性能上的越级超越，并且推理成本仅为 Gemma-7B 的 69.7%。

我们刚刚完成了新一轮数亿元融资，面壁计划正进行时，欢迎优秀的人才加入。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/360353.html

随机主题

F1伊莫拉站赛后点评迈凯伦挑战红牛距离发布还有4个月！值得期待吗？要不要入手余承东采访提及雷军;35款设备可升级鸿蒙4.2;魅族加入快充协会神光同步随意调色恒生科技指数日内跌超2%两将替补更合适, 陈蒲先消耗对手, 山东泰山谨防国际比赛日后遗症别人只是说，咱们亲自拆开看！汽车内外循环原理，看完你就都明白啦 “钱江源”点亮“直播之光” 阿里公益在开化开设数字人才基地四川蓬安: 农机助农人小麦抢收忙继续打压! 美国正式宣布8月起对中国电动汽车加征关税丰田海狮即将上市 6位在中国发展的日本女星，很受欢迎，有人大放异彩。塞拉利昂总统出席中铁十局唐克里里铁矿项目主体竣工仪式男网红“请假几天”引热议, 网友问何时关闭打赏? 已经影响下一代神印王座: 龙皓晨晋升七阶, 圣采儿完成神眷觉醒, 阿宝被打败辽篮夺冠发布会杨导感谢所有人！夸赞新疆主场新疆球迷！天瑞视点 | 不是地产不是光伏, 有个大动向不可轻视!96岁抗日老兵: 每月领几百元很幸福, 日本人再也不敢欺负我们 35万以上豪华车, 合资+纯电, TA就是销量冠军, 一口气攀登67名俄罗斯从三家欧洲银行扣押了价值超过7亿欧元的资产最佳阵出炉后，小伙要拿7000万年薪，老詹创4个神迹，浓眉是唯一

最新回复(0)