清华大模型报告: 文心一言中文理解、数学等多项能力全球第一

界面新闻2024-04-21 23:22:22 121

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型，在人类对齐能力评测中，文心一言4.0表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-40.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一；GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4Turbo、Claude-3以及GLM-4拿下榜首。

在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/294950.html

随机主题

超美小直屏! OPPOReno12首发天玑8250, 台积电4纳米跌至1549元加速退场, 近100万跑分+120w快充, 越来越香了国外渔民用砗磲壳做陷阱，沉到海底珊瑚缝抓东星斑，大家见识一下现在你明白，是怎么储存数据的了吗？亚特兰大勇夺欧联杯冠军，并终结药厂不败神话，温格推行越位新规美国财长耶伦: 动用俄冻结资产助乌非为选举, 七国峰会或敲定方案米兰与斯图加特酝酿交易, 卡卢卢西米奇成筹码, 交换28岁德甲银靴河南发布铁拳行动典型案例, 一燃气公司因充装不合规气瓶被罚生涯第4冠, 36岁韩德君退役? 谁注意郭艾伦喊话, 大韩举动感人锂电池产品在国际物流中的注意事项俄报告显示: 全球机器人安装量50%位于中国江西南康给佛山下战书, 《人民日报》火速点赞, 这一战有意思了深蓝CEO称在电动化的浪潮下硬派的燃油时代结束了浅谈说说为何装机选i7 13700KF而非R7 7800X3D 董军会见南非海军司令出口超1000万美元！长兴这家企业忙飞了最佳阵容出炉：詹姆斯创纪录，三人受益，谁是最大遗珠？《庆余年2》范闲收服桑文, 他还不知, 桑文让他将来得以掌控庆国申花客胜河南看了年轻时的卡米拉, 才发现, 查尔斯对她念念不忘果然是有原因的前往美国, 郭艾伦摊牌, 官宣决定, 杨鸣意外, 韩德君祝福

最新回复(8)

火火战术板小号2024-04-22 12:27
引用8楼
文心的中文回答没有通义的有条理
冬易说汽车2024-04-22 12:04
引用7楼
文新一言垃圾的很，这不行那不行的，比通义千问差多了！谁用谁知道
电竞小新新2024-04-22 12:04
引用6楼
也就这点优势不拿出来说更没什么能拿出来说的了
圈圈本圈2024-04-22 11:52
引用5楼
遥遥领先，都给我信！
爱爱谈过去2024-04-22 11:46
引用4楼
吹什么牛B ＇比必应差多了
榴莲炖蘑菇2024-04-22 11:13
引用3楼
在中国中文水平遥遥领先全球真好意思拿出开说嘛[笑着哭]
耳机杂谈慢评2024-04-22 10:54
引用2楼
中文全球第一。你这么不说中文输入法好用度中国企业全球第一呢。
根硕（无畏契约）2024-04-22 09:35
引用1楼
如果百度不在中关村，我就信了。