上海推出中文大模型竞技场, 20款国产大模型角逐“最强王者”

上观新闻2024-05-31 19:57:42 60

近日，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场CompassArena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。

当下，“百模大战”厮杀正酣，谁才是最强王者？各类榜单也层出不穷，其中国际开放研究组织LMSYSOrg（LargeModelSystemsOrganization）推出的大模型竞技场ChatbotArena，已成为海外最具公信力的大模型榜单之一，遗憾的是该榜单中文化程度相对不足。为此，CompassArena的推出将有效填补这一领域的空白。

相比考题固定的传统测评，中国大语言模型评测竞技场CompassArena采用盲测、开放的测评模式，可以更全面地检验模型实力。CompassArena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机匹配进行PK，用户可以天马行空自由出题，并作为评委主观评判和投票。如果大模型不小心“自报家门”，则对话被过滤，不计入成绩。通过成千上万轮PK挑战和用户投票，系统将对大模型进行自动排名。

魔搭社区直播时，网友在线给大模型出题。

CompassArena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设，前者负责组织评测，后者负责开源模型引入及社区打造。据上海人工智能实验室OpenCompass团队介绍，CompassArena力求体现社区用户的真实反馈，评测机制借鉴ChatbotArena，采用Elo评分系统，即国际象棋等对弈活动评估的权威标准。在这种模式下，大模型竞技类似“在游戏中打排位”，胜率成为评估模型水平的关键指标，同时随着排位变高，系统也会自动匹配高段位选手进行对战。

与ChatbotArena相比，CompassArena更聚焦中文大模型，主流国产大模型全覆盖，同时评测用户大多使用中文，可以充分评估国产大模型的性能。

目前，CompassArena已汇聚超20款商业及社区模型，包括Qwen-Max、ERNIE-4.0-8K、Spark3.5Max、Abab6.5、GLM4等国内头部厂商的旗舰款大模型，并引入了Llama3、Mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。

上线不到一周，已有上万人访问魔搭CompassArena页面。魔搭社区表示，欢迎广大开发者和网友参与大模型排位赛的投票，共同促进国产大模型的进步和赶超。后续，CompassArena首期排行榜将揭晓，并将定期公布更新。

CompassArena首批大模型名单：

Abab6.5-Chat（MiniMax）

Baichuan4（百川智能）

C4AICommandR+（Cohere）

DBRX-Instruct（DataBricks）

Deepseek-LLM-67B-Chat（深度求索）

Deepseek-MoE-16B-Chat（深度求索）

Doubao-Pro-4K（字节豆包）

ERNIE-4.0-8K（百度文心一言）

GLM4（智谱AI）

Hunyuan-Pro（腾讯混元）

InternLM2系列（上海AILab书生·浦语）

Llama3系列（Meta）

Mixtral8x22BInstruct（Mistral）

MoonShot-V1-32K（月之暗面）

Qwen1.5系列（阿里通义千问）

Qwen-Max（阿里通义千问）

Spark3.5-Max（讯飞星火）

Yi-34B-Chat（零一万物）

Yi-Large（零一万物）

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/621864.html

随机主题

品牌出海“搭便车”：看似捷径实则弯路 8 天“红蓝对抗”, 这场警校实战训练“有看头”中国星智擎VS日本双擎, 5月23日东京秋名山燃爆全场!超跑会跳舞，你见过吗？！硬核技术: 华为不再依赖英特尔和高通芯片, 任正非的硬气从何而来!最新战况: 波克罗夫斯克局势紧张, 泽连斯基谈论哈尔科夫形势!蒸烤箱不用选贵的，但一定要买对的！广东省: 打造覆盖粤港澳大湾区主要区域的低空空中交通走廊, 探索开辟粤琼低空航线独行侠西决开门红！东欧组合轰下63分，唐斯低迷，爱德华兹准三双伊朗一天内解开总统坠机谜团: 原是技术故障, 美国终于放心王红权星近三月直播13场销售额超2500万：卖每瓶3000元的洗发水评赵丽颖杨幂<青蛇>定妆照争议众星转发“台湾不是一个国家”, 蔡依林等人沉默: 台湾艺人都哑巴了?美共和党籍议员急喊制裁ICC: 今天是以色列, 下一个就会是我们!她是尼姑, 生了一个儿子, 儿子当了主席新垣结衣老公被曝出轨，对象为一位新婚的NHK女主播搞笑配音：老美对日本提供核武器，没想到竟然要收三十亿保护费中证转债指数开盘跌0.07%波波维奇是不是被高估的主教练? 邓肯退役后马刺队就一事无成了巴基斯坦经贸资讯-5月21日 2023年质量上乘的10部网大电影, 部部有惊喜, 你看了几部?

最新回复(0)