刷榜跑分? AI评测不应走偏路线

中国经济网2024-03-22 08:10:00  69

“百模大战”以来,AI大模型的部分榜单上出现了一个奇怪现象:长期盘踞在榜单前列的,经常是一些名不见经传的国产大模型,它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

之所以令人大跌眼镜,是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅,实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯,那么更讽刺的是,有的大模型根本没对业界开放,就算大家想感受一下“第一名”的风采都找不到门路。

有人可能会好奇:一些AI大模型“高分低能”是怎么做到的?原因其实很简单,那就是评测中出现了数据污染和泄露。简单来说,榜单排名类似于有第三方“考官”出了一个题库,题库中大量考题针对性测评大模型各个方面的能力,而有的“考生”提前拿到题库,并把答案逐一背了下来。

“考高分”的目的也很明确,那就是投机取巧、炒作包装。业内人士告诉记者,在国内众多大模型激烈竞争、良莠不齐的当下,许多大模型还未在用户之间形成过硬的口碑,离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一,学术化榜单和市场化榜单都得到了广泛重视,刷榜跑分因此成为一些企业快速吸引眼球的手段。

当然,榜单失真的背后,不只有作弊的“考生”,也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真,“考官”如果协助“考生”作弊,无疑会扰乱AI大模型的评测环境。所幸我们看到,部分榜单在遇到刷榜跑分问题后,及时推出补救措施,例如将公开大模型和非公开大模型区分为两张榜单,成功挤出大量非公开大模型的水分。

是金非金焰烈而晓,部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底AI大模型的发展还是那句老话,关键核心技术要不来、买不来、讨不来,更包装不来,唯有一步一个脚印,扎扎实实地向前走。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/15202.html
0
随机主题
郭德纲受邀去威尼斯大学演讲, 被授予荣誉勋章, 夸奖郭麒麟超过自己英超蛋糕冠绝欧洲足坛, 瓜迪奥拉获誉三亿欧元玩家, 利物浦切尔西换帅相煎何急?可远程摧毁! ASML承认在光刻机中留了后手!德甲保级推送: 波鸿VS杜塞尔多夫, 不败金身再添一局, 德甲升降机名不虚传!娶过三个老婆的五位男明星江苏调度100万台农机具助力“三夏”生产张晋50岁生日晒全家福, 俩女儿长成翻版蔡少芬, 儿子烫卷发像爸爸哈弗H6巅峰期月销80495辆, 上个月卖了8309辆, 神车为何卖不动了39秒71夺亚洲冠军! 中国短跑接力再创历史, 苏炳添队友们厉害了【粮食大事】管好粮库事关粮食安全大局与文博同行十年, 中芬设计园持续向世界展示中国设计方案有了“福建舰”后,中国还需要几艘航母,才能战胜美国海军?DNF手游: 白嫖“赛丽亚的思念”称号, 新手练级注意事项苏纳克雨中公布大选日, 西装全湿透反遭嘲笑, 王室会为选首相让路武则天已经打算还政李唐, 为何张柬之等人还要发动神龙政变?何超琼现身戛纳, 盛装出席晚宴, 打扮雍容华贵和年轻人合照太有爱澳媒文章: 从义乌看中国供应链强大韧性记者: 皇马今夏不会寻找克罗斯替代者, 但明年会买阿布扎比ADGM 2024年第一季度管理资产破纪录炸裂! 中国出售了创纪录金额的美国国债, 打蛇打到了七寸!别急,到跳水大赛赛点了
最新回复(0)