AI高考测试出分: 数学全不及格

中关村在线2024-06-21 11:40:00 233

随着今年高考落幕，上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动，选取了六个前沿的开源模型以及备受瞩目的GPT-4o，针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准，确保所有参与评测的模型在“闭卷”条件下接受挑战。

值得一提的是，所有参与评测的开源模型，其开源时间均早于高考，有效避免了“作弊”的可能性，确保了评测的公正性和有效性。更为关键的是，本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判，确保了评分的准确性和贴近实际阅卷标准。

评测结果令人瞩目，前三甲的模型得分率均超过70%，显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中，大部分模型均表现出色，其中英语科目的平均得分更是高达81%，充分证明了大模型在理解和应用自然语言方面的能力。

然而，数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩，但整体而言，数学仍是这些大模型需要进一步加强的方面。这也提示我们，在未来的大模型研发中，需要更加注重对数学等抽象思维能力的训练和提升。

此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持，也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展，我们有理由相信，未来的人工智能将能够在更多领域展现出其独特的优势和价值。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/779517.html

随机主题

张兰曝孙子被退学，总不去上课、没人管他、不做作业海岛上有了“生态警务”华为智选车“第四界”进入倒计时！首款百万级豪车即将诞生电脑时间日期不自更新了怎么办？为什么每次开机时间都不对？硬核技术: 华为不再依赖英特尔和高通芯片, 任正非的硬气从何而来!陈哲远出道时碰到伊能静，是娱乐圈给他的最大善意真我GT Neo6: 骁龙8s三代+ 6000nit无双屏 +120W光速秒充高铁为什么能转弯? 看完一清二楚 “涌潮”之动影未来, 浙传这场毕业作品展面向社会公开亮相美西方抢钱, 俄斗到底, 反制裁开始, 普京没收德最大银行在俄资产爱如潮水! 四川大凉山孩子们的“愿望清单”, 被浙江人承包了新车“降价”不讲武德，车贩子苦不堪言！乳企一季度降速后市场开始回暖未来增长依然要靠技术内卷从八十年代倒卖国债中我们能学到什么世界女排联赛首周最佳阵容公布, 中国女排一入选球员出乎意料评分上海海港: 颜骏凌拯救, 莱奥救赎, 巴尔加斯两次踏进同一河流 5月24日地狱火重燃! 168碎片新选择, 廉颇黄金金牛座来袭 KPL春季赛最佳阵容有变? AG300W卖壶神, KPL大瓜: 九尾不打夏季赛小白用户能不能买卡贴机朱婷悼念田宗琦：你能理解我，因为我们都是农村的，永远与你同在极星CEO: 不再依赖沃尔沃和吉利! 两款新车将用“自家”技术

最新回复(32)

丹姐。☀️2024-06-22 08:20
引用32楼
机器人不会写“鲁迅曾说过〞
东海点点2024-06-22 08:17
引用31楼
浙江数学学科评卷组组长：不要搞题海战术，不要迷恋做题！高考评卷进行时高考
⚛️✡️2024-06-22 08:10
引用30楼
AI果然不擅长数学，看来还是需要我们人类来拯救数学啊！
猫哥的视界2024-06-22 06:44
引用29楼
丁肇中讲人工智能不可能发现相对论，也不可能发现量子力学，更不可能发现暗物质，不要神话它
老孙爱侃球2024-06-22 05:10
引用28楼
是不是电脑阅卷也会出现问题？
王鹏伟说2024-06-22 05:10
引用27楼
人工智能答答选择题还行，题库里都没有的它也答不上来啊[捂脸哭][捂脸哭][捂脸哭]
侃车的魅力2024-06-22 04:59
引用26楼
人工智能还有大的发展空间。把人工智能当作辅导教师或者考生，这是方向性错误。人工智能应在科研，生产方面大放异彩，才是当前和今后的人努力的方向！
探录世界2024-06-22 04:58
引用25楼
哈哈哈哈哈哈哈哈你还是有点自知之明的……
寻巧看游戏2024-06-22 04:56
引用24楼
一个经过相当数量学习的AI，可以超过人工，比如，你说AI不如人，只能说明这个AI学习得还不够，算法能力还不行。如果算法和学习能力达到一个极高值，就能产生真正的人工智能机器人，甚至有自己的思想，就像终结者那种
老郭机械局2024-06-22 04:15
引用23楼
9B的模型拿来和72B对比，脸呢
博学的王垚啊2024-06-22 03:40
引用22楼
数学才是体现智商的学科
大漠叔叔2024-06-22 03:27
引用21楼
别试探了，简单说明想怎么玩
荆楚有宜昌2024-06-22 02:55
引用20楼
真人正相反很多人是被语文刷下来
逍遥诸事通2024-06-22 02:47
引用19楼
大模型在数学方面的表现是否能够反映其智能水平？
突突突突突…..2024-06-22 01:38
引用18楼
我以为这种主观题会因为没有感情打不的不好万万没想到是数学瘸了[哭哭]
鲨鱼辣椒！2024-06-22 01:35
引用17楼
考记忆，人比不过芯片，它几秒钟就可以记住我们人类五千年的文化和历史。再加固定的文科答题模版，只要可以就可以秒杀百分之80的学生
唐果果2024-06-21 23:51
引用16楼
ai的语文理解能力可以啊
沉浮于世界2024-06-21 23:50
引用15楼
人工智能哪有人工评判标准？
流浪的橡2024-06-21 23:30
引用14楼
排名第一的水平貌似我家孩考试的水平
为民爱手工2024-06-21 22:46
引用13楼
你要说高端点的题目我还信… 你说高考题，可能吗？找原题都可以及格