AI高考测试出分: 数学全不及格

中关村在线2024-06-21 11:40:00 232

随着今年高考落幕，上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动，选取了六个前沿的开源模型以及备受瞩目的GPT-4o，针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准，确保所有参与评测的模型在“闭卷”条件下接受挑战。

值得一提的是，所有参与评测的开源模型，其开源时间均早于高考，有效避免了“作弊”的可能性，确保了评测的公正性和有效性。更为关键的是，本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判，确保了评分的准确性和贴近实际阅卷标准。

评测结果令人瞩目，前三甲的模型得分率均超过70%，显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中，大部分模型均表现出色，其中英语科目的平均得分更是高达81%，充分证明了大模型在理解和应用自然语言方面的能力。

然而，数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩，但整体而言，数学仍是这些大模型需要进一步加强的方面。这也提示我们，在未来的大模型研发中，需要更加注重对数学等抽象思维能力的训练和提升。

此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持，也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展，我们有理由相信，未来的人工智能将能够在更多领域展现出其独特的优势和价值。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/779517.html

随机主题

两百元蓝牙降噪耳机谁更值得买？吴绮莉曾称家门永远向女儿敞开, 晒切蒜视频遭嘲, 被问怎么沦落了 F1伊莫拉站赛后点评迈凯伦挑战红牛三分射手胜过高中锋! 火箭3号签摘控卫? 内线拥挤, 摘后卫补短板张鹤伦被郭德纲拒绝3回, 如果不是师娘帮助, 可能还在做保安重庆渝中区: 南纪门街道创新服务模式 “三快三及时”让“民呼我为”有精度更有温度内蒙古乌海：“五个结合”做细做实常态化联系退役军人工作刘亦菲在西班牙压马路范巴斯滕: 说实话, 在足坛比我还要厉害的前锋, 可能只有这4人!东部战区围岛军演! 剑指“台独”江苏徐州: 1938年7月, 美国人镜头里的鬼子、汉奸和伪军故障率最低0.00064! 广汽、长安、吉利等, 这五款家轿选谁好?[小鲨帮选车]买一辆沃尔沃S902.0T, 省油还有劲如何让爱车实现无线carplay功能？2024年, 灵活就业和企退人员同样缴费15年, 谁的养老金更有优势?昆明遇到1998年丰田花冠, 卡拉罗前身, 防锈车架, 当年落地30万元樱井政博: 为避免《大乱斗》浪费玩家时间, 曾移除游戏部分音效郭德纲最解气的时刻，用实力撑起了自己的狂妄乒乓球太原赛: 5月23日赛程! 央视直播吗? CCTV5、CCTV5+节目单一部关于唐纳德·特朗普的传记片《学徒》引起了轰动求新、求变的《梦幻西游》追求的是有血有肉的角色!

最新回复(32)

丹姐。☀️2024-06-22 08:20
引用32楼
机器人不会写“鲁迅曾说过〞
东海点点2024-06-22 08:17
引用31楼
浙江数学学科评卷组组长：不要搞题海战术，不要迷恋做题！高考评卷进行时高考
⚛️✡️2024-06-22 08:10
引用30楼
AI果然不擅长数学，看来还是需要我们人类来拯救数学啊！
猫哥的视界2024-06-22 06:44
引用29楼
丁肇中讲人工智能不可能发现相对论，也不可能发现量子力学，更不可能发现暗物质，不要神话它
老孙爱侃球2024-06-22 05:10
引用28楼
是不是电脑阅卷也会出现问题？
王鹏伟说2024-06-22 05:10
引用27楼
人工智能答答选择题还行，题库里都没有的它也答不上来啊[捂脸哭][捂脸哭][捂脸哭]
侃车的魅力2024-06-22 04:59
引用26楼
人工智能还有大的发展空间。把人工智能当作辅导教师或者考生，这是方向性错误。人工智能应在科研，生产方面大放异彩，才是当前和今后的人努力的方向！
探录世界2024-06-22 04:58
引用25楼
哈哈哈哈哈哈哈哈你还是有点自知之明的……
寻巧看游戏2024-06-22 04:56
引用24楼
一个经过相当数量学习的AI，可以超过人工，比如，你说AI不如人，只能说明这个AI学习得还不够，算法能力还不行。如果算法和学习能力达到一个极高值，就能产生真正的人工智能机器人，甚至有自己的思想，就像终结者那种
老郭机械局2024-06-22 04:15
引用23楼
9B的模型拿来和72B对比，脸呢
博学的王垚啊2024-06-22 03:40
引用22楼
数学才是体现智商的学科
大漠叔叔2024-06-22 03:27
引用21楼
别试探了，简单说明想怎么玩
荆楚有宜昌2024-06-22 02:55
引用20楼
真人正相反很多人是被语文刷下来
逍遥诸事通2024-06-22 02:47
引用19楼
大模型在数学方面的表现是否能够反映其智能水平？
突突突突突…..2024-06-22 01:38
引用18楼
我以为这种主观题会因为没有感情打不的不好万万没想到是数学瘸了[哭哭]
鲨鱼辣椒！2024-06-22 01:35
引用17楼
考记忆，人比不过芯片，它几秒钟就可以记住我们人类五千年的文化和历史。再加固定的文科答题模版，只要可以就可以秒杀百分之80的学生
唐果果2024-06-21 23:51
引用16楼
ai的语文理解能力可以啊
沉浮于世界2024-06-21 23:50
引用15楼
人工智能哪有人工评判标准？
流浪的橡2024-06-21 23:30
引用14楼
排名第一的水平貌似我家孩考试的水平
为民爱手工2024-06-21 22:46
引用13楼
你要说高端点的题目我还信… 你说高考题，可能吗？找原题都可以及格