AI高考测试出分: 数学全不及格

中关村在线2024-06-21 11:40:00  232

随着今年高考落幕,上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动,选取了六个前沿的开源模型以及备受瞩目的GPT-4o,针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准,确保所有参与评测的模型在“闭卷”条件下接受挑战。

值得一提的是,所有参与评测的开源模型,其开源时间均早于高考,有效避免了“作弊”的可能性,确保了评测的公正性和有效性。更为关键的是,本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判,确保了评分的准确性和贴近实际阅卷标准。

评测结果令人瞩目,前三甲的模型得分率均超过70%,显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中,大部分模型均表现出色,其中英语科目的平均得分更是高达81%,充分证明了大模型在理解和应用自然语言方面的能力。

然而,数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩,但整体而言,数学仍是这些大模型需要进一步加强的方面。这也提示我们,在未来的大模型研发中,需要更加注重对数学等抽象思维能力的训练和提升。

此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持,也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来的人工智能将能够在更多领域展现出其独特的优势和价值。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/779517.html
0
最新回复(32)
  • 丹姐。☀️2024-06-22 08:20
    引用32
    机器人不会写“鲁迅曾说过〞
  • 东海点点2024-06-22 08:17
    引用31
    浙江数学学科评卷组组长:不要搞题海战术,不要迷恋做题!高考评卷进行时 高考
  • ⚛️✡️2024-06-22 08:10
    引用30
    AI果然不擅长数学,看来还是需要我们人类来拯救数学啊!
  • 猫哥的视界2024-06-22 06:44
    引用29
    丁肇中讲人工智能不可能发现相对论,也不可能发现量子力学,更不可能发现暗物质,不要神话它
  • 老孙爱侃球2024-06-22 05:10
    引用28
    是不是电脑阅卷也会出现问题?
  • 王鹏伟说2024-06-22 05:10
    引用27
    人工智能答答选择题还行,题库里都没有的它也答不上来啊[捂脸哭][捂脸哭][捂脸哭]
  • 侃车的魅力2024-06-22 04:59
    引用26
    人工智能还有大的发展空间。把人工智能当作辅导教师或者考生,这是方向性错误。人工智能应在科研,生产方面大放异彩,才是当前和今后的人努力的方向!
  • 探录世界2024-06-22 04:58
    引用25
    哈哈哈哈哈哈哈哈你还是有点自知之明的……
  • 寻巧看游戏2024-06-22 04:56
    引用24
    一个经过相当数量学习的AI,可以超过人工,比如,你说AI不如人,只能说明这个AI学习得还不够,算法能力还不行。如果算法和学习能力达到一个极高值,就能产生真正的人工智能机器人,甚至有自己的思想,就像终结者那种
  • 老郭机械局2024-06-22 04:15
    引用23
    9B的模型拿来和72B对比,脸呢
  • 博学的王垚啊2024-06-22 03:40
    引用22
    数学才是体现智商的学科
  • 大漠叔叔2024-06-22 03:27
    引用21
    别试探了,简单说明想怎么玩
  • 荆楚有宜昌2024-06-22 02:55
    引用20
    真人正相反 很多人是被语文刷下来
  • 逍遥诸事通2024-06-22 02:47
    引用19
    大模型在数学方面的表现是否能够反映其智能水平?
  • 突突突突突…..2024-06-22 01:38
    引用18
    我以为这种主观题会因为没有感情打不的不好 万万没想到是数学瘸了[哭哭]
  • 鲨鱼辣椒!2024-06-22 01:35
    引用17
    考记忆,人比不过芯片,它几秒钟就可以记住我们人类五千年的文化和历史。再加固定的文科答题模版,只要可以就可以秒杀百分之80的学生
  • 唐果果2024-06-21 23:51
    引用16
    ai的语文理解能力可以啊
  • 沉浮于世界2024-06-21 23:50
    引用15
    人工智能哪有人工评判标准?
  • 流浪的橡2024-06-21 23:30
    引用14
    排名第一的水平貌似我家孩考试的水平
  • 为民爱手工2024-06-21 22:46
    引用13
    你要说高端点的题目我还信… 你说高考题,可能吗?找原题都可以及格