AI高考测试出分: 数学全不及格

中关村在线2024-06-21 11:40:00  234

随着今年高考落幕,上海人工智能实验室推出的“司南”大模型开源开放评测体系迅速行动,选取了六个前沿的开源模型以及备受瞩目的GPT-4o,针对高考“语数外”三科进行了全卷能力测试。此次评测严格遵循全国新课标I卷的出题标准,确保所有参与评测的模型在“闭卷”条件下接受挑战。

值得一提的是,所有参与评测的开源模型,其开源时间均早于高考,有效避免了“作弊”的可能性,确保了评测的公正性和有效性。更为关键的是,本次评测的成绩由具备丰富高考评卷经验的教师团队进行人工评判,确保了评分的准确性和贴近实际阅卷标准。

评测结果令人瞩目,前三甲的模型得分率均超过70%,显示出这些大模型在高考模拟测试中的强大实力。在语文和英语科目中,大部分模型均表现出色,其中英语科目的平均得分更是高达81%,充分证明了大模型在理解和应用自然语言方面的能力。

然而,数学科目成为了这些“大模型考生”的软肋。尽管其中一些模型在数学单科上取得了不错的成绩,但整体而言,数学仍是这些大模型需要进一步加强的方面。这也提示我们,在未来的大模型研发中,需要更加注重对数学等抽象思维能力的训练和提升。

此次“大模型高考”评测不仅为大模型技术的研发和应用提供了宝贵的实践经验和数据支持,也为我们展示了人工智能技术在教育领域应用的巨大潜力和挑战。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来的人工智能将能够在更多领域展现出其独特的优势和价值。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/779517.html
最新回复(32)
  • AI零点科技2024-06-21 22:11
    引用12
    ai数学是真的很差劲,我做教培行业,拿ai去解题,答案每次真的都是五花八门,什么都解不开的感觉
  • 春雁评商业2024-06-21 22:01
    引用11
    因此,不论时代如何变迁,AI永远都不可能完整地取代人类
  • 游蝶壁纸2024-06-21 19:27
    引用10
    事实证明,ai暂时还无法取代人类
  • 孤寡老人讲历史2024-06-21 18:33
    引用9
    加个前提:目前的AI
  • 科技有话叨叨叨2024-06-21 18:17
    引用8
    这种llm只能给你匹配相关信息,不具备ai能力
  • WYOU_2024-06-21 18:13
    引用7
    我一开始总觉得ai真不错,直到我问了它我们专业相关的问题
  • 三方鱼思令2024-06-21 17:50
    引用6
    看来AI只会搜索,不会创造
  • 梨涡姐姐2024-06-21 15:42
    引用5
    今天中考 数学两个几何大题都不会 [红脸笑] 认识的都出来说简单 学不了一点
  • 景天评汽车2024-06-21 15:12
    引用4
    可见机器人都做不到的事情,要求孩子做到[无奈吐舌]
  • 知我谈科技2024-06-21 14:46
    引用3
    为啥AI能解出我给它随便出的高数题目??????
  • baller白晶2024-06-21 14:42
    引用2
    现阶段的ai是语言大模型
  • 课南瓜子2024-06-21 12:44
    引用1
    我们英专生可以退出了[哭哭]