563支AI队伍和姜萍答了同一份试卷: 最高34分, 无一入围决赛

经济观察报2024-06-15 19:50:00  130

经济观察网记者钱玉娟6月13日,第六届阿里巴巴全球数学竞赛(下称“阿里数赛”)公布决赛名单,17岁的江苏涟水中等专业学校学生姜萍排名12位,成为全球30名里唯一的女选手。

连续多日的热搜,让公众知道了这位天才少女,也让更多人知道了阿里数赛。与往届不同,今年的阿里数赛首次开放了AI大模型挑战赛,共有563支由全球知名高校院所和企业组建的AI队伍与姜萍解答了同一份试卷。

4月13日早上8点,阿里数赛开考,数万名来自全球各地的数学爱好者,需要完成其中选择题、解答题与证明题的考验。但在6月13日公布的决赛名单中,801名晋级者里没有一支AI队伍入围。

据赛事官方统计,参与竞赛的AI队伍的平均分为18分,已赶上人类选手的平均水平。但AI的最高分仅为34分,与人类选手最高分113分相比,差距甚远。

经济观察网了解到,AI队伍中的最高分由上海建平中学涂津豪个人推出的AI方案获得。涂津豪通过借鉴自辩论思想,让多个大模型进行多轮的“自问自答自验证”,从而寻求问题的最优解,再让AI从中选出唯一答案。

来自西南交通大学的特工宇宙团队和中国人民大学的SuperCarryMan团队均获得27分,成为本届阿里数赛AI挑战赛的亚军和季军。这两支AI队伍均基于Multi-Agent(多个智能体组成)进行方案设计,前者是让多种大模型扮演不同角色进行思路分析、解题、评价,并通过调用Python等输出答案;后者则动态调整推理、逻辑验证和解释器等多个阶段,并针对每个子问题选择合适的参考案例,经过多重验证整合,最终给出答案。

在浙江大学计算机系统结构实验室从事大模型相关研究工作的陈天楚分析,现有LLM(大语言模型)的工作方法还是以固定的速率根据上下文预测下一个词,一次性输出结果。像数学竞赛这种需要反复、多次试错、思考的任务,LLM在完成复杂推理、严谨思考方面仍存在局限性。

陈天楚透露,目前虽然可以通过Prompt(输入到文生图模型的文字)工程方式,让单个LLM自我质问或多个LLM相互质问,但这种方式对模型性能的增益还比较有限,无法替代经过专业训练的人类。

公布AI挑战赛成绩的同时,赛事组委会给出的AI阅卷点评中,指出了AI的数学短板,诸如逻辑推理能力弱,证明题很难拿到完整得分点等。

在阿里数赛设立AI挑战赛之初,某互联网企业的一位技术总监就对此十分关注,他认为这是“百模大战”后,对AI模型能力的一次考验。虽然在规则清晰、计算密集型的问题上,AI模型的能力表现可以优于人类,但在需要深层次逻辑推理以及高度创新思维的问题上,人类选手仍然占据绝对优势。

从第六届阿里数赛决赛晋级名单看,AI大模型做题还难以超越人类,但上述技术总监觉得,这场数学竞赛的对决或将推动人类对人工智能本质的理解再进一步,甚至有望激发出新的数学理论和AI技术的发展。

今年,563支AI队伍使用模型调优、AIAgent(人工智能体)、提示词工程等多种方式,试图推动AI构建更强大的数学能力。

阿里数赛始办于2018年,由阿里巴巴公益、达摩院共同举办,每年来自全球的数学爱好者可以通过达摩院官网报名,竞赛以不设报名门槛、全民参与著称。一组数据显示,阿里数赛至今已累计吸引了25万人次参赛,成为全球规模最大的在线数学竞赛。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/735411.html
0
最新回复(16)
  • 华坤二手车行2024-06-16 10:32
    引用16
    说实话在数学高深领域国外大学确实比国内强[得瑟]
  • 依小观2024-06-16 10:29
    引用15
    AⅠ只是机器、工具,想超越人类是开发者春秋大梦!
  • 华声体育2024-06-16 10:28
    引用14
    小说都不敢这么写[点赞]
  • 水瑶评房产2024-06-16 10:16
    引用13
    你那某某职业学完也好意思称为大学?毕不了业就毕不了业,啥叫读大学无聊?说这么清新。
  • 赵裕庆2024-06-16 10:00
    引用12
    现在这些只能称人工智障,只会统计归纳概率之类,逻辑还是不行滴。
  • 东坡追剧2024-06-16 09:51
    引用11
    草,你们教ai这个?真要拍终结者吗!
  • 智道商业2024-06-16 09:48
    引用10
    怪不得陕西的国际学校那么多,羞先人
  • y…2024-06-16 09:38
    引用9
    我一个高中生我说什么了吗[抠鼻]而且我大学只是没读完,觉得大学太无聊[打脸]现在想接着读大学机会不大了[打脸]
  • 风之战士2024-06-16 09:38
    引用8
    初中生[打脸]笑死。高中都没考上[打脸]推出来过几天就开始骂了[打脸]初中生能有什么文化吵个屁啊[笑着哭]
  • 潜望者评武器2024-06-16 09:17
    引用7
    别捧了,小孩子太年轻心智可能还不太成熟,捧的太高容易扼杀天才,天天捧着挂头条不是什么好事
  • 肥肠评影剧2024-06-16 09:12
    引用6
    题目多了去了[得瑟],那么多数学系的博士教授,随便一篇论文都能出好几个题。到现在牛顿微积分咱不都还在学呢么
  • 历史低语者2024-06-16 07:41
    引用5
    [点赞][点赞][点赞]
  • 维达说2024-06-16 06:05
    引用4
    天才少女
  • 红楼梦中赖晓伟2024-06-16 06:02
    引用3
    所谓Al,还不都是按设计者的思路去解决问题?他能超越设计者的,无非是推演速度快,推演更深远。如果某天,AⅠ能自己创造思路,有自己认识世界创造世界的能力,那人类灭之亡就为期不远了!
  • 济南街采2024-06-16 04:43
    引用2
    我就想知道这套试题是哪些大神命题的
  • 陈天哲书法人2024-06-16 00:56
    引用1
    这种人才更适合国外高校