9.9和9.11谁大? 网友吵翻天, AI也答错……

躺倒鸭2024-07-19 16:23:09 136

突然问这个倒不是鸭鸭准备开数学课了，而是昨天看到了一个离谱的热搜“大模型测不出9.11和9.9哪个大”。

号称可以取代大部分打工人的大模型，居然搞不定小学数学吗？咱们直接上手测试一波。

率先出场的是GPT-4o，结果成功辜负了鸭鸭的期待。先是一口咬死9.11比9.9大。

在被鸭鸭质疑后，还是坚持自己看法，并给出了一个离谱的解释。

该说不说，鸭鸭突然理解了说9.9比9.11小的脑回路。即使在鸭鸭指出他的错误后，GPT重新给出了正确的过程，然后依旧报了一个错误的答案……

最后鸭鸭表示“你去小学深造一下吧”，GPT还挺有礼貌的道歉了，但就是死不认错，主打一个头铁到底，嘴是真的硬。

看到GPT这个症状，基本上可以弃疗了。以后说人数学不是很好：低情商：你数学是体育老师教的吧？高情商：你的数学水平比肩GPT！

测完GPT，鸭鸭顺手测试了一波其他国产大模型，基本上都能给到正确答案。

从上到下依次为：天工大模型、讯飞星火、豆包、

通义、元宝、文心一言。

这个正确率就算是看了热搜紧急修复的，那也可以说是迭代速度很快了。

只有Kimi先是给出了一个错误答案。

给出的解释也很离谱：

在被鸭鸭质疑之后，光速道歉然后修改了答案。

然而就当鸭鸭想着再质疑一次，结果Kimi又立刻修改了答案。

主打一个灵活多变，你说啥就是啥

不过这也比GPT-4o头铁到底，死不认错好多了。

说到底为啥GPT的数学能力这么拉呢?这个咱们就要分情况来说了，GPT-4o可以说是面对小学数学我唯唯诺诺，面对高数积分我重拳出击。

先算一道定积分来证明一下实力。

GPT的数学能力属于是介于好与差之间，呈现“拉胯二象性”。

对此GPT-4o给出的解释是：

实际感受也符合GPT的说法，一般情况下GPT可以提供一个大概的解题思路，但一到数字的具体运算上就拉胯了。

至于为啥好不好的大家都开始拿这个数学题来折磨AI了呢？据说是《歌手》的第十期演出排名出来后，网友最大的关注点反而在孙楠13.8%的成绩在外国歌手13.11%之上。有网友发出了灵魂拷问“13.8%比13.11%高？我请问呢？”

然后就有人想到了，可以去问问AI。

不过真要鸭鸭说，这些大模型给出的解释都弱爆了。这张微信支付余额截图，直接杀死比赛堪称最直接的证明

你早这么教，鸭鸭不就会了吗？

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/918158.html

0

随机主题

莱希坠机原因找到了？或离不开这一国，细节罕见公布，局势恐变天早安! 世界丨中方反制12家美国军工企业;联合国被迫暂停在拉法分发援助食品 779 元, 2024 款苹果 Apple Watch 彩虹编织表带现已上市伊朗一天内解开总统坠机谜团: 原是技术故障, 美国终于放心彩！彩！彩！荣耀magic6保时捷pk华为pura70ultra！日媒: 初创企业成乌军用无人机开发主力隐藏身份很辛苦吧? 小兰替大神担忧, 新一能明白他的想法立陶宛严厉谴责俄罗斯重新划定海上边界声明: 这是在发起混合战争 13万一口气跌至6万, 标配8个气囊, 从月销1台到销量过万, 比亚迪不香了《暗黑破坏神4》S4迎复兴, Steam在线人数创新高苹果倒在手机AI时代?英国防大臣宣称继续援乌6年，“拖垮俄罗斯”高盛CEO所罗门预计美联储今年将不会降息宇通客车向希腊出口250辆电动公交车, 首批已投入运营戏中戏负责看点, 真戏负责惊悚悬疑, 一片多吃一口价6.99万起，标配1.5T+双大屏+独悬，探店2024款瑞虎7 樱井政博: 为避免《大乱斗》浪费玩家时间, 曾移除游戏部分音效前央视主持离世, 曾解说中国女排夺冠成名, 与郎平魏秋月等是好友四部门: 优化外商投资环境, 继续缩减外资准入负面清单空位三分不敢投, 关键时刻甩锅坑队友, 球迷怒批: 最水的MVP 彻底卖不动了? iPhone在中国跌出前五, 华为成最大赢家

最新回复(0)