AI测评: 从小米SU7发布50000台大定海报看AI大模型的图片理解效果

跟锅头一起学AI2024-03-30 00:31:06  151

该图片来自小米汽车微博

▌锅头导读

昨晚通过小米SU7发布售价验证了国产大模型的联网查询实时性,大家都表现得很棒。

随后发现大家都在转发小米SU7在27分钟大定突破50000台的海报图,锅头在想,当我把这张海报图发给各家AI后,他们会出现什么反应?是不是依然都表现很好?

想到就去做。

▌评分标准

在测试前,为了能更直观方便比较各模型测试结果,我们简单定义下测试评分标准,具体如下:

评分标准

分数

生成新闻与测试项的提示词描述完全相符

5

生成图像与测试项的提示词描述大部分相符

4

生成图像与测试项的提示词描述少部分相符

3

生成图像与测试项的提示词无法判别是否相符

2

生成图像与测试项的提示词完全不符,答非所问

1

无此功能不支持生成

0

( 注意:该评分仅供本次测试的感性反馈使用,非权威测试,请勿纠结。)

▌测试项本次测试比较简单,就一项:

AI能不能正确解读“小米SU7在27分钟大定突破50000台”的海报图意思。

▌测试模型

Kimi

智谱清言-GLM-4

文心一言-文心大模型3.5

通义千问

豆包

讯飞星火

360智脑

百川大模型

腾讯混元助手

▌测试时间

2024年3月29日。

准备工作完成后,我们开始进入测试。

▌Kimi

结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。

▌智谱清言-GLM-4

结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。

▌文心一言-文心大模型3.5

结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。

▌通义千问

结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。

▌豆包

结果:无法上传图片,算是无此功能,打0分。

▌讯飞星火

结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。

▌360智脑

结果:无法上传图片,算是无此功能,打0分。

▌百川大模型

结果:不支持上传图片格式文件,算是无此功能,打0分。

▌腾讯混元助手

结果:无法上传图片,算是无此功能,打0分。

▌测评总结

本次测评结果汇总表如下:

经过这一轮测试下来,发现要么不支持图片理解功能,要么支持的都表现得不错(也可能是这种海报类型文字都很清晰,难度不大)。支持图片理解的AI大模型有Kimi、GLM-4、文心大模型3.5、通义千问、讯飞星火,都得到了5分的成绩。暂时还不支持图片理解的AI大模型有豆包、369智脑、百川大模型、腾讯混元助手。按现在的AI迭代速度,相信很快就会支持了。让我们拭目以待。

▌素材来源

[1] 锅头测试各大模型的截图

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/67385.html
0
随机主题
吴绮莉曾称家门永远向女儿敞开, 晒切蒜视频遭嘲, 被问怎么沦落了那些演绎帝王专业户,你心中的最佳帝王是谁?莱希坠机原因找到了?或离不开这一国,细节罕见公布,局势恐变天在上合转正,蒙古国迟迟不松口,拉夫罗夫亮明立场,不想再等20年骁龙8Gen2旗舰直降400,金属边框+索尼大底,体验不输一加12地球班往事: 苏联解体时, 俄罗斯继承了1000亿债权, 要回来多少?手机高端化趋势明显:超半数畅销机型价格600美元起男网红“请假几天”引热议, 网友问何时关闭打赏? 已经影响下一代Sensor Tower: 《Monopoly GO! 》4月蝉联全球手游畅销榜冠军, 《王者荣耀》位列第2名, 米哈游旗下两款手游表现强劲1962年投资1000万美元,真实装备与军人协助拍摄,被封为二战电影封神之作!美联储会议纪要“放鹰”: 官员暗示必要时考虑加息火箭越老越粗暴,希金斯防守瞬间变成马蜂窝,魔幻操控教科书清台赖清德就任, 日本上蹿下跳, 中方针对琉球? 华春莹: 落实开罗宣言牟林: 美国悍然提出杀人双标, 国际刑事法院逮捕以总理博弈白热化2024-2025年美国最佳居住城市排名发布丛明晨凌晨4点发博庆祝夺冠: 兄弟们牛逼 纯纯躺赢据《华尔街日报》报道, 挪威在天然气管道破裂后追随新北极熊日产天籁2.0L自吸动力体验分享申花客胜河南客户生病,投保的保险没有理赔,去客户家道个歉4年2.94亿! 亚历山大解锁超级续约资格 合同年薪突破8000万大关
最新回复(1)
  • 吒哪波智宇2024-03-30 08:51
    引用1
    如果你的大定跟别人的大定概念不同,就该直接换个说法,不然你的数据不就涉嫌欺诈么?