AI测评: 从小米SU7发布50000台大定海报看AI大模型的图片理解效果

跟锅头一起学AI2024-03-30 00:31:06 151

该图片来自小米汽车微博

▌锅头导读

昨晚通过小米SU7发布售价验证了国产大模型的联网查询实时性，大家都表现得很棒。

随后发现大家都在转发小米SU7在27分钟大定突破50000台的海报图，锅头在想，当我把这张海报图发给各家AI后，他们会出现什么反应？是不是依然都表现很好？

想到就去做。

▌评分标准

在测试前，为了能更直观方便比较各模型测试结果，我们简单定义下测试评分标准，具体如下：

评分标准	分数
生成新闻与测试项的提示词描述完全相符	5
生成图像与测试项的提示词描述大部分相符	4
生成图像与测试项的提示词描述少部分相符	3
生成图像与测试项的提示词无法判别是否相符	2
生成图像与测试项的提示词完全不符，答非所问	1
无此功能或不支持生成	0

（注意：该评分仅供本次测试的感性反馈使用，非权威测试，请勿纠结。）

▌测试项本次测试比较简单，就一项：

AI能不能正确解读“小米SU7在27分钟大定突破50000台”的海报图意思。

▌测试模型

Kimi

智谱清言-GLM-4

文心一言-文心大模型3.5

通义千问

豆包

讯飞星火

360智脑

百川大模型

腾讯混元助手

▌测试时间

2024年3月29日。

准备工作完成后，我们开始进入测试。

▌Kimi

结果：能正确理解图片内容并给出合理的分析表达，与预期相符，打5分。

▌智谱清言-GLM-4

结果：能正确理解图片内容并给出合理的分析表达，与预期相符，打5分。

▌文心一言-文心大模型3.5

结果：能正确理解图片内容并给出合理的分析表达，与预期相符，打5分。

▌通义千问

结果：能正确理解图片内容并给出合理的分析表达，与预期相符，打5分。

▌豆包

结果：无法上传图片，算是无此功能，打0分。

▌讯飞星火

结果：能正确理解图片内容并给出合理的分析表达，与预期相符，打5分。

▌360智脑

结果：无法上传图片，算是无此功能，打0分。

▌百川大模型

结果：不支持上传图片格式文件，算是无此功能，打0分。

▌腾讯混元助手

结果：无法上传图片，算是无此功能，打0分。

▌测评总结

本次测评结果汇总表如下：

经过这一轮测试下来，发现要么不支持图片理解功能，要么支持的都表现得不错（也可能是这种海报类型文字都很清晰，难度不大）。支持图片理解的AI大模型有Kimi、GLM-4、文心大模型3.5、通义千问、讯飞星火，都得到了5分的成绩。暂时还不支持图片理解的AI大模型有豆包、369智脑、百川大模型、腾讯混元助手。按现在的AI迭代速度，相信很快就会支持了。让我们拭目以待。

▌素材来源

[1] 锅头测试各大模型的截图

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/67385.html

0

随机主题

吴绮莉曾称家门永远向女儿敞开, 晒切蒜视频遭嘲, 被问怎么沦落了那些演绎帝王专业户，你心中的最佳帝王是谁？莱希坠机原因找到了？或离不开这一国，细节罕见公布，局势恐变天在上合转正，蒙古国迟迟不松口，拉夫罗夫亮明立场，不想再等20年骁龙8Gen2旗舰直降400，金属边框+索尼大底，体验不输一加12 地球班往事: 苏联解体时, 俄罗斯继承了1000亿债权, 要回来多少?手机高端化趋势明显：超半数畅销机型价格600美元起男网红“请假几天”引热议, 网友问何时关闭打赏? 已经影响下一代 Sensor Tower: 《Monopoly GO! 》4月蝉联全球手游畅销榜冠军, 《王者荣耀》位列第2名, 米哈游旗下两款手游表现强劲 1962年投资1000万美元，真实装备与军人协助拍摄，被封为二战电影封神之作！美联储会议纪要“放鹰”: 官员暗示必要时考虑加息火箭越老越粗暴，希金斯防守瞬间变成马蜂窝，魔幻操控教科书清台赖清德就任, 日本上蹿下跳, 中方针对琉球? 华春莹: 落实开罗宣言牟林: 美国悍然提出杀人双标, 国际刑事法院逮捕以总理博弈白热化 2024-2025年美国最佳居住城市排名发布丛明晨凌晨4点发博庆祝夺冠: 兄弟们牛逼纯纯躺赢据《华尔街日报》报道, 挪威在天然气管道破裂后追随新北极熊日产天籁2.0L自吸动力体验分享申花客胜河南客户生病，投保的保险没有理赔，去客户家道个歉 4年2.94亿! 亚历山大解锁超级续约资格合同年薪突破8000万大关

最新回复(1)

吒哪波智宇2024-03-30 08:51
引用1楼
如果你的大定跟别人的大定概念不同，就该直接换个说法，不然你的数据不就涉嫌欺诈么？