该图片来自小米汽车微博
▌锅头导读
昨晚通过小米SU7发布售价验证了国产大模型的联网查询实时性,大家都表现得很棒。
随后发现大家都在转发小米SU7在27分钟大定突破50000台的海报图,锅头在想,当我把这张海报图发给各家AI后,他们会出现什么反应?是不是依然都表现很好?
想到就去做。
▌评分标准
在测试前,为了能更直观方便比较各模型测试结果,我们简单定义下测试评分标准,具体如下:
评分标准 | 分数 |
生成新闻与测试项的提示词描述完全相符 | 5 |
生成图像与测试项的提示词描述大部分相符 | 4 |
生成图像与测试项的提示词描述少部分相符 | 3 |
生成图像与测试项的提示词无法判别是否相符 | 2 |
生成图像与测试项的提示词完全不符,答非所问 | 1 |
无此功能或不支持生成 | 0 |
( 注意:该评分仅供本次测试的感性反馈使用,非权威测试,请勿纠结。)
▌测试项本次测试比较简单,就一项:
AI能不能正确解读“小米SU7在27分钟大定突破50000台”的海报图意思。
▌测试模型
Kimi
智谱清言-GLM-4
文心一言-文心大模型3.5
通义千问
豆包
讯飞星火
360智脑
百川大模型
腾讯混元助手
▌测试时间
2024年3月29日。
准备工作完成后,我们开始进入测试。
▌Kimi
结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。
▌智谱清言-GLM-4
结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。
▌文心一言-文心大模型3.5
结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。
▌通义千问
结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。
▌豆包
结果:无法上传图片,算是无此功能,打0分。
▌讯飞星火
结果:能正确理解图片内容并给出合理的分析表达,与预期相符,打5分。
▌360智脑
结果:无法上传图片,算是无此功能,打0分。
▌百川大模型
结果:不支持上传图片格式文件,算是无此功能,打0分。
▌腾讯混元助手
结果:无法上传图片,算是无此功能,打0分。
▌测评总结
本次测评结果汇总表如下:
经过这一轮测试下来,发现要么不支持图片理解功能,要么支持的都表现得不错(也可能是这种海报类型文字都很清晰,难度不大)。支持图片理解的AI大模型有Kimi、GLM-4、文心大模型3.5、通义千问、讯飞星火,都得到了5分的成绩。暂时还不支持图片理解的AI大模型有豆包、369智脑、百川大模型、腾讯混元助手。按现在的AI迭代速度,相信很快就会支持了。让我们拭目以待。
▌素材来源
[1] 锅头测试各大模型的截图
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/67385.html