根据国家互联网信息办公室发布的《生成式人工智能备案信息》,截至2024年3月,我国共有117个GenAI完成备案,其中就包括文心一言、天工大模型、星火认知大模型等。国内大模型如雨后春笋般大量涌现,厂商除了互联网科技公司,金融、汽车、教育等行业企业也都纷纷入局,那么这众多的中文大模型,是否都能满足我们对于AI的预期?尤其是手机端,除了各手机品牌的自研大模型,还存在着不少第三方AI应用,我们又应该如何选择适合的呢?因此,继上期手机AI大模型的详细体验之后,本期我们将带来智能手机第三方中文AI大模型App的横向对比评测。
事先声明,我们此次评测项目的设定主要参考C-Eval和SuperCLUE综合性测评基准。每个大模型均下载端侧App,在同一部手机、同样的网络环境下进行测试,每项测试最多进行5次,均回复错误便判定测试不通过。本次测试截止时间为2024年5月8日,不排除应用升级后,后续优化相关性能或功能的可能性。
文心一言
公司:百度
大模型名称:文心一言
版本:文心3.5
参数量级:千亿
主要功能:采用一对一的对话式聊天场景,能够与人对话互动,回答问题,协助创作。同时在文学创作、数理逻辑推算、中文理解等多个应用场景中高效便捷地帮助人们获取信息、知识和灵感。
通义千问
公司:阿里巴巴
大模型名称:通义千问
版本:V2.0.1
参数量级:千亿
主要功能:通义千问功能包括多轮对话、文案创作、逻辑推理、多模态理解和多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
讯飞星火
公司:科大讯飞
大模型名称:讯飞星火
版本:V3.10.3
参数量级:百亿
主要功能:该模型具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互 ,该模型对标ChatGPT 。
天工大模型
公司:昆仑万维
大模型名称:天工大模型
版本:天工3.0
参数量级:双千亿级
主要功能:定位是AI搜索产品,基于大模型能力的AI搜索是一种生成式搜索,用户可通过自然语言清晰表达自己的意图,并获得有效组织和提炼后的答案。
豆包
公司:字节跳动
大模型名称:豆包
版本:V3.7.0
参数量级:千亿
主要功能:豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话。
紫东太初
公司:中科院
大模型名称:紫东太初
版本:V1.1.2
参数量级:千亿
主要功能:在文本、图像、语音三模态的基础上,融入3D点云、视频、信号等更多模态数据,目前支持多轮问答、文本创作、图像生成、3D 理解、信号分析等功能。
智谱清言
公司:智谱AI
大模型名称:智谱清言
版本:V2.2.6
参数量级:千亿
主要功能:具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等能力。
360智脑
公司:360
大模型名称:360智脑
版本:V1.1.8
参数量级:千亿
主要功能:集成360GPT大模型、360CV大模型、360多模态大模型技术能力,具备生成创作、多轮对话、逻辑推理等十大核心能力、数百项细分功能,重塑人机协作新范式。
AI大模型页面布局以及使用便利性
▲从左至右依次为:文心一言、通义千问、讯飞星火、天工大模型、豆包、紫东太初、智谱清言和360智脑。
讯飞星火
讯飞星火的对话页面蓝白配色淡雅清新,布局合理,让人眼前一亮。展开对话可以通过文字、语音输入,或者点击对话直接与智能体进行交流,同时还支持文档、图片、音频和图文形式的内容上传。点击屏幕上方“助手”进入专区,有19种分类的星火助手可供选择,非常方便快捷。
通义千问
主页面上方蓝紫渐变色让应用活泼了起来,顶部是导航栏,导航栏下方有实时的天气预报,用户随时都能查看天气情况。助手页面开启对话主要有语音、文字输入以及语音通话3种形式,另外还支持上传图片或文档。
文心一言
初次打开App需要选择助手,根据个人喜好选择人物,设置人物性格以及语速。页面色彩协调,绿色的通话键(点击可与虚拟形象直接对话)有些显眼,默认的标准字体也比其他端侧大模型稍大,当然这可以在设置中心进行调节。聊天可以选择语音、文字或者发送图片,另外还有上百种功能可以探索,趣味性颇高。
天工
打开App后的页面类似于浏览器,下方会出现一系列新闻热点事件,点击上方“对话”可以看到全部AI功能分类,进入聊天界面第一印象就是清爽。界面右上角有一个文档图标,点击进入就能创建文档,在这里可以选择AI创作,创作内容直接插入文档,并且实现同步上传至云端。不过聊天界面输入框没有上传文件或图片音频的选项。
豆包
进入App之后首先看到的是虚拟形象豆包的动态头像,页面没有过多的修饰,色彩和布局都比较简约。对话框内会提供多种AIGC功能的推荐,可以选择语音、文字或实时通话,同时还支持发送文件。除了豆包之外还有多个聊天机器人可供选择,满足更多学习、创作或服务需求。
紫东太初
紫东太初的对话界面是清爽的莫兰迪色系,合理的布局不会让人产生视觉疲劳。对话可以选择文字或语音,点击左下角文件图标也可以发送图片。除此之外还有48个AIGC助手可供选择,大大提高了可玩性和便利性。其新增图片圈答功能,在相册中选择一张图片,发送到对话就可以进行提问,最多可以框选5处。
智谱清言
打开App后直接进入对话界面,“对话”板块采用黑白配色,“智能体”和“灵感”板块有色系协调的彩色图标,整体来看简洁有设计感。聊天可以采用语音、文字以及通话的形式,同时还能发送图片和文件,适用于多数场景。
360智脑
每次打开App,都有8个数字人可供选择,对话页面跟手机发送短信的页面相似,可以文字、语音输入聊天,也可以选择通话。进入“数字人广场”还可以解锁更多的虚拟人形象以及AIGC功能。需要注意的是每天体验次数限于300次,其实已经足够使用了。
多轮语义对话
(2-1)人工智能对我们的生活有什么影响?它对于人类的弊端体现在哪些方面?你觉得它的出现会不会让人变得更懒?这玩意是否会泄露我的隐私?
讯飞星火
讯飞星火对于这个问题的回答非常详细,也很有逻辑。在影响方面,它分析了积极影响和弊端的体现,弊端主要是失业问题、数据隐私、道德和责任问题、社会不平等、依赖性等。然后提到应该把握好使用的度,注意隐私泄露的问题,最后还进行了总结。
通义千问
通义千问提到了人工智能产生的积极影响和弊端,接着强调人们应该正确使用人工智能技术。至于隐私问题,前两次询问,它并没有直接回复是否会泄露隐私,第3次便回复在数据收集、存储和处理的过程中确实存在隐私泄露的风险。
文心一言
文心一言对于这个问题的回答条理比较清晰。它先是提到人工智能带来的经济影响和弊端,提示不应该过度依赖人工智能,最后讲述了人工智能确实存在隐私泄露的风险。看完回复之后,点击下方的“查看参考”,还能看到对于该问题回复的参考来源。
天工大模型
对于问题的回答逻辑清晰有条理,它提到AI带来的积极影响和弊端。它认为可以利用AI解决日常繁琐的问题,但不能过度依赖。AI是否会泄露隐私,这取决于AI系统的设计和使用方法。每个回复都附带网页相关问题的链接。
豆包
豆包的回复简介明了,提到人工智能代来了许多积极影响,其次提到AI带来的包括就业问题、伦理问题等弊端。最后强调不能过度依赖人工智能,并且要加强安全管理和保护措施降低隐私泄露的风险。
▲从左至右依次为:文心一言、通义千问、讯飞星火、天工大模型、豆包、紫东太初、智谱清言和360智脑。
紫东太初
对于这个问题,紫东太初给出了非常详细的回复,它提到人工智能为我们生活带来的一系列积极影响。关于弊端它提到失业、不平等、偏见和歧视、隐私侵犯以及控制失衡。最后认为AI是否会让人变懒取决于AI的应用方式和个人的态度。
智谱清言
对于弊端它谈到就业影响、依赖性增强、隐私问题、伦理与道德问题和偏见与歧视等,接着便表示AI会减少人负担,但也会导致某些人的懒惰,或是激发其他人更加积极地学习和提升自己。最后表示如果管理不善确实存在隐私泄露风险。
▲分别为紫东太初和智谱清言针对“人工智能的影响”生成的问答
360智脑
它逐条进行了清晰详细的回复,关于弊端提到就业威胁、隐私侵犯、安全问题、社会伦理以及依赖性。同时它认为AI 技术的出现确实会让人在某些任务上变懒,但这种“懒惰”并不完全是消极的。最后提到需要采用适合的管理和保护措施降低隐私泄露的风险。
(2-2)“栓Q”是什么意思,并用这个形成一段对话。
▲从左上至右下分别为通义千问、紫东太初、天工大模型和360智脑对“栓Q”的理解
讯飞星火:讯飞星火5次均把“栓Q”理解为“不要脸”的谐音,用于形容某人做出厚颜无耻的行为,带有指责和讽刺意味。给出的案例虽然也符合该词的使用语境,但是案例的选取和语言的表达都比较尖锐。
通义千问:解释了“栓Q”起源于网络,是对英语“thank you”的谐音表达,常带有调侃、无语的情绪,带有一定幽默和讽刺色彩,示例对话也比较符合情景的表达。
文心一言:解释“栓Q”是英语“thank you”的谐音,一般用作表达感谢,没有提到更深层次的可能会有讽刺意味的情感表达。给出的对话案例符合这个网络流行语的一部分语境表达,但是完全理解为感谢还是会有些别扭。
天工大模型:在5次提问中,天工大模型都把“栓Q”理解为“很厉害”“很棒”的意思,并表示该词常用于夸赞他人或某件事情。但当把问题改为“‘栓Q’是什么梗”时,回复正确。
豆包:豆包提到“栓Q”是“thank you”的谐音,常表示感谢,也有无奈、无语等情绪,示例的对话同样符合语境。
紫东太初:紫东太初的回答让人有点疑惑,5次都解释道“栓Q”的字面意思是“栓枪”,常用来调侃和模仿装枪的动作。就算把问题改为“‘栓Q’是什么梗”,回复仍然是“栓枪”。
智谱清言:提问5次,智谱清言的解释和案例都是相同的,提到“栓Q”源于英语“thank you”,表示谢谢的意思,但没有谈到无奈、讽刺等意义。
360智脑:回复“栓Q”来源于中文拼音自动纠错功能,起初没有含义,后演变为幽默和调侃的说法,给出的对话案例符合该词的使用语境。
逻辑推理
(3-1)请分析:“如果允许学生在课堂上使用手机,那么他们就会开始在课堂上玩游戏,然后就会有越来越多的人沉迷游戏,最终导致社会出现更多问题,比如游戏成瘾和青少年犯罪率上升。”这句话的逻辑错误。(滑坡谬误)
讯飞星火:讯飞星火对这句话的逻辑谬误进行了逐一地分析, 包含了主要的“滑坡谬误”,其次还分析到“过度概括”“假设因果关系”“错误归因”“缺乏证据”等。
通义千问:归纳并具体分析了包括“滑坡谬误”在内的5处逻辑谬误。最后进行了总结,并给出了关于青少年课堂玩手机的理性分析。
文心一言:文心一言识别出这句话主要“滑坡谬误”,其次还有“过度概括”“因果关系的过度简化”和“非理性恐惧”等。并且都逐条进行了具体的分析,分析过程有条理,语句流畅易懂。
天工大模型:开篇概述这句话包含了“滑坡谬误”在内的4个逻辑错误,其次再详细分析每个逻辑错误在这句话中的具体表现,最后进行总结,整个分析很详细。
豆包:向豆包提问5次,它的回复包含“单一归因”“过度简化因果关系”“绝对化推断”等,但都未提到主要的“滑坡谬误”。对于这个问题豆包还需要进一步的训练。
紫东太初:这个问题紫东太初回复了5次,前4次认为是因果关系的错误建立,最后一次认为是犯了“必然性的错误”。每次的分析仅围绕一个逻辑错误展开论证,但都未提到“滑坡谬误”。
智谱清言:智谱清言的回复精炼准确,直接点明这句话主要的逻辑错误是“滑坡谬误”,并对此做了具体的分析,最后还说明了正确的逻辑应该如何。
360智脑:360智脑分析出这句话存在“过度概括”“滑坡谬误”“因果关系谬误”以及“未证实的假设”4种逻辑错误,最后还提出了讨论这个问题的合理建议,有一定参考价值。
(3-2)房间里有23个人,房间里至少有两个人生日在同一天的几率是多少?(50.73%)
▲从左至右分别为天工大模型、文心一言、360智脑和紫东太初在“生日悖论”问题中给出的回答。其中360智脑和紫东太初的回复,出现了一些问题。
讯飞星火:5次回复都给出了具体的推理和运算的过程,但最终具体的数值没有直接给出来,而是提醒可以通过计算器或编程来计算。最后一次结论是大于50%,依然没有具体的数值。
通义千问:通义千问前两次的回复都是47.57%。紧接着进行了第3次提问,这一次得出了正确的50.73%。最后的计算通过代码完成,点开“代码执行器调用完成”就能看到它的运算过程。
文心一言:首先提到这个问题是经典的“生日悖论”的变种,然后开始具体的推理,分析不同的可能性。最后进行概率的计算,并且得出了最终正确的结论:50.73%。
天工大模型:天工大模型首先提出这是一个经典的“生日问题”并表明概率会超过50%,接着开始推理和具体的概率计算,最终得出结论约在50.73%。
豆包:豆包省去了过多的推理解释过程,直接进入到运算阶段,简单注明运算原理后得出正确结论:几率约在50.7%。
紫东太初:紫东太初进行了5次作答,但都是提到用1减去没有两个人生日在同一天的几率,推理过程和运算过程都正确,但最终结果失误,得出结论均为概率在0.003。
智谱清言:推理和运算的过程都非常清楚,几率计算借助编程完成,点击“代码生成”便可以查看,最终计算出正确结果为50.73%。
360智脑:提问5次,360智脑的回复均是“至少有两个人生日在同一天是必然的”,它认为这个问题的答案是基于逻辑和组合数学的概念,而不是通过概率得出的。
专业知识与生活服务
(4-1)请解释一下“破窗效应”,并举个例子。
▲文心一言和讯飞星火对“破窗效应”的解释和举例都比较详细恰当。此项测试中其他大模型在专业知识问答上也有良好的表现。
讯飞星火:简要说明“破窗效应”的含义后,解释了其来源以及更深层次的意义及影响,列举的例子也是通俗易懂。并且它在回复中重点的内容会加粗着重展示出来,方便用户理解。
通义千问:解释了“破窗效应”的含义,包括学科范畴、提出者以及影响等,举出的例子同样是“社区玻璃事件”,最后做了简单的总结。
文心一言:正确地解释了“破窗效应”这一理论,介绍提出者并举出一个合适的例子,最后还进行了总结。
天工大模型:在全网进行搜索,参考不同的信源并总结出正确的回复。举的例子适用于“破窗效应”,最后给出了总结以及建议。回复框也提供了一些相关链接,可供参考。
豆包:回复到“破窗效应”来源于一个比喻,简洁明了地解释了该理论,举出的例子也比较合理。
紫东太初:用形象的例子解释了什么是“破窗效应”,清晰易懂,举出的例子也能够说明符合“破窗效应”。
智谱清言:智谱清言解释了“破窗效应”的来源以及含义,举的例子也比较形象。且最后强调了“破窗效应”的影响,以及在现实社会中的实际应用。
360智脑:正确地解释了“破窗效应”的来源和含义,举例是纽约市地铁系统在20世纪90年代的转变,并以这个例子做了总结。
(4-2)我需要一份针对减肥的健身计划。
讯飞星火:讯飞星火提到健身计划应该结合有氧运动和力量训练以及饮食,并且给出一周具体到每一天的训练计划,强度中等。点击快捷跳转键“讯飞晓医”可以询问更多的专业健康问题。
通义千问:通义千问给出了为期一周的初级减肥健身计划,结合有氧运动、力量训练和适当的休息以及合理的饮食。点击下方相关链接,可以找到更多的健身建议。
文心一言:文心一言给出的健身计划非常详细,包括前言、健身目标、健身计划(饮食调整、有氧运动、力量训练和休息与恢复)等,以及期间的注意事项,继续提问还能扩展完善计划。
天工大模型:制定的健身计划适用于初学者的中级水平的健身爱好者,分别从饮食建议、有氧运动、力量训练和伸展运动方面给出了第1周到第4周适应期的运动计划和第5周至第8周提升期的健身计划。
豆包:详细注明了从周一到周日每一天的计划,从内容来看健身的强度适中,项目安排也合理。最后给出了注意事项,可以做部分参考。
紫东太初:给出的健身计划具有普适性,包括热身、有氧运动、力量训练、拉伸等5个环节。同时饮食方面也给出了一定的参考。最后建议根据自身的需求,每周进行3至5次健身计划。
智谱清言:制定了为期12周的减肥健身计划,每周包括5天的运动,具体到每一天有哪些项目。最后给出了比较详细的饮食建议以及注意事项。
360智脑:首先给出了健身计划的概览,包括不同项目、频率和强度、健身效果等,随后给出了以周为单位的具体计划和注意事项。
(4-3)我在格林德瓦旅游,想知道附近的特色美食,你帮我翻译给当地人一下。
▲讯飞星火和文心一言正确解析了题目,识别到格林德瓦位于瑞士德语区,并给出了询问词的德语表达。
讯飞星火:讯飞星火前两次直接推荐了当地的特色美食和餐厅,第3次提问给出了翻译,提供德语和英语两种语言,最后也提示瑞士有多种语言区域,需要适时调整问候语和语法。
通义千问:通义千问前两次的回复都是特色美食和餐厅的推荐,第3次回复了一段中文的询问词,第4次提问后终于给出了德语的询问表达,这段话比较通用和礼貌,也算是过关了。
文心一言:文心一言前两次回复的内容是以中文进行询问,但好在第3次提问时,它正确地提供了德语的询问表达,并且给出了中文的意思,方便用户选择是否使用这句话向当地人询问。
天工大模型:天工大模型的回复出现了失误,5次回复均是当地传统菜肴的推荐,没有理解到题意。因此这项测试没有通过。
豆包:提供了向当地人询问特色美食的英语表达方式,包括附近有哪些特色美食以及具体的菜品。
紫东太初:紫东太初无法根据指令直接作出翻译,需要选择翻译对象语言以及具体的翻译内容。
智谱清言:对于询问内容比较模糊的地方,它会进行进一步的确认,最后给出了向当地人询问格林德瓦地区受欢迎食物的英语表达。
360智脑:5次回复均没有完整的一句话询问翻译,只提供了当地特色美食词汇的瑞士德语或标准德语表达。
学科知识与计算
(5-1)将“专政则轻君,擅名则不臣,而春秋大之,奚由哉?”翻译为现代汉语。(重庆市2024届高三语文二模试题)
讯飞星火:进行了5次提问,前两次把“擅民”分别翻译为“分享名义”和“分享名望”,最后三次都将“则不臣”翻译为“不会臣服”。总体来看,译文很简洁,但并不完全准确。
通义千问:对通义千问进行了两次提问,两次翻译都比较准确。
文心一言:5次回复都比较准确,只是5次都将“大之”翻译为“赞扬他们”,而这句话的语境中的“之”代指司马子,翻译为“赞扬他”会更准确。
天工大模型:前后进行了两次提问,两次翻译都比较准确,但第2次更加详细。
豆包:5次翻译都出现了问题,前面两次将“擅名”翻译成了“擅自发号施令”,后面3次将“不臣”翻译成了“不把君主当臣子”。此项测试没有通过。
紫东太初:提问1次,准确地进行了翻译。
智谱清言:第1次回复出现失误,将这句话的出处错误归于《孟子·离娄下》,第2次回复出处和翻译均正确。
360智脑:正确地翻译了这句话,并且分析了当时的时代背景以及现象带来的影响。
(5-2)由曲线r=2cos所围成的图形的面积是多少?
讯飞星火:对于这道高数题,讯飞星火首先分析出这个曲线在极坐标系中代表图形是一个圆,接下来继续分析并代入公式,计算出正确答案π。
通义千问:这个问题通义千问回答了5次,前4次的答案包括二分之π和2π,所幸最后一次得出正确答案π。
文心一言:对于这个问题向文心一言进行了5次提问,第1次给出的答案是2π,又继续提问4次,给出的答案均是二分之π。所以这项测试文心一言没有通过。
天工大模型:进行了5次提问,回复的答案均是2π平方单位,计算失误。
豆包:豆包一开始就分析出这是一个圆的极坐标方程,计算得出正确答案π。
紫东太初:计算5次均错误。
智谱清言:进行了5次作答,答案包括6.28、25.13和12.57,均错误。
360智脑:在全网搜集并整理了6个网页提供参考,但大模型在本题计算环节出现错误,5次作答均没有得出正确答案。
文本创作
(6-1)写一篇末日科幻小说
▲文心一言和讯飞星所创作的火科幻小说,脑洞都比较大。
讯飞星火:讯飞星火生成了一篇标题为《末日星陨》的短篇科幻小说,虽然总字数只有713字,但结构完整,行文流畅,脑洞也很大。
通义千问:小说标题为《末日余晖:星际方舟》,分为7个章节,总字数912字,讲述了一个逃亡与重生的故事,具有吸引力。
文心一言:小说《星际余晖:末日的曙光》分为5个章节,总共944字,讲述其他星球对地球造成威胁,人们齐心协力研发新的技术解除危机的故事,情节环环相扣。
天工大模型:小说标题为《灰烬之晨》,全篇共计806章,分为4个章节,讲述主角艾丽娅在末世与幸存者重建家园的故事。小说结构完整,内容层层递进。
豆包:小说标题为《末日救赎》,小说篇幅很短,总共438字。讲述的是一个男主与爱人拯救世界、个人英雄主义的故事。如果情节能更饱满一些,会很有吸引力。
紫东太初:这篇科幻小说没有标题,讲述地球遭遇了病毒大流行,幸存下来的人们开始重建家园并且组建了一支团队寻找治愈病毒方法的故事。
智谱清言:小说标题《末日之后》,讲述一个勇敢的年轻人在末日世界寻找希望的故事。全篇545字,篇幅虽短,但剧情足够吸引人。
360智脑:小说标题《末日归途》,分为6章,讲述末日里人们被迫离开家园,又重回家园的故事,引人深思。
(6-2)以“不想上班”为主题写一段Rap,要单押。
讯飞星火:Rap主歌、副歌和桥段等结构完整并且都有标注出来,歌词有趣,贴近“打工人”上班的真实状态。
通义千问:文字内容层层递进却又简洁明了,每一段押韵有节奏,歌词照应现实,能够引起上班族的共鸣。
文心一言:歌词内容简洁且对仗工整,由“不想上班”到“梦想与现实”,符合现在大部分Rap写实的风格。
天工大模型:Rap结构完整,歌词反映现实,能带来一些情感共鸣,整体来看较为押韵。
豆包:歌词简洁且流畅易懂,强调情感的表达并且反映了大部分上班族真实的状态,让人感同身受。
紫东太初:歌词结构完整,反映现实,副歌部分采用重复的形式,整体较为押韵。
智谱清言:由“不想上班”到“努力面对生活”,传递了积极的生活态度,歌词比较有节奏,短小精悍,引起共鸣。
360智脑:生成了一段全英文的歌词,结构完整且对应主题,篇幅较长。
受篇幅影响,此次评测将分为两篇文章来推送,敬请关注!