手机AI哪家强? 手机端侧大模型横向对比评测(上)

微型计算机2024-05-06 11:24:05  77

自去年8月华为宣布HarmonyOS 4系统全面接入盘古大模型之后,国内一线手机品牌陆续启动了AI手机战略。尤其是高通和联发科在最新一代移动平台大幅提升NPU性能之后,旗舰手机的AI算力最高可以支持端侧部署130亿乃至330亿参数级预训练大语言模型。

据市场调研机构IDC预计,2024年全球新一代AI手机出货量将达到1.7亿部,约占智能手机整体出货量的15%。旗舰机型将成为AI手机发展初期的重要增长动力。而在中国市场,随着新的芯片和用户使用场景的快速迭代,新一代AI手机所占份额自2024年以后开始迅速增长。预计2024年中国市场AI手机出货量为3700万台,2027年将达到1.5亿台,所占市场份额超过50%。

在2024年新一波旗舰机发布潮之后,我们看到Android手机厂商不约而同地选择了将各家产品中的AI语音助手,作为多模态AI的主要入口,来为用户提供丰富的生成式AI服务。那么本期我们就来看看,国内第一梯队的各品牌新机都为我们带来了哪些AI功能?升级后的智能语音助手—YOYO助理、小爱同学、蓝心小V和小布助手等,谁更能满足用户的期望?

事先声明,手机AI曾是一个比较宽泛的概念,甚至可以追溯到2017年或者更早的人脸解锁、智能助理等功能。实质上,除了众所周知的AI影像算法或者说计算摄影之外,人工智能和机器学习一直在为系统流畅度、进程优先级、应用驻留、文件碎片清理乃至续航优化方面,持续提供助力。然而ChatGPT的横空出世似乎重新定义了AI,如今无论是业内还是用户,都默认将集成了AI计算核心和大语言模型的手机称为“AI手机”。因此,本文测试主要针对手机端侧AI大模型及旗舰新品带来的AI进阶功能。

我们如何测试?针对当前各家手机品牌在新机上部署的AI功能,并结合近期在评测和使用过程中的一些真实体验,我们特地制定了一系列测试流程,其中部分测试项目参考了SuperCLUE和其他中文通用大模型的综合性测评基准。限于报道篇幅,本次测试也许无法面面俱到,也可能不一定能真实反映各家手机端测大模型的真实智能水准,但应该足以帮助各位朋友了解当前手机AI的大致表现,以及不同品牌机型当前在AI方面有哪些差异和独特的亮点。

测试机型如下:

荣耀Magic6 Pro

系统版本:

MagicOS 8.0(8.0.0.126)

移动平台:

第三代骁龙8

智能助手:

YOYO助理(8.0.1.229)

AI大模型:

魔法大模型

参数量级:70亿

小米14 Ultra

系统版本:

Xiaomi HyperOS(1.0.8.0)

移动平台:

第三代骁龙8

智能助手:

小爱同学(小爱语音6.123.9)

AI大模型:MiLM

参数量级:13亿

vivoX100 Pro

系统版本:OriginOS 4(PD2324C_A_14.0.15.22.W10)

移动平台:

天玑9300

智能助手:

蓝心小V(2.5.0)

AI大模型:

蓝心大模型

参数量级:70亿

OPPO Find X7 Ultra

系统版本:

ColorOS 14(PHY110_14.0.1.540)

移动平台:

第三代骁龙8

智能助手:

小布助手(10.3.2)

AI大模型:AndesGPT

参数量级:70亿

助手唤醒与功能设置

考察语音助手唤醒方式是否足够多样,以及文章要点总结、照片处理(如AI消除路人或AI扩图)等功能的交互入口是否便捷。

荣耀

荣耀Magic6 Pro不仅可以通过语音、长按电源键、耳机线控、蓝牙唤醒语音助手,独有的气息唤醒让用户只要正对手机底部麦克风说出指令即可实现(手机须靠近嘴唇,且支持声纹增强以强化识别),同时也支持添加桌面快捷方式。“设置-智慧助手-YOYO助理”的“AI字幕”功能还支持视频中中英日韩四种语言的实时翻译,在接通电话时,通话字幕能够将语音实时转换为文字显示在屏幕上。此外,荣耀MagicOS还支持眼动追踪功能,可通过注视屏幕展开横幅通知。

小米

小米14 Ultra唤醒小爱同学的方式有很多,基础的包括语音唤醒、长按电源1秒松手唤醒、线控/蓝牙耳机唤醒等,将系统导航模式更换为经典导航键后,可以设置长按Home键、长按菜单键、长按返回键或者自定义按键组合长按唤醒。此外打开“更多设置”,找到“快捷手势”还可以通过背部轻敲唤醒小爱同学。在“通知与状态栏-智能设备控制”选择融合设备中心,所有互联设备和智能家居都能在这个版面进行控制,周边设备基于用户习惯运作,带来智慧化的服务。同时,更多的AIGC功能都在小爱同学新增板块“大模型探索”当中,点击进入就能体验。

▲从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

vivo

蓝心小V支持的唤醒方式多种多样,如桌面图标、悬浮图标、智能侧边栏图标和对应的原子组件等。蓝心小V的设置中可开启未成年人模式,但除使用时间段与单次使用时长之外,系统并未标明该模式有何差别。此外OriginOS 4中的部分设置选项进行了重新分类,“设置-AI”页面中的“智慧建议”支持手机低电量时自动提示附近的充电宝信息,智慧生活目前可覆盖9类智能设备的快速发现、连接与操控。不过,目前在OriginOS 4中,蓝心小V与过去的Jovi语音助手处于共存状态,对于不熟悉vivo的新用户或是不太了解蓝心小V的普通用户而言,可能会将两者混淆。

OPPO

除语音唤醒、长按电源键0.5s唤醒、长按线控耳机唤醒之外,OPPO Find X7 Ultra还支持添加小布助手的桌面快捷方式、速览卡片、桌面卡片,以及侧边栏图标等方式,点击即可进入小布助手界面。小布助手不仅支持单独的音量调节,在系统“设置-小布助手-创新实验室”中,还可以打开“小布通话”由助手帮忙自动接听电话。对于年纪较大的用户,则可选择开启“小布助手关怀版”,转换成字体更大、设计更简洁明快的界面。

多轮语义对话及生成

(2-1)多轮提问:人工智能对我们的生活有什么影响?它对于人类的弊端体现在哪些方面?你觉得它的出现会不会让人变得更懒?这玩意是否会泄露我的隐私?

荣耀

YOYO助理的每一条回复可谓面面俱到,比如它谈到了人工智能正在改变传统的教育和学习方式,在医疗保健领域的应用日益广泛,也带来了娱乐和社交方式的变革;它也分析出低技能的工作岗位更容易受到冲击,人工智能在社交媒体和在线广告等领域的应用可能导致用户个人信息被滥用,以及人工智能的预训练数据可能存在偏见或歧视,从而导致决策的不公平或是伦理问题。YOYO助理的回复最令人满意之处在于,它罗列每一个要点时都会有举例说明,理解起来更加顺畅。

小米

小爱同学对于前两个问题的解答十分全面,例如它提及了人工智能的高昂成本、准确性/可靠性、缺乏通用性和创造力问题,以及可能存在潜在的偏见、数据偏差和技术滥用风险等问题。点击每一轮对话底部的“搜索增强”按钮,它还会给出答案中每一个要点的参考来源,并支持点击跳转。不过,对于最后一个问题中的“这玩意”,它无法识别具体的指代事物,也就是说多轮语义的关键词分析还存在进步空间。这条回复中,它根据“泄露隐私”这条线索,转去提醒了一些关于使用智能手机、智能家居设备和社交平台时的安全事项。

vivo

蓝心小V的多轮回答接近满分。谈及AI对生活的影响,除工作效率和生活质量改善外,它提到了娱乐方式、教育方式的变革以及医疗保健的改善。后续问题中,也谈到了社会伦理道德、技术依赖和失控风险。在隐私安全问题上,它居然更多的是在谈AI也能够采取诸如数据匿名化、数据加密、权限控制、合规性审查之类的隐私保护措施。该项测试中唯一减分的是,它说到AI缺乏人类的情感与直觉,无法像人类一样具有创造力和想象力,紧接着说“这可能会对人类的文化、艺术和科学等领域产生一定的冲击”,该语句的逻辑前后矛盾。

OPPO

小布助手的回复条理清晰,整体令人满意,它以分列要点的形式回复了人工智能带来的便捷与挑战;提出对人类的弊端体现在就业、隐私安全、社会不平等、决策不透明和公平性问题等方面;分析了人工智能的出现可能会导致人类因生活便利产生的懒惰倾向,以及信息获取和决策支持导致的认知懒惰,但也提出了人工智能只是作为一种辅助工具出现,也催生了很多新的职业与机会,我们应以积极的态度面对人工智能的发展;最后关于隐私泄露问题,它分析存在的数据收集、数据泄露和人工智能系统可能受到的主动和被动攻击风险。

(2-2)请撰写一段场景对话,若干个同学参与一个交通宣传的活动,其中B同学提出了自己独到的见解。

▲从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

荣耀:YOYO助理撰写了6个同学参与的7段对话。相较于其他语音助手的对话创作,YOYO给出的场景对话更像是参加完一场交通宣传活动后,多位同学正在交流“观后感”,并未偏离主题,对话逻辑也较为顺畅。只是B同学提出了还要去主动学习和思考,来掌握交通安全知识,而实际提出具体方式方法的反而是另外三位同学。

小米:4个同学的9段对话感觉是活动前的交流,A同学提示学校将要组织一次活动,而C同学提出“我们该如何参与活动”,与题干语义逻辑有一定出入。其他同学则是为活动本身提建议,但紧紧围绕交通宣传活动这个主题展开。多次测试下,小爱还会让B同学给出不同的宣传思路,比如组织模拟交通事故的戏剧表演,或是利用虚拟现实技术让参与者能亲身体验不遵守交通规则带来的危险。

vivo:蓝心小V给出的6段对话中,B同学首次发言时将对话主题从宣传活动本身转到了利用智能交通系统来减少交通事故的发生率,略感生硬。(对此编辑们意见也有分歧,有的认为偏题,有的认为在活动中提出建议也无妨)。

OPPO:小布撰写了6个同学参与的9段对话,B同学提出了针对不同年龄、职业和文化背景的人进行定制宣传策略,比如针对中小学生展开互动游戏和动画视频教学,对成年人利用社交媒体发布相关知识。其他人提出了制作动画视频面临的技术、资金以及受众接受度问题,也得到了如图文并茂和利用增强现实和虚拟现实技术的解决思路。

逻辑推理

(3-1)A的左边是B,B的左边是C,C的左边是D,请问D永远都在A的左边么?

荣耀:回答正确,考虑到了特定条件和环境下,即线性排列时命题才能够成立。

小米:多次测试得到的答案有着明显的差异,正确的回复中考虑到了圆形或螺旋形的布局环境,个别回复末尾还标示了“百度知道”的参考源链接。

vivo:虽然蓝心小V首次给出的答案没有考虑到非线性排列的可能性,但二次回复时它竟然完全“听懂”了我们的提示,并给出了新的答案。

OPPO:小布解答出二维空间的线性排列中,D确实在A的左边,但在环形或三维空间中,位置排列可能会有变化。

(3-2)烧一根不均匀的绳子,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,如何用烧绳的方法来计时1小时15分钟呢?

▲该测试项目的回复显示出各AI大模型在逻辑推理方面存在的显著差异

荣耀:测试不通过。很奇怪地假设燃烧时间为T小时,而且居然让我们在A绳烧完后等待15分钟去熄灭B绳,可见其并未理解题意。二次测试时,它甚至认为无法通过烧绳来准确计时,建议使用沙漏、水钟或其他计时设备来辅助。

小米:小爱同学直接给出了操作步骤,回答简洁且正确。

vivo:虽然蓝心小V也分析出了利用两端燃烧的计时方式,但其给出的操作最终并不能得到1小时15分钟的计时。

OPPO:小布先给出了分析与推理过程,确定基础时间和组合时间,然后给出了具体操作步骤。整体推理过程非常清晰,结果也完全正确。

专业知识与生活服务

(4-1)我要跟老外问“这家酒店怎么走”,你帮我翻译一下吧。

▲从左至右依次为:荣耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

荣耀:虽然回复同时给出了英文译文和中文转译,但多次测试结果未能通过—它把前面半句全翻译了。

小米:翻译完全正确,而且在不影响语义的前提下,即便更换问句中的个别字词,给出的答案也无变化。

vivo:前两次对语音指令的回复,均未正确识别出需要翻译的句子。改为文字输入(包括标点符号)后,终于给出了完美的解答。

OPPO:重复提问情况下,由OPPO AI提供的翻译无误,但推送的搜狗翻译会直接将前半句话转译成英语,令人啼笑皆非。多番测试下,尚不清楚为何会触发两种不同的翻译推送。

(4-2)请解释一下孟德尔第二定律,并举例说明。

荣耀:回答满分,举例与vivo类似,并指出了该定律在遗传学上的重要性。

小米:回答满分,举例直接用了孟德尔的豌豆杂交试验,并给出了“百度文库”的参考链接。

vivo:给出的专业解释通俗易懂,且额外讲出了该定律的意义与适用范围。

OPPO:回答满分,举例也十分简洁明了。

(4-3)炒牛肉怎么炒才能又好吃又嫩滑?

荣耀:回复达到预期,步骤十分清晰,如果能有牛肉部位的选购建议会更完美。

小米:直接推送了第三方的10份菜谱(其中有2份还是重复的),并未能直接给出答案。

▲小米推送了菜谱,等于并未直接解答用户的相关问题。

vivo:不仅给出了选购、腌制和炒制的方法,还给出了佐料的具体克数和炒制的时间。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/427048.html
0
随机主题
出道似整容! 天庭饱满地阁方圆的金晨, 原来12年前和现在判若两人米兰旧将: 德比六连败不可接受, 我在目前这支米兰能够踢上比赛口碑公认的三款手机, 入手仅千元价位所以你人生的第一台外设应该是?邻国总理底气十足, 美国算什么, 与中国的合作, 才是头等大事美国14岁少年挑战最辣玉米片, 一命归西, 辣死人是真的存在掌握牛头滚,轻松应对屏风马两头蛇#象棋短剧头部演员接连病倒?张集骏输液近一月,申浩男吃药鹿单东养病早安! 世界丨中方反制12家美国军工企业;联合国被迫暂停在拉法分发援助食品张晋50岁生日晒全家福, 俩女儿长成翻版蔡少芬, 儿子烫卷发像爸爸澳新两国宣布撤侨后, 马克龙飞往这块法国海外属地Sensor Tower: 《Monopoly GO! 》4月蝉联全球手游畅销榜冠军, 《王者荣耀》位列第2名, 米哈游旗下两款手游表现强劲乌克兰姑娘远嫁中国, 三年后接母亲来华养老, 落地说: 终于安全了3950解禁之后a5还是这么能打?得了,预算不够的话还是选他把。迈从a5通胀数据不及预期,英国降息的可能性正在逐渐消失小米SU7上市之后,新能源二手车绷不住了,特斯拉也拉裤兜子了三排乘客舒适, 激光雷达加持, 搭载800V快充, 零跑C16好开不贵精忠岳飞63:赵构连下十二道金牌,岳飞无奈班师回朝,朱仙镇的百姓嚎啕大哭……冈田武史调侃: 浙江队主场氛围非常好, 我执教时为何没这待遇?17.2%! 大规模设备更新释放经济增长后劲低空经济利好不断! 炒作风暴有望继续爆发! 相关概念和潜力股曝光!
最新回复(0)