上个月,彭博社消息称苹果正在与Google进行谈判,希望将Gemini集成的iPhone当中,为iPhone的软件提供AI相关的新功能。把新系统的核心功能“外包”给第三方,这种做法非常不苹果。
其实苹果自己也在AI上做了不少投入,比如在消息传出的同期,苹果发布了自研MM1大模型论文,这是一个最高拥有30B规模的多模态LLM,但苹果迟迟没有公布公测时间,也没有对外宣布任何上线计划。据知情人士接触到苹果内部团队后了解,团队认为自家的大模型与主流的GPT4、Gemini相比“不具备竞争力”,才开始寻找第三方合作商。
或许在6月即将举行的WWDC2024上,苹果会公开自研模型的进展与第三方厂商的合作计划,毕竟届时需要对所有用户和开发者展示iOS18的核心卖点。而iOS18被苹果内部誉为史上升级最大的一个操作系统版本的原因,就是苹果宣称iOS18上的Siri将会真正的成为用户的“私人助理”。
消息一出,国内社交媒体上一片哗然,由于法律合规问题,如果该合作确认落地,苹果需要在国内再找一家本土AI公司进行合作,而不是直接使用Gemini。
据了解,苹果此前曾三家公司洽谈合作AI大模型,其分别有百度的文心一言、阿里的通义千问、月之暗面的Kimi,但目前概率最大的还是百度,毕竟在三星最新一代的S24系列产品上,大陆以外发售地区的AI合作方也是Gemini,而大陆则是以百度、美图为首的一众中国大模型公司。
Gemini在手机上能做到什么?
为了了解目前Google在手机上能够实现哪些AI功能,不客观实验室花“重金”购入了一台GooglePixel8Pro,这是Google目前唯一能够运行GeminiNano端侧大模型的机器,可是在体验之后,我们发现目前Gemini目前的大多数功能都十分依赖网络,端侧模型GeminiNano能够做的事儿十分有限。
刨除因为中文系统语言设定暂不开放的功能,目前GooglePixel8Pro上面的Gemini可以为用户提供八大核心功能:
一.魔法修图
在Google相册中点选“编辑”按钮,你就可以在左下角发现一个彩色的“魔法修图”图标,选择后用户就可以对照片中想要编辑的内容进行框选,框选后你不仅可以进行消除,还可以进行缩放处理。但需要注意的是,每张图片在处理之前一定要上传到云端的Google相册进行“备份”,并且在图片处理的过程中需要保持联网。
选择擦除后,大模型会对擦除的主体后面的画布进行“想象”并生成补充内容,并给出4张反馈供用户选择。在该步骤下,AI需要识别图片中的物体,并学习该物体的大概轮廓,对应的在数据库中进行比对并给出补充。
可以看到,将图中女人删除后,Gemini对香港的红色出租车的细节补充还是比较到位的。
你也可以将画面中的主体进行缩放,这个功能非常适合在景点合影时,修正人物不够突出的构图效果。
二、“魔法换天”
在没有主体的风光照中,你也可以依靠Gemini对照片进行不同“时空”的转换,比如这张维多利亚港的风光照,我们点击魔法修图按钮后,可以看到AI判断我们可以针对天空、日落、风格化、和水进行四个大方向的调整。
这个功能非常类似小米手机上很出名的“魔法换天”,不得不说日落时分这张做的还蛮有感觉的。
水面的修改就差了点意思,修改后的这张照片拍摄视角仿佛我站在水里……
风格化的本意,是Google根据照片生成一张场景相同但不同风格照片,但Gemini直接把维多利亚港变成了田野……
三、音频橡皮擦
这应该算是本次GooglePixel手机“AI化”之后,我个人觉得唯二能体现AI效果的功能。在该功能下,Gemini能够将一段视频中的的声音进行分层,并且选择性保留。
如果你是一个Vlog拍摄者,在拍摄例如展会等视频素材时,就可以将展览周围的人声和噪音隔绝,只保留拍摄者自己的声音,然后配上一段合适的音乐,会给你的剪辑工作省下不少的时间。
四、最佳照片
这个功能简单来说,就是在拍摄合影时可以将多张照片中大家各自最完美的“脑袋”,凑成一张完美的照片,再也不用担心拍照时有人低头、有人闭眼的情况。
五、AI壁纸
Google在手机端其实也提供了“生成图片”功能,但把它隐藏在了壁纸程序中,在这里,你可以选择不同主题开始创作一个专属于你的壁纸。
你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的AI图片并不能直接保存到相册分享给别人。
六、视频增强
之所以把这个功能放到最后,是因为从实用角度出发,它是GooglePixel8Pro升级AI之后,提升最翻天覆地的一功能。
视频增强功能可以让用户拍出夜景更加明亮、画面抖动更小、取消远端光学虚化、增加HDR+效果的,最高4K30帧的视频画面,Gemini在视频拍摄完成会进行短暂的机内计算,最终合成一个AI认为最完美的画面效果。
七、即圈即搜
在相册中长按底部状态栏横条,用户就可以调出Google的即圈即搜功能,当用户圈选图片中的某些内容后,系统就会通过Google搜索引擎匹配对象,给到一个答案。
但我认为与其说这是AI功能,不如说是图片搜索的一个全新入口。
八、语音备忘录转文字
顾名思义,Gemini可以将文本内容同步生成文字稿,目前该功能支持印地语、德语、意大利语、日语、法语、繁体中文、英语、西班牙语共8个语种。
然后呢?
然后就没了……这几乎是你在中文系统环境下能够体验到的全部AI功能,其中实际应用GeminiNano的端侧AI功能就只有语音转文字这一个,剩下就连AI壁纸生成都需要依靠联网完成。
可以说GooglePixel8Pro所有的核心AI功能点,都集中在了Google相册这个App上,且主要依靠“端云协同”,无网络环境下的Pixel8Pro可谓是一点都不智能。
和百度、美图合作的国行版S24,在AI功能上做得怎么样?
除去AI1.0时代花哨且没用的“文案优化”、“文生图”这些功能之外,国产手机厂商其实已经逐渐在手机的AI体验上做出了不错的落地功能。
在同样没法将Gemini落地的国行三星S24系列来说,三星AI主要的功能点体现在“通话实时翻译”、“即圈即搜”、“魔法修图”这三个核心功能。
除去通话实时翻译之外,“即圈即搜”和“图片重构”我们在上文的GooglePixel8Pro上均已体验到,只不过Pixel用的大模型是Gemini,而国行三星则是由百度、京东和美图提供的定制功能。
即圈即搜这个功能两者最大的不同,并不是技术能力,而是搜索源。
Gemini的资料库是所有可以在Google上搜索到的网页,比如这张著名视角的坚尼地城,Google给出的了如携程、zFrontier装备前线、X、微博、instagram等网站上相近视角的信息。
而百度的资料库只有百度百科,我们用同一张照片在三星上进行搜索,由于百度百科的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案——城市街道……
最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准的时候。因为这个搜索的大前提,是搜索的物品要在京东售卖,否则京东就会强行为用户匹配一个相近的商品,导致大多数时间都是“驴唇不对马嘴”。
不过,当搜索的内容在百度百科有相近角度的图片素材时,百度的搜索功能相对于Google就会更加准确一些,比如中央电视塔百度就可以很精准的识别出来,而Google智能识别出大致的位置在玉渊潭公园附近。
当然,虽然地标性建筑的搜索百度做的不错,但在京东链接上三星依旧没让我失望,这次它给的推荐是格力前置净水器……干得漂亮京东。
在“魔法修图”功能上,美图的能力和Gemini还是略有差距,我们用同样的一张照片分别在GooglePixel8Pro和三星S24Ultra上进行图片重构,得出的效果确实是Gemini更加自然。
并且让我非常不理解的就是,在人物消除之后三星S24Ultra一定要在图片左下角显示一个“内容由AI生成”,让人瞬间没有任何分享欲望。可以确定的是,目前其他的手机厂商的AIGC消除都不会强制打上这行水印,所以绝不是因为法律合规问题导致的,完全是三星的“自作聪明”。
总结
虽说在照片编辑能力和搜索能力上国内的技术提供方已经已经给出勉强追赶上Gemini的解决方案,但苹果做产品的思维和其他厂商是完全不同的,搭载iOS18的新iPhone要做到的,绝不只是GooglePixelGeminiAI功能的“拙劣复制”。
从Siri刚刚发布开始,乔布斯对Siri语音助手的定义就不是单纯的搜索工具,而是个人智能助理。
从苹果自研基于Ajax的聊天机器人服务就能看出,目前苹果最看重的,其实是GoogleGemini基于自然语义的对话能力,而不是我们上文提到在GooglePixel8Pro上实现的那些“工具类”功能。
理想状态下,如果Siri接入Gemini,那用户真的就可以把Siri当成一个聊天机器人,系统会学习用户的生活轨迹、使用手机的习惯、家和公司的位置等多重信息,智能作出判断。
举个例子:当Siri通过时间、地理位置、语气、声纹等信息判断用户可能在酒吧喝醉了,就会在和你对话的过程中帮你调取如Uber、滴滴这类线上打车软件,叫一辆从当前位置到家的车,并且通过AI助理打电话告诉司机可能乘客处于醉酒状态。
这些例如从当前位置打车回家、AI助理与司机通话等功能拆分开来,目前的AI大模型助手都已经可以实现,但如何将一整套流程完整的、顺畅的“串联”起来,是新版Siri需要着手解决的问题。
相较于更加工具项的百度文心大模型,其实字节系的豆包AI智能助手在自然语义的沟通能力上“更胜一筹”,因为只有让Siri听起来更加像一个真人,用户才有跟它沟通的欲望。
想想看,你向往的AI助理,是电影《Her》里面的体贴温柔、声音略带沙哑的斯嘉丽约翰逊呢?还是一行行冰冷的文字呢?