尽管消费者对AI手机、AIPC的感知大都停留在概念阶段,但当苹果高调宣布要加入其中,整个行业和消费者同样会抱有不小的期待。
如同去年WWDC亮相的VisionPro,头显行业都期待着苹果能完成一轮市场教育,打开新的局面。对于目前还饱受争议的AI设备而言,一家巨头加入的积极意义或许远大于竞争的威胁。
彭博社记者MarkGurman早早放出风声——苹果紧锣密鼓地开发一系列AI功能,并计划将它们整合进iOS18操作系统中。
从以往苹果守口如瓶的程度来看,纵使外界风声四起,苹果具体的AI解题思路往往不到发布会的最后关头都不能一锤定音,不过,这不妨碍我们从苹果近期的动态中捕捉到一些蛛丝马迹。
近期,苹果发布的一篇大模型论文就向外界展示了苹果在AI领域的最新进展。
通过ReALM技术的应用,Siri现在能够实时理解并识别用户屏幕上的内容,而无需依赖敏感的屏幕截图或图像数据,在提升智能之余,也充分保障了用户的隐私安全。
设想这么一个场景,当你发出指令“打开我屏幕上第一个APP”,Siri就能借助ReALM技术将屏幕上的元素和布局转化为文本信息,并据此执行你的命令。
简而言之,就是你手机上的Siri将变得越来越聪明,也越来越懂你。
Siri十三年漫漫“聪明”路
在变得“聪明”的这条道路上,Siri已经走了十三年了。
十三年前,你会惊叹于Siri的新鲜感,用它来设定闹钟,查看当天的天气,仿佛一个全新的人机交互时代正在向你挥手致意。
十三年后,你还是用它来设定闹钟,查看当天的天气,只是失望情绪取代了当初的新鲜感,像极了望子成龙、望女成凤却又恨铁不成钢的父母。
2024年:人工智能取代程序员/艺术家等
2024年的Siri:抱歉,我没听懂你的意思
即便是Siri最忠实的拥趸——史蒂夫·乔布斯本人也未曾预料到,Siri出走半生,归来仍是少年。
可能很多人不知道的是,和iTunes一样,你每天都在用的Siri其实也是苹果用真金白银买来的。
2010年初,乔布斯向“Siri之父”的DagKittlaus拨出了一通电话。一次长达三小时的会谈过后,在乔布斯的一力促成下,Siri同年四月被苹果收入麾下。此后,Siri便通过苹果“全家桶”渗透到千家万户,成为苹果品牌史上不可磨灭的标志性符号。
如同当年风靡一时的《水果忍者》让人们逐渐熟络了触控屏体验,Siri的普及不仅引领了一种全新的交互方式,更是一种生活习惯的变革。人们开始习惯于用自然语言与机器进行交流,用语音指令来简化日常任务。
语音控制只是交互形式的变革,2011年的苹果对Siri的推出抱有巨大的野心和期望。
苹果不仅仅将Siri视为一个简单的语音助手,而是看作一个能够理解用户需求、并解决帮助问题的智能伙伴。正如苹果营销主管菲尔·席勒在发布Siri时所描述的那样:
通过语音指令就能帮助你搞定事情的智能助手。
而这一点,在未被苹果收购前的最初版Siri身上,就已经有所体现。
在DagKittlaus等人的构想中,Siri应该是一个能够迅速而精准地获取信息的助手,一个能够熟练处理各种复杂任务的智能助理。
古早版Siri能够与42个网络服务进行连接,涵盖了从Yelp的餐馆点评到RottenTomatoes的电影评价,以及WolframAlpha的数学计算等多个领域。
通过整合这些网站的信息,Siri能够以文本的形式为用户提供一站式的服务体验。
Siri联合创始人NormanWinarsky曾强调,Siri最初的目标正是理解用户的意图,提供精准的答案,并代表用户去执行那些任务。在执行过程中,Siri会收集数据,以便在未来提供更加精准的服务。
我们需要的不是一个搜索引擎,而是一个执行引擎(doengine),这就是我们的创意突破口。
这个产品能像真人一样和你互动,我们把这叫做“拟人化”,像一个友好周到的助理。
苹果接手之后,Siri也的确一度沿着智能助理的发展轨迹稳步前行。它不仅能够流畅回答用户的询问,还能通过语音交互执行一系列日常任务,如设置闹钟、发送信息、查询天气等。
在《生活大爆炸》的第五季中,印度裔科学家Raj对搭载在iPhone4S上的Siri一见倾心。这种单方面的“爱情”也是基于Siri和Raj交流过程中所展现出的基础语言理解能力。
因此,在Siri问世之初,国外科技媒体对其评价也是压倒性地看好。
TheVerge曾强调,Siri最牛的地方在于它的工作原理——至少在很多场景下,它的水平都超出了用户的预期。CNN形象地将Siri比作“我们梦想中的智能助理”,随叫随到。《纽约时报》也不吝赞美之词,指出Siri通过节省时间,减少冗余操作,深刻重塑了手机的定义。
历史的步伐,不总是按照既定的节奏前进,有时兜兜转转都未必找到前进的韵律。
正如你让Siri往东,但它偶尔也会向西一样,新鲜感构成了用户对Siri的“乍见之欢”,但停滞不前也造就了用户的“久处而厌”。
苹果Siri首次登场的第二天,乔布斯因癌症而不幸去世,给Siri的发展之路笼罩上一层难以驱散的阴霾。一位苹果前员工在接受TheInformation的采访时不免感叹道:
Jobs(乔布斯)在Siri推出后的第二天就去世了,苹果也由此失掉了前进的方向。
此外,苹果高管团队的频繁更迭、公司内部派系的争斗也对Siri的顺利发展造成了不小的影响。
内外因素的夹击之下,一出道即是巅峰的Siri的发展步伐也逐渐放缓,从以往的“学霸”逐渐沦为现在的“学渣”。
Siri“聪明”的终点,也是起点
听说苹果Siri“倒退”了?还有这种好事!
ChatGPT的一夜蹿红,向世人展示了大型语言模型(LLM)在语言理解、生成、交互和推理领域的出色表现,也使Siri有机会回到起点——成为一个能够真正理解并响应自然语言的智能助理。
不久前,Kittlaus在社交平台X上分享了自己对AISiri的设想,并列举了一系列应用场景。
Siri,当ChrisMalinchak发布新歌时,你能提醒我,并让Spotify将其添加到我的“ChillBeats”文件夹吗?
Siri,请周二和周四早上7点、其他工作日早上8点叫醒我。周末除非在我的日历上看到早上的约会,否则不要打扰我;如果有早上的约会,请及时叫醒我。
2024年,苹果要在生成式AI领域大展拳脚,而Siri可能是最重要的交互载体。
在此前的财报会议上,苹果CEO库克一反常态地对外界透露,公司2024年将在生成式AI领域“开天辟地”,甚至多次强调,苹果将在今年晚些时候公布更多重要消息。
比起苹果十年造车,一朝梦碎的消息,更引人注目的是,苹果原先负责造车项目的部分员工将被重新分配到生成式AI项目的研发。
苹果在生成式AI的投入也不惜血本。作为世界上市值最高的企业,财大气粗的苹果主打的就是买买买,通过收购来加速技术的积累和创新的步伐。
据市场调查机构Stocklytics公布的最新报告,苹果在2023年一口气收购了32家AI公司,位居主要科技企业收购排行榜榜首。
同时翻开苹果机器学习团队最近一年来的研究论文,我们可以清晰地看到,苹果极度重视端侧设备上运行大模型的可行性。
今年1月,苹果的机器学习团队在新发表的论文中,深入探讨了一种可以解决“在手机内存上运行大模型”的方法,为解决移动设备上的计算瓶颈提供了新的技术思路。
开头提到的那篇论文中,苹果的研究人员也宣布,尽管ReALM的参数规模更小,但在某些关键指标上,它的表现甚至比GPT-4更胜一筹。
那么AISiri究竟会以哪种形式呈现在我们眼前?在WWDC2024到来之前,我们或许可以从Android阵营这边得到一些启发。
去年8月份的HamonyOS4发布会上,余承东宣布智慧助手小艺接入AI大模型的能力。紧接着,雷军透露小米已经在手机上跑通了1.3B参数的大模型,部分场景效果可媲美云端。
国内手机的“御五家”一个也没落下。基于AndersGPT的OPPO小布助手,搭载7B端侧AI大模型的荣耀Magic6、搭载蓝心大模型矩阵的vivo也陆续官宣。
得益于大模型的加持,这些语音助手在文案生成、图片绘制等方面让人眼前一亮,但在实际的应用场景上,这些语音助手并无实质性的突破。
AISiri要想重塑初心,成为真正意义上的智能助手,起码得满足以下几个基本条件:
首先,变得更聪明,即通过大模型技术提升其自然语言处理能力;
其次,采用语音优先界面,优化用户的交互体验;
再者,打通所有应用的孤岛状态,实现数据和功能的无缝整合,让Siri成为一个真正的全场景智能助手。
上述三个条件,单拎任何一个出来虽绝非易事,但也有一些行业先行者的经验可供借鉴。
在生成式AI的赛道上,最快的捷径有时是携手同行,前不久,便有消息传出,“掉队”的苹果正在与Google、OpenAI等公司就生成式AI服务整合到iOS18展开谈判。
比起“听清楚你的语言”,“听懂你的意思”才是语音交互的主要障碍。就连乔布斯生前也觉得这是一件棘手的事情:
语音识别是未来10年里挺美好的一个课题。它面临的问题其实不单单是如何识别语音。当你和别人说话时,能够懂得对方的语言比单纯识别出语音要难得多。
……这件事情挺难的。所以在我们解决它之前,你也只能憧憬着这个美好的未来了。
如何能够在各种噪音和复杂环境中准确响应用户的唤醒需求,如何从语义理解到记忆理解的转变,让Siri能够记住并分析用户的语境、上下文,提供更加智能化的服务和建议,正是Siri在智能化道路上迈出的关键一步。
而这些恰巧都是当下的AI硬件们所擅长的领域。
至于打通应用之间的壁垒问题,软硬件的交织尚在其次,在当前的应用生态中,诸如数据共享与隐私保护等问题才是横亘在苹果面前的拦路虎。
十三年前,人们或许会为体验Siri而购买iPhone,那时的Siri不仅仅是一个功能,更代表了一种全新的交互方式,一种探索生活未来方式的媒介。
十三年后,褪去昔日光环的Siri从一个创新焦点逐渐变成了普通的附加功能,甚至在某些用户的生活中变得可有可无。
在大模型技术的加持下,从冰冷的点击和敲击转变为温暖的语音交流,我们期待的Siri不仅仅是一个智能系统,而是一个能够理解我们的语言、情感和需求的全面伙伴。
这样的Siri将会为我们提供更加个性化、更加贴心的服务,也让技术的使用变得更加人性化,更加充满温度。