“嗨,Siri!”2011年,苹果同步推出了iPhone 4S和Siri,并制作了一系列引人注目的广告,展示如何使用这款新奇的语音助手。在广告中,用户向她的手机询问关于生活的建议,还展示了用语音调整日程安排、提醒、天气、闹钟等内容。这些广告意在向人们展示Siri是一个有用、可靠的伙伴,可以帮你解决任何问题。最重要的是无需点击应用程序,只需询问即可。
Siri对苹果来说意义重大。在iPhone 4S发布会上,苹果公司表示Siri是新手机的最佳功能。“几十年来,技术人员一直向我们灌输这样的梦想:我们可以与技术对话,技术会为我们做事,但这从未实现过!我们真正想要做的就是以任何方式与我们的设备对话,获取信息和帮助。”苹果宣布已经解决了这个问题。
实践证明,苹果公司并没有解决这个问题。自Siri推出以来的13年里,对于大多数人来说,Siri沦为了询问天气和拨打电话的快捷方式,它长期以来的表现很糟糕,以至于多年来苹果几乎忘记了它,要么干脆选择假装它不存在。不只是苹果,微软也跟风搞出了语音助手Cortana,最后一样因为效果太差而逐渐无人问津。
但如果传言属实,在苹果全球开发大会上,我们可能就会首次见到真正“完全体”的Siri——或者至少是更接近真正的Siri。苹果将公布对Siri的重大改进,借助大型语言模型,Siri将更加可靠,但不会添加太多新功能。苹果在开发一个真正集成到应用程序内部的Siri 版本,这意味着Siri可以代表你在手机上执行操作。在理论上,你在手机上能做的任何事,Siri很快也能为你做到。
到目前为止,Siri就像一个虚拟语音助手,它唯一的工作就是帮你搜索东西。这很了不起?似乎也没什么了不起的。Siri 的无能让人非常失望,当我想吃披萨时,为什么Siri不能查看我的美团外卖,找到我上次订购的记录,查找相同的订单,用我的一张信用卡付款,然后就完事了?
其实有两个原因导致Siri未能充分发挥潜力。第一个原因很简单:底层技术不够好。如果你经常使用Siri,你就会知道它经常会听错名字、误解命令,当你只是想播放音乐时,Siri经常回复“这是我在网上找到的一些东西”。如今的大型语言模型在语音转文字方面已经有了很大的改进,就像谷歌的Assistant正被Gemini所取代,Siri也可以避免很多识别上的错误。
第二个原因也很简单:无论是苹果还是第三方开发者都没有搞清楚Siri应该如何工作。他们根本没有弄清用户到底想做什么?即使是现在,如果你想在待办事项列表应用中添加一项任务,Siri也无法确定你使用的是哪个应用。你不得不说,嘿Siri,在提醒事项里提醒我下午3:00浇花,这是一个很奇怪的句子,而且根据我的经验,有一半的机会添加失败。如果你想要执行多步骤操作,你唯一的选择就是试着在“快捷指令”里乱搞。不可否认,快捷指令这是一个非常强大的工具,但对大多数人来说太复杂了,复杂到就差让人自己编写代码了。
人工智能让苹果有机会解决整个问题。苹果公司的研究人员今年早些时候发表了一篇论文,详细介绍了一个名为Ferret-UI的系统,该系统使用人工智能模型来理解屏幕图像的小细节,详细介绍了整合了人工智能的Siri如何工作:OpenAI的GPT-4可以很好地理解图像是什么,然后Ferret能够理解小区域和细节。通俗地讲,这意味着Siri可以通过屏幕图像理解:“这是12306购票App!”“那里就是购买按钮!”并进行下一步操作。
十多年前,苹果宣称已经打造了一款完美的语音助手,但事实并非如此。现在的情况可能也是如此,因为人工智能的炒作速度比实际技术发展速度快得多。无论是国内的Humane、Rabbit、谷歌,还是国内的百度、腾讯、讯飞都在研究类似的AI语音识别技术,但没有人证明它们已经成功了。
但如果苹果真的研究成功了,这可能是我们第一次看到真正“完全体”的Siri——多年前我们被承诺的Siri。也许在苹果的下一个广告中,你可以快速订到明天晚上的火车票,也可以一句话让鸭血粉丝汤外卖送到家。也许,我们真的会得到苹果一直想做的Siri。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/694173.html