今日凌晨,据彭博社记者MarkGurman援引知情人士消息,苹果即将与OpenAI达成合作协议,将ChatGPT整合到iOS18操作系统。
报道还称苹果也与Google就Gemini聊天机器人的授权协议进行了谈判,不过,目前双方讨论尚未达成协议。
值得一提的是,OpenAI今日宣布将于太平洋时间5月13日直播演示一些关于ChatGPT的更新内容。
TheInformation称OpenAI预计将展示更聪明的AI语音助手,支持声音和文本交流,拥有识别图像能力以及更好的逻辑推理能力。
事实上,苹果与OpenAI的合作缘分或许可以追溯到去年初。
《纽约时报》今日爆料称,苹果两名高管在去年初花了数周时间测试OpenAI的ChatGPT之后,便作出了给语音助手Siri进行“大脑移植”的决定。
知情人士还透露,改进后的Siri将于今年6月份的WWDC大会亮相。新Siri的对话性更强、用途更广,其Siri的底层技术将包括一个新的生成式AI系统,支持聊天功能,而不是一次回答一个问题。
除了AISiri,彭博社也报道称,苹果的目标是利用大语言模型(LLM),为iOS18带来一系列的AI功能,包括但不限于:
全面升级的Siri,能够利用新的AI技术提供更智能的交互体验。
更聪明的Spotlight,通过文字指令实现更多操作。
短信App中的文本辅助,能够处理内容并自动补全对话。
AppleMusic的新AI功能,可以根据指令创建自动生成的播放列表。
在Keynote和Pages中融合生成式AI,辅助创作文本和幻灯片等内容。
健康App将结合AI提供个性化的健康和健身建议。
在Xcode中加入AI功能,帮助开发者更高效地编写新应用程序。
AIiPhone怎么做?苹果已经给出了一些答案
在WWDC24到来之前,苹果在AI领域的每一步举动都备受关注。
翻阅苹果这段时间发布的AI论文,几乎都在围绕如何将大模型塞进你的苹果全家桶,而这也是今年6月WWDC24大会的最大看点。
本月中旬,苹果也发布了一篇名为“Ferret-UI:基于多模态大语言模型的移动UI理解”的论文。
其中,Ferret-UI被描述为一种新的MLLM,专为理解移动UI屏幕而定制,具有“指向、定位和推理功能”。它最大的特点是有一个放大系统,可以将图像放大到“任何分辨率”,使图标和文本更易于阅读。
为了进行处理和训练,Ferret还将屏幕分成两个较小的部分,将屏幕切成两半。相较于其他大语言模型,传统的更倾向于扫描较低分辨率的全局图像,这降低了充分确定图标外观的能力。
时间再往前拨回到一月份,苹果还发布了一篇将大模型塞进iPhone的关键性论文——《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》。
简单来说,研究团队通过尝试用闪存技术优化数据加载、数据块大小,最终实现高效的内存管理。
近两年来,苹果时常为人诟病在AI领域动作迟缓,在过往的官方新闻稿中,苹果甚至很少直接提及AI一词,相反,他们更倾向于使用“机器学习”等较为保守的词汇。
今年以来,这种偏执开始发生微妙的转变。
无论是苹果CEO库克对于生成式AI的频频发声,还是在新款MacBookAir新闻稿中将其列为“用于AI的全球最佳消费级笔记本电脑”,看得出来大船调转的苹果正在AIIinAI。
当人们谈论人类工作岗位将会被AI“干掉”时,该论断放在企业的博弈也同样合适,而AI的到来正为苹果提供了一个恰逢其时的转型契机。
幸运的是,苹果在AI时代默默的布局和积累,让其在2024年的今天,当我们在讨论AI时,依然不能忽视苹果的存在。
作为消费者,我们更关心的是,苹果今年在WWDC24上将会带来哪些惊喜?
目前曝光的论文已经略见端倪,其一是大模型进iPhone只是时间问题,其二是你的iPhone将会变得越来越聪明。
此前彭博社记者MarkGurman也报道称,苹果在iOS18中推出的第一批新AI功能将立足端侧,摆脱对云端服务的依赖。
大模型“瘦身”进手机只是开始,打造应用体验才是关键所在。
华尔街咨询机构MeliusResearch主管BenReitzes曾在接受CNBC采访时表示,苹果可能会在6月份的WWDC上,推出一个全新的AI应用商店,预计当中将包括各大供应商提供的AI应用。
Reitzes预测,苹果将在开发者大会上详细说明如何从AppStore购买AI应用程序,并且,全新的AI应用商店也会拥有专属的App、AI助手以及升级版Siri。
在Android阵营这边,语音助手仍旧是最核心的解题思路,为了让你手机上Siri变得更智能,苹果默默耕耘了十三年,而今年,Siri也将会迎来有史以来最重磅的更新。
鉴于苹果在生成式AI领域根基尚浅,此前有消息称苹果为了AI不惜考虑要上Google等公司的船,这表明iOS18预计不会出现苹果自研GPT。
苹果花了十年都未能简化的“HeySiri”,在上个月也有了新的进展。
苹果的Siri研究团队在论文《利用大型语言模型进行设备指向性语音检测的多模态方法》中讨论了一种去掉唤醒词的方法。
结果显示,相比于单一的纯文本/纯音频模型,使用多模态系统的iPhone能够大幅降低设备指向性语音检测任务上的错误率。
也就是说,继去年WWDC23大会宣布省去“hey”之后,未来Siri将有机会顺带连“Siri”的唤醒词也一同省略,让Siri更加自然地融入到我们的对话之中。
在《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》这篇论文中,苹果首次披露一个具有高达300亿参数的多模态模型。
MM1的多模态能力倘若被集成到iPhone上,预计iPhone将能够通过视觉、语音和文本等多种方式理解并响应用户的需求,
例如,OCR功能的增强,iPhone用户能够更方便地从图片中提取文字信息;而多图像推理和思维链推理的能力,则能提升用户与Siri的对话质量。
此外,上文提到的Ferret-UI模型能准确识别和定位屏幕上的各个元素及其功能,反过来赋能到Siri上,将有望提升响应用户指令的准确性。
想象一下,当iPhone能够将整个UI界面转化为清晰的语音描述时,或者提供精确的语音操作指引,甚至能够对复杂的功能进行详细的讲解,也能为视障人士、老年人或儿童带来极大的便利。
苹果的开源大模型,在行业什么水平
2024年的苹果如果要在AI的版图上留下浓墨重彩的一笔,那么开源注定是绕不开的关键词。
先有Mistral8x22B闷声干大事,后有MetaLlama3模型深夜炸场,现在连苹果也要下场参加这场激烈的开源争霸赛。
近日,苹果便宣布在全球最大AI开源社区HuggingFace发布了OpenELM系列模型。
在介绍苹果的OpenELM之前,先对一些热门的开源模型做一个简单的对比:
型号尺寸:
Meta开发的Llama3模型拥有最大的规模,目前已发布的模型参数数量高达700亿。
微软的Phi-3-mini模型具有38亿个参数,而更大的Phi-3系列模型分别拥有70亿和140亿。
苹果推出的OpenELM模型提供多种规格,参数量分别为2.7亿、4.5亿、11亿和30亿。
性能:
在MMLU基准测试中,Phi-3-mini的得分达到了68.8%,而拥有30亿参数的OpenELM模型得分仅为24.8%。
值得注意的是,参数量为2.7亿的OpenELM模型在MMLU上的表现超越了30亿参数的版本。
Phi-3-mini的表现可与GPT-3.5等模型相媲美。
预期用途:
Phi-3-mini旨在实现轻量级、经济实惠的部署,适用于那些处理较小数据集的自定义应用程序。
Meta的Llama3是一个大型的通用语言模型,适用于多种应用场景。
苹果推出的OpenELM旨在“赋能开放研究社区”,但该模型也存在潜在偏见。
OpenELM系列模型涵盖2.7亿、4.5亿、11亿和30亿参数的预训练OpenELM模型,以及这些模型的指令调整版本。
论文显示,该系列模型在来自Reddit、维基百科、arXiv.org等的1.8万亿个tokens的公共数据集上进行预训练。
相较于Grok1.0开源的“抠搜”,苹果此次发布了完整的框架,涵盖数据的整理、模型的构建与训练、模型的调整与优化,此外,苹果还提供了多个预先训练好的模型节点和详尽的训练记录等。
基于优化的Transformer模型架构,OpenELM采用了逐层的缩放策略。
在Transformer模型架构的每一层中都有效分配参数。通过这种方式,模型可以更好地学习数据,同时避免过度拟合,保持较高的泛化能力。
简单点理解,就是想象有一座多层的图书馆,每一层都放着不同类别的书籍,为了让图书馆运作得更高效,你决定采用“逐层缩放策略”,也就是根据每一层存放书籍的多少来灵活分配图书管理员。
近两年来,业界在一轮轮模型的狂轰滥炸中达成了一定的共识,其中“以小胜大”定律尤为引人关注——经过微调的小模型性能在某些使用场景下未必不如大模型。
与此同时,在商业化这道必答题面前,端侧模型的落地开始变得尤为重要。
去年底,微软发布的Phi-2凭借2.7B的量级让我们见识到了以小博大的“小小震撼”,在基准测试成绩上更是一举超过当时Llama27B、Mistral7B等一众先进模型。
本周二微软再次发布的小尺寸模型Phi-3参数最小的版本,虽然只有3.8B,但其性能甚至能与Mixtral8x7B和GPT-3.5等模型相媲美。
和Phi-3相类似,OpenELM同样更适合在笔记本甚至在手机上运行。
例如,苹果的论文指出,该模型的基准测试结果是在配备Inteli9-13900KFCPU、配备NVIDIARTX4090GPU、运行Ubuntu22.04的工作站上运行的。
为了在苹果芯片上对OpenELM模型进行基准测试,苹果还使用了配备M2Max芯片和64GBRAM、运行macOS14.4.1的MacBookPro。
结果显示,OpenELM模型的性能表现相当不错,比如OpenELM-3B在测试知识和推理技能的ARC-C基准测试中取得42.24得分,而在MMLU和HellaSwag上,分别得分26.76和73.28。
同时拥有4.5亿参数的OpenELM-450M不光胜在性价比较高,整体的得分表现也相当亮眼。
需要注意的是,苹果在论文中表示,这些模型没有任何安全保证,这意味着,该系列模型依然有可能根据用户和开发人员的提示词产生一些不准确、有害、有偏见的输出。
此外,苹果还开源了深度神经网络训练库CoreNet,使研究人员和工程师能够开发和训练各种适用于多种任务的模型,如基础模型、物体分类、检测以及语义分割等。
当然,理想与现实之间,毕竟隔着一条名为“实践”的河流,最终的“Onemorething”,还需在WWDC24的舞台上揭晓。