OpenAI在周一的OpenAI春季发布会推出了一款新的旗舰生成式AI模型GPT-4o,这是 GPT-4 模型的迭代版本,在未来几周内,用户将会陆续自动更新到GPT-4o。GPT-4o中“o”代表“omni”,指的是该模型处理文本、语音和视频的能力。
从今天开始,GPT-4o 可在 ChatGPT 中免费使用,并提供给 OpenAI 的高级 ChatGPT Plus 和 Team 计划的订阅者5 倍以上消息限制。(OpenAI 指出,当用户达到速率限制时,ChatGPT 将自动切换到 GPT-3.5。以 GPT-4o 为基础的改进的 ChatGPT 语音体验将在下个月左右为 Plus 用户提供 alpha 版本,同时推出以企业为中心的选项。)
OpenAI 首席技术官 Mira Murati 表示,GPT-4o 提供“GPT-4 级别”的性能,并且改进了 GPT-4 在多种模式和媒体上的能力。“GPT-4o 在语音、文本和视觉方面都有优势,”穆拉蒂周一在 OpenAI 旧金山办公室的ppt演示中说。“这非常重要,因为我们正在研究我们与机器之间交互的未来。
GPT-4 Turbo 是 OpenAI 之前“领先的”最先进“模型,它经过图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。但 GPT-4o 将语音添加到组合中。GPT-4o 极大地改善了 OpenAI 的人工智能聊天机器人 ChatGPT 的体验。该平台长期以来一直提供一种语音模式,使用文本转语音模型转录聊天机器人的响应,但 GPT-4o 增强了这一点,允许用户更像助手一样与 ChatGPT 互动。例如,用户可以向 GPT-4o 驱动的 ChatGPT 提问,并在 ChatGPT 回答时打断它。OpenAI表示,该模型提供了“实时”响应能力,甚至可以捕捉到用户声音中的细微差别,从而生成“一系列不同的情感风格”(包括唱歌)的声音。GPT-4o 还升级了 ChatGPT 的视觉能力。有了一张照片或桌面屏幕,ChatGPT 现在可以快速回答相关问题,从“这个软件代码中发生了什么?”到“这个人穿什么牌子的衬衫?
ChatGPT 的桌面应用程序在编码任务中使用。
图源:OpenAI
Murati说,这些功能将在未来进一步发展。虽然今天 GPT-4o 可以查看不同语言的菜单图片并进行翻译,但在未来,该模型可以允许 ChatGPT “观看”现场体育比赛并向您解释规则。Murati说:“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,并且你根本不需要关注UI,而只关注与ChatGPT的协作。“在过去的几年里,我们一直非常专注于提高这些模型的智能性......但这是我们第一次在易用性方面真正向前迈出了一大步。
OpenAI 声称,GPT-4o 也更加多语言,在大约 50 种语言中具有增强的性能。该公司表示,在OpenAI的API和Microsoft的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格是GPT-4 Turbo的一半,并且具有更高的速率限制。
目前,GPT-4o API 尚未向所有客户提供语音功能。OpenAI 认为存在滥用风险,因此计划在未来几周内首先向“一小部分受信任的合作伙伴”推出 GPT-4o 的新音频功能。
与此同时,OpenAI 宣布将发布一个更新后的 ChatGPT 网页界面,新界面具有“更具对话性”的主屏幕和消息布局。此外,还将推出 ChatGPT 的 macOS 桌面版本,用户可以通过快捷键提问或截屏讨论。从今天开始,ChatGPT Plus 用户将率先获得该应用的使用权限,Windows 版本将于今年晚些时候推出。另外,OpenAI 的第三方聊天机器人库和创建工具——GPT Store,现在也对 ChatGPT 的免费用户开放。免费用户还可以使用之前仅限付费用户的功能,例如允许 ChatGPT “记住”偏好的记忆功能、上传文件和照片,以及在网络上搜索最新问题的答案。
OpenAI 将此次发布的时间安排在科技巨头 Google I/O 旗舰大会之前,接下来,我们也期待一下将看到 Gemini 团队推出的各种人工智能产品吧。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/526439.html