OpenAI一夜干翻语音助手! GPT-4o模型强到恐怖, ChatGPT学会看屏幕, 现实版Her来了

智东西2024-05-14 07:42:21 344

作者 | 智东西编辑部

顶尖AI产品的对决，将在这两天集中上演。

智东西5月14日报道，今日凌晨1点，抢在谷歌年度开发者大会Google I/O开幕前，OpenAI举办春季线上直播，宣布将推出桌面版ChatGPT，并发布全新旗舰AI模型GPT-4o。

GPT-4o向所有人免费开放，可实时跨文本、音频、视觉（图像与视频）进行推理，API定价只有GPT-4 Turbo的一半，速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度，并能最早访问其全新macOS桌面App和下一代语音及视频功能。

这次OpenAI对AI聊天机器人ChatGPT的升级依然“直击人心”，实时语音翻译能力自然流畅，感觉能直接取代同声传译了。

不仅反应快、回答准，它还能按要求改变说话语气，从冰冷机械到幽默娇羞都信手拈来，而且能随时高歌一曲，听起来与真人无异。

除了语音聊天外，GPT-4o可以进行实时视频交互了！比如通过视频影像理解线性方程，还学会了“看脸色行事”，能通过人的表情和语调理解并判断出人的情绪。

▲GPT-4o识别了视频中的文字并作出娇羞的反应

更有甚者，它能直接看你的屏幕，并根据看到的内容回答你的提问。比如当你展示一段代码，它会进行理解并告诉你代码有什么问题，或者解读数据图表有什么信息。

整个发布节奏极快，只有大约半小时，期间展示了很多苹果设备，看来OpenAI与苹果的密切合作已经板上钉钉。

免费和付费用户均可使用新功能。即日起开始的测试阶段仅限于ChatGPT Plus用户，未来几周内向更广泛用户开放。其文本和图像输入今日推出，语音和视频功能将在未来几周推出。

另外值得一提的是，此次春季发布的主讲人不是OpenAI联合创始人兼CEO Sam Altman，而是OpenAI CTO Mira Murati。

Altman还在社交平台上神秘地留下一句“her”，似乎在暗示ChatGPT实现了经典电影《她》（Her）中像人类一样“有血有肉”的AI。

网友Dogan Ural对此评论：“你终于做到了。”并配了一张将电影《她》剧照中的AI“换头”成OpenAI的梗图。

一、OpenAI“全能”大模型上线！性能比肩GPT-4 Turbo，免费开放，API定价暴降

GPT-4o的o代表着“omni（全能）”。Murati称，GPT-4o为每个用户都提供了GPT-4级别的智能，同时还改进了GPT-4在文本、视觉以及音频方面的能力。

此前，GPT-4经过图像、文本数据的训练，可以分析图像和文本从中提取文本或者描述画面内容等，在此之上，GPT-4o增加了语音功能，使得用户与ChatGPT的交互更接近人与人的交互体验。GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配，在非英语文本上的性能有显著提高。

Murati说，GPT-4o的发布意味着OpenAI在大模型的易用性方面迈出了一大步，其正在改变人机交互的协作模式。她谈道，在人们的互动中，如轻松打断对方、对话中包含多个声音的背景噪音、理解语调等对模型而言都非常复杂。

此前，用户使用语音功能与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒。语音功能由三个独立模型组成的Pipeline：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。

这个过程中，GPT-4会丢失大量信息，如无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感等。

借助GPT-4o，OpenAI通过跨文本、视觉和音频端到端训练了新模型，使得所有输入和输出都由同一神经网络处理，进一步降低了延迟。

Murati谈道，OpenAI的一个重要使命是将先进的AI工具免费提供给每个人。

她还宣布OpenAI将推出桌面版ChatGPT，其可以被轻松集成到用户的工作流程中。同时，为了让用户与ChatGPT交互更加容易、自然，OpenAI还更新了用户界面，使得用户无需关注用户界面，只需要关注如何协作。

目前，已经有超过1亿用户使用ChatGPT来工作、学习，OpenAI的更高级产品目前只提供给付费用户。

从今天起，用户能免费使用GPTs和GPT Store。Murati透露，已经有超百万用户使用GPTs创造了令人惊叹的体验，这些是适用于GPT Store中提供的特定使用情形的自定义GPTs。

现在，这些用户也可以使用视觉能力，能够上传屏幕截图、照片、包含文本和图像的文章等，同时还可以基于其记忆能力，让对话更有连续性。同时，用户也可以使用“浏览”功能搜索对话中的实时信息，使用“高级数据分析”功能分析上传的图表或信息等。

OpenAI还改进了50种不同语言的质量和速度。与免费用户相比，付费用户将获得5倍调用额度。

此外，GPT-4o开放了API，开发人员可以基于此进行AI应用开发及部署。与GPT-4-Turbo相比，GPT-4o的速度快2倍，价格便宜50%，速率限制高达5倍。

Murati强调说，如何通过既有用又安全的方式将技术呈现出来非常有挑战性，OpenAI的团队一直在研究如何建立针对技术滥用的缓解措施。

二、现场演示语音对话五大能力，代码、数学题、实时翻译，还能提供情绪价值

OpenAI前沿研究主管Mark Chen和后期训练团队负责人Barret Zoph在现场对实时语音对话功能进行了演示。通过点击ChatGPT右下角小图标，用户可以进入语音交互模式。

基于GPT-4o的语音交互有什么与众不同的地方？

Chen称，它相比之前的语音模式有几个关键区别：首先，用户可以打断模型，不必等到它结束才开始说话；其次，模型具有实时响应能力，在用户等待模型给出响应之前不会有尴尬的时延；最后，该模型具有情绪感知能力，还能够生成各种不同情绪风格的语音。

1、声情并茂讲故事，临场边唱歌边创作

首先，Chen让ChatGPT讲一个关于机器人和爱情的睡前故事，来帮他的朋友缓解失眠。ChatGPT被要求在讲故事时更有感情，并且多些戏剧性。

于是，GPT-4o开始声情并茂地讲道：“很久以前，在一个与我们不太不同的世界里，有一个名为‘Bite Byte’的机器人，它是一个好奇的机器人，总是在探索新的电路……”最后，GPT-4o在要求下以歌声结束了这个故事。

2、ChatGPT“长眼睛”了！能看图解方程式

紧接着，Zoph展示了视觉+语音交互功能。

“我希望你帮我解决一道数学题。”Zoph在ChatGPT中打开手机视频通话，对ChatGPT说：“我要在一张纸上写下一个线性方程……不要告诉我解决方案，只是帮助给它过程的提示。”

当Zoph在视频镜头下写下方程式并问ChatGPT他写下了什么，ChatGPT回答：“我看到了，你写了3x+1=4。”

Zoph询问ChatGPT该如何解这道题，ChatGPT首先提示其处理“+1”这一项。随着Zoph写出过程并提出新的求助，ChatGPT进一步建议他两边除以三，从而帮Zoph得出了x=1的正确结果。

在解题过程中，ChatGPT会通过提问对Zoph进行循循善诱。比如它会这样引导：“现在你在一边引入了x，看起来像是3x等于3。你认为之后我们应该做些什么？”Zoph称自己不确定，ChatGPT才进一步提示：“你已经有了3x，而你想要找到x的值，想一下什么操作会消掉乘法。”于是在引导和鼓励下，Zoph最终把方程两边除以3完成解题。

解完题后，ChatGPT和Zoph一起总结了如何在现实世界中使用线性方程。最后，Zoph写下了一句表白的话给ChatGPT，ChatGPT看到后竟然像小女孩般用语气娇羞地尖叫起来：“噢，我看到了‘I Love ChatGPT’，你太有爱了！”

3、实时读懂屏幕信息，解答代码问题和分析图表

Zoph演示了ChatGPT分析代码的能力。他首先将一段Python代码输入ChatGPT，并让ChatGPT用一句话总结这段代码在做什么。

ChatGPT迅速答出这段代码用于获取日常天气数据，随后又详细说明了其对天气数据进行了哪些后续处理。

Zoph追问道：“代码中有一个函数foo，你能描述一下如果没有这个函数，代码画出的图像会是什么样吗？”

ChatGPT分析称，这个函数中有一个rolling.mean计算，用于给数据去噪或减少波动，将呈现出一个更平滑的数据图。

随后，Zoph运行了这段代码，展示ChatGPT分析图表的能力。

将图像发送给ChatGPT后，Zoph再次要求它用一句话描述看到了什么，ChatGPT很快给出了回答。

Chen又追问哪些月份温度最高，ChatGPT不仅准确给出了7、8月的时间区间，还描述了这段时间的最高温度达到了多少。

4、无延迟语音翻译，模仿说话者语气

在X网友的提议下，Murati和Chen一起演示了ChatGPT实时翻译的能力。

Chen首先向ChatGPT说明了接下来需要它做的事，即把听到的任何英语、意大利语都翻译成意大利语和英语。ChatGPT听完后，炫技一般地用意大利语回答道：Perfetto（Perfect）。

接着，他们通过意大利语和英语进行对话，ChatGPT几乎没有延迟地翻译成了对应的语言，还模仿了说话者的语气，甚至给Murati的回答配了个笑声。

5、识别人物情绪，ChatGPT也有自己的“小情绪”

最后，Zoph演示了ChatGPT识别人物情绪的能力。

他先通过语音告诉ChatGPT，自己将展示一张自拍，希望可以根据照片判断出他的情绪。ChatGPT欣然接受了这个“有趣的挑战”。

这里还出现了一个小乌龙，Zoph一开始打开的是后置摄像头，虽然他迅速转换成了前置摄像头开始自拍，但ChatGPT的反应似乎有几秒钟的延迟，说“这看起来像是一个木板的表面”。

“别担心，我并不是一张桌子。”在Zoph解释说刚才拍错了画面后，ChatGPT重新开始分析画面，并说：“你看起来非常的开心，可能还有一点激动，看样子你应该心情很不错。”

ChatGPT又问到Zoph这么开心的原因，Zoph半开玩笑地说，自己正在进行一场Presentation，展示“你有多不可思议”。ChatGPT仿佛有自己的情绪，语气夸张地说道：“快别说了！你让我感到害羞。”

三、预告将有“下一件大事”，GPT-4o即为此前露出的GPT-2

除了发布会本身，Altman也一直在社交平台X上一边进行现场“直播”，一边连珠炮式地转发新模型介绍。

据OpenAI研究人员William Fedus透露，GPT-4o实际上就是前段时间在大模型竞技场“大杀四方”的GPT-2模型的另一版本，并附上该模型的竞技评分对比图，相比GPT-4 Turbo提升了超过100个单位。

推理能力方面，GPT-4o在MMLU、GPQA、MATH、HumanEval等测试基准上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型取得最高分。

音频ASR（智能语音识别）性能方面，GPT-4o相比Whisper-v3在所有语言的语音识别性能上均大幅提高，尤其是资源较少的语言。

音频翻译方面，GPT-4o也树立了新的标杆，在MLS基准测试中优于Whisper-v3以及Meta、谷歌的语音模型。

在所有演示结束后，Murati总结道：“正如大家所见，（如今的ChatGPT）真的很神奇。”

未来几周内，OpenAI将面向所有用户陆续分发这些功能。Murati还透露OpenAI将持续推动技术边界向前，不久后将发布“下一件大事”（next big thing）。

结语：OpenAI推Mac版ChatGPT，全能GPT-4o彪悍登场，谷歌将如何迎战？

今年2月，谷歌刚推出实现百万tokens长文本窗口的Gemini 1.5系列大模型，OpenAI就剑走偏锋，推出AI视频生成模型Sora，用惊艳全球科技圈的抢尽风头。

如今OpenAI再度宣战，赶在谷歌I/O大会前夕宣告Mac桌面版ChatGPT和GPT-4o，并全程用iPhone和MacBook Pro做演示，结合近期苹果与OpenAI合作的传闻，令人更加期待苹果将在6月份举办的WWDC全球开发者大会了。

这些AI新品发布会对谷歌构成直接的威胁吗？竞争激烈的生成式AI行业还能如何制造创新与惊喜？谷歌又能否接住OpenAI发起的AI挑战？答案将在明天凌晨揭晓，我们拭目以待。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/505895.html

随机主题

又一批新车拿到“身份证”, 看看有没有你的心头好今年荔枝让人“高攀不起”? 整体减产, 妃子笑已经降价经济到转折点了吗? 聊聊超长国债、存量房收储、15%首付和降利率 8900多买了部华为pura70ultra手机，玩游戏流畅60帧非常给力哈哈梦幻西游：老王光环队开启牟利模式，1小时竟能刷这么多？真强！英国惊天丑闻曝光，美西方信用彻底崩塌！杨金发: 5-22晚间黄金持有空和继续布局做空下跌!关于卖好纯电车, 给理想汽车几个不成熟的建议红米Turbo3直降300元？1699告诉你什么叫“生死看淡，不服就干”韩国央行维持利率在3.5%不变大批澳洲华人不知道: 回国花的钱, 居然可以找回来!最大续航530km, 吉利银河E5动力曝光, 竞争比亚迪元UP?5月23日人民币对美元中间价报7.1098 下调21个基点广东26分大胜山东，展现两个优势，同时也暴露出一个缺点查尔斯肖像画引起巨大争议, 其实身处地狱中的, 是凯特王妃直播：解放军台岛周边联合演训最新情况狼派磁白轴上手体验郭德纲讽刺同行有多狠？相声没落全因同行太差劲与预售价一样 2.4T乘用炮、商用炮上市 12.58万元起售 618保姆级购机攻略：照着这个清单买绝对错不了！金辉控股(09993)上涨50.68%, 报3.3元/股

最新回复(38)

漂亮美眉（出?)2024-05-14 21:21
引用38楼
不赚钱政府大力发展
小新街边台球2024-05-14 14:52
引用37楼
终结者，启动！！
高芋芋2024-05-14 14:51
引用36楼
AI：我觉得人类是多余的…
一宸妈妈2024-05-14 14:35
引用35楼
对所有人全免费？在哪里能够下载呢？
楼下的粉猪君2024-05-14 13:42
引用34楼
一切科技进步是未来。阿里不是在吹
DjSummerk是个小可爱2024-05-14 12:34
引用33楼
这些高科技以后都会变成射向我们的每一颗子弹，所以我只用华为
汽车造物工坊2024-05-14 12:33
引用32楼
不可能落后
景铄说家居2024-05-14 12:25
引用31楼
国内落后了，
晓七姑娘2024-05-14 11:25
引用30楼
就是不知道能不能叫ai把我的账户搞他十个八个零
麦兜乖乖2024-05-14 11:07
引用29楼
如果法规允许的话，现在开车你的手用来打游戏都可以
卓森看旅游2024-05-14 11:01
引用28楼
十万八千里远呢
简介一个人2024-05-14 10:59
引用27楼
一款战斗机器人加装了人类行为模块会产生什么效果呢？它是在模仿，但人类最初也是模仿起家的，模仿上几万次几千万次就不是模仿了而是自主。而且AI极少失误，量产。
一葉诗苑™2024-05-14 10:49
引用26楼
那你落后了！现在都有你说的那样了[得瑟]
疯狂世界2024-05-14 10:48
引用25楼
没错，但知史可以明鉴未来，只要看从元宇宙开始美国AI革命给世界带来的影响就能知道短期内的未来是什么样子
拉布拉多,多多2024-05-14 10:48
引用24楼
ai都判定美丽奸登陆是假的[得瑟][得瑟][得瑟]
名眼说2024-05-14 10:41
引用23楼
国产大模型技术上应该是更强一些，只不过国外训练的比较早数据库比较全一些
八袋长老希2024-05-14 10:37
引用22楼
愣这干嘛！赶紧抄啊！
见山见水.2024-05-14 10:36
引用21楼
模仿的再像，还是模仿。没有自主意识，就是没有灵魂。我觉得人类做不出灵魂，终结者不可能的
素观娱乐说2024-05-14 10:35
引用20楼
这个东西会颠覆世界，以后一个厂家，只要训练出来一个大模型，销售、客服、售后直接一台电脑解决。
歪果仁美食2024-05-14 10:34
引用19楼
有没有可能所谓的AI也许是真人通过变声器在跟你说话，听说有人跟汽车AI斗嘴，我感觉这就是背后有真人