谷歌和OpenAI即将推出GenAI新模型

拥抱科技有未来2024-05-20 09:08:00  78

OpenAI和谷歌上周发布了各自GenAI(生成式人工智能)模型的重大更新,包括OpenAI发布的GPT-4o,它在流行的大型语言模型(LLM)中添加了音频交互;谷歌发布了Gemini 1.5 Flash和Astra项目。

早些时候,互联网上充斥着猜测,称OpenAI即将推出一项新的搜索服务,将与谷歌竞争。OpenAI首席执行官Sam Altman否认了这些传言,但他表示,新产品发布会将是“神奇的”。

目前还不清楚GPT-4o是否具有更强大魔力,但从各方面来看,它确实代表了对世界上最流行的大型语言模型(LLM) GPT-4的坚实改进。GPT-4o(“o”代表“omni”全方位)的关键功能是用户能够与LLM进行语音交互,进行自然对话,就像苹果Siri和亚马逊Alexa这样的数字助理服务一样。

根据OpenAI 5月13日的博客文章,新模型可以在230毫秒内对音频输入做出反应,平均为320毫秒。该公司表示,这“类似于人类在对话中的反应时间”。它也比OpenAI之前支持的“语音模式”快得多,后者提供2.8到5.4秒的延迟(实际上无法使用)。

GPT-4o是一个跨文本、视觉和音频端到端训练的新模型,使其成为第一个结合所有这些模式的OpenAI模型。该公司表示,在理解和生成英文文本和代码生成方面,它的性能与GPT-4 Turbo相当,“同时速度更快,API价格便宜50%。”

与此同时,从其年度开发者大会谷歌I/O上也有一些GenAI新闻分享。新闻主要围绕该公司旗舰的多模态生成人工智能模型Gemini展开。

首先是Gemini 1.5 Flash,这是该公司今年早些时候推出的Gemini 1.5 Pro的轻量级版本。Gemini 1.5 Pro拥有100万个Token上下文窗口,这是目前业内最大的上下文窗口。然而,考虑到如此强大的模型所带来的延迟和成本问题,谷歌不得不回到战略规划上,在那里他们提出了Gemini 1.5 Flash。

谷歌DeepMind首席执行官Demis Hassabi在一篇博客文章中写道,它还“通过数据和算法的进步,增强了代码生成、逻辑推理和规划、多回合对话以及音频和图像理解能力。”

谷歌还宣布推出Astra项目,这是一项创造“通用人工智能代理”的新努力。Astra代表“先进的能看能说的响应代理”,它的目标是创造出像人类一样理解和响应周围复杂世界的代理,同时还能记住所听到的内容并理解上下文——简而言之,让人工代理更像人类。

Hassabi表示:“虽然我们在开发能够理解多模式信息的人工智能系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一项艰巨的工程挑战。”“在过去的几年里,我们一直在努力改进我们的模型感知、推理和交谈的方式,以使互动的速度和质量感觉更自然。”

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/563069.html
0
随机主题
不到10万的方盒子 混动油耗低 还有电四驱 BJ30上市导购难道不想看看房地产股票的业绩吗? 没有业绩涨上去, 也是空涨哦英超蛋糕冠绝欧洲足坛, 瓜迪奥拉获誉三亿欧元玩家, 利物浦切尔西换帅相煎何急?5月23日六福珠宝黄金价格739元/克蔡斌最喜欢的五名队员, 因为有蔡斌她们才有今天的梅开二度。亚特兰大真神了! 7390万卖掉霍伊伦, 2550万淘到宝: 带队夺1冠1亚揭秘小巨人张荣的成名经历与婚姻生活大S拿孩子赌气? 儿子被学校劝退本人不接电话, 汪小菲无奈出面老牌工业镇走出“小巨人”, “小五金之乡”全球掘“金”|高质量发展调研行【豪华配置】15.98万瑶光C-DM,价值超越价格庆余年2唯一输家: 最牛星二代跌下神坛, 演技尴尬, 全程被吊打首趟豫鲁“郑日韩”铁海快线班列启程, 助力更多河南制造出海“土包子”翻身记, 更新潮的燕京啤酒和年轻人做朋友!中国曾打败过这么多国家,你说中国强不强?中亚篇-哈萨克斯坦篇江天化学: 公司不生产共聚聚甲醛、偏苯三酸酐(TMA)等产品拼多多一季报: 高质量发展驶入深水区 业绩数据给予正向肯定崔康熙两大嫡系夏窗驰援鲁能时间敲定, 能力已获认可, 值得期待为了面子, 贷款19万买了一辆SUV, 现在养不起了。《庆余年2》范闲收服桑文, 他还不知, 桑文让他将来得以掌控庆国张作霖做事有多狠?不仅崩掉自己小舅子,还敢集合部队和日本开战
最新回复(0)