全面突围, 谷歌昨晚更新了一大波大模型产品

虎嗅APP2024-04-10 14:06:58  72

当地时间本周二,谷歌在Google’sCloudNext2024上发布了一系列AI相关的模型更新和产品,包括Gemini1.5Pro首次提供了本地音频(语音)理解功能、代码生成新模型CodeGemma、首款自研Arm处理器Axion等等。

Gemini1.5Pro

Gemini1.5Pro是Google功能最强大的生成式AI模型,现已在Google以企业为中心的AI开发平台VertexAI上提供公共预览版。这是谷歌面向企业的AI开发平台。它能处理的上下文从12.8万个token增加到100万个token。100万个token大约相当于70万个单词,或者大约3万行代码。这大致是Anthropic的旗舰模型Claude3能作为输入处理的数据量的四倍,也大约是OpenAI的GPT-4Turbo最大上下文量的八倍。

该版本首次提供了本地音频(语音)理解功能和全新的文件API,使文件处理变得更加简单。Gemini1.5Pro的输入模态正在拓展,包括在GeminiAPI和GoogleAIStudio中增加对音频(语音)的理解。此外,Gemini1.5Pro现在能够对在GoogleAIStudio中上传的视频的图像(帧)和音频(语音)进行推理。

谷歌在GeminiAPI方面也进行了改进,主要有以下三个内容:

1.系统指令:现在可以在GoogleAIStudio和GeminiAPI中使用系统指令来指导模型的响应。定义角色、格式、目标和规则,以针对您的特定用例指导模型的行为。

在GoogleAIStudio中轻松设置系统指令

2.JSON模式:指示模型仅输出JSON对象。这种模式使从文本或图像中提取结构化数据成为可能。现在可以使用cURL,PythonSDK支持即将推出。

3.对函数调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、函数调用或仅函数本身。

此外,谷歌将发布下一代文本嵌入模型,其性能优于同类模型。从今天开始,开发者将能够通过GeminiAPI访问下一代文本嵌入模型。这个新模型,text-embedding-004(在VertexAI中为text-embedding-preview-0409),在MTEB基准测试中实现了更强的检索性能,并且超越了具有可比维度的现有模型。

在MTEB基准测试中,使用256dims输出的Text-embedding-004(又名Gecko)优于所有较大的768dims输出模型

不过,需要注意的是,Gemini1.5Pro对于没有访问VertexAI和AIStudio权限的人来说是不可用的。目前,大多数人通过Gemini聊天机器人来接触Gemini语言模型。GeminiUltra驱动了GeminiAdvanced聊天机器人,虽然它功能强大,也能理解长命令,但它的速度不如Gemini1.5Pro。

三大开源工具

在2024年的GoogleCloudNext大会上,该公司推出多个开源工具,主要用于支持生成式AI项目和基础设施。其一是MaxDiffusion,它是各种扩散模型参考实现的集合,可在XLA(加速线性代数)设备上运行。

GitHub地址:https://github.com/google/maxdiffusion

其二是Jetstream,一个运行生成式AI模型的新引擎。目前,JetStream只支持TPU,未来可能会兼容GPU。谷歌声称,JetStream可为谷歌自己的Gemma7B和Meta的Llama2等模型提供高达3倍的性价比。

GitHub地址:https://github.com/google/JetStream

第三个是MaxTest,这是一个针对云中的TPUs和NvidiaGPUs的文本生成AI模型的集合。

MaxText现在包括Gemma7B、OpenAI的GPT-3、Llama2和来自AI初创公司Mistral的模型,谷歌表示所有这些模型都可以根据开发人员的需求进行定制和微调。

GitHub地址:https://github.com/google/maxtext

首款自研Arm处理器Axion

?

谷歌云宣布推出其首款自主研发的Arm处理器,名为Axion。其基于Arm的Neoverse2,专为数据中心设计。谷歌表示其Axion实例的性能比其他竞争对手如AWS和微软的基于Arm的实例高出30%,与相应的基于X86的实例相比,性能提高了最多50%,能效提高了60%。

谷歌在周二的发布会上强调,由于Axion建立在一个开放的基础上,谷歌云的客户将能够将他们现有的Arm工作负载带到谷歌云,而无需任何修改。

不过,目前谷歌还没有发布对此进行详细介绍的内容。

?代码补全、生成利器:CodeGemma

CodeGemma以Gemma模型为基础,为社区带来了强大而轻量级的编码功能。该模型可分为专门处理代码补全和代码生成任务的7B预训练变体、用于代码聊天和指令跟随的7B指令调优变体、以及在本地计算机上运行快速代码补全的2B预训练变体。

CodeGemma具有以下几大优势:

智能代码补全和生成:补全行、函数,甚至生成整个代码块,无论你是在本地还是云上工作;

更高准确性:CodeGemma主要使用来自网络文档、数学和代码的5000亿token的英语语言数据进行训练,生成的代码不仅语法更正确,语义也更有意义,有助于减少错误和debug时间;

多语言能力:支持Python、JavaScript、Java和其他流行编程语言;

简化工作流程:将CodeGemma集成到你的开发环境中,以减少编写的样板代码,并更快地编写重要、有趣且差异化的代码。

CodeGemma与其他主流代码大模型的一些比较结果如下图所示:

CodeGemma7B模型与Gemma7B模型在GSM8K、MATH等数据集上的比较结果。

更多技术细节和实验结果请参阅谷歌同步放出的论文。

开放语言模型RecurrentGemma

GoogleDeepMind还发布了一系列开放权重语言模型——RecurrentGemma。RecurrentGemma基于Griffin架构,通过将全局注意力替换为局部注意力和线性循环(linearrecurrences)的混合,在生成长序列时实现快速推理。

RecurrentGemma-2B在下游任务上实现了卓越的性能,可与Gemma-2B(transformer架构)媲美。

同时,RecurrentGemma-2B在推理过程中实现了更高的吞吐量,尤其是在长序列上。

视频编辑工具GoogleVids

GoogleVids是一款AI视频创建工具,是GoogleWorkspace中添加的新功能。

谷歌表示,借助GoogleVids,用户可以与文档和表格等其他Workspace工具一起制作视频,并且可与同事实时协作。

企业专用代码助手GeminiCodeAssist

GeminiCodeAssist是一款面向企业的AI代码完成和辅助工具,对标GitHubCopilotEnterprise。CodeAssist将通过VSCode和JetBrains等流行编辑器以插件的形式提供。

图源:https://techcrunch.com/2024/04/09/google-launches-code-assist-its-latest-challenger-to-githubs-copilot/

CodeAssist由Gemini1.5Pro提供支持。Gemini1.5Pro拥有百万token的上下文窗口,这使得谷歌的工具能够比竞争对手引入更多的上下文。谷歌表示,这意味着CodeAssist能够提供更准确的代码建议,并具备推理和更改大段代码的能力。

谷歌表示:“CodeAssist使客户能够对整个代码库进行大规模更改,从而实现以前不可能实现的人工智能辅助代码转换。”

智能体构建器VertexAI

AI智能体是今年一个热门的行业发展方向。谷歌现在宣布推出一款帮助企业构建AI智能体的新工具——VertexAIAgentBuilder。

谷歌云首席执行官ThomasKurian表示:“VertexAIAgentBuilder使人们能够非常轻松、快速地构建和部署可用于生产的、由人工智能驱动的生成式对话智能体,并且能够以指导人类的方式指导智能体,以提高模型生成结果的质量和正确性。”

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/176578.html
0
最新回复(0)