昨晚, 谷歌向微软英特尔全面宣战

虎嗅APP2024-04-10 15:07:38 50

升级“视频版”Imagen2.0，下场AI视频模型大混战

发布时被Sora光环掩盖的Gemini1.5Pro，正式开放

首款Arm架构CPU发布，全面对垒微软/亚马逊/英伟达/英特尔

此外，谷歌的AI超算平台也进行了一系列重大升级——最强TPUv5p上线、升级软件存储，以及更灵活的消费模式，都让谷歌云在AI领域的竞争力进一步提升。

连放大招的谷歌，必不会在这场AI大战中退让。

从OpenAI跳槽的研究员LoganKilpatrick，也在第一时间转发了Gemini1.5Pro的消息。看得出来，他已经是一名真真正正的谷歌员工了

在短短两个月内，谷歌一键将多种前沿模型引入VertexAI，包括自家的Gemini1.0Pro、轻量级开源模型Gemma，以及Anthropic的Claude3。

Gemini1.5Pro，人人可用了

传说中的谷歌最强杀器Gemini1.5Pro，已经在VertexAI上开放公测了！

开发者们终于可以亲自体验到，前所未有的最长上下文窗口是什么感觉。

Gemini1.5Pro的100万token，比Claude3中最大的200K上下文，直接高出了五倍。而GPT-4Turbo，上下文也只有128K。

当然，超长上下文在无缝处理输入信息方面，仍然有一定的局限性。

但无论如何，它让对大量数据进行本机多模态推理成为可能。从此，多海量的数据，都可以进行全面、多角度的分析。

自然而然地，我们可以正式用Gemini1.5Pro开发新的用例了。比如AI驱动的客户服务智能体和在线学术导师，分析复杂的金融文件，发现文档中的遗漏，查询整个代码库，或者自然语言数据集。

现在，已经有无数企业用Gemini1.5Pro真实地改变了自己的工作流。

比如，软件供应商思爱普用它来为客户提供与业务相关的AI解决方案；日本广播公司TBS用它实现了大型媒体档案的自动元数据标注，极大提高了资料搜索的效率；初创公司Replit，则用它更高效、更快、更准确地生成、解释和转换代码。

加入音频处理能力

不仅如此，Gemini1.5Pro现在还增加了音频功能。

它能处理音频流，包括语音和视频中的音频。

这直接就无缝打破了文本、图像、音频和视频的边界，一键开启多模态文件之间的无缝分析。

在财报电话会议中，一个模型就能对多种媒介进行转录、搜索、分析、提问了。

Imagen2.0能生视频了：4秒24帧640p

并且，这次谷歌也下场开卷AI模型了。

AI生图工具Imagen，现在可以生成视频了。

只用文本提示，Imagen就能创作出实时的动态图像，帧率为每秒24帧，分辨率达到360x640像素，持续时间为4秒。

谷歌表示，Imagen在处理自然景观、食物图像和动物等主题时，表现尤为出色。

它不仅能够创造出一系列多样的摄影角度和动作，还能确保整个序列的视觉一致性。

同时，这些动态图像也配备了安全过滤和数字水印技术。

图像编辑

并且，谷歌对Imagen2.0也升级了图像编辑功能，增加了图像修复、扩展、数字水印功能。

想把图中这个男人去掉？一键圈出，他就没了！并且模型还自动补全了山上的背景。

想让远处的山高一点？Imagen2.0也能轻松做到。

另外，它还可以帮我们扩大图片边缘，获得更广阔的视角。

而数字水印功能，由GoogleDeepMind的SynthID强力驱动。

这样，用户就可以图片和视频生成隐形水印，并且验证它们是否由Imagen所生成。

全新代码模型CodeGemma发布，核心团队华人占6成

最新发布轻量级代码生成模型CodeGemma，采用的是与Gemma系列相同的架构，并进一步在超过5000亿个代码Token上进行了训练。

目前，CodeGemma已经全系加入VertexAI。

具体来说，CodeGemma共有三个模型检查点（Checkpoint）：

CodeGemma7B的预训练版本（PT）和指令微调版本（IT）在理解自然语言方面表现出色，具有出众的数学推理能力，并且在代码生成能力上与其他开源模型不相上下。

CodeGemma2B则是一个SOTA的代码补全模型，可以进行快速代码填充和开放式生成。

预训练数据

CodeGemma的训练数据包括了来自网络文档、数学和代码的5000亿个Token（主要是英文）。

2B规模的模型完全使用代码进行训练，而7B规模的模型则采用了80%编程代码外加20%自然语言的方式。

为了确保数据的质量，谷歌对数据集进行了去重和过滤，移除了可能影响评估的代码样本和一些个人或敏感信息。

此外，谷歌还对CodeGemma模型的预训练采用了一种改进的中间填空（Fill-in-the-Middle，FIM）方法，以此来提升了模型的训练效果。

具体可以分为两种模式：PSM（前缀-后缀-中间）和SPM（后缀-前缀-中间）。

指令微调

通过让模型接触各种数学问题，可以提升它在逻辑推理和解决问题方面的能力，这对编写代码来说是非常重要的。

为此，谷歌选用了多个主流的数学数据集进行监督微调，包括：MATH、GSM8k、MathQA，以及合成数学数据。

在代码方面，谷歌采用了合成代码指令的方法来创建数据集，用于后续的监督微调（SFT）和基于人类反馈的强化学习（RLHF）之中。

为了确保生成的代码指令数据既有用又准确，谷歌采取了以下方法：

示例生成：根据OSS-Instruct的方法，制作一系列独立的问题与答案对；

后期过滤：利用大语言模型来筛选这些问题与答案对，评估它们的实用性和准确性。

代码补全

如表2所示，CodeGemma2B在代码补全场景下展现出了卓越的性能，尤其是在低延迟的表现上。

其中，推理速度更是比不少模型快了有2倍之多。

Python

HumanEval和MostlyBasicPythonProblems的评估结果如表3所示。

与Gemma基础模型相比，CodeGemma在编程领域的任务上表现明显更强。

多种编程语言

BabelCode通常用来评估模型在多种编程语言中的代码生成性能，结果如表4所示。

语言处理能力

图3展示了多个领域的性能评估结果，包括问答、自然语言处理以及数学推理。

可以看到，CodeGemma同样有着Gemma基础模型的自然语言处理能力，其PT和IT版本在性能上均优于Mistral7B和Llama213B——分别领先了7.2%和19.1%。

进一步地，如表5所示，CodeGemma在数学推理方面，相比同等规模的模型有着更出色的表现。

推理建议

如图4所示，在进行代码补全任务时，比如函数补全、注释文档字符串生成或者导入模块建议，应当按照一定的格式来设计输入提示。

官宣自研Arm架构CPU处理器Axion

此次Next大会上，谷歌还正式宣布，将自研首款基于Arm的CPU。

据称这款CPU处理器Axion，将提供比英特尔CPU更好的性能和能源的效率，其中性能提高50%，能源效率提高60%。

据悉，比起目前基于Arm的最快通用芯片，Axion的性能还要高出30%。

凭着这个新武器，谷歌也在AI军备竞赛中，正式向微软和亚马逊宣战。

新CPUAxion，显然是谷歌跟随亚马逊AWS和微软Azure的动作——它也想自研处理器了。

Axion将帮助谷歌提高通用工作负载的性能，比如开源数据库、Web和应用程序服务器、内存缓存、数据分析引擎、媒体处理和AI训练。

由此，谷歌在开发新的计算资源方面，又向前迈进了一步。在今年晚些时候，Axion就可用于云服务了。

AI军备竞赛加快，CPU重要性凸显

对于AI军备竞赛来说，像Axion这样的CPU至关重要，因为它能提升训练AI模型所需的算力。

要训练复杂的AI模型，就需要处理大型数据集，而CPU有助于更快地运行这些数据集。

要说此举的最大好处，那无疑就是省钱。

众所周知，购买AI芯片的成本惊人，英伟达的Backwell芯片，预计售价在3万美元到4万美元之间。

现在，Axion芯片已经在为YouTube广告、GoogleEarth引擎提供加持了。

而且，很快就可以在谷歌计算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、CloudBatch等云服务中使用。

不仅如此，原本在使用Arm的客户，无需重新架构或者重写应用程序就可以轻松地迁移到Axion上来。

TPUv5p上线，与英伟达合作加速AI开发

在此次GoogleCloudNext2024年会上，谷歌宣布：对自家超算平台进行大规模升级！

升级列表中的第一位，就是谷歌云的张量处理单元TPUv5p了。如今，该定制芯片全面向云客户开放。

谷歌的TPU，一直被视作英伟达GPU的替代品，用于AI加速任务。

作为下一代加速器，TPUv5p专门用于训练一些最大、最苛刻的生成式AI模型。其中，单个TPUv5ppod包含8960个芯片，是TPUv4pod芯片数量的两倍之多。

另外，谷歌云还将和英伟达合作加速AI开发——推出配备H100的全新A3MegaVM虚拟机，单芯片搭载高达800亿个晶体管。

而且谷歌云还会将英伟达最新核弹Blackwell整合进产品中，增强对高性能计算和AI工作负载的支持，尤其是以B200和GB200提供支持的虚拟机形式。

其中，B200专为“最苛刻的AI、数据分析和HPC工作负载而设计”。

而配备液冷的GB200，将为万亿参数模型的实时LLM推理和大规模训练提供算力。

虽然现在万亿参数的模型还不多（几个选手是SambaNova和谷歌的SwitchTransformer），但英伟达和Cerebras都在冲万亿参数模型硬件了。

显然，他们已经预见到，AI模型的规模还会迅速扩大。

软件

在软件方面，谷歌云推出了JetStream，这是一款针对LLM的吞吐量和内存优化了的推理引擎。

这个新工具可以提高开源模型的单位美元性能，并与JAX和PyTorch/XLA框架兼容，从而降本增效。

存储大战

此外，谷歌的存储解决方案也在不断升级——不仅加速了AI训练和微调，优化了GPU和TPU的使用，还提高了能效和成本效益。

此次，谷歌推出的HyperdiskML，显著缩短了模型加载时间，提高了吞吐量，并对AI推理和服务工作负载进行了优化。

不仅支持每个存储卷承载2，500个实例，而且还提供了高达1.2TiB/s的数据吞吐量，性能直接超越微软和AWS。

已发布的CloudStorageFUSE，可将基础模型的训练吞吐量提高2.9倍，性能提高2.2倍。

高性能并行文件系统Parallelstore可将训练速度提高到3.9倍，并将训练吞吐量提高到3.7倍。

而专为AI模型量身定制的Filestore系统，允许在集群中的所有GPU和TPU之间同时访问数据，将训练时间缩短56%。

总之，此次谷歌超算的大规模更新表明，谷歌在努力为客户带来实际的商业利益，创建无缝集成、高效可扩展的AI训练和推理环境。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/177693.html

随机主题

vivo x100pro更新频繁，我认为没有负优化！我国网络拍卖领域首个规范性文件发布, 明确线上线下监管一致性足球报: 阿兰客串中锋没有问题国足后腰位置上问题比较严重什么时候买摩托车最划算?梦幻西游：安东1093神器扇加盟夫子庙，曲阜冲2000万战神 700多能买到这么顶顶内存？阿斯加特联名华硕实测！深圳形成“15分钟社康圈”, 人均期望寿命达83.93岁汽车工业进入新时代, 日产逍客开始大降价, 还值得入手吗?你们觉得我这个车改成什么颜色比较适合？如果你们想洗车贴膜这些，这家店真的值得推荐劝退??宏利宏挚钱取不出来??后悔哭??前总监: 拜仁结构混乱始于8000万签卢卡斯, 现队中太多高薪平庸者困扰美国近百年的难题, 被中国攻克! 半年发电6.5亿度, 世界第一乳企一季度降速后市场开始回暖未来增长依然要靠技术内卷对中国出口征收高关税后, 美欧贸易更加紧密世界女排联赛首周最佳阵容公布, 中国女排一入选球员出乎意料轻卡房车有三个很大缺点！还有三个很大优势！怎么抉择？JBL万花筒6和哈曼卡顿luna人声对比，有听出哪个好嘛加斯佩里尼, 66岁老帅的逆袭辽宁会给出D类顶薪续约? 付豪总决赛场均16+7巅峰一季金辉控股(09993)上涨50.68%, 报3.3元/股有人认为职业年金是私分国有资产的由头, 你认为这种说法靠谱吗?

最新回复(0)