谷歌I/O开发者大会精彩回顾: AI与Android 15亮点纷呈

手机中国2024-05-15 10:10:00 49

[CNMO科技]北京时间5月15日凌晨1点，备受瞩目的谷歌I/O开发者大会在加利福利亚州山景城的海岸线圆形剧场盛大开幕。本次大会由Alphabet首席执行官桑达尔·皮查伊(SundarPichai)领衔的主题演讲拉开序幕，聚焦了人工智能领域的最新进展。其中，备受期待的Android15系统也在此次大会上有所提及。

由于大会的举办时间较早，许多朋友可能因时差而未能实时观看。不过，接下来，CNMO将为大家详细梳理并介绍本次谷歌I/O大会的亮点内容，让你不错过任何重要信息。

Gemini1.5Pro大模型

此前，谷歌推出的Gemini1.5Pro作为一款中型多模态模型，凭借其强大的处理能力和多模态交互功能，已经在全球范围内引起了广泛的关注。这一模型不仅在文本处理方面表现出色，还能够处理图像和视频等多种数据格式，为用户提供了丰富多样的交互体验。

而在此次开发者大会上，皮查伊宣布了关于Gemini1.5Pro的重大更新。首先，谷歌将Gemini1.5Pro的上下文长度从原有的100万tokens提升到了200万tokens，这一升级将极大地增强其数据处理能力，使得模型在处理更加复杂和庞大的数据时更加游刃有余。同时，谷歌还宣布Gemini1.5Pro将全面支持Workspace。

此外，谷歌宣布将Gemini1.5Pro面向全球开发者开放。这意味着，无论是专业的开发人员还是业余的爱好者，都可以更加深入地了解和使用这一强大的模型。

升级后的Gemini1.5Pro在多项公共基准测试中取得了显著改进，特别是在图像和视频理解方面，它展现出了最先进的性能。这一模型不仅能够理解文本内容，还能够准确地解读图像和视频中的信息。

Gemini1.5Flash模型

为了满足市场对低延迟和低成本的迫切需求，谷歌也推出了Gemini1.5Flash模型。这款模型在成本上取得了显著的突破，定位于Gemini1.5Pro和Gemini1.5Nano之间，主要面向广大开发者群体。

在定价策略上，Gemini1.5Flash的定价极为亲民，每处理100万个token仅需35美分，相较于GPT-4o的每百万token5美元的价格，这一价格优势不言而喻。而针对追求高质量内容的用户，Gemini1.5Pro则提供了更为精细的服务，其定价为每百万tokens7美元。

谷歌DeepMind首席执行官德米斯·哈萨比斯在博客文章中详细阐述了Gemini1.5Flash的特性和应用场景。他表示，Flash模型在摘要生成、聊天应用、图像和视频字幕、以及从长文档和表格中提取数据等方面表现出色，为开发者提供了强大的支持。

哈萨比斯进一步解释道，谷歌推出Gemini1.5Flash的初衷在于满足开发者对于更轻便、更经济模型的迫切需求。

下一代开源模型Gemma2

谷歌表示，全新Gemma2模型是一款轻量级、前沿的开放式模型，继承了Gemini模型的研究和技术精髓。

Gemma2模型采用了全新的架构，其27B（270亿）参数大小的尺寸在保持卓越性能的同时，仅为Llama370B模型的一半大小，展现了突破性的性能和效率。这一设计不仅提高了模型的灵活性和适应性，也为其在各种应用场景中的部署提供了更多可能性。

为了降低部署成本，Gemma2模型的高效设计使其所需的计算量少于同类模型的一半。经过优化的27B模型能够在英伟达的GPU上流畅运行，同时也在VertexAI中的单个TPU主机上展现出高效的性能，使更广泛的用户能够轻松部署并享受成本效益。

此外，Gemma2模型还为开发人员提供了强大的调优功能，支持跨越不同平台和工具生态系统的应用。从基于云的解决方案（如GoogleCloud）到流行的社区工具（如Axolotl），微调Gemma2模型将变得更加简单和高效。

谷歌表示，全新Gemma2模型将在未来几周内正式公开上线和发布。

Google搜索

过去一年，Google搜索以其卓越的搜索生成体验回答了数十亿次查询。如今，搜索体验再次升级，用户能够以更为自然、直观的方式探索网络，提出新颖、长而复杂的查询，甚至借助照片找到所需信息。

谷歌即将推出的AskPhotos功能，将照片搜索带入了一个全新的维度。自从GooglePhotos九年前问世以来，用户每日上传的照片和视频数量已突破60亿张。这一巨大数字表明，人们热衷于通过照片来回顾和搜索自己的生活点滴。而Gemini技术的引入，无疑让这一切变得更加轻松高效。

设想一下，当你在停车场准备付款，却突然忘记了自己的车牌号码。以往，你可能需要在海量照片中搜索关键词，并花费大量时间浏览过去几年的照片来寻找答案。但现在，有了AskPhotos功能，你只需要简单地询问照片，它就能迅速为你找到答案。

今年夏天，谷歌将正式推出AskPhotos功能，并计划在未来推出更多创新功能。

通用AI——ProjectAstra

在此次大会上，最受关注的无疑是AI助手——ProjectAstra。ProjectAstra被描绘为一个实时、多模式的人工智能助手，能够接收信息、记忆内容、处理信息并理解上下文细节，从而与周围环境进行交互。在演示视频中，ProjectAstra展现了其出色的语音交互能力，无需任何唤醒词即可即时回答用户的问题，并帮助用户完成各种任务。特别值得一提的是，ProjectAstra在视觉处理方面的能力，不仅能够识别静态图像，还能处理视频内容，甚至能够记住并准确识别一闪而过的物品，如眼镜。

谷歌表示，ProjectAstra通过连续编码视频帧并将视频和语音组合成事件时间线来实现这些功能，从而能够迅速处理接收到的信息。这一创新方法使得ProjectAstra在实时视频问答等场景中表现出色，为用户提供了更加自然、无延迟的交互体验。

此外，谷歌还透露了一些关于ProjectAstra的未来计划。谷歌称DeepMind团队正在研究如何将多模态模型更好地整合在一起，并寻求在超大型通用模型与更小、更集中的模型之间找到平衡。

全新生成式视频模型Veo

Veo的推出无疑是对OpenAI三个月前发布的Sora的一次直接挑战。

根据谷歌官方新闻稿，Veo不仅具备生成时长超过1分钟、分辨率高达1080P的精致视频能力，更引人注目的是其对自然语言的深度理解。Veo能够精准捕捉并转化“延时摄影”、“航拍风景”等专业的电影术语，将它们化为屏幕上栩栩如生的视觉盛宴。

为了让用户能够更灵活地指导Veo进行视频创作，谷歌提供了文本、图像甚至视频提示的多种输入方式。谷歌强调，Veo生成的视频将展现出极高的连贯性和一致性，无论是人物、动物还是物体的动作，都将呈现出令人惊叹的逼真效果。

为了直观地展示Veo的强大实力，谷歌还特别发布了演示视频。在视频中，我们可以看到Veo根据用户提供的文本提示生成的精美画面，如“在美丽的日落、柔和的光线、温暖的色彩下，一个孤独的牛仔骑着马穿过开阔的平原”“许多斑点水母在水下搏动。它们的身体透明，在深海中闪闪发光”，这些画面令人震撼。

图像生成模型Imagen3

Imagen3相较于前代产品Imagen2有了显著的改进。Imagen3不仅能够更准确地理解文字提示，将其转化为图像，而且生成的图像在“创造性和细节”方面有了极大的提升，同时减少了模型产生的干扰元素和错误。

为了缓解公众对Deepfake技术的担忧，谷歌宣布Imagen3将采用DeepMind开发的SynthID方法，在生成的媒体上应用隐形加密水印，确保内容的可追溯性和安全性。

谷歌现已在ImageFX工具中开放Imagen3的私人预览版注册，并计划很快将其提供给使用谷歌企业生成式人工智能开发平台VertexAI的开发人员和企业客户。

Imagen3的升级主要体现在以下几个方面：

首先，Imagen3在细节处理上达到了新的高度。生成的图像不仅光影丰富，而且减少了干扰伪影，使得整体效果更加自然和真实。

其次，新模型对文字提示的理解能力得到了显著提升。无论是较长的描述还是微小的细节要求，Imagen3都能准确地捕捉并体现在生成的图像中。例如，对狼的特征、背景颜色、画质质量等要求的描述，Imagen3都能一致地呈现出来。

此外，Imagen3在视觉丰富度和图像质量方面也有了显著的提升。它能够准确地渲染小细节，如人手上的细微皱纹和复杂的纹理。

Android15全面融入Gemini

在每年的I/O大会上，Android操作系统始终是讨论的焦点。自2007年Google携手84家合作伙伴成立开放手持设备联盟，共同研发Android以来，基于Android的智能手机已经遍布全球消费市场。2023年10月，谷歌发布了Android14，并在此前已推出了Android15的首个测试版，内部代号“香草冰淇淋（VanillaIceCream）”，预示着正式版本的即将来临。

在今年的I/O大会上，谷歌重点介绍了即将面世的Android15。在搜索方面，Android15上的Google搜索将全面融入Gemini的能力。其中，全新的CircletoSearch功能将帮助学生解决数学和物理问题，用户只需长按主页按钮或导航栏，圈出困惑的问题，即可获得详细的分步解答。

同时，GeminiAI聊天机器人也迎来了全面升级，正逐步成为Android用户的新人工智能助手。通过更紧密的底层系统集成，Gemini具备了更强的上下文感知能力，可以覆盖在任何正在使用的应用程序之上，无需用户频繁切换。此外，用户还能轻松地将图像从Gemini拖放到其他应用程序中。

谷歌表示，他们正在深入研究设备上的人工智能如何进一步改变手机功能，未来有望与Uber、Doordash等应用程序实现深度集成。

在大会上，谷歌还展示了Pixel8a手机上通过GoogleMessages应用程序使用Gemini的多种场景，包括分析PDF或视频并向Gemini提问，获得清晰且引用的回答。谷歌预计，这些功能将在未来几个月内逐步扩展到更多设备上。

第六代TPU——Trillium

在推动上述技术进步的背后，谷歌的TPU功不可没。具体而言，相较于先前的TPUv5e，全新推出的第六代TrilliumTPU在性能方面实现了惊人的4.7倍提升，同时在能效上也取得了超过67%的显著提升。

为了达成这一显著的飞跃，谷歌对TrilliumTPU进行了多方面的优化。首先，通过增大矩阵乘法单元（MXUs）的规模并提升时钟速度，极大地提升了其计算能力。其次，谷歌为Trillium配备了第三代SparseCore，这是一种专门设计用于处理高级排序和推荐工作负载中常见的大嵌入的加速器。SparseCores通过从TensorCores卸载随机和细粒度访问，有效加速了重嵌入型工作负载。

除了上述优化外，谷歌还进一步增强了Trillium的存储和连接能力。通过将高带宽存储器（HBM）的容量和带宽翻倍，以及提升芯片间互连（ICI）的带宽，Trillium可以支持更为复杂的模型，容纳更多的权重和更大的键值缓存，从而大幅减少大模型的训练时间和响应延迟。

在扩展性方面，Trillium同样表现出色。在一个高带宽、低延迟的Pod中，Trillium可以扩展至256个TPU。此外，通过多切片技术和Titanium智能处理单元（IPU），Trillium还能够进一步扩展，连接数百个Pod，组成数以万计的芯片，并在一个多千兆位每秒的数据中心网络支持下，形成一个超大规模的超级计算机。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/509697.html

随机主题

哈尔斯: 公司是可口可乐的杯具授权商, 用于制造联名款水杯被注射抑生长剂, 皮肤溃烂无人管, 这3位童星, 真的被父母害惨了法中有情, 让家有爱, 杭州金牌律师走进浙江省女子监狱现场调解杨幂狐妖小红娘老牌工业镇走出“小巨人”, “小五金之乡”全球掘“金”|高质量发展调研行《狐妖小红娘月红篇》今日开播, 杨幂: 争取不让动漫粉失望河南发布铁拳行动典型案例, 一燃气公司因充装不合规气瓶被罚拒绝续约+索要意甲顶薪! 国米头牌翻脸, 或遭甩卖, 新老板不惯着舒淇宝格丽之夜疑似被日本女星针对…阿隆索服输: 对手逼抢太厉害了, 我们无法应对 F1、F2、F3发布2025年赛历, 上海大奖赛为赛季第二站和国家队退役冯极内部教学赛实景，对抗性非常高，能力差距有点大江西南康给佛山下战书, 《人民日报》火速点赞, 这一战有意思了呷哺呷哺转型失误导致市场优势丧失, 降价促销能否挽救颓势?踩单车也能玩出新花样！9种变化动作让你成为足球高手郭德纲讽刺同行有多狠？相声没落全因同行太差劲吉林东北虎官宣钟诚成为新主教练〔期待老铁新风暴〕周琦家庭内景曝光! 客厅挺大还有架子鼓很快把娃带哭 Steam账号无法通过遗产继承, 赛博遗产计划破灭好! 3.5目, 杨鼎新, 硬气, 24强力斩中国00后名将强势晋级!《夜族崛起》暗黑来袭——是德古拉也是伐木工

最新回复(0)