苹果的新AI, 是如何“练”成的?

虎嗅APP2024-07-31 21:42:47 88

Siri终于变身“AISiri”，万众期待的AppleIntelligence来了。

伴随AppleIntelligence上线iOS18、iPadOS18和macOSSequoia，苹果也发布了自家大模型的技术报告，公布了大量技术细节，十分受业界关注。

据介绍，AppleIntelligence包含了多个高效能的生成模型，它们快速、高效，专为用户日常任务而设计，并能即时适应用户当前的活动。构建到AppleIntelligence中的基础模型已经为用户体验进行了优化，如写作和润色文本、优先级排序和汇总通知、为与家人和朋友的对话创建有趣的图片，以及采取应用内操作以简化跨应用交互。

在技术报告中，苹果团队详细介绍了其中两个模型——一个约30亿参数的语言模型AFM（AppleFoundationModel），以及一个更大的、基于服务器的AFM-server语言模型——是如何构建和适配的，从而高效、准确地执行专业任务。

图｜AFM的模型概况

这两个基础模型是苹果创建的更大生成模型家族的一部分，用于支持用户和开发者；这包括一个基于AFM语言模型的编程模型，用于构建Xcode中的智能；以及一个扩散模型，帮助用户在视觉上表达自己，如在信息应用中。

AFM的性能怎么样？

AFM在开发过程中经历了严格的评估，评估结果表明，模型在预训练、后训练和特定任务上都表现出色，并符合苹果的核心价值观和负责任AI原则。

1.预训练评估

苹果团队使用HELMMMLU、HELMLite和OpenLLM等公开评估基准，评估了AFM模型的语言理解和推理能力。结果显示，AFM模型在多个评估指标上取得了优异的成绩，展现了强大的语言理解和推理能力，为后续的后训练和特定任务应用奠定了基础。

2.后训练评估

苹果团队结合人类评估和自动评估基准，评估了AFM模型的通用能力和特定能力，比如指令遵循、工具使用和写作。评估结果如下：

人类评估：AFM模型在多个任务上媲美或优于其他开源和商业模型，表明模型能够理解和遵循复杂指令，并生成高质量的文本。

图｜AFM模型与其他开源模型和商业模型对比，人类评分者更喜欢AFM模型。

研究团队在神经元描述范式上评估MAIA，研究显示，MAIA在真实模型和合成神经元数据集上均取得了优异的描述效果，预测能力优于基线方法，并与人类专家相当。

指令遵循评估：AFM模型在IFEval和AlpacaEval2.0LC等基准上取得了优异的成绩，表明模型能够有效地理解和遵循指令。

图｜AFM模型和相关模型的指令遵循能力比较，使用IFEval测量，值越高表示能力越好。

工具使用评估：AFM模型在BerkeleyFunctionCallingLeaderboard基准上取得了最佳的整体准确率，表明模型能够有效地使用工具。

图｜AFM-server达到了最佳的整体精度，优于Gemini-1.5-Pro-Preview-0514和GPT-4。

写作评估：AFM模型在内部总结和写作基准上表现出色，表明模型能够生成流畅和高质量的文本。

图|AFM与一些最杰出的模型以及较小规模的开源模型进行比较。与Gemma-7B和Mistral-7B相比，AFM-on-device可以实现相当或更好的性能。AFM-server显著优于dbrx-directive，与GPT-3.5和GPT-4相当。

数学评估：AFM模型在GSM8K和MATH等基准上取得了优异的成绩，表明模型能够有效地解决数学问题。

图｜研究团队比较了训练后AFM在数学基准上的表现，包括GSM8K和math。AFM-on-device的性能明显优于Mistral-7B和Gemma-7B。

此外，研究团队还对模型进行了特定任务评估和安全性评估。他们使用人类评估和特定任务评估基准，评估AFM模型在特定任务上的表现，例如邮件摘要、消息摘要和通知摘要。根据评估结果，AFM模型在邮件摘要、消息摘要、通知摘要方面的表现在多个方面优于其他模型，比如准确性、完整性和可读性。

在安全性方面，研究团队使用对抗性数据集和人类评估，评估AFM模型对有害内容和敏感话题的抵抗力。评估结果显示，AFM模型对对抗性数据和敏感话题表现出了良好的抵抗力，在一定程度上避免了产生有害或不当的响应。

AFM是如何“练”成的

1.架构

与大多主流模型一样，AFM模型基于Transformer架构，但也采用了一些特定的设计选择来提高效率和性能。主要组成部分如下：

Transformer模块：AFM使用标准的Transformer模块，包括多头注意力机制和前馈神经网络。

共享输入/输出嵌入矩阵：该设计减少了模型参数的数量，提高了内存效率。

预归一化和RMSNorm：这些技术提高了训练的稳定性，并帮助模型学习更复杂的模式。

查询/键归一化：该技术进一步提高了训练的稳定性。

分组查询注意力（GQA）：GQA机制减少了内存占用，并提高了计算效率。

SwiGLU激活函数：该激活函数提高了模型的效率。

RoPE位置嵌入：RoPE机制支持长文本的编码，并提高了模型对上下文的表示能力。

图｜AFM-on-device具有3072个参数，适用于在设备上进行推理。它使用了26个Transformer层，每个层包含128个头，8个查询/键头和24个查询头。

2.预训练

AFM模型的预训练过程旨在训练强大的语言模型，以支持AppleIntelligence系统的各种功能。AFM模型使用AXLearn框架在CloudTPU群上训练，该框架支持大规模模型和序列长度的训练，并提供了高效的训练和推理性能。

AFM预训练数据集由多种类型的优质数据组成，包括：

网页内容：使用Applebot爬取的公开可用信息，并进行了过滤。

授权数据集：从出版商获得的高质量数据集，提供多样化的长文本数据。

代码：从GitHub上获取的开源代码数据，覆盖多种编程语言。

数学：包含数学问题、论坛、博客、教程和研讨会等数学内容的网页数据。

公共数据集：经过评估和筛选的公开可用数据集。

AFM预训练分为三个阶段：

核心阶段：使用最大规模的数据集进行训练，主要目标是学习基础的语言知识和模式。

持续阶段：在核心阶段的基础上，增加代码和数学数据，并降低网页数据的权重，以进一步扩展模型的知识范围。

上下文扩展阶段：在持续阶段的基础上，使用更长的序列长度和合成长文本数据，以提高模型对长文本的处理能力。

3.后训练

AFM在预训练阶段获得了强大的语言理解能力，但为了将其应用于特定任务，比如邮件摘要、消息摘要和通知摘要，还需要进行后训练。包括：

监督微调（SFT）：

数据收集：使用人类标注数据和合成数据，确保数据质量多样且涵盖各种自然语言使用场景。

数据混合：仔细选择和组合人类数据和合成数据，形成高质量的数据混合。

微调方法：使用LoRA适配器对模型进行微调，仅调整适配器参数，保留模型的通用知识。

基于人类反馈的强化学习（RLHF）：

奖励模型：使用人类偏好数据训练奖励模型，评估模型响应的质量。

迭代教学委员会（iTeC）：使用多种偏好优化算法，包括拒绝采样、直接偏好优化和在线强化学习，迭代地改进模型。

在线RLHF算法（MDLOO）：使用MirrorDescent策略优化和Leave-One-Out优势估计器来最大化奖励，提高模型质量。

后训练的优势：

模型质量提升：后训练显著提高了AFM模型的质量和性能，使其在特定任务上表现出色。

符合苹果核心价值观和负责任AI原则：后训练过程充分考虑了数据质量、安全性和有害内容的过滤，确保模型符合苹果的核心价值观和负责任AI原则。

可扩展性：后训练方法可扩展到其他任务，使AFM模型能够支持更多AppleIntelligence功能。

4.推理优化

AFM不仅需要具备强大的语言理解能力，还需要能够高效地运行在iPhone、iPad和Mac等设备上，以及Apple硅服务器上的PrivateCloudCompute。为了实现这一目标，苹果开发了一系列优化技术，以确保AFM模型在特定任务上的高效运行，同时保持整体模型质量。

优化方法：

模型量化：使用4位量化技术对AFM模型进行量化，显著降低模型大小和推理成本。

精度恢复适配器：使用LoRA适配器来恢复量化模型的精度，使其接近未量化模型的表现。

混合精度量化：使用4位和2位量化精度对模型的各个层进行量化，进一步降低内存占用，同时保持模型质量。

交互式模型分析：使用Talaria工具分析模型的延迟和功耗，指导比特率选择，优化模型性能。

运行时可替换的适配器：使用LoRA适配器来微调模型，使其能够针对特定任务进行调整，同时保持模型的通用知识。

优化案例——邮件摘要：

数据收集：收集包含电子邮件、消息和通知摘要的输入数据，并进行数据清洗和去重。

合成摘要生成：使用AFM服务器生成符合产品要求的合成摘要，并使用规则和模型进行过滤，确保数据质量。

提示注入：将AFM服务器生成的摘要添加到训练数据中，帮助AFM设备模型更好地理解和生成摘要。

此外，AppleIntelligence遵循一系列负责任的AI原则，包括赋能用户、代表用户、谨慎设计、保护隐私等。在这篇技术报告中，苹果反驳了有关其采用道德上有问题的方法来训练某些模型的指控，重申它没有使用私人用户数据，而是将公开可用的数据和授权数据结合起来用于AppleIntelligence。他们强调，AFM模型的训练数据是以“负责任”的方式获取的。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/997917.html

随机主题

003赛事预测: 乌德勒支VS鹿特丹斯巴达比赛看点解析 #墨西哥一场总统竞选活动舞台倒塌，已致5人死亡，约50人受伤 #事故 #意外美国14岁少年挑战最辣玉米片, 一命归西, 辣死人是真的存在任晓: 中美形成正确相互认知, 兹事体大巴以冲突将迎来大结局? 以防长总理没想到, 法国也在背后给了一刀一开口征服全场, 今年浪姐最大黑马, 是她!请查收的搭档的可爱表情包！以色列总理遭全球通缉, 布林肯害怕极了, 以后岂不要通缉美国总统!王红权星近三月直播13场销售额超2500万：卖每瓶3000元的洗发水成都: 6月起将对骑车看手机行为进行处罚首趟豫鲁“郑日韩”铁海快线班列启程, 助力更多河南制造出海亚特兰大3-0打脸阿根廷队: 欧联冠军门神, 被阿超老将挤出国家队故障率最低0.00064! 广汽、长安、吉利等, 这五款家轿选谁好?英国惊天丑闻曝光，美西方信用彻底崩塌！赵燕菁: 房地产新政本质是救债务端, 这关乎中美博弈的走势庆余年: 庆帝与五竹谁更强? 应对大宗师游刃有余, 镭射眼堪称无解里程碑! 德约2-0完胜德国悍将旗开得胜, 生日夜手捧蛋糕乐开怀谢晖死活不换人! 王禹李申圆跑拉胯了贝里奇战犯级表现, 葛副总还是别上了在618电商节, 小米14Pro突降1120元, 难得的购机良机湖人悔青肠子! 森林狼导演惊人大逆转, 约、穆超神, 输球因此人!泰消保风险提示: 利率下行时期, 这样选择保险, 稳稳守住你钱袋子

最新回复(0)