英伟达开源超强模型瘦身技术, Llama 3.1 参数减半, 性能领跑同级

艾琳的科技说2024-08-23 08:02:15  47

1. LLM Pruning and Distillation in Practice: The Minitron Approach

本文详细介绍了使用了剪枝和知识蒸馏技术将Llama 3.1的8B和Mistral NeMo 12B模型压缩至4B和8B参数。我们探讨了两种不同的剪枝策略:(1)深度剪枝和(2)联合隐藏/注意力/多层感知器(宽度)剪枝,并在LM评估工具包的常见基准上评估了结果。然后,使用NeMo对齐器对这些模型进行对齐,并在指令调整版本中进行测试。这种方法产生了从Llama 3.1的8B模型压缩而来的4B模型,以及从Mistral NeMo的12B模型压缩而来的一个最先进的Mistral-NeMo-Minitron-8B(简称为MN-Minitron-8B)模型。我们发现,使用蒸馏数据集稍微微调教师模型是有益的。我们在Hugging Face上开源了我们的基础模型权重。

2. FocusLLM: Scaling LLM's Context by Parallel Decoding

赋予LLM从长上下文中获取有用信息的能力对于许多下游应用至关重要。然而,使用传统的transformer架构实现长上下文长度需要大量的训练和推理资源。在本文中,我们提出了一种名为FocusLLM的框架,旨在扩展任何仅解码的LLM的上下文长度,使模型能够聚焦于非常长序列中的相关信息。FocusLLM通过将长文本输入分为基于模型原始上下文长度的片段来处理长文本输入,以缓解注意力分散的问题。然后,它为每个片段附加局部上下文作为提示,根据一种新颖的并行解码机制从每个片段中提取关键信息,并最终将提取的信息整合到局部上下文中。FocusLLM以其出色的训练效率和灵活性脱颖而出:通过比以往方法更低的训练成本,使用8K输入长度进行训练,FocusLLM在下游长上下文任务中表现出卓越的性能,并在处理大量长文本时,即使多达400Ktoken,也能保持强大的语言建模能力。我们的代码可以在[https://github.com/leezythu/FocusLLM]上获取。

3. TrackGo: A Flexible and Efficient Method for Controllable Video Generation

近年来,基于扩散的可控视频生成取得了显著进展。然而,在复杂场景中实现精确控制,包括精细的物体部分、复杂的运动轨迹以及连贯的背景移动,仍然是一个挑战。在本中,我们介绍了一种名为TrackGo的方法,它利用自由形式的mask和箭头进行条件视频生成。这种方法为用户提供了灵活且精确的机制来操作视频内容。我们还提出了TrackAdapter,这是一种高效且轻量级的适配器,旨在无缝集成到预训练视频生成模型的时间自注意力层中。这种设计利用了我们对这些层的注意力图能够准确激活视频中的运动区域的观察。我们的实验结果表明,通过TrackAdapter增强的新方法在关键指标如FVD、FID和ObjMC得分上达到了最先进的性能。TrackGo项目的页面可以访问:https://zhtjtcz.github.io/TrackGo-Page/

4. GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

大型多模态模型已经在许多视觉任务中展现出卓越的能力。尽管存在许多现有的知名基准用于评估模型性能,但这些基准越来越难以提供足够的挑战空间。因此,对于下一代大型多模态模型,迫切需要一个全新的、具有足够挑战性的基准。

LMMs在图分析领域展现出巨大的潜力,特别是当分析师在解释诸如函数和数据序列的图表时,通常会执行的任务,如估计均值、截距或函数和数据系列的相关性。在本文中,我们引入了GRAB,一个专为当前及未来先进大型多模态模型设计的图分析基准。我们的基准完全由合成数据组成,确保了高质量、无噪声的问题。

GRAB包含2170个问题,涵盖了四个任务和23个图属性。我们对GRAB进行了评估,发现这是一个具有挑战性的基准,最高得分仅为21.7分。最后,我们进行了各种消融实验,以探讨模型在哪些方面成功和困难。

我们发布GRAB,以促进在这个重要且不断发展的领域取得进步。

5. Iterative Object Count Optimization for Text-to-image Diffusion Models

解决文本到图像模型中的一个持久挑战:准确生成指定数量的对象。当前的模型,通过学习图像与文本的配对,内在地难以处理计数问题,因为训练数据无法描绘给定对象的每一种可能数量。为了解决这个问题,我们提出了基于计数模型的优化方法,该模型聚合对象的潜在计数。

使用现成的计数模型具有两个挑战:首先,模型需要一个用于潜在聚合的缩放超参数,这个超参数取决于对象的视角;其次,分类指导技术需要对噪声中间扩散步骤进行修改的模型。为了应对这些挑战,我们提出了迭代在线训练模式,该模式在提高推断图像的准确性的同时,改变文本条件嵌入,并动态调整超参数。我们的方法提供了三个关键优势:(i)它可以考虑基于检测模型的不可导计数技术;(ii)它是一个零启动的可插拔解决方案,便于快速更改计数技术和图像生成方法;(iii)优化后的计数令牌可以重复使用,生成准确的图像而无需额外优化。我们对各种对象的生成进行了评估,并展示了显著的准确性改进。项目页面可访问于https://ozzafar.github.io/count_token。

6. Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

现代机器学习系统依赖大量数据集以实现广泛的泛化能力,而在机器人学习中,每个机器人平台和任务可能只有少量数据集。通过在多种机器人形态上训练单一策略,机器人学习方法可以利用更广泛、更多样化的数据集,从而导致更好的泛化能力和鲁棒性。然而,在多机器人数据上训练单一策略具有挑战性,因为机器人可能具有广泛不同的传感器、执行器和控制频率。

我们提出了一种可扩展且灵活的基于变换器的策略CrossFormer,它可以消费任何形态的数据。我们通过在迄今为止最大且最多样化的数据集上训练CrossFormer,即20种不同机器人形态的900K条轨迹,来证明单一网络权重可以控制极为不同的机器人,包括单臂或双臂操纵系统、轮式机器人、四旋翼飞行器和四足机器人。

与以往的工作不同,我们的模型不需要手动对齐观察或动作空间。大量现实世界的实验表明,我们的策略与专门为每个形态定制的专业策略具有相同的效果,同时在跨形态学习中显著超越了之前的最先进状态。

7. FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting

文本到图像(T2I)扩散模型展示了生成高质量图像的惊人能力,然而,确保文本提示与生成图像的一致性仍然是一个显著的挑战,即生成能够忠实反映提示语义的图像。近期的工作尝试通过优化潜在代码来提高一致性,但这可能导致潜在代码偏离分布,从而产生不切实际的图像。在这篇论文中,我们提出了一种名为FRAP的简单而有效的方法,基于适应性调整每个词的提示权重,以改善提示图像的一致性和生成图像的真实性。

我们设计了一个在线算法,用于适应性地更新每个词的权重系数,这是通过最小化一个统一的目标函数实现的,该函数鼓励物体的存在以及物体修饰词对的绑定。通过广泛的评估,我们展示了FRAP在复杂数据集的提示下生成的图像与提示的一致性显著提高,同时与近期的潜在代码优化方法相比,平均延迟较低,例如在COCO-Subject数据集上比D&B快4秒。此外,通过视觉比较和在CLIP-IQA-Real指标上的评估,我们表明FRAP不仅提高了提示图像的一致性,还生成了更具真实感的图像,外观更加现实。

我们还探索了将FRAP与提示重写LLM结合,以恢复其降级的提示图像一致性,观察到在提示图像一致性以及图像质量方面都有了改进。

8. Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

在机器学习应用中,检测离群分布(OOD)数据对于降低模型过度自信的风险,确保部署系统的可靠性和安全性至关重要。我们提出了一种名为AHM(Attention Head Masking)的新方法,用于文档分类系统的多模OOD任务。我们的实验结果表明,相较于现有的解决方案,AHM方法表现最佳,显著降低了错误正率高达7.5%。这种方法在多模数据,如在相同的Transformer架构下建模的文档和视觉信息,上具有很好的泛化能力。为了应对高质量的公开文档数据集的稀缺性,并鼓励对文档的OOD检测进一步研究,我们引入了FinanceDocs,一个全新的用于文档AI的数据集。我们的代码和数据集已向公众开放。

9. Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer

视觉检索系统在使用改进表示更新模型时面临重大挑战,由于旧表示和新表示之间的不匹配。昂贵且资源密集的填充过程要求在每次引入新模型时重新计算画廊集中图像的特征向量。先前的研究探索了允许直接比较新旧表示而无需填充的后向兼容训练方式。尽管取得了进步,但在保持后向兼容性和独立训练模型性能之间找到平衡仍是一个开放的问题。在本文中,我们通过增加额外维度来扩展表示空间,并学习一个正交变换,以实现与旧模型的兼容性,同时整合新信息。这种变换保留了原始特征空间的几何结构,确保我们的模型与之前的版本相一致,同时也能学习新的数据。我们的正交兼容对齐方法在模型更新期间,无需重新索引的需求,确保了在不同模型更新之间可以直接比较特征,而无需额外的映射函数。在CIFAR-100和ImageNet-1k的数据集上的实验结果表明,我们的方法不仅保持了与先前模型的兼容性,而且在准确率方面达到了最先进的水平,超越了多种现有方法。

10. TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

在这项工作中,我们提出了一种用于公正和稳健评估视频基础模型的方法。与语言或图像基础模型不同,许多视频基础模型的评估使用了不同的参数(如采样率、帧数、预训练步骤等),这使得进行公正和稳健的比较变得困难。我们的研究发现,现有的视频基础模型,无论是文本监督的如UMT或InternVideo2,还是自我监督的如V-JEPA,至少在外观或运动理解的某一方面,它们都有局限性。

作为替代,我们引入了TWLV-I,这是一种新的视频基础模型,能够为基于运动和外观的视频构建稳健的视觉表示。基于在五个动作识别基准上的线性探查的平均第一准确率,我们的模型在V-JEPA(ViT-L)上的准确性提高了4.6个百分点,在仅在可公开访问的数据集上进行了预训练的模型中,我们的模型在UMT(ViT-L)上的准确性提高了7.7个百分点。

即使与更大的模型相比,我们的模型在DFN(ViT-H)上的准确性提高了7.2个百分点,在V-JEPA(ViT-H)上的准确性提高了2.7个百分点,在InternVideo2(ViT-g)上的准确性提高了2.8个百分点。

我们提供了TWLV-I从多个常用视频基准中获得的嵌入向量,以及可以直接利用这些嵌入进行评估的源代码。这些代码可从"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"获取。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1099988.html
0
随机主题
山西: 科学预防“干热风” 确保小麦丰产丰收新年创业加盟哪家强? 社区生鲜连锁品牌钱大妈有话说!边锋必备的内切射门训练在上合转正,蒙古国迟迟不松口,拉夫罗夫亮明立场,不想再等20年哈弗H6巅峰期月销80495辆, 上个月卖了8309辆, 神车为何卖不动了成都: 6月起将对骑车看手机行为进行处罚“俄罗斯之心”文化艺术节6月将在北京举办立陶宛严厉谴责俄罗斯重新划定海上边界声明: 这是在发起混合战争多名炫富网红被封, 向不良价值观亮剑 | 新京报社论降温超17度, 新冷空气酝酿, 南北大范围雨水确定, 预报: 连下3天船东首次在中国订船! 这家船厂再获2艘新订单发行超长期国债的有意和其深度的影响齐商银行: 以便利化支付提升金融服务水平最佳阵容出炉:詹姆斯创纪录,三人受益,谁是最大遗珠?谋财害命! 英国购买美国血制品, 3万人感染疾病, 英首相含泪道歉5月24日地狱火重燃! 168碎片新选择, 廉颇黄金金牛座来袭欧阳夏丹: 父亲早逝母亲患癌, 34岁主持《新闻联播》, 47岁仍未婚国足新一期大名单: 6名新人入围, 谁能担当重任?520的瓜相比汪峰杨洋, 70岁的大咖的瓜让人意外, 姜还是老的辣免费生选拔现场精彩镜头。 岳博和丁一的对阵十分精彩,摘取其中片段和各位分享。《夜族崛起》暗黑来袭——是德古拉也是伐木工
最新回复(0)