OpenAI坚信“力大砖飞”, 谷歌却说模型不是越大越好

虎嗅APP2024-04-09 08:58:23 69

近年来，模型规模呈现出愈来愈大的趋势，越来越多的人相信“力大砖飞”。

OpenAI虽然没有公布Sora的训练细节，但在Sora的技术报告中提到了：

Ourlargestmodel，Sora，iscapableofgeneratingaminuteofhighfidelityvideo.Ourresultssuggestthatscalingvideogenerationmodelsisapromisingpathtowardsbuildinggeneralpurposesimulatorsofthephysicalworld.（我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。）

OpenAI是Scalinglaws的坚定拥护者。可是模型训练是否真的大力出奇迹呢？

谷歌最新的研究结论：不是！

谷歌研究院和约翰霍普金斯大学在最新的论文中指出：对于潜在扩散模型，模型不一定是越大越好。（论文链接：https://arxiv.org/abs/2404.01367）

Scalinglaws争议一直存在

关于Scalinglaws（中文译文：缩放定律），来自OpenAI在2020年发表的论文ScalingLawsforNeuralLanguageModels，简单说就是：模型的效果和规模大小、数据集大小、计算量大小强相关，而与模型的具体结构（层数/深度/宽度）弱相关。（论文链接：https://arxiv.org/pdf/2001.08361.pdf）

ScalingLaws不仅适用于语言模型，还适用于其他模态以及跨模态的场景。缩放定律提出的意义是重大的，根据它研究人员和开发者可以更有效地设计模型架构，选择合适的模型大小和数据集规模，以在有限的计算资源下实现最佳性能。

关于缩放定律的研究，先前的研究主要集中在大语言模型（LLM）上，关于它的争议一直存在：

OpenAI认为[1]，每增加10倍的计算量，应该让数据集大小增加为约1.8倍，模型参数量增加为约5.5倍。换句话说，模型参数量更加重要。

而DeepMind认为[2]，每增加10倍的计算量，应该让数据集大小增加为约3.16倍，模型参数量也增加为约3.16倍。换句话说，数据集大小和模型参数量一样重要。

先前，关于LLM的缩放定律已经被充分研究，而谷歌的最新研究则关注图像生成模型：潜在扩散模型（LatentDiffusionModels，LDMs），从DALL·E到最近大火的Sora，我们都能看到它的影子。但是谷歌的研究结论是：

对于LDMs，在计算资源较少时，如果增加10倍的计算量，应该让数据集大小增加为10倍，而不增加模型参数量。换句话说，数据集大小更加的重要。

照这么说，ScalingLaws又失灵了吗？

小模型的生成质量更好

作者设计了11个文本生成图像的LDM，其参数量从3900万到50亿不等。如下图所示，第一行是模型参数量，第二行是其中Unet模型的第一层宽度，第三和四行分别是模型的GFLOPS（运行一次前向传播和反向传播所需的计算量）和花费（相对于原始866M模型的花费，即假设866M模型的花费为1.00）。

众所周知，模型的总计算量等于训练步骤和GFLOPS的乘积，所以在总计算量恒定的约束下，越大的模型能得到的训练步骤就越少，所以是模型大比较重要还是训练步骤多比较重要呢？

训练步骤多比较重要。在计算资源有限时，较小的模型（训练步骤多）可以胜过较大的模型（训练步骤少）；模型大小以及训练步骤的选择要和计算资源适配。下面给出了一个定性的示例，可以看出小模型的效果更好一些。

但当训练步骤恒定时，依然是模型越大越好，下面给出了一个例子：训练步骤恒为500k，不同体积模型的生成效果。

但大模型更擅长图像细节

使用前面的text2image任务作为预训练任务，分别在超分辨率任务和DreamBooth任务上做微调，发现在超分辨率任务上，相同的计算量，模型越大，FID越低（生成质量越好），而超分辨率任务最考验模型的细节生成能力。

下面是一个定性的例子：

在下面DreamBooth上的表现证明了同样的结论，即大模型更擅长图像细节。

不同体积模型的CFG相关性竟然基本一致

先简单介绍一下CFG：

CFG速率（Classifier-FreeGuidanceRate）是一种在扩散模型中使用的技术，在文本到图像的生成任务中，它通过调整模型在随机生成和文本条件生成之间的平衡来实现这一目标。

扩散模型在生成过程中，通常会从一个纯噪声状态开始，逐步降噪直至产生清晰的图像。在这一过程中，CFG技术引入了一个额外的“引导”步骤，通过该步骤可以更加强烈地推动生成的图像朝着给定文本描述相符合的方向发展，CFG速率定义了这种引导的强度。

具体来说，CFG修改了模型在生成过程中使用的文本信息的权重。CFG速率为0意味着完全不使用文本信息，而较高的CFG速率意味着文本信息对生成过程的影响更大。通过调整CFG速率，可以在图文相关性与图像质量之间找到最佳平衡。

下图是不同模型和采样步骤下，最优的CFG热力图：

你会发现，同一行的颜色基本是一致的，这说明不同体积的模型受CFG的影响是基本一致的，下面给出了一个定性的示例，从左到右的CFG逐渐提高。

虽然下面一行的整体质量比上面好，但是两行从左到右的整体变化趋势基本一样。甚至作者在蒸馏模型中进行同样的实验，依然能得到同样的结论。

模型效率与品质的探索

这项研究无疑将对开发更高效的图像生成AI系统产生深远影响，因为它提出了实现模型效率与质量之间最佳平衡的指导性建议。通过深入探索潜在扩散模型（LDM）的扩展特性及模型大小与性能的关系，研究人员得以精准调整，以达到效率和质量的和谐统一。

这些成果也与AI领域的最新动态相契合，比如LLaMa、Falcon等小型语言模型在多项任务中超越大型对手。这股推动开源、更小巧、更高效模型的发展势头，旨在推动AI技术的民主化，使开发者得以在不依赖庞大计算资源的情况下，于边缘设备上构建个性化的AI系统。

参考资料

[1]KaplanJ，McCandlishS，HenighanT，etal.Scalinglawsforneurallanguagemodels[J]arXivpreprintarXiv:2001.08361，2020.

[2]HoffmannJ，BorgeaudS，MenschA，etal.Trainingcompute-optimallargelanguagemodels[J]arXivpreprintarXiv:2203.15556，2022.

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/157766.html

随机主题

保时捷纯电第二弹，保时捷纯电Macan 山东首富杀入新能源汽车领域, 魏桥集团誓要打造山东汽车品牌终结G1五连败! 独行侠自2021年以来首次赢下系列赛G1 她长得漂亮、演技好, 清华教授等她9年才结婚, 每月给10万零花钱四川蓬安: 农机助农人小麦抢收忙关爱老人免费体检 700多能买到这么顶顶内存？阿斯加特联名华硕实测！当“茉莉花”遇上“红莓花” 中俄文化交流创新不断空军有歼20, 海军有超级航母, 解放军陆军也终于迎来新型重装备?cos 从零开始的异世界生活爱蜜莉雅江苏徐州: 1938年7月, 美国人镜头里的鬼子、汉奸和伪军国内最大的硝盐储能新材料项目开工布林肯喊话伊朗“莱希遇难会让你们日子更好”, 遭到伊民众愤怒反击他曾担任煤炭工业部部长, 奉命组建神华集团, 留下了宝贵精神财富因涉嫌信披违法违规超卓航科及董事长李光平等被警告及罚款小马科斯现身军校, 连放狠话, 终于对中国籍船员出手, 国防部正告茅台的主营业务是什么? 你真的了解吗?《庆余年2》范闲的底牌上线, 原著中最强卧底!JBL万花筒6和哈曼卡顿luna人声对比，有听出哪个好嘛两位老板组团买凯雷德V, 落地400万, 黑白双煞, 暴力美学淋漓尽致郭有才必须停播, 说他是教育界的毒瘤, 其实是名副其实

最新回复(0)