为应对AI训练数据“枯竭” 科技巨头们各显神通

Hawk Insight2024-04-09 10:09:52 60

自从OpenAI挑起人工智能竞赛后，各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大，这些科技巨头正在面临一个新的问题，即训练语料和数据的“枯竭”。

训练数据的“枯竭”

2020年11月，OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年，谷歌推出的新一代语言模型PaLM 2的token已经突破3.6万亿。

随着训练的规模越来越大，科技公司发现可以用于训练的语料和数据已经不多了。

人工智能研究机构Epoch根据训练数据集大小和数据库存的增长预测，到2026年，高质量的语言数据将耗尽。并表示：“如果我们的假设是正确的，那么数据将成为扩展ML（Machine Learning，机器学习）模型的主要瓶颈，我们可能会因此看到人工智能的发展放缓。”

去年，OpenAI的首席执行官萨姆·奥尔特曼（Sam Altman）在一次技术会议上的演讲中也承认，人工智能公司将耗尽互联网上所有可行的数据。

为了能够找到更多新的数据源以供模型不断训练，各大科技公司正在绞尽脑汁。

谷歌

作为硅谷中的AI领头羊之一，谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据。

据报道，去年6月，谷歌开始要求员工扩大使用消费者数据的范围。一些员工被告知，该公司希望使用免费消费者版本的谷歌Docs、Sheets、Slides，甚至Maps上的餐厅评论中的数据。

谷歌于2023年7月更新了隐私政策，但该公司表示并没有扩大用于训练人工智能模型的数据类型。

此外，谷歌还把盯上了旗下视频平台YouTube。

有爆料称，谷歌使用YouTube视频的文字记录来训练其人工智能模型。由于这种做法可能侵犯了YouTube创作者的版权，所以谷歌内部对此选择秘而不宣。

目前，谷歌的规则允许其利用YouTube用户数据为平台开发新功能。但目前尚不清楚谷歌是否可以将YouTube上的数据用于视频平台之外的商业服务，例如聊天机器人。

Berger Singerman律师事务所的知识产权律师杰弗里·洛滕伯格（Geoffrey Lottenberg）表示，谷歌对于YouTube视频记录可以做什么、不能做什么的说法含糊其辞。他说：“这些数据是否可以用于新的商业服务，还有待解释，并可能引发诉讼。”

OpenAI

无独有偶，利用YouTube上的数据来训练的还有OpenAI。

据了解，OpenAI的研究人员创建了一款名为Whisper的语音识别工具。该工具可以转录YouTube视频中的音频，来生成新的对话文本。最终OpenAI团队转录了超过100万小时的YouTube视频。转录的文本被“喂”给了GPT-4，该模型是当前世界上最强大的AI大模型之一。

有消息称，在转录YouTube视频的团队中，还包括OpenAI总裁格雷格·布罗克曼（Greg Brockman），知情人士称，布罗克曼亲自帮助收集了这些视频。

目前，YouTube是禁止将其视频用于“独立”于该视频平台的应用程序。OpenAI此举可能已经违反YouTube的规则。

知情人士表示，一些谷歌员工已经知道OpenAI收集了YouTube视频作为数据，但却没有选择阻止。不阻止的原因自然是谷歌也在利用YouTube的数据来训练其人工智能模型。如果谷歌选择对OpenAI“追究到底”，那么自己的行为也可能会被曝光，进而遭到公众的强烈抗议。

此外，OpenAI还有一个办法来应对训练数据的减少，那就是利用合成数据（Synthetic Data）来训练大模型。

合成数据是指通过数学模型、算法或随机过程生成的数据，这些数据在某些方面与真实数据相似，但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。

去年5月，奥尔特曼就曾表示：“只要你能越过合成数据事件视界，模型就足够智能，可以生成良好的合成数据，一切都会好起来的。”

利用合成数据训练人工智能系统的问题在于，它可能会强化人工智能的一些错误和局限性。据报道，OpenAI正在研究一种解决此问题的流程，即一个人工智能模型生成数据，另一个人工智能模型对相关数据进行判断。

一些人工智能专家却警告称，应谨慎使用合成数据，因为它是真实数据的“扭曲版本”。然而，这种使用合成数据的趋势似乎难以扭转。咨询公司Gartner估计，到2030年，人工智能模型中的合成数据将超过真实数据。

Meta

据悉，从去年二季度开始，Meta内部高层就对可训练数据的减少感到十分担忧，并多次进行讨论以寻求更多替代方案。

根据一份内部会议录音，Meta负责生成性人工智能的副总裁艾哈迈德·达赫勒（Ahmad Al-Dahle）表示，他的团队几乎利用了互联网上所有可用的英文书籍、散文、诗歌和新闻文章。

达赫勒进一步表示，除非获得更多数据，否则Meta无法与ChatGPT相媲美。2023年3月和4月，该公司的一些业务开发负责人、工程师和律师几乎每天都会开会解决这个问题。

尽管Meta运营着庞大的社交网络，但该公司并没有太多优质数据可供使用。因为旗下的社交平台并不是人们会撰写高质量文章内容的地方。

在Meta的讨论中，有人提到，可以收购知名出版社Simon&Schuster。这家出版社曾与多位作家合作，并于去年被私募股权公司KKR以16.2亿美元收购。如果不收购该出版社，也可以通过每本书支付一定的价格以获得整本书的内容完全许可权。

数据库成新的“金库”

随着人工智能公司对训练数据的渴求，市场上也开始出现了一些“人工智能数据交易”。有的企业通过将旗下数据卖给科技公司来赚钱。

Photobucket是一家世界知名的图像托管网站，曾拥有约7,000万用户，占据美国在线照片市场近一半的份额。但根据第三方数据，如今只有200万人在使用Photobucket。在AI热潮来临之际，这家企业迎来了“第二春”。

Photobucket的首席执行官泰德·莱纳德（Ted Leonard）在接受采访时表示，他正在与多家科技公司进行谈判，以授权Photobucket的130亿张照片和视频用于训练生成式AI模型。

据莱纳德透露，每张照片的价格在5美分到1美元之间，视频的价格较高，每个视频可卖超过1 美元。不过具体价格会因买家和所寻求的图像类型而异。

此外，另一家图片提供商Shutterstock也表示，在ChatGPT于亮相后的几个月内，Meta、谷歌、亚马逊和苹果等公司都与其达成协议，以使用其库中的数亿张图片、视频和音乐文件进行训练。

Shutterstock首席财务官贾罗德·亚赫斯（Jarrod Yahes）称，与大型科技公司的交易最初每笔交易金额为2,500万美元至5,000万美元，但大多数企业后来都扩大了交易规模。亚赫斯补充说，小型科技公司也纷纷效仿，在过去两个月里引发了新一轮的购买热潮。据悉，Shutterstock的早期客户就包括OpenAI。

据Business Research Insights研究人员预测，目前人工智能数据市场规模可能达到25亿美元，十年内这一数字还可能增长至300亿美元。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/166379.html

随机主题

15万预算, 卡罗拉, 还是亚洲龙?保时捷纯电第二弹，保时捷纯电Macan 业内人士点评中超：观赏性提高，但节奏很慢，没接近现代足球！距离发布还有4个月！值得期待吗？要不要入手莱希坠机原因找到了？或离不开这一国，细节罕见公布，局势恐变天电脑时间日期不自更新了怎么办？为什么每次开机时间都不对？真正厉害的人在这方面做得都很“绝”内蒙古乌海：“五个结合”做细做实常态化联系退役军人工作今年荔枝让人“高攀不起”? 整体减产, 妃子笑已经降价四海八荒第一美人。乌克兰宣布参加巴黎奥运会。但对代表团提出了一个严苛的条件。爆笑漫画《阿U校园爆笑王》、免费奶茶、雪极星滑雪体验券, 橙柿福利爆款上新 | 橙柿福利 Sensor Tower: 4月全球热门移动游戏收入TOP10出炉 Scopely《Monopoly GO! 》蝉联冠军苹果倒在手机AI时代?国内首台甲醇双燃料低速机在中船发动机成功交验红米Turbo3直降300元？1699告诉你什么叫“生死看淡，不服就干”因涉嫌信披违法违规超卓航科及董事长李光平等被警告及罚款牟林: 美国悍然提出杀人双标, 国际刑事法院逮捕以总理博弈白热化 vivo XFold 3 Pro低价版: 折叠屏旗舰的亲民体验 Kpop 现役大型女团 Triple S！！！谁能懂！MV的概念真的很绝！！！逆水寒手游制作人的万字发言稿, 让玩家彻底折服: 不玩没天理!

最新回复(0)