为应对AI训练数据“枯竭” 科技巨头们各显神通

Hawk Insight2024-04-09 10:09:52  60

自从OpenAI挑起人工智能竞赛后,各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大,这些科技巨头正在面临一个新的问题,即训练语料和数据的“枯竭”。

训练数据的“枯竭”

2020年11月,OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年,谷歌推出的新一代语言模型PaLM 2的token已经突破3.6万亿。

随着训练的规模越来越大,科技公司发现可以用于训练的语料和数据已经不多了。

人工智能研究机构Epoch根据训练数据集大小和数据库存的增长预测,到2026年,高质量的语言数据将耗尽。并表示:“如果我们的假设是正确的,那么数据将成为扩展ML(Machine Learning,机器学习)模型的主要瓶颈,我们可能会因此看到人工智能的发展放缓。”

去年,OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)在一次技术会议上的演讲中也承认,人工智能公司将耗尽互联网上所有可行的数据。

为了能够找到更多新的数据源以供模型不断训练,各大科技公司正在绞尽脑汁。

谷歌

作为硅谷中的AI领头羊之一,谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据。

据报道,去年6月,谷歌开始要求员工扩大使用消费者数据的范围。一些员工被告知,该公司希望使用免费消费者版本的谷歌Docs、Sheets、Slides,甚至Maps上的餐厅评论中的数据。

谷歌于2023年7月更新了隐私政策,但该公司表示并没有扩大用于训练人工智能模型的数据类型。

此外,谷歌还把盯上了旗下视频平台YouTube。

有爆料称,谷歌使用YouTube视频的文字记录来训练其人工智能模型。由于这种做法可能侵犯了YouTube创作者的版权,所以谷歌内部对此选择秘而不宣。

目前,谷歌的规则允许其利用YouTube用户数据为平台开发新功能。但目前尚不清楚谷歌是否可以将YouTube上的数据用于视频平台之外的商业服务,例如聊天机器人。

Berger Singerman律师事务所的知识产权律师杰弗里·洛滕伯格(Geoffrey Lottenberg)表示,谷歌对于YouTube视频记录可以做什么、不能做什么的说法含糊其辞。 他说:“这些数据是否可以用于新的商业服务,还有待解释,并可能引发诉讼。”

OpenAI

无独有偶,利用YouTube上的数据来训练的还有OpenAI。

据了解,OpenAI的研究人员创建了一款名为Whisper的语音识别工具。该工具可以转录YouTube视频中的音频,来生成新的对话文本。最终OpenAI团队转录了超过100万小时的YouTube视频。转录的文本被“喂”给了GPT-4,该模型是当前世界上最强大的AI大模型之一。

有消息称,在转录YouTube视频的团队中,还包括OpenAI总裁格雷格·布罗克曼(Greg Brockman),知情人士称,布罗克曼亲自帮助收集了这些视频。

目前,YouTube是禁止将其视频用于“独立”于该视频平台的应用程序。OpenAI此举可能已经违反YouTube的规则。

知情人士表示,一些谷歌员工已经知道OpenAI收集了YouTube视频作为数据,但却没有选择阻止。不阻止的原因自然是谷歌也在利用YouTube的数据来训练其人工智能模型。如果谷歌选择对OpenAI“追究到底”,那么自己的行为也可能会被曝光,进而遭到公众的强烈抗议。

此外,OpenAI还有一个办法来应对训练数据的减少,那就是利用合成数据(Synthetic Data)来训练大模型。

合成数据是指通过数学模型、算法或随机过程生成的数据,这些数据在某些方面与真实数据相似,但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。

去年5月,奥尔特曼就曾表示:“只要你能越过合成数据事件视界,模型就足够智能,可以生成良好的合成数据,一切都会好起来的。”

利用合成数据训练人工智能系统的问题在于,它可能会强化人工智能的一些错误和局限性。据报道,OpenAI正在研究一种解决此问题的流程,即一个人工智能模型生成数据,另一个人工智能模型对相关数据进行判断。

一些人工智能专家却警告称,应谨慎使用合成数据,因为它是真实数据的“扭曲版本”。然而,这种使用合成数据的趋势似乎难以扭转。咨询公司Gartner估计,到2030年,人工智能模型中的合成数据将超过真实数据

Meta

据悉,从去年二季度开始,Meta内部高层就对可训练数据的减少感到十分担忧,并多次进行讨论以寻求更多替代方案。

根据一份内部会议录音,Meta负责生成性人工智能的副总裁艾哈迈德·达赫勒(Ahmad Al-Dahle)表示,他的团队几乎利用了互联网上所有可用的英文书籍、散文、诗歌和新闻文章

达赫勒进一步表示,除非获得更多数据,否则Meta无法与ChatGPT相媲美。2023年3月和4月,该公司的一些业务开发负责人、工程师和律师几乎每天都会开会解决这个问题。

尽管Meta运营着庞大的社交网络,但该公司并没有太多优质数据可供使用。因为旗下的社交平台并不是人们会撰写高质量文章内容的地方。

在Meta的讨论中,有人提到,可以收购知名出版社Simon&Schuster。这家出版社曾与多位作家合作,并于去年被私募股权公司KKR以16.2亿美元收购。如果不收购该出版社,也可以通过每本书支付一定的价格以获得整本书的内容完全许可权。

数据库成新的“金库”

随着人工智能公司对训练数据的渴求,市场上也开始出现了一些“人工智能数据交易”。有的企业通过将旗下数据卖给科技公司来赚钱。

Photobucket是一家世界知名的图像托管网站,曾拥有约7,000万用户,占据美国在线照片市场近一半的份额。但根据第三方数据,如今只有200万人在使用Photobucket。在AI热潮来临之际,这家企业迎来了“第二春”。

Photobucket的首席执行官泰德·莱纳德(Ted Leonard)在接受采访时表示,他正在与多家科技公司进行谈判,以授权Photobucket的130亿张照片和视频用于训练生成式AI模型。

据莱纳德透露,每张照片的价格在5美分到1美元之间,视频的价格较高,每个视频可卖超过1 美元。不过具体价格会因买家和所寻求的图像类型而异。

此外,另一家图片提供商Shutterstock也表示,在ChatGPT于亮相后的几个月内,Meta、谷歌、亚马逊和苹果等公司都与其达成协议,以使用其库中的数亿张图片、视频和音乐文件进行训练。

Shutterstock首席财务官贾罗德·亚赫斯(Jarrod Yahes)称,与大型科技公司的交易最初每笔交易金额为2,500万美元至5,000万美元,但大多数企业后来都扩大了交易规模。亚赫斯补充说,小型科技公司也纷纷效仿,在过去两个月里引发了新一轮的购买热潮。据悉,Shutterstock的早期客户就包括OpenAI。

据Business Research Insights研究人员预测,目前人工智能数据市场规模可能达到25亿美元,十年内这一数字还可能增长至300亿美元。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/166379.html
0
随机主题
15万预算, 卡罗拉, 还是亚洲龙?保时捷纯电第二弹,保时捷纯电Macan业内人士点评中超:观赏性提高,但节奏很慢,没接近现代足球!距离发布还有4个月!值得期待吗?要不要入手莱希坠机原因找到了?或离不开这一国,细节罕见公布,局势恐变天电脑时间日期不自更新了怎么办?为什么每次开机时间都不对?真正厉害的人 在这方面做得都很“绝”内蒙古乌海:“五个结合”做细做实常态化联系退役军人工作今年荔枝让人“高攀不起”? 整体减产, 妃子笑已经降价四海八荒第一美人。乌克兰宣布参加巴黎奥运会。但对代表团提出了一个严苛的条件。爆笑漫画《阿U校园爆笑王》、免费奶茶、雪极星滑雪体验券, 橙柿福利爆款上新 | 橙柿福利Sensor Tower: 4月全球热门移动游戏收入TOP10出炉 Scopely《Monopoly GO! 》蝉联冠军苹果倒在手机AI时代?国内首台甲醇双燃料低速机在中船发动机成功交验红米Turbo3直降300元?1699告诉你什么叫“生死看淡,不服就干”因涉嫌信披违法违规 超卓航科及董事长李光平等被警告及罚款牟林: 美国悍然提出杀人双标, 国际刑事法院逮捕以总理博弈白热化vivo XFold 3 Pro低价版: 折叠屏旗舰的亲民体验Kpop 现役大型女团 Triple S!!!谁能懂!MV的概念真的很绝!!!逆水寒手游制作人的万字发言稿, 让玩家彻底折服: 不玩没天理!
最新回复(0)