“大家相互薅羊毛,要用,但要小心用,一不小心就尴尬了。”一位国产大模型算法工程师在接受“甲子光年”采访时的吐槽,可以说是非常到位了。
它准确地阐述AI业内一个所有人“心照不宣”的公开秘密。
所有人都知道,大家却都尽量不“直视”它,那就是“偷数据”。
最近,“TheInformation”戳破了这层纱,道出大模型“套壳”中最糟糕的一种形态。而它背后的数据之战,也在今年获得了更多关注。
让模型走向同质化的“数据捷径”
“如果所有人都用一样的数据,你又怎么会比其他人好呢?”投资了OpenAI竞争对手Anthropic的门罗风投(MenloVentures)总经理MattMurphy评论道。
大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。
在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。
显然,不是所有初创企业都能给得起这个费用和时间。所以很多创业公司会跳过第一步,直接用Meta或MistralAI开源的模型。
在这个基础上,创业公司需要针对自己的产品专注方向来对模型进行微调——数据输入量相对少,但更具针对性和高质量,可以帮助模型成为特定领域的“专家”,做出产品差异性。
在这个阶段,开发者需要输入“问题”“回答”,试图为模型建立特定“联想”倾向。
这也是“偷数据”出现的环节。
因为OpenAI、Anthropic和Google这类大公司有资源去完善地完成两个阶段的训练,所以它们的模型所输出的结果质量也相对较高。
缺乏自有数据的初创公司,会购买GPT-4这类最新模型的付费账户,然后根据自己模型训练的需要去向GPT-4提问,再把回答和提问问题一并输入到模型训练。
譬如,主打编程细分领域模型的开发者可以直接输入一段代码,然后问GPT-4这段代码有什么问题,这样就生成了一个数据材料。
理论上,大公司们并不允许如此操作。
然而,有消息称OpenAI的SamAltman在去年的一次会议上对创业者说,他们可以这样去做。这固然让当下的创业者安心了一些,但谁也说不准哪天Altman就决定要把这“特权”收回去。
Google去年也有自己的“数据门”——不仅被指用百度的文心一言生成的中文数据来训练Gemini,还有员工因Google用ChatGPT生成的数据训练自己的模型怒而辞职。
在行业整体“默许”下,这种情况变得越来越普遍。
帮助开发者研发对话式AI的UnslothAI联合创始人DanielHan表示,其客户中大概有一半的人都会用GPT-4或者Anthropic的Claude生成的数据来优化自己的模型。
原本用来分享有趣ChatGPT对话的工具ShareGPT成为了不少公司直接扒数据的地方,而类似OpenPipe这类工具则甚至可提升整个过程的自动化程度。
结果就是,现在市面上有越来越多创业公司提供大同小异的模型。这甚至衍生出如旧金山的Martian一般,专门为需要用AI服务的企业寻找“平替”方案的创业公司。
但投资人并不喜欢这种被欺骗的感觉。
正如《纽约时报》在最近文章的指出,目前AI行业缺乏标准和评测体系,人们很难统一标准地了解不同模型的表现差异或优势所在。
这让投资人更重视AI创业公司训练数据的来源。RadicalVentures合伙人RobToews强调说:
AI模型训练数据的质量和来源已经成为其中一个最重要的热点关注之一。没人知道未来会怎样,但任何在数据来源上不谨慎或不具备策略性的AI创业公司都将落后。
数据大战中,“沉默”成为了共鸣
如果说“缺芯”是2023年AI行业的共识,那“缺数据”则是2024年的新主题。不仅创业公司缺,大公司更缺。
无论体量是大还是小,为了获得数据,这些公司都开始在灰色地带徘徊。
早在2021年,OpenAI就面临了数据短缺问题。
虽然有员工提出行为不当性忧虑,最后OpenAI还是写了一个语音转文字工具Whisper来将超过100万小时的YouTube视频转为文字,用作GPT-4训练。
在这次行动中,OpenAI总裁GregBrockman还亲自出马帮忙收集视频。
知情人士透露,当Google发现OpenAI的所作所为后,它并没有揭发斥责这些侵害创作者版权的行为,因为,Google也要做同样的事情。
Google发言人MattBryant回应称,公司对OpenAI的行为并不知情,且严禁未经授权的数据抓取。
除了YouTube以外,三位知情人士表示,Google也在盯着旗下线上协作文档工具GoogleDoc里的数据,但其隐私政策限制了Google使用这些数据的方式。
去年7月,Google更新了隐私政策,明说可通过收集网络上的公开信息或来自其他公共来源的信息来训练AI模型。
对于在AI领域“起了大早却赶了个晚集”的Meta来说,虽然有法务曾警告过版权问题,最后也是决定跟随OpenAI的“行业先例”去使用有版权保护的书籍、文章等材料。
泄露出来的录音还表明,Meta高管们一致同意,出事了可用2015年作家协会诉Google案失败的先例来辩护。
至于看起来应该是Meta最大优势的Facebook和Instagram,事实上可用数据并不多,很多Facebook用户都删掉了自己早期发布的内容,而社交媒体通常也不是人们爱用来发布长篇内容的地方。
这些巨头们不愿言说的过往,构成了AI行业在训练数据上一致的闪烁其辞。
Adobe算是其中鲜有积极讨论自家模型训练数据的大公司。
最近,它也“塌房”了。
Adobe一直以来标榜公司是和创作者站在同一边,坚定只使用自家获得授权的图库来训练模型,不会像Midjourney、Dall-E那样擅自用有版权保护的图像素材训练。
直到有人发现,Adobe的训练数据里其实包括AI生成图片,而且Adobe也是知情的。
虽然Adobe强调,模型的训练数据里只有5%左右的图像是AI生成的,但无论如何那些图像也是通过侵害创作者版权利益而造的文生图模型做出来的,因此并不完全“道德”。
这个月初,Adobe高级副总裁AshleyStill还在一场公开活动上说:
“我们在推出Firefly时,有企业用户会来跟我们说:‘我们很爱你们在做的事,真的非常感激你没有盗取我们在网上的知识产权。’”
不知道“塌房”消息出来后,这位企业用户会作何感想。
“榨干”互联网后,下一步在哪?
我们曾以为互联网“浩瀚无垠”,直到现在大语言模型已经“吃不饱”。
两年前,研究机构Epoch的PabloVillalobos指出,高质量数据很有可能会在2024年中期出现需求超过供给。他们现在乐观了一点,认为这个情况会在2028年才出现。
即便如此,OpenAI现在可能也已经在行动了。
Epoch估算,GPT-4所用训练数据约为12万亿token,根据尺度定律(ScalingLaw),要训练出被寄予厚望的GPT-5大概要60-100万亿token。
如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差10-20万亿token。
改变迫在眉睫。
SamAltman之前也暗示过,OpenAI在找寻新的出路:
“我想,那个追求庞大模型的时代已经快要到头了。我们将用其他方法来让它们变得更好。”
与此同时,消息人士称OpenAI和Google都考虑做一套可以丈量特定数据对模型训练贡献程度的系统,这样好给提供这些数据的人计算要支付的费用,但目前还没有什么进展。
而在这些开拓数据和创新技术实现之前,有一件事AI创业公司现在就有能力但不一定愿意做的事——提高透明度,打破沉默。
如果这也做不到,我们又怎能相信这些公司能做出对社会负责任的AI产品?
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/289712.html