编者按:当地时间9月25日, 硅谷顶级风投a16z合伙人David George对话Scale AI创始人兼首席执行官Alexandr Wang(左),就大模型竞争、数据扮演的关键作用等话题进行了讨论。
Alexandr Wang在访谈中表示,模型竞争正进入第三个新阶段,研究将再次变得至关重要。同时,这一阶段的一个标志将是数据生产。“每个实验室将使用什么方法来生成所需的数据,以达到下一阶段的智能水平,并如何实现数据的丰富性。“
Alexandr Wang还认为,模型推理价格在两年内下降了两个数量级,是一件非常令人震惊的事情,这可能表明单纯租赁模型业务可能不会是一个非常优质的长期业务。
PS:如果不了解Scale AI ,可以先看背景材料,如果了解,请直接略过看下面的访谈内容,enjoy:
Scale AI及其创始人背景材料
Scale AI是一家成立于2016年的人工智能公司,专注于为AI模型提供训练数据的数据标注服务。公司的创始人是年仅19岁就从麻省理工学院(MIT)辍学的华裔天才少年 Alexandr Wang。
《福布斯》杂志报道称,Alexandr Wang生于1997年1月19日,出生在新墨西哥州的洛斯阿拉莫斯。他的父母是中国移民,在新墨西哥州的洛斯阿拉莫斯国家实验室担任物理学家。
Wang 在高中时期就展现出了非凡的编程天赋,于18岁考入麻省理工学院,主攻机器学习。然而,正当他在MIT及其光辉的学术前景中徘徊时,他做出了一个大胆的决定:辍学创业。2016年,他与合伙人Lucy Guo联合创办了ScaleAI,力求解决人工智能数据标注的难题。
Scale AI 的业务主要是利用软件和人工为创建机器学习算法的公司处理和标注图像、激光雷达和地图数据,服务于自动驾驶汽车技术研发公司,以及Airbnb、Pinterest 和 OpenAI 等。
Scale AI 在2021年的估值约为73亿美元,并在2024年5月完成了新一轮10亿美元融资,估值飙升至138亿美元。投资机构除了亚马逊、Meta、英伟达、老虎全球管理、Coatue、Y Combinator, Index Ventures、Founders Fund等原有投资者外,最新轮次的融资还吸引了新的投资者,如思科、英特尔和AMD等企业的风投机构。
Wang 认为数据是AI模型成功的关键,并且随着模型的增大,对数据的需求也呈现指数级增长。他创办Scale AI的初衷是为了解决人工智能中的数据问题。Scale AI 通过构建“数据铸造厂”,推动了L4级自动驾驶的发展,并为前沿的LLM(大型语言模型)提供数据支持。
日前,媒体报道称,Scale 今年上半年的销售额几乎翻了两番,达到近 4 亿美元。Wang 在 X 上发帖称,Scale的年化收入已达到 “近10亿美元”。
根据福布斯统计,Wang目前身价约为 20 亿美元。
以下是a16z合伙人David George与Scale AI 创始人兼首席执行官Alexandr Wang的访谈内容节选:
David George:我们今天非常高兴能邀请到 Scale AI 的创始人兼 CEO Alex Wang 与我们一同讨论。Alex,谢谢你能来。
Alexandr Wang:谢谢你们的邀请。
David George:我总是很喜欢和你交谈,每次都能学到很多。那么,不如先从你正在 Scale AI 做的事情开始谈起,然后我们再深入讨论。
Alexandr Wang:好的。在 Scale,我们正在为AI构建数据工厂。退一步讲,AI 发展可以归结为三个支柱:计算、数据和算法,所有进步都是在这三大支柱上取得的。计算由像 NVIDIA 这样的人推动,算法的进步则由 OpenAI 等大型实验室引领,而数据则由 Scale 提供。我们的目标是生产前沿数据,支持前沿 AI 进步,并与所有大型实验室合作,还要让每个企业和政府都能利用他们自己的专有数据,推动他们的前沿 AI 开发。
David George:那关于前沿数据,实际操作中你们是如何获取这些数据的?
Alexandr Wang:我认为,这可能是我们这个时代最伟大的人类工程之一。如果这样说可以理解的话。我觉得,世界上唯一可以为我们提供想要创造的这种智能模型的参考,是人类。所以,前沿数据的生产看起来像是人类专家与技术和算法模型之间的一种结合,生产出大量这样的数据。顺便说一句,至今为止我们生成的所有数据,互联网的运作也类似。互联网在很多方面都是机器与人类的合作,产生了大量内容和数据。如果把互联网不仅仅作为一种人类娱乐工具,而是一个大规模的数据生成实验,那将会怎样?
David George:你对行业现状有一个非常独特的视角。你会如何描述当前语言模型的状态呢?我很想谈谈市场结构之类的话题,但我们先聊聊行业现状吧。
Alexandr Wang:是的,我认为我们正接近语言模型开发的第二阶段的结束。第一阶段是几乎纯研究的早期阶段。这一阶段的标志性事件是原始的Transformer 论文和 GPT 的小规模实验,直到 GPT-3 的出现,都是这一阶段的成果,全是研究,专注于小规模的试验和算法进步。
接下来,GPT-3 到现在的第二阶段,实际上是初步扩展阶段。我们看到了 GPT-3 的良好效果,然后 OpenAI 开始扩展这些模型,推出了 GPT-4 及更高版本。许多公司如谷歌、Anthropic、Meta 和 XAI 也加入了这一扩展竞赛,将这些模型的能力提升到令人难以置信的水平。所以在过去的两年多时间里,或者说大约三年时间,这几乎都是在执行层面上的工作:如何使大规模训练顺利进行?如何确保代码中没有奇怪的 bug?如何设置更大的集群?基本上是执行性的工作,最终达到了我们今天所拥有的高级模型。
然后,我认为,我们正进入一个阶段,研究将再次变得至关重要。我认为,各个实验室在选择研究方向上会出现更多的分化,并且不同时间段会出现各种突破。这是一个令人兴奋的交替阶段,可能是纯粹的执行和创新推动周期的交替。
David George:他们已经达到一个阶段,不能说计算资源是充裕的,但已经有足够的计算资源来训练这些模型,计算资源已经不再是限制条件了。他们已经用尽了所有可用的公开数据。所以接下来将会是数据方面的突破,是这样吗?
Alexandr Wang:是的,基本上如果你看看支柱,计算方面我们显然正在继续扩展训练集群,所以这个方向很明确。在算法方面,我认为需要进行大量创新。坦率地说,我认为很多实验室正在努力推进这一点的纯研究工作。至于数据,你提到了,我们已经用尽了所有易于获取和可用的数据。
David George:是的,Common Crawl(公共爬虫数据)都已经被利用完了,大家都能访问这些数据。
Alexandr Wang:没错。所以现在很多人在讨论所谓的数据墙,我们已经利用了所有公开可用的数据。这一阶段的一个标志将是数据生产。每个实验室将使用什么方法来生成所需的数据,以达到下一阶段的智能水平,并如何实现数据的丰富性。
我认为这需要几个领域的高级研究和工作。我认为首先是推进数据的复杂性,向前沿数据迈进。我们希望在模型中构建的许多能力,其最大障碍实际上是缺乏数据。例如,过去两年一直流行的关键词是“代理”(agents),但实际上没有哪个代理真正起作用。事实证明,互联网上根本没有代理数据的聚合池,几乎没有有价值的代理数据储存在任何地方。所以我们必须想办法生产出非常高质量的数据。
David George:你能举个例子说明你们需要生成什么样的数据吗?
Alexandr Wang:是的,我们即将发布一些相关的研究成果,目前来看,所有前沿模型在组合工具方面表现不佳。如果它们需要使用一个工具,然后再使用另一个工具,比如查找信息、编写一个小的 Python 脚本,再绘制图表,它们在连续使用多个工具时表现非常糟糕。而这是人类自然就能做到的事情。
David George:但是这样的行为并没有被记录下来,对吗?这是你的观点吗?所以你无法捕捉到某人从一个窗口切换到另一个窗口、再到另一个应用程序的过程,并将这些数据输入到模型中进行学习。
Alexandr Wang:正是如此。这些推理链,通过人类在解决复杂问题时,自然会使用多个工具,思考问题,推理出接下来需要做什么,遇到错误和失败后,我们会重新审视和考虑。这种推理链、代理链,今天的数据并不存在。这就是一个需要生产的数据例子。但如果回到数据问题的大局上来,首先是增加数据的复杂性,向前沿数据迈进。其次是数据的丰富性。
David George:增加数据的生产量,因此需要捕捉更多人类在实际工作中的行为数据。
Alexandr Wang:是的,捕捉更多人类的行为,同时我认为也需要投资于合成数据,比如混合数据,利用合成数据,同时让人类参与其中,以便能够生成更多高质量的数据。我们基本上需要像对待芯片一样,讨论芯片工厂,确保我们有足够的芯片生产能力。同样的道理也适用于数据。我们需要数据工厂,能够生成大量数据,推动模型的训练。
我认为,最后一个往往被低估的支柱是模型的测量,确保我们有一个科学的评估方式。在过去的一段时间里,整个行业几乎是在“添加更多数据,看看模型有多好”的模式下运作,但我们将不得不变得更科学一些,明确模型现在哪些方面不够好,因此需要添加哪些特定类型的数据来提升模型的性能。
David George:那么,科技巨头公司在他们庞大的数据资产方面,相对于独立实验室有多大优势?
Alexandr Wang:嗯,他们在利用现有数据资产方面有很多监管问题,比如你可以看到,这在生成式 AI 之前就已经显现出来了。曾经有一段时间,Meta 利用几乎所有的 Instagram公共照片及其标签来训练非常优秀的图像识别算法。
但这在欧洲遇到了巨大的监管问题,最终成了一件非常麻烦的事情。所以我认为,在监管层面,尤其是在欧洲,科技巨头是否能有效利用他们的数据优势,这仍是一个待定的问题。
我认为,许多大型实验室拥有显著优势的真正原因在于,他们拥有非常盈利的业务,能够为这些 AI 计划提供近乎无限的资本资源。我对此非常感兴趣,想看看未来的情况会如何发展。
David George:目前整个行业有一个问题:这些公司是否在过度投资?但如果你听这些科技巨头的财报电话会议,他们的说法是:“我们的风险是投资不足,而不是投资过度。”你对此有何看法?
Alexandr Wang:是的,如果你从这些公司的CEO角度来思考,比如你站在Sundar Pichai、Mark Zuckerberg 或者 Satya Nadella 的立场上,你会发现,如果他们能够真正抓住这次 AI 机遇,他们很可能会非常轻松地再创造出一万亿市值。
如果他们领先于竞争对手,并将 AI 技术很好地产品化,实现一万亿市值并不难。如果他们不投资每年额外的 200 亿或 300 亿美元的资本支出,错过了这次机会,那么对于这些大型科技公司而言,会面临真正的生存风险。
他们的业务都有可能被技术深刻颠覆。所以从风险收益角度来看,对他们来说,投入是显而易见的。而且我认为,从更实际的层面来说,最坏的情况之下,这些公司都能够通过改进核心业务轻松收回他们的资本投资。
David George:举个例子,Facebook 的广告系统 GPU 利用率。
Alexandr Wang:是的,Facebook 和 Google 如果能稍微改进他们的广告系统,就能通过性能的提高收回数十亿美元。Apple 如果能推动一次设备升级周期,也能轻松收回这些投资。所以这些都是相当明确的。
David George:总的来说,这对整个行业都是好事,因为这些大公司投入了大量资本,他们也会将这些计算资源租给其他企业,至少谷歌和微软是这样做的。
Alexandr Wang:这些模型逐渐公开,比如 LAMA 3.1 是开源的,因此,这些投资的成果变得更加广泛可及。开源模型带来的剩余价值简直令人惊讶。
David George:没错,非常惊人。那么,这正好引出我们下一个话题,即模型层面的市场结构。你认为未来的市场格局会怎样?是我们已经识别出的少数几家公司在竞争吗?你认为这是一个盈利的业务吗?开源对这些业务的质量有什么影响?带我们展望未来几年,分享你的预测吧。
Alexandr Wang:在过去的一年半时间里,我们看到模型推理的价格大幅下降,下降的速度令人震惊。在两年内下降了两个数量级。所以这是一件非常令人震惊的事情,表明智能可能会变成一种商品。但实际上,这种巨大的价格压力,尤其是在纯模型层面,确实表明单纯租赁模型业务可能不会是一个非常优质的长期业务。我认为这很可能只是一个相对平庸的业务。
David George:我猜这也取决于某些突破的实现,是吗?这是你之前提到的关键点吧?如果某些实验室真的实现了持久的技术突破,或者多家实验室实现了类似的突破,市场结构可能会改变。
Alexandr Wang:是的,有两件事。一,如果 Meta 继续开源模型,这对模型层面业务的价值设定了一个很高的上限。其次,如果至少有一些实验室能够在性能上长期保持一致,那也会显著改变定价结构。所以我们认为,虽然不是百分百确定,但可能性很大的是,单纯依赖模型租赁的业务不会是最优质的业务。
但在模型层之下和之上却有着更高质量的业务。 模型之下,比如 NVIDIA 是一家非常出色的公司,而云服务提供商的业务也很棒,因为事实上要搭建大规模 GPU 集群的后勤工作相当困难,所以云服务提供商在出租这些资源时有很高的利润率
David George:是的,传统的数据中心业务也是规模经济的游戏。
Alexandr Wang:对,没错。所以在模型层之下,如果你提供“镐子和铲子”(即基础设施),那就会是很好的生意。而在模型层之上,如果你构建应用程序,比如 ChatGPT 这类产品,那也是非常出色的业务。许多初创公司也做得不错,虽然没有哪家公司的规模像 ChatGPT 那么大,但如果它们在早期产品市场契合度 PMF上表现得好,依然能成为很棒的公司,因为它们为客户创造的价值远远超过了模型推理的成本。
这里有一些很有趣的趋势,比如 Anthropic 最近推出的 Artifact 是第一个标志,显示所有的实验室都将推动更深层的产品集成,以建立更高质量的业务。我认为我们将会看到更多的产品层面的迭代和创新。所谓的“无聊的聊天机器人”并不会是最终的产品形态。
David George:对,那会是一个令人失望的结果。
Alexandr Wang:是的,完全正确。所以我认为产品的迭代和创新周期是非常难以预测的。比如 OpenAI 的 ChatGPT 刚推出时效果非常好,这一点让我感到惊讶。我认为整个行业,甚至业内人士都不确定哪些产品会成功,以及哪些产品会推动下一阶段的增长。但你必须相信,像 OpenAI 或 Anthropic 这样的公司能够建立起很好的应用型业务,才能让它们在长期内保持独立并实现可持续发展。
David George:是的,确实如此。然后问题就变成了什么驱动了竞争优势。显然,模型是一个关键,但与其紧密集成的产品层,及其在工作流、集成等方面的优势,仍然是重要的竞争壁垒。
Alexandr Wang:从他们的行为中可以明显看出,他们已经意识到这一点,比如 OpenAI 和 Anthropic 都在几个月前聘请了首席产品官。
David George:是的,他们正在寻找解决方案。而且他们的语气也发生了变化,最初非常专注于技术,现在逐渐意识到产品也是关键。我觉得这个认知已经到位了。
Alexandr Wang:完全正确,很有道理。
David George:你自己也有一个应用型业务,并且拥有一些非常有趣的客户。你听到的企业在实践中是如何实施这些 AI 技术的呢?
Alexandr Wang:我们观察到的是,企业对 AI 充满了巨大的热情。许多企业觉得自己必须迅速行动,必须赶在潮流之前,开始实验 AI。我认为这导致了一个快速的概念验证(POC)周期,他们会去尝试所有低垂的果实,看看能用 AI 做什么。
David George:是的,买一些 AI 产品回来看看效果如何。
Alexandr Wang:对,他们会去尝试所有的东西。有些确实不错,有些则不尽如人意。但无论如何,整个行业都经历了一场狂热。然而,进入生产环境的 POC 数量远远少于预期。很多企业现在回过头来看,发现原本担心的末日情景并没有发生——AI 并没有完全改造和重塑大多数行业。
David George:是的,AI 的影响更像是边际效益,提升了效率,尤其是在支持和一些创意任务方面。
Alexandr Wang:没错,正是如此。我们思考很多的问题是:我们正在进行的哪些 AI 改进和转型,能够真正显著提升客户公司的股价?
David George:哦,这个问题很有趣。
Alexandr Wang:是的,这是我们鼓励客户考虑的核心问题。因为归根结底,每个企业都有潜力通过实施 AI 来提升其股价。
David George:这种提升大部分来自于成本节约,是吗?
Alexandr Wang:目前来说,确实大部分都是通过成本节约实现的,但未来也会提升客户体验。我认为在一些需要大量人工与客户互动的行业中,如果能够实现更标准化的服务和更多的自动化,你可以显著提升客户体验,这最终会转化为市场份额的增加。我们就是在引导客户朝这个方向发展。
我见过我们合作的一些CEO,他们对此完全赞同,并明白这是一项长期投资。他们可能不会在下个季度就看到回报,但如果坚持下去,他们将看到巨大的转型。
我认为,围绕小规模用例和边际用例的热潮是好的,令人兴奋,我认为他们应该去做。但对我来说,这不是我们最终的目标。
David George:是的,目前应用层面更像是第一阶段,主要是一些自动化任务,像聊天机器人之类的东西。我作为一家初创公司的投资者,期待的是,随着时间推移,产品创新将为初创公司赢得胜利,并击败那些大公司。我合伙人有一句话,他说的是:“初创公司能否在大公司找到创新之前,率先实现分销?”我觉得这个机会是存在的,但目前技术还太早。你同意这个观点吗?你觉得技术还太早,难以实现这种转型吗?
Alexandr Wang:我同意,现在技术主要是在节省成本上有帮助。如果大部分的好处来自于成本节约,那还不足以颠覆已经通过巨大的分销成本建立起来的市场领导者。
David George:你认为企业内部的数据有多大价值?比如,像摩根大通可能拥有15PB 的数据,我不知道确切数字是多少。你觉得这是否被高估了?这些数据中有多少是真正有用的?因为到目前为止,这些数据还没有为它们带来显著的竞争优势。你认为这种情况会有所改变吗?
Alexandr Wang:我认为AI可能是第一次让这种情况发生变化的机会。因为过去的大数据浪潮,本质上是为了更好的分析,这确实对业务决策有所帮助,但只是在边际上有用,而不是深刻地改变了产品的运作方式。
David George:是的,它并没有大幅改变产品的工作方式。
Alexandr Wang:没错。而现在,你可以想象到产品工作方式的巨大转变。举个例子,像任何一家大型银行,用户与银行之间的许多重要互动都是由人来推动的。这些银行尽力确保互动的高质量,但显然,在任何大规模流程中,始终有局限。所以,我认为,所有的过往客户互动和你公司业务的历史运作方式是唯一可以用来训练模型的数据,来帮助这些模型在特定任务上表现得更好。比如财富管理这样的领域,在互联网上几乎没有相关的公开数据可以用来训练模型,对吧?
David George:是的,确实如此。很多这类领域的数据其实都被“锁”在企业内部,这些数据非常丰富。
Alexandr Wang:是的,数据量庞大。我认为,企业中大部分数据可能并不直接对业务转型有用,但其中一些数据是非常有价值的。但问题是,企业很难有效利用它们的任何数据。 数据通常组织不善,分散各处。企业花费数千万甚至上亿美元请咨询公司来做数据迁移,但即便迁移完成后,结果往往并没有什么实质性的变化。
David George:是的,确实没有改变。
Alexandr Wang:所以我认为,企业一直在这个领域面临着巨大的挑战和困难。这某种程度上也成了一场竞赛:他们能否比某些初创公司更快找到利用和发挥数据的办法,或者某些初创公司能否通过一小部分数据创造出完全不同的东西。