文 / 腾讯科技 郭晓静
大模型的竞争进入下一程,关注焦点转移到如何找到真正的场景、如何落地应用。
对行业来说,至今这还是一个迷局,所有人都在思考、都在积极讨论,但是现在全世界都没有拿出比较完美的答案。
在这个难解的问题面前,我们试图向前寻找,上一波CV(ComputerVision)的爆发到产业的发展,能给今天的大模型发展,带来什么经验。
我们也试图从现实中找答案,大模型技术将如何收敛,具有通用技能的大模型究竟能给每个人带来哪些收益。
在这个背景下,腾讯科技对话了澜码科技创始人周健。他是一位连续创业者,作为依图10号员工,几乎完整经历了CV产业的发展,担任过弘玑RPA(RoboticProcess Automation,即机器人流程自动化)公司CTO。
2023年再次创业,在行业的大部分资源都投入到基础模型的时候,这位创业经验丰富的“老炮”直接选择做应用,“大模型这场战争,我目前看不到任何即将结束的迹象,也看不出何时能够结束。毕竟做企业的本质是要盈利的,不是要烧钱的,对吧?
所以从战略的角度来讲,虽然做模型看起来很风光,估值可以很高、可以被很多“钱”关注,但是实际上狂飙停不下来。”
行业的狂飙,带来了“百模大战”,这就意味着,应用层其实面临很多选择。当大模型从火爆吸睛的性感概念开始走入需要赚钱落地的商业场景,“混搭模型”成为了很多企业的选择,针对不同的场景选择不同模型,混搭出一套性价比和效率最高的“模型解决”方案。
周健定位,澜码是“模型中立”的厂商。大模型厂商可以推出基于自己品牌的各种模型产品。而“模型中立”的选择权更多,不仅可以选择多种模型,也可以选择多种品牌,但情况也会更复杂。
这是一个机遇,但是同时也面临很多现实挑战:“模型厂商在发布模型的时候,仅定义参数,未对模型的具体特性参数(FeatureList)进行定义。”
这就意味着,在匹配真实场景的时候,“模型中立”的厂商可能面临盲人摸象的困境。需要基于经验不断进行匹配和调试。这对于过往的行业经验就尤为重要,比如领域知识库,还比如,在产品角色的层面,设定两层关键团队,一层为业务专家,拆解业务场景和工作流;一层为产品专家,将场景匹配到真正的模型落地中。
从CV这样的窄向型技术到大语言模型这样的通用型技术,在TOB的商业化路径上其实有变也有不变。TOB业务甲方话语权高,产业链条长,个性化程度高、交付重,即使是新技术爆发,这些行业痛点也依然存在。但是大语言模型的通用性,确实让“模型中立”的厂商有了不错的机遇,且和模型厂商不同,不烧钱,可以压力比较小地试错。
在大模型公司还未形成清晰的行业标准及产品定义的标准时,“模型中立”厂商的试错经验也是行业急需。但是,大模型应用层的公司,也一直都在面临一个问题,号称不碰应用的模型公司,如果最终碰了应用,模型技术有通用性、模型公司有更大量的数据和更强的实力,那应用层是否还有足够深的护城河?
带着这些问题,我们和周健进行了深度对话,他的精彩观点如下:
① 大模型军备竞赛般的“狂飙”还没有结束的迹象,创业选择中间层,战略位置可能更好。
② CV(Computer Vision)其实是一个窄向型的技术,有些行业和场景不能覆盖;大模型是通用性技术,能力够强之后,可以适用于所有场景。
③ 现在很多企业的需求是模型混搭,这对于模型中立的厂商是一个机遇,让多个模型能力集成在原有的工作流或代码体系中是核心能力。
④ 大模型科研场景和商业场景不一样,商业落地肯定是先要对大模型的能力边界和品类进行定义;现在模型厂商对发布的产品都没有详细的Feature list(特性清单)。
⑤ 我不担心AI统治人类的事情,而更担心因为人类的粗心,或指令的错误,带来系统性的灾难。
以下为对话内容精编:
大模型的产业机会远超CV
腾讯科技:去年创业,一上来就做应用的公司很少,毕竟基础模型的能力还不成熟,你为什么不做模型呢?
周健:OpenAI在2023年4月份拿到100亿美金的融资之后,基本从战略上来讲,直接做大模型肯定是不成立了。因为是连续创业者所以其实对竞争格局的整个延展线还是有判断的。当时比较容易能想到,普通创业公司做到GPT-4,基本就会放弃竞争。大厂肯定还会继续竞争,继续在GPT-4.5水平往上竞争。
就像德州扑克,创业公司面前的筹码肯定是少的。而且当你获得一笔大的融资之后,在某些程度上是被资本“裹挟”的。很多时候需要按照投资人的要求、当时的市场,去做一些规定的动作。
另外,资本不会押注一方,当有了第一名,肯定也会捧出第二名、第三名,在这样激烈竞争的赛道上,你很难有时间窗口去进行组织能力建设。大模型这场战争,我目前看不到任何即将结束的迹象,也看不出何时能够结束。毕竟做企业的本质是要盈利的,不是要烧钱的,对吧?
所以从战略的角度来讲,虽然做大语言模型看起来很风光,估值可以很高、可以被很多“钱”关注,做很多事情,但是实际上“狂飙”停不下来。
我们现在选的定位,也有很大的挑战,比如可能资本不关注。但是从生态定位的角度来讲,大模型厂商在竞争越来越激烈之后,使得它必须去开源部分模型,在商业上是有可能被我们中间层的公司利用到。从生意的角度来讲,我觉得我们的位置可能更好。
腾讯科技:模型公司也都在向上探索应用,不担心主营业务落在模型公司的延展线上,被模型公司“吃掉”吗?
周健:你是指C端吗?
腾讯科技:模型公司其实B端、C端都在做。
周健:我觉得不会,赢者通吃的superAPP(超级应用)我觉得短时间内是不会出现的。首先是B端,历史上都没有过。B端主要是成本因素,你不能整个企业都雇“爱因斯坦”。
C端是大厂的机会,移动互联网这一波,包括一些打车平台,其实都被大厂裹挟着打了一场资本的战斗。也许大模型厂商未来能做出来,但是如果做应用层,C端很容易被“吃掉”,因为大厂的资源是你的数百倍。
另外,我们回忆移动互联网2008年兴起,而iPhone4差不多到2012年才出现,字节跳动是2012年才成立。移动端最初有个游戏是切水果,是因为触摸屏让交互方式发生了改变,最直观的就是切水果。现在大家很少玩切水果了,因为后来更多创新要素的组合,让体验更好。
现在大模型也是一样,太早期,当基础设施成本没有降下来、交互设计还在摸索的时候,superAPP还不太可能成立。
另外就是,现在的创业公司,还有过去的路径依赖,可能未来两三年之后创办的公司更有希望做出superAPP。
腾讯科技:你也是完整经历了AI领域上一波CV(ComputerVision)的创业潮的,这两波浪潮有什么不同?
周健:CV其实是一个窄向型的技术,在各个行业中是点状的。随着技术的演进,你可以解锁新场景,比如一开始只能做身份证比对,到后来可以做人脸闸机。一个技术领先的公司,在商业竞争中,就有可能用高毛利来换销售网络。但是它的问题是,场景在安防行业有,但是在金融中就没有。
但是大语言模型是一个通用性的技术,它跟某个细分行业的关联性没那么强,但是通过自然语言,把技术门槛降到很低。比如过去我们处理简历,你要看他的离职时间、过往经历等等,成本极高,因为简历是五花八门的。但是用了大语言模型的技术,可能就只是一个礼拜工作量的提示词工程,就可以搞定了。
技术在各行各业都能通用,这就打开了想象空间。之前像RPA(RoboticProcess Automation,机器人流程自动化)技术,很快就达到了“天花板”,没有办法让它更高、更快、更强;CV是有一个发展周期,三、五年持续进化的时间。
腾讯科技:CV那一波走出的“四小龙”,其实现在的增长也面临瓶颈。他们在这一波还有竞争优势吗?
周健:完全不同的技术。如果他们的认知范式不改变的话,就会很被动。
腾讯科技:我们看到他们中也有公司在积极布局模型。
周健:确实是在做。但是对于一家企业来讲,当它已经长到现在的规模,一年的收入三十亿左右。当面临一个巨大的技术变革的时候,又需要保持增长,要不然很难向股东交待。另外技术变革需要巨大的投入,目前的收入规模又不能支持拿出几个亿去做新技术的转型,所以还是十分困难的。
做新的技术也意味着新的风险,以前已经走到了PMF(ProductMarket Fit)的阶段,今天突然一个新的技术,怎么能不把自己已经有的优势颠覆掉。就算谷歌,也一样面临这样的问题。这也是我们常说的创新者的窘境,变革挺难的。
创业公司的优势就在于,你的可能性很多,如果赌对了,就可以迅速往前走。
“模型中立”的机遇
腾讯科技:如果仅做应用层,推理的算力成本有计算吗?
周健:确实训练的算力基本完全省掉了,基本上是在做微调。逻辑是,先用GPT去验证客户场景的可行性,然后再做私有化部署,再用开源的小模型13B,最多用到70B,去确认在私有化部署中是否能用。
但是基于目前的现状来看,降本还是不太现实,可能今天应该优先做的还是增收或合规,可能效率会更高。
以澜码的一个保险客户为例,以前保险代理只能通过盲打电话推销新的保险产品,成功率非常低。现在这家公司的保险代理可以根据体检情况生成的个性化保险产品推荐,去推荐给对应的体检客户,并且推荐的产品也符合他的健康情况,从而可以大大提高销售转化率。
腾讯科技:ToB业务在国内链条长、个性化高、服务重,你们通过大模型技术,搭建AIAgent平台,是否能从根本上让ToB的生意更轻、更好做?
周健:确实是大模型来了之后,因为它的通用性,使得个性化定制的成本大大降低了。我们只需要把工作流中必备的知识定义好,在跟你对话的过程中动态生成表单、代码,这可能是原来最需要个性化的部分。
过去很大程度是人适应机器,现在的大模型让机器能够适应人。机器在跟人互动的时候,其实是能够越来越智能,那么就会使得个性化定制成本越来越低。
腾讯科技:能举例一下,具体怎么做吗?
周健:我们现在的定位是模型中立的厂商。企业落地AI应用,第一个核心的问题就是他需要去选择模型。
很多企业的需求甚至是混搭模型,让多个模型能力集成在原有的工作流或代码体系中,我觉得这是我们目前最核心的能力。
其实从核心上讲,我们自己定位的中间层,实际上未来应该是一套开发框架。形象一点说,就好像是在银行保险柜里面,各个客户都有自己的特殊需求,会基于我们的平台,基于我们已经沉淀的知识数据,更容易的去搭建应用。
腾讯科技:未来的核心竞争力是各领域的知识库积累吗?
周健:我觉得现状是我们有AI能力和客户关系。拿下标杆案例之后,下一个壁垒肯定是领域数据。
我们现在做数字员工,其实是希望它能够自主去决定下一个action是什么。现在主要是缺数据,难点在于如何去定义action的种类。
腾讯科技:太个性化了?
周健:其实也还好,在企业中,某些职位如财务和人力资源(HR)可能并不需要像人们想象的那样复杂的技能水平。以财务为例,财务员工能够完成的任务种类实际上是有限制的。例如,财务共享中心的成立使得一位位于罗马尼亚或大连的员工可以为一家全球500强公司处理财务事务,包括审批票据和进行面试。这表明,这些工作并没有想象中那么困难,已经可以实现自动化、变得像机器人一样高效。
中国的管理标准化在过去可能做得不够好,导致在某些方面落后于国际标准。然而,国外在八、九十年代经历了一场管理流程标准化的浪潮,这使得企业内部流程的标准化工作已经取得了显著进展。
未来的关键在于构建起一个有效的世界模型,将所有可能的选项列举出来,这样就能简化决策过程,使得原本看似复杂的问题变得不那么困难。
腾讯科技:“工具人”的竞争力是不是会急剧下降?
周健:在游戏行业中,制图师和软件外包公司的初级至中级软件工程师的职位已经受到了自动化技术的冲击。
目前,尽管还没有完全实现,但已经出现了一种趋势:当一个公司的分工非常细致时,比如外包工程师或制图师的岗位,如果该岗位有超过100名员工,你并不需要一个人在所有方面都做得最好。实际上,只要某个员工在30%的方面能比他人做得更好,就足以取代其他30人的工作。
这种逻辑正在逐渐成为现实,尽管目前技术尚未完全成熟,使得这种变化还不是很明显。然而,我对于GPT-5的发布持有一种复杂的心情,既期待又有些敬畏,因为我认为它将带来巨大的变化。
腾讯科技:你觉得今年GPT-5会发布吗?
周健:会啊,OpenAI发布GPT-5的动力应该是大的,因为竞争对手已经追上了。
腾讯科技:大模型如果作为Agent,其实是需要多任务处理的,但是比如以手机为场景,很难去打通各个APP,在toB领域也会面临这样的难点吗?
周健:我觉得会,ToB市场,像钉钉、企业微信和飞书这样的办公协作平台都在激烈竞争。然而,这些平台在独立运营时,面临着与手机厂商和应用开发商之间的相似问题。手机厂商希望像苹果那样实现全面控制,提供完全打通的用户体验。但与此同时,不同的应用可能并不愿意完全融入手机厂商的生态系统中。
从历史发展的角度来看,自2008年iPhone首次发布以来,到了2013年或2014年,打车、团购大战开始激烈,这场竞争大约持续了五、六年。
以此类推,考虑到2022年年底ChatGPT发布,我们可以预见到2026年可能会出现一些竞争,而到了2027年,这些竞争或冲突可能会变得更加明显或常态化。
腾讯科技:未来的选择权在平台还是用户?
周健:实际上最终用户还是会买硬件,就像你的笔记本电脑、手机、或者新的硬件都会有一个助手出现,只是服务于跨设备、跨APP的超级助手,或者说最有话语权的是谁,可能还没办法预测,我觉得大概2-3年开始有有实力的竞争者出来。
谁来定义大模型的“产品特性”
腾讯科技:从现在的AI手机和AIPC中没有看到什么苗头吗?
周健:现在太早了,还是概念阶段。
现在主要是硬件需要准备好了,比如最近苹果说M4芯片是为AI做的。
腾讯科技:目前的硬件厂商已经说能支持7B、13B的模型在端侧运行了,所以现在的阻碍是不是已经不在硬件了?
周健:现在的问题在于13B的手机端侧模型,对于我们这样的toB Agent的厂商也是一样的,任何一个模型厂商发布一个产品,只有模型的参数,这让我们怎么用呢?
现在是模型产品定义的第一关还没过,第一关就是模型小型化之后,它的featurelist究竟是什么?怎样定义这个模型产品是符合手机端、符合PC端?它有什么基本能力?
这关过了之后,后面才到了我们到底需要再什么手机上配什么算力、装什么模型。
腾讯科技:现在看到厂商在定义,我用这个模型可以做图片消除、文件管理等等。
周健:这件事儿不应该是手机厂商去做。
手机厂商没法定义,他们定义完,模型厂商做不到,这怎么办?或者说这确实是先有蛋还是先有鸡的问题。先不谈手机,先谈部署在云端的模型,13B、33B、130B,他们的边界是什么?什么场景应该用什么模型?这些都还没有。
可能我们作为TOB的企业,已经突破了很多场景,但是这些场景拿出来之后,有没有模型厂商可以给出一个特定的featurelist?更不要说端侧了,因为要把端到端的应用跑通就更难了。
TOB服务还可以说我用目前性能最强的服务先验证一下。端侧如何验证呢?我觉得可能需要我们的这样的厂商先和模型厂商对齐。
商业上其实和学术上很不一样,商业上肯定是先要对大模型的能力边界和品类进行定义,到底有哪些大的品类,每个品类的能力边界是什么,这些基本问题,模型厂商需要首先回答出来。
腾讯科技:大模型的品类指的是什么?比如某种能力突出,长文本算吗?
周健:一个feature的定义,是市场上大家一起去决定的。现在最小的模型算力可能只需要一张4090消费级显卡,大一些的模型,从推理上来讲,可能要100张A800显卡。算力差100倍的情况下,肯定要分成不同的品类。比如一件普通的T恤和一件奢侈品,价格就可以从几十块到几万块,但是你可以给这个定价一个理由。
但是如果模型的商品定义体系不出现的话,其实商业化落地是没有办法迭代的。
腾讯科技:大模型技术文档定义的参数,对你们来说是没有太大价值吗?
周健:关系不大,我们买的是衣服,不关心制作流程。
腾讯科技:这事儿未来要谁来做?
周健:肯定是大模型厂商。现在还是“乱哄哄”的,包括现在发布出来的各个应用场景的落地的成本计算也没有变成共识,如果慢慢变成共识了,整个生态就开始转起来了。
腾讯科技:大模型落地应用这件事其实大家都还没想清楚。
周健:应该在什么场景落地大模型的应用,现在实际上大家是抓狂的。
我们自己的探索是,如刚刚提到的,大模型的个性化定制成本低、语言理解能力强,可以解锁一些传统做不了的新场景。比如之前中小企业的信贷审核,靠AI是做不了的,或者原来做起质量很差;比如保险代理,过去也是做不到的。
我们其实是通过AI Agent加上知识库,解放专家的时间,变成新的生产力。过去领域专家时间的供给是一个瓶颈,现在可以通过AI去突破这个瓶颈,原来不能做或者不能批量做的事情现在就能做了。
我觉得和大家理解的不一样,大模型能带来的收益首先不是降本增效,更多的是增收和合规。降本增效更容易一些,TOB的企业优先想做的肯定是增收和合规。
腾讯科技:AIAgent能类比移动互联网时代的APP吗?
周健:Agent最重要的事情是它和环境之间的互动,其实就有两条边,一条边是从环境中感知,另外一条边能产生Plan,然后做出行动去执行。
它不是APP,今天我们看到其实更多是在原有的APP上增加了AI能力,比如说今天任何一个应用,都可以通过自然语言的对话,来发出指令。这不是Agent。
Agent重要的是要和环境感知互动,刚刚说的那种,只是传统软件的AI化。
腾讯科技:创业公司巨大的机会是挖掘这些加AI的需求吗?
周健:巨大的机会肯定不在这儿,传统软件加AI是传统软件可以去做的。巨大的机会在AI原生的应用。
在Agent的生态中,已有软件都可以作为Agent感知环境的一个组件。其实我们不是和传统软件竞争,而是赋能传统软件,成为下一代的入口。
比如我们做数字员工,我们把员工的意图识别成专业知识库,拆到原有应用中。其实AI原生应用是全新的品类,它站的生态位置是人跟系统的中间又多了一层。它会代理人的意图,拆解计划并完成工作。这个工作可以是操作各种各样的系统。
所以这个意义上来讲,AI原生完全是全新的机会,跟传统软件、APP没关系。这是一片新大陆,具体在哪里,还得再探索。
腾讯科技:但是听起来,未来的AIAgent还是很需要传统软件?
周健:需要的。我们的假设不是没有信息化,信息化是数字化的前提,数字化是AI化的前提,我们的前提是前面已经数字化好了,如果是没有数字化,比如说像猎头行业、律所行业,因为他们没有信息化,没有数字化,这个就很困难。
腾讯科技:过去其实企业数字化的推动就很难,这会成为TOB落地AI的阻碍吗?
周健:其实很多大企业的决心挺大,基础设施都准备好了,但是落地的场景没有找到。这部分的需求还是挺大的。
腾讯科技:那对于你们公司的产品经理来说,是不是还需要了解每个特定行业的工作流?
周健:对,他自己也要是业务专家,没有靠谱的业务专家是做不到的。但是会有两层,一层是业务的产品经理,比如银行、保险、券商、能源,他一定要了解行业。
另外一层是做平台的,不需要特别了解业务,但是需要通过定义好的能力文档、数据流程来做产品。
腾讯科技:未来企业的工作流程会发生怎样的改变?
周健:现在其实是人跟人之间的分工协作,会有很多信息的断点、数据的断点、知识的断点,这是人的带宽所造成的。
比如从管理学上讲,人的带宽最多只能关注到7-15个人。随着大模型的不断演进,大模型的记忆能力会越来越好,其实这就会把流程上的断点帮助填进去。
企业最重要的是放大竞争优势,而不是补上短板。竞争优势一定是一线和后台的通力配合,“让一线能够听见炮火的人呼唤炮火”,但是传递信息的带宽有限,可能后台专家收不到这个信息。
但是如果每个员工都有一个Agent,既可以把一线情况不丢失地带到后方;后方的决策又能直接传到一线的各个地方。
腾讯科技:那实际上是帮助人提高带宽,未来人的核心能力又变得更大了?
周健:人主要知道该做什么,去下达任务。今天的AI实际上还有一个很大的瓶颈,没有内部的世界模型,并不能自我学习。
现在人类做决策很大程度是靠直觉,就是我们能自动找到相关性,在我过去的经验中,有哪些事情相关、当时我采取了什么办法来解决这问题。这是我短期之内看不到AI可以去替代的。
目前的Scalinglaw路线其实还是蛮力,未来全世界的能源都不够AGI用的,所以我觉得这条路是有瓶颈的。从过去的规律来讲,人不是被设计出来的,而是慢慢进化来的,进化才是最强的力量。
所以短期看不到AI对人类的替代,但是我们要学会怎么去拥抱它,变成新的劳动者。知道它的能力边界在哪里,在未来的职场中占据一个好的位置。
腾讯科技:人类的基础科学还是像烟囱一样,没有融合和打通?
周健:对,历史上出现过做量化投资的公司,因为一个程序Bug导致这个公司破产。我觉得现在倒是不用担心AI统治人类的事情,而是因为人类的粗心,或指令的错误,带来系统性的灾难。这个可能是最值得担心的事儿。