最近,在京东直播间,
带货主播,“刘强东”突然现身。
恭喜各位围观的朋友,
你们参与了一场,
史无前例的图灵测试。
4月16日,直播总观看人数超2000万人,
直播四场总观看超4000万。
首先,图灵测试并不是一个完美的方法,
但它仍然是一个很有影响力的思想实验。
其次,感慨一句,不愧是公元2024年,
直播间买个东西,居然参与了图灵测试。
预告,AI数字人。
实际,AI数字人。
虽然真人没来,
但卖的货都是爆品,
一下就抢没了
这真是一个好创意,
围观人工智能,
抢到低价好物。
买家与卖家,
科技与零售,
内心OS:“我赢了两次”。
这样的直播多来几场,
不过,数字人“营业”还是要花钱的,
我就是说,电费,咱管够。
02
我有一个朋友,
抱着了解“AI刘强东”的目的走进直播间,
结果,下单买了六盒蓝莓。
我就问,你对科学求真务实的态度在哪?
他告诉我,货好,还实惠。为啥不买?
我竟无言以对。
说好的图灵测试呢……
谈到测试,京东内部有一个标准,
结合心理学和实验综合而来,
120秒之内,没有察觉出非真人。
那么观众就会对“主播”产生一定信任。
120秒还有个名字,叫“恐怖谷”。
我推想,这些经验,
可能来自干了多年的京东AI客服,
“一听假”
电话挂机。
京东内部KPI叫做“首句挂断率”。
大哥,你声音这么假,半句都听不下去。
有些“数字人”一眼假直播间。
这五毛钱特效,不是接地气,而是接地府。
信任,来源于真实。
AI客服如此,
AI直播数字人亦如此。
流量的尽头是带货,
带货的尽头是AI。
不,应该是,令人信任的AI。
03
该聊聊如何辨别真假“AI刘强东”了:
1.细听刘强东的宿迁味普通话,
2.注意刘强东说话时的唇形,
3.留意表情,头部,手部动作,
4.细看皮肤毛孔,毛发,
表面看上去假,那大概率就是假。
接下来,谭老师我,就要向欧亨利致敬了。
以上这些旧思路,都没啥用。
AI动不动就以假乱真,
甚至投钱多,效果更真。
为什么说是“传统玩法”?
我来解释一下,
第一,AI刘强东的声音。
先用TTS(文本内容转语音)技术,
该技术发展了好多年了,
还可有不同音色和音调。
甚至都不用很大的模型,但模型大了,
花钱更多,效果更好。
第二,AI刘强东的形象,
用少量人脸素材建模,
再用一种三维网格,比如上面有30000个点,
理解起来,“点”就是几何图形的顶点,
顶点在动,人就有表情,
动得合理,表情就自然,
我想用的比喻是,
用微小的积木搭建一个人脸的3D模型。
当顶点数量高达好几万的时候,
手工调那就费力了。
第三,AI刘强东的表达思路和动作。
驱动数字人,就像遥控器驱动机器人,
多个技术点各负其责。
甚至哪个点做得不好,可单拎出来改。
遗憾,这种数字人路线(方案)的发展空间很是有限。
更遗憾,这些老的观察手段不能作为辨别AI的好方法了。
04
其实,直播数字人的技术路线还有另一条。
这是一条OpenAI刚刚踩出来的路。
要不然说,通用人工智能的梦想确实很伟大。
对,就是著名视频生成模型Sora。
一经问世,惊艳世界。
这是一条更难的路,
效果的提升空间和潜力变得空前大。
有了Sora,全球在这个方向前进上的团队,谁不想比肩。
可惜人家闭源,还不给用,想用就得从零建,
当然,可以借力开源社区(Open Sora)。
但投入依然巨大,就算投入的起,也考虑用户是否用得起。
换而言之,Sora就算有了中国版,
那背后的创业公司也很可能是百亿市值。
我目前就发现部分自动驾驶公司对Sora生成街景等数据,
饶有兴致。
而这类公司前期很难关注和覆盖稍小一些的场景,
简单说,土豪也不能蛮干,思考两个问题:
一,你的业务(客户),
需要什么样的人工智能(Sora)?
二,模型研发投入,用户使用成本,
如何达到一个微妙的平衡?
05
是时候,让谭老师拿出真正的“料”了。
“AI刘强东”选择了类似Sora的技术路线,
这个生成视频的路线有两个重点:
第一,“一气呵成式”,
你不能说,中间停一下,
把刘强东发型改短,
可以实现,但那是另一段视频了。
更核心的 “料”来了。
第二,实时生成视频,
也就是说,这个AI刘强东是实时生成的,
特别是互动,必须要实时
如果不知道方案,
那会有很多疑虑,
更不要说辨别真假,
有网友说:“很多店都是拿录播重复播放,
拿刘强东的直播录像直接再复用不就完了,假装自己有数字人。”
我听完这种说法,都笑了,
东哥肯定不会录几十个小时的直播,重复播放。
我推测,这次也是支持京东云言犀团队。
录了20分钟小样本。
还有网友说:“没有与直播间观众互动,
给人很强的距离感。”
而我的京东朋友听完这种说法,
一脸严肃,他说:
“我很负责任的告诉你,AI刘强东的每一帧都是AI。”
“很负责任”这几个字,他还特意加重了语气。
实时生成视频,这个问题太核心了。
要有巧思,
模型大小是很重要的考量,
模型再大跑不动,
实时的时候,生成得很慢,
模型再小“五毛特效”,
据我所知,京东云言犀系里,有的是更大规模的模型,
在平均万卡的互联网大厂里,谁还没有个千亿模型。
马斯卡的开源模型Grok-1,惊人的3140亿参数。
只能说,部署之时需要昂贵的硬件和基础设施。
生成直播带货的AI刘强东,只能用较小的模型。
想要又小又要效果好的目标,很苛刻。
我推测,数字人背后的模型有10亿参数。
这个参数量不意外,Sora也不大。
而是,10亿参数的选择,
很有点“专业技术含量”,
平衡发生在“模型相对小”和“逼真效果”之间,
在相反力量的微妙中取得平衡。
这既考验技术含量,也考验商业理解。
我再推测,
可能是在千亿参数的言犀模型上“知识蒸馏”而来,
改天有机会,我再去问问呢。
我观察京东,想做带货直播领域的中国Sora。
也就是说,先弄好带货直播中主播人物视频生成,
搭配一系列配套运营玩法。
毕竟,京东的场景是我见过所有电商里,最复杂的。
很多零售商的毛利很低,想让市场广泛使用,
“奢华靡费”版数字人,打不下市场。
说到底,这是一个在“花钱更多,效果更好”的规律中如何平衡的故事。
实时的AI刘强东,挺酷的,
仅用10亿参数,
精巧务实,也挺酷的。
06
直播常常团队作战,人手不够,手忙脚乱,
观看直播人数一多,需求从四面八方涌来,
卖货直播数字人,不懂零售可不行。
直播间里,光有数字人也不行。
真正决定效果的,不是数字人逼真程度100%,
也要看直播运营怎么玩。
智能供应链就不说了,
有货的灵魂。
数字人直播间里,
中控台用来监测和调整直播间商品库存,
调节观众关注度,
比如,跳过缺货的商品,
或为爆品增加讲解频率,
实际上, 2年数字人直播商用,到2024年“AI刘强东”爆火,
整个历史数据告诉我们,已经有4000家品牌用了。
某场的“AI刘强东”直播,
只是某个版本,
甚至连着的四场直播,
每场都在进化,
运营私下告诉我,
第一场,没有经验,他们保守了,
互动得少,显得东哥很高冷,
巧了,互动是实时数字人的长板,
运营甩开膀子,
仅到第三场直播,
AI方案就全面了。
我至少观察到三个技术点:
1.弹幕用RAG搭配知识库。
2.观众和数字人实时互动回答,
3.再上一个数字人和“AI刘强东”对话,
但是,你要问刘强东是如何从中关村起家,如何经营京东。
不好意思,闲聊问题,超纲了,
数字人不回答,有情可原,
也不能批评人家高冷。
那是新闻采访,
不是直播带货时候的痛点。
直播主要“聊货”。
另外,还有个技术点,
Sora是无声视频,像默片电影,
而直播数字人的视频,不仅是有声的,而且是一个整体。
画面和语音同步且和谐搭配这件事,
他们内部说有绝活,我没有打听到。
我再拿市面上的常见方案对比:
数字人短视频生成平台。
输入一句话,直接生成有声视频。
这种产品也很好用,
但“AI刘强东”这款产品,
一体化程度更高。
比起技术单点更强的产品,
在带货直播场景里,
所需的关键点,“一气呵成式”生成了。
说实话,你拿这个产品生成的数字人,
去干别的,也不适合。
带货主播都是讲解产品、带货冲单的专家,
不是科目三舞王,
另外,我补充一个细节,
有商家给研发团队反馈,当主播,声音需特别有激情,
主打一种,不买就赶不上的氛围感,
这种反馈很是触动团队。
直播数字人产品就是瞄准带货直播,
进化,有的放矢。
2023年,我也见识过京东内部生成的数字人,
那是京东探索研究院院长他自己,
带货宁夏枸杞的一段视频。
侃侃而谈枸杞的保健功效。
看上去,少说喝了十年保温杯配枸杞。
他告诉我,自己真实的口播水平可没有这么流利。
罗马不是一日建成,
今年效果更甚去年,
直播是个重运营的生意,
不能凭空造一个数字人,扔给运营团队,
做AI产品不能“强塞”科技含量,
自嗨,
而是用产品跨越技术与运营的割裂。
我还听说,
他们内部发现,人们观看直播的时候,
非常重视局部。
比如,商品故事讲解,
看主播眼睛,
示范商品使用,看手部,
人的注意力有强有弱,
画面高清点随注意力变化,
那为何不把有限的资源聚焦于高清点?
找到带宽成本和体验的平衡点。
同时活跃在京东直播间的,
还有很多“主播小姐姐”,
我看过她们的表现,也很好,
比不上知名主播,水平也在中等之上。
市面上,高段位的“直播达人”都各有特色,
主播的特色遵守吸引力法则,
AI都可以学习,就看想发展出个什么特色。
刘强东的性格特色是质朴,
数字分身也延续了这一特点,
董宇辉身上的人文和书香,
那是另一款数字人值得学习的特色。
最近,我又去京东2号楼食堂混饭,
人群中,几位技术小姐姐朝我招手,一脸笑容,
她们迫不及待地告诉我,
京东云言犀数字人的业务,多得接不过来,
超百位企业CEO想用数字分身“亲自”带货。
看来,总裁圈刮起了产品旋风,
好主播,好货,好平台,好的零售科技,
记得东哥有句话,
我很喜欢:
正道成功,
我想,无外乎AI。
One More Thing
不能标题党,
我高低得讲一个辨别真假的点,
数字人的动作中,肢体重叠动作比较容易出错,
比如收拢肩膀,双臂交叉……
不过这种“高难度”怪动作,带货数字人一般不会在直播间里表演,
毕竟,这不是刘耕宏的健身直播间……