中国古籍《列子·汤问》中,曾经记载过一个神奇的《偃师造人》的故事。
说的是周穆王在外游历时,遇到了一个工匠偃师,向他献上了一个自己制作的人偶。这个人偶外貌栩栩如生,可以像人一样自如地站立行走。
周穆王见了大为吃惊,叫来自己的宠妃一起观看。
只见偃师一声令下,人偶竟开口唱起了歌来,歌声婉转悠扬,十分动人。唱到高潮处,人偶又舒展四肢跳起了舞。
如此精彩的表演,逗得周穆王哈哈大笑。但演出快结束时,出事了!
这个人偶,竟然含情脉脉地向周穆王身边的宠妃眨了眨眼!
周穆王大怒,竟敢调戏我的爱妃!于是下令处死偃师。
偃师赶紧向周穆王解释,这只是一个人偶,怎么可能调戏您的爱妃呢?
见周穆王不信,他当场把人偶拆散。周穆王看到眼前一堆七零八落的零件,才终于相信了刚才“调戏爱妃”的确实不是人。
于是不禁感叹:“人之巧,乃可与造化者同功乎?”
虽然这个故事和中国历史典籍中很多玄幻的故事一样,不具备任何史料价值,不过起码证明了一点:
中国人对人形机器人的思考,早在3000年前就开始了。
谁能想到,3000年后,中国即将在人形机器人领域,掀起一场革命。
一
为什么非要搞人形机器人?
如果我们把视野从中国转向世界,就会发现,人类似乎对人形机器人有着一种异乎寻常的执着和迷恋。
比如在古埃及,埃及祭司会使用一种机械的神像,可以做出如张嘴、伸手等简单动作,可以大幅增加祭祀仪式的神秘性。而达·芬奇也曾造出过一个机器骑士,可以完成包括张嘴、摇头、摆手、坐起等动作。
当然了,因为技术的限制,这些机器人仍然处于一种“无智能机械”的范畴,真正的“智能机器人”,一直到70年代才诞生,是日本早稻田大学发布的WABOT-1。
这种机器人与真人差不多大小,可以双脚行走,完成搬运物品等工作,还可以简单交谈,但是,除了得到很多喝彩,WABOT-1并没有得到商业应用。
为什么?
一方面,虽然WABOT-1具备一定的智能化,但这种智能化非常初级,它的处理器实在太原始,无法处理视觉、听觉,以及触觉传感器的大量数据,也就没法准确地进行科学决策,简单来说就是智商太低。
另一方面,它的应用场景太少了,除了能走两步,说说话之外,其他啥也干不了,就连搬运的东西重一点,也容易烧电机。
所以,WABOT-1之后,世界机器人研究的另一条路兴起:非人形机器人。
非人型机器人路线支持者认为,我需要的是机器人为我工作,至于它长得像不像人,完全不重要。
所以,发明家约瑟夫·恩格尔伯格研发出了第一个汽车装配机器人Unimate#001,重达2700磅。
这个机器人完全不像人,说白了它就是一个机械臂,靠设定好的程序,进行操作。
说实话,相比那些花里胡哨的人形机器人,这个机械臂简直太优秀了,稳定、精准、可长时间工作,很快就被应用在了工业领域,执行装配、喷漆等多种任务,这也就是工业机器人的前身。
发展到现在,这种工业机器人已经遍地开花了,焊接机器人、检测机器人、装配机器人、搬运机器人、堆垛机器人、分类机器人等等。
在家用领域,扫地机器人、送餐机器人,写作业机器人等等也开始商用化。
但是,人形机器人仍然被很多实验室和投资机构所关注,相关的研发也一直没停。
为什么?
因为现在的工业机器人或者家用机器人,无非就是人类某一项工作的替代和优化、分解、精准化,但是却无法通用化。
简单来说,你让一个工业机器人去拧螺丝,就要编写一个拧螺丝的程序,但你如果让它进行门锁质检、车灯盖、板检测、安全带检测、贴车标等工作,不给它写程序,它就搞不定了。
同样,冬奥会食堂中的炒菜机器人,能炒出一份完美的蛋炒饭,但你要是高血压患者,想让它做出一份低盐的蛋炒饭,它也办不倒。
如果能有一个机器人,它既可以干这个,也可以干那个,它可以拧螺丝,可以炒菜,也可以泡咖啡,甚至不需要人去编程,你给它下个指令,他就能又快又好地把任务完成,那该有多好?这才是完美的机器人。
那么,这种机器人应该是什么样子的呢?
毫无疑问,人形最合适。
因为我们生活的物理世界中各种场景、设备、任务、工具,都是为人体形态量身打造的,只有机器人像人,具备类似的身体结构和能力,才能够帮助机器人更好地融入人类的生活和工作环境,并且无需对机器人做任何改造。
所以,虽然工业机器人已经在各种灯塔工厂中遍地开花了,但关于人形机器人的研究,一直都没有停止,也出现了很多非常类人的机器人。
最典型的,就是波士顿动力发布的人形机器人佩特曼(Petman),它最具革命性的创新就是,实现了双腿行走。
对于人类来说,双腿走路几乎是本能,可以轻松越过障碍、爬斜坡或楼梯。但对机器人就不一样了,双足机器人需要通过各种传感器获取机器人体态及重心变换的数据,再运算出合理有效的运动指令,然后再反馈再运算,这就涉及非常庞大的运算量和非常难得姿态控制,一旦某个环节计算错误,某个关节电机力量无法完全提供防倾倒力矩,就一定会摔倒。
从这个角度来说,波士顿动力的机器人做得不错,新一代的版本已经可以完成跑酷、后空翻、侧滚翻、前滚翻、180度空中转体、空中劈叉、360度空中转体等高难度动作。
但是,这些能力距离商用,还远远不够。
原因很简单,人在行走时,往往会遇到各种突发情况,然后下意识做出闪避动作,比如脚被绊了一下能迅速找回平衡,有时候仅凭酒瓶在桌上倾倒的趋势,就能眼疾手快扶住酒瓶。
但是机器人呢?咱们且不说传感器有没有那么高的灵敏度,就算有,其控制系统有没有这么快的响应速度?
而且最关键的是,这时的波士顿机器人,其实还是按照代码来完成动作,它所做的一切动作,其实都来源于程序员的设想,但设想的场景总是有限的,这也就决定了其缺乏足够的“学习能力”,所以无法根据人的不同指令,做出各种各样的动作,它也许能跳跃,能转体,但你让它快摔倒时扶一下,它就搞不定了。
所以,虽然波士顿机器人已经搞出来十几年了,连老板都换了三家,但迟迟没有得到商用。
正当所有研究者都为人形机器人的发展感到绝望的时候,AI的革命给人形机器人带来了新的机会。
二
根据控制论的观点,真正的人工智能机器人,必须具备三个能力,感知、运动和思考。
现在的机器人,感知和运动是没啥问题了,但思考却一直不太行。
而AI的革命,则为人形机器人补上了最后一个短板。
随着深度学习、强化学习、大模型理论和技术研究的深入,AI技术进入一个快速发展的阶段,原先一些难以处理的视觉识别、自然语言交互、翻译以及复杂决策等问题,通过深度学习和强化学习等技术的应用,都可以较好地解决。
这样一来,如果把AI大模型技术应用于人形机器人,那么就相当于给机器人装上了一颗会“思考”的大脑。
具体来说,AI给人形机器人带来的两个方面的提升。
第一是学习能力。
大模型加上传感器数据,可以让机器人更好地理解世界规律。
比如,你去冰箱里拿点喝的,捏纸质包装牛奶和捏啤酒瓶的力度,显然不一样。
而通过大模型学习后,机器人就会理解,纸质包装软,啤酒瓶硬。所以,拿牛奶要轻轻捏,而拿啤酒瓶则可以重一些。
有了这种理解能力,机器人在双腿行走时,就可以通过海量人体行走的数据,学习如何走得更稳、反应更快。
第二是基于自然语言的理解能力。
嵌入大语言模型后,机器人才能听懂语言,真正理解人类的需求。
比如,你跟机器人说,我发烧了。你的意图是让机器人给你拿药,但在过去,机器人是理解不了这种命令的,它也不知道应该给你拿什么药,你只有说“给我拿退烧药”,他才会去执行。
而基于大语言模型人形机器人呢?你说一句我发烧了,它就会理解你的状态,给你量体温,然后给你拿药,如果你高烧不退陷入昏迷,它还能帮你拨打120。
甚至你对他说“我和你妈掉水里了你先救谁”,它也能理解你想要的是情绪价值,而不是你真的掉水里了。
有了这两种能力之后,基于大模型的人形机器人才算得上真正智能化,可以根据感知系统的数据,由大模型做出肢体运动的决策,从“写一段代码做一件事”,真正具备“感知-决策-执行”的能力。
也正因为如此,自从2023年AI爆发后,2024年人形机器人也迎来了爆发,而且诞生了不少具备商用价值的机器人产品,其中比较典型的有两款。
第一款是FigureAI与OpenAI公司联合研发的Figure01,这种机器人内置了OpenAI的GPT-4多模态大型模型,不仅能理解人类的需求并完成具体行动,还能给人类递食物、捡垃圾、收拾碗筷等等。
更强大的是,Figure01具备很强的学习能力,2024年1月,Figure01看了十几个小时的视频,就能够脱离人为遥控,独立操作冲煮咖啡,甚至咖啡胶囊没有摆正,都能自主修正进行调整。
这也就意味着,只要你给它足够的时间学习豆腐脑的做法,它完全可以给你做一份咸豆腐脑出来!而如果你说想吃甜的,他也会根据你的需要,不放卤子改放糖!
第二款是特斯拉的人形机器人擎天柱(Optimus)。
其实擎天柱早在2022年9月就亮相了,但一直进展缓慢。一直到2024年5月,特斯拉公布了第二代擎天柱的视频,大家惊讶地发现,当Figure01还在实验室阶段时,特斯拉的擎天柱已经“进厂打工”了!
在特斯拉的工厂里,擎天柱已经承担了特斯拉工厂的分拣电池工作,能够精准地放在收纳盒子里,有时候电池放歪了,还会自主纠正,再正确将其放回准确的位置。
而这些,主要是根据人类操作的动作训练集,基于神经网络的训练,并针对各种任务进行扩展而得来的。
更关键的是,擎天柱仅通过2D摄像头,以及手部触觉,和力传感器,就可以做到这一切。
说白了,这和特斯拉的FSD如出一辙,抛弃掉价格昂贵的激光雷达,直接用纯视觉方案,就能搞定一切,完全可以所以把擎天柱看做一个两条腿走路的特斯拉汽车。
马斯克对擎天柱非常看好,在2024特斯拉股东大会上,马斯克雄心勃勃地说:“人形机器人将成为工业主力,数量有望超越人类,预计达到100亿-200亿。特斯拉目标年产10亿台,占据市场10%以上份额。其成本控制在1万美元左右,售价预计2万美元。”
显然,马斯克在这个赛道上行动更快,延续了其电动车的经营方案,通过快速量产压低成本,在所有对手都没反应过来的时候,快速占领市场。
三
有人可能怀疑,人形机器人再好,现在看起来还是有点智障,真生产出来了,会有人买吗?
其实吧,你可以怀疑马斯克的婚恋观,但永远不要怀疑马斯克在商业上的前瞻性,更不要低估世界各大投资机构的敏锐嗅觉。
从现阶段观察,人形机器人起码有三大应用领域,市场前景十分开阔。
第一是进厂。
现在的世界普遍存在的问题是什么?老龄化。
按联合国标准,现阶段日本(29.1%)、德国(22.1%)、法国(21.7%)、美国(17.1%)、中国(14.9%)等多个国家均已步入老龄社会,劳动力供给将面临短缺。
这也就意味着,用机器人代替人工作,不是可不可能的问题,是厂商必须去考虑的问题。
现在虽然很多灯塔工厂已经实现了黑灯生产,但其实有很多衔接的环节,还是离不开人,而且大部分自动化生产线是专用的,产品需求一旦发生改变,就需要改动整条生产线,成本高昂,反而是人形机器人的泛用性更强,不论你怎么改,他都能满足你。
而且,人力成本越来越贵,也就迫使厂方想办法用机器人来代替人类。
比如今年4月,亚马逊就已经启用了人形机器人Digit进入物流仓工作,Digit已经可以连续工作7.5个小时(和人类差不多),效率为人类速度的75%,任务成功率达到97%。
此外,在一些特种行业,特别是危险环境作业中,人形机器人也具有广阔的应用前景。例如,在核电站事故现场、化工厂爆炸区域、矿山救援等高危环境中,人形机器人可以代替人类,在复杂危险的环境中执行任务,减少人员伤亡。
第二是服务业。
在商务环境中,人形机器人可以用于客户服务、导购、迎宾甚至炒菜、做咖啡等任务,这类任务使用门槛比较低,应用场景也比较简单,比较适合人形机器人。
第三是家政。
咱们都知道,这一代年轻人,是不愿意结婚的一代,那么几十年后,必然爆发出巨大的养老需求。
但问题在于,他们连结婚都不愿意,又有谁愿意去给别人当保姆呢?
这时候,如果出现一个可以扫地、擦窗、擦马桶、炒菜、洗碗筷、陪人出去遛弯的人形机器人,你猜会不会有海量的需求?
而且从心理层面来说,人形机器人因为更像人,所以天然会有一种亲和力,人类愿意把其视为陪伴者的存在。
至于“猫女”机器人,就更不用说了。
虽然现在人形机器人还比较贵,但通过做大市场,实现量产,走低成本、快速迭代的“特斯拉”路线,相信市场会是很大的。
根据高盛在2024年初发布的《人形机器人专题报告》的预测:
到2025年/2030年/2035年,全球人形机器人市场的总规模将分别达到15亿美元/120亿美元/380亿美元,预计人形机器人的出货量将分别为2万台/25.6万台/137.8万台。
也就是说,人形机器人,有望在未来十年内迎来爆炸性的增长。
对于这种预期,中国其实也早有准备了。
2023年10月,工业和信息化部发布《人形机器人创新发展指导意见》中,提出了到2025年初步建立人形机器人创新体系并实现批量生产的目标,计划在特种、制造、民生服务等多个场景中进行示范应用。
看着很玄乎是么?但是别忘了,当年中国发布电动车规划的时候,觉得玄乎的人更多,现在看看呢?
在这场即将来临的革命面前,谁抢到了先手,谁就能成为下一个行业颠覆者。
所以目前,一些AI软件厂商、家电厂商甚至汽车厂商,都开始入局人形机器人,而创新型企业更多,近年来,中国人形机器人领域新成立公司20多万家。资本的热情也很高,红杉中国、高瓴创投等投资机构也都纷纷进入人形机器人领域。
在政策和资本的双重加持下,中国的智元机器人、逐际动力、星动纪元、月泉仿生、加速进化等等公司进展神速,已经陆续有成果诞生了。
当然,中国机器人公司也没死磕双脚路线,毕竟在很多规则路面的场景中,轮式和履带式机器人更有优势,成本更低,比如银河通用的双臂+轮式仿生机器人、1X的EVE轮式仿真机器人等等,甚至还有可以更换下肢戴盟Sparky1人形机器人,轮式还是足式随你选!
更可贵的是,中国人形机器人也和特斯拉一样,开始进厂“学习”了,在合肥蔚来的组装工厂,优必选人形机器人WalkerS已经可以完成车辆车门锁质检、后车灯盖板质检,高精度柔顺贴车标等任务,甚至还能伸手进车进行安全带检测,可以说泛化性非常高了。
咱们可以算笔账,人形机器人其实机体材料并不值钱,值钱的是控制器、传感器、电池系统等,看到没?这和中国新能源汽车的供应链有很大的重复性,中国只要用好这一供应链,只要产品成熟,中国就完全具备低成本、大规模量产能力。
马斯克的擎天柱机器人,声称可以降到2万美元,那么以中国的规模优势,压到10万人民币没问题吧?
目前,汽车总装线自动化率明显低于冲压、焊接和涂装环节,而总装线一个工人的成本,一年差不多也要10万元。
当买一台人形机器人的价钱,和一个工人年薪差不多的时候,这一应用场景一定会得到推广。
那么,在未来世界汽车大战当中,谁先运用人形机器人,谁就能在竞争中拔得头筹。
当然,关于人形机器人的发展,中国虽然有不少优势,但同样也面临两大挑战。
第一是算力,目前,随着美国对中国AI的打压,国内AI企业已经很难再使用OpenAI的资源,而国内主导开发的AI大模型企业,起码在人形机器人领域,还没有一家能比得上OpenAI。
而且,因为芯片的制裁,中国也很难再拿到高性能算力芯片,这也就导致中国就算能大规模量产人形机器人,也很难躲过美国的卡脖子,就如同现在的中国智驾一样。
第二是就业,毫无疑问,当人形机器人普及后,必然会带来大量的失业问题,先是制造业、物流等行业,紧接着就是服务业、家政业等等。
虽然人形机器人的普及也会带来一些新岗位,但新岗位的数量一定比不上旧岗位,如果发生大规模的失业潮,对社会稳定也会造成极大影响。
所以,人形机器人虽然可能会带来一场颠覆式的生产力变革,但如何产业化,如何突破卡脖子,如何避免对社会造成冲击,才是我们在人形机器人的万亿风口中,真正需要思考的。