“我口渴了。”“需不需要我给你倒杯水?”
这是一段人类与机器人之间的对话。焦继超首次听到这段对话时非常激动,因为以往机器人是不会这样回应的,机器人可能会尝试解释口渴的原因,或者干脆没有任何反应。
焦继超是深圳市优必选科技股份有限公司(09880.HK,下称“优必选”)的科技副总裁、研究院执行院长。他说,过去,即使一个机器人词汇量再大,也无法真正听懂人类的语言,只会响应预设的关键词。这种情况在实际互动中的局限非常明显,例如,机器人能理解具体的命令“给我倒杯水”,但无法理解更抽象地表述“我口渴了”。
焦继超说:“即使是三岁的小孩也知道‘口渴’意味着需要喝水。”2016年,优必选启动了第一代人形机器人的研发工作。尽管研发团队能够让机器人的骨架和关节实现非常精准地运动,但提升其“大脑”的智能性始终是个难题。
机器人之所以能够完成这段对话,是因为它采用了像ChatGPT(OpenAI研发的一款聊天机器人程序)这样的人工智能大型语言模型。
大语言模型技术第一次成功模拟了人类的语言系统,让机器人实现与人类自然对话。AI(人工智能)大模型技术的快速更新又让机器人陆续拥有了类似人类的“眼睛”和“耳朵”等感官。通过视觉和语音大模型,机器人能够更好地感知和理解周围环境。当大模型演进到更高级的阶段,不仅能够处理和响应各种信息,还能够自主决策和执行任务,模拟出越来越接近人类大脑的功能。
人工智能技术起源于20世纪50年代,它朝着模仿人类大脑的方向演进了七十多年,却始终游走于数字世界;机器人技术起源于更早的20世纪20年代,并经历了超过一个世纪的发展,机器人已经拥有了灵活的身躯和骨架,但一直未能获得一个聪明的大脑。
在长期发展和“双向奔赴”后,这两大技术终于在当前的时间点交汇,这让人工智能以实体之躯步入现实,去触摸和改变世界;而机器人也不再只是执行简单命令的机械,而是变得能够思考、学习和适应环境,像人类一样在工业生产线、医疗手术台上工作。
焦继超说:“这是一次质的跃迁,人形机器人的iPhone时刻到来了。”
让机器人像人一样说话
机器人“成为”人的第一关是语言。
起初,优必选尝试使用传统的处理方法和AI小模型来实现这一目标:先给机器人预设一些关键词,然后再利用传统的小语言模型(SLM)进行语义分割,通过识别关键词来让机器人触发相应的指令。
焦继超将这个过程描述为“类似于条件反射”。尽管这种方法能够让机器人熟悉特定的语言命令,但对于未预设过的关键词和命令,机器人很难给出正确的反应。
为了扩展机器人的“词汇量”,企业不得不通过编程不断添加预设程序和关键词,以模拟更多的条件反射,让机器人能响应更多的人类语言。这一过程既烦琐又复杂,涉及数据采集、标注、训练以及验证推理等多个环节,工程师们还需要不断地调整参数。
尽管团队付出了巨大的努力,但机器人在语言理解上始终存在局限,无法达到与人类自然对话的水平。反应慢、缺乏思考和推理能力,对于预设之外的新情况和问题,机器人往往无法给出合适的反应。焦继超说,这无疑给团队带来了巨大的挑战。
面对这种情况,他们转而探索另一种技术——知识图谱技术。他们构建了一个庞大的知识图谱库,希望通过命中关键词来搜索数据库中的知识,并据此生成回答。这种方法在一定程度上提升了机器人对自然语言的理解能力,但仍然存在局限性,机器人的回答往往预设性强,缺乏灵活性和人性化,这与团队追求的自然、流畅的人机交互体验仍有很大的差距。
经历了一系列的尝试后,焦继超认识到,要实现真正的突破,需要更先进的技术。
机器人有了嘴巴、眼睛和耳朵
2021年底,OpenAI发布了具有里程碑意义的ChatGPT模型。ChatGPT以其强大的语言理解和生成能力引起了广泛关注,它在自然语言处理技术上取得了飞跃式的进步,开启了人工智能的“大模型时代”。
商汤科技智能产业研究院院长田丰对经济观察报说,在IT时代,人类通过编程语言开发软件、实现人机对话,而大语言模型的出现简化了这一流程,通过“人类母语”就能实现人机对话,这显著降低了软硬件开发和使用AI的门槛。
焦继超首次使用ChatGPT时感到非常兴奋,因为这种技术为解决机器人的语言交互问题提供了新的可能性。2022年初,焦继超团队通过开源的方式引入了大语言模型,并尝试将其与机器人现有的系统集成,利用多年积累的数据和场景来提升机器人的语言交互能力。
结果令焦继超惊喜,他举例称,当用户说“我有口腔溃疡”时,机器能够理解其含义并推理出“缓解症状需要补充维生素”“水果里有维生素”,然后询问用户要不要吃水果,在用户同意的前提下去为其拿取水果。
田丰说,AI大模型不仅能读懂语言、文字,还能读懂语气、情绪,能敏感地捕捉和理解上下文信息。
但这还远远不够。人类有五官,大语言模型仅仅作为机器人的语言系统而存在,机器人还需要多种感官能力。焦继超注意到,处理图像和语音的大模型也相继被开发出来,这些模型的能力可以处理和理解机器人采集的视频、音频,像人的大脑能够处理眼睛和耳朵收集到的外部信息一样。
2023年9月,OpenAI根据ChatGPT进一步发明出了具备图像和语音识别功能的GPT-4V,这意味着AI开始模拟人脑中复杂的神经网络来识别图像和声音,并将其转换为语言指令。
田丰称,正如人类有视觉、听觉、触觉、味觉、嗅觉五感,这种多模态大模型带来了多种感知能力。
焦继超和团队运用技术的手段将“嘴巴”“眼睛”和“耳朵”串联起来,并实现互通协作,机器人变得能看懂、听懂人类的指令,也就能够更加准确地执行命令。
焦继超说,当一个机器人具备了类似人类的眼睛,只要它进门在你家转一圈,观察一下,便会自主在“大脑”中形成一幅房屋的空间格局与陈设的地图,过程中无须人为干预,而在过去,一个机器人观察环境之后,还需要工程师做大量的建模和编程,才能在机器人的“大脑”中“画”出一幅空间地图,为后期的行动提供导航。
机器人的避障反应也更快了。
北京云迹科技股份有限公司(下称“云迹科技”)CPO李全印称,遇到障碍物的机器人的反应步骤非常多,要判断是不是要减速、是不是要躲开、向右躲还是向左躲。现在,公司运用AI大模型的强大计算能力和更精细化的算法,开发了先进的动态避障算法,能够让机器人理解环境,并快速作出正确决策。
然而,要将语言、视觉、语音等多类大模型集成在一起,组成一个完整的大脑,这并非易事。
田丰称,多模态大模型的挑战之一是如何统一处理差异化的跨模态数据,以保证时间的同步和空间的对齐。
焦继超说,人类感官收集信息的路径是通过语言形式传输到大脑,机器人也应该按照这种思路来串联它的“眼睛”“耳朵”和“嘴巴”。因此,团队将不同维度的信息接入到AI大模型的框架里,机器人看到的图像和听到的声音以语言的形式传入“大脑”,并让“大脑”中的语言、视觉、听觉系统彼此协作,以更好地作出决策。
仅仅能看、能听、能说还不够,人工智能距离真正模拟出人类大脑,还有最后一步要走——使用工具、自主执行任务。
田丰称,当人工智能技术从单模态发展到多模态,并可以将AI大模型、记忆库、执行体组合到一起的时候,就进化出了一种新形态——智能体(AIAgent)。
在形态上,智能体可以是纯软件的,也可以嵌入到硬件中。相较于AI大模型,它的升级之处在于进一步模拟了人类的决策和行动过程。如果AI大模型是一台发动机,智能体就是一辆汽车。智能体不仅依赖于AI大模型的计算能力,还需要调用各种工具和执行部件来完成任务。
解决人的问题
李全印总结了机器人干活的三层“境界”:第一层是“你说啥我干啥”,第二层是“你稍微表达一下,我就知道要干啥”,第三层就是“你啥也不说,就我来干”。人工智能技术正让机器人进入第三层“境界”,此时的机器人已经非常接近人类的思考和行动能力了。
借助AI大模型和超强算力的力量,一些机器人在服务人类方面解锁了更多技能。2023年,云迹科技开发了一款用于酒店的多功能服务机器人,与上一代产品不同的是,新款机器人不仅会干活,而且可以自己用工具干活。
根据云迹科技提供数据,2024年2月,该公司的智能客服机器人和物理机器人“合作”为某一家酒店干了将近1000件工作,客人在客房内通过电话、二维码等方式向智能客服提出需求,智能客服把命令下给物理机器人,由物理机器人取物、送物,中间不需要人参与。
云迹科技生产的数万台机器人应用在全球四十多个国家和地区的酒店,这些酒店对其提出的要求是:干活,干更多种类的活。
2023年,云迹科技开发了一款用于酒店的多功能服务机器人,与上一代产品不同的是,新款机器人可以自己用工具干活了。例如接到清扫任务,会主动找到吸尘器的功能仓进行组合,然后走到相应的区域进行清扫。按照这个思路,它还可以收衣服、收垃圾。
李全印认为,这是一个巨大的进步,它让机器人具备了人的智慧——使用工具。“过去,你让机器人去扫地,它是听不懂的,你必须拆解任务,先拿吸尘器再扫地。但现在不同了,当你让机器人去扫地,它会自己将任务拆分成两步,先去拿吸尘器再进行清扫。”李全印称。
李全印称,过去需要人机合作的事情,未来机器人可以自闭环完成。过往在酒店场景中,清扫、收垃圾、消杀等很多任务都是机器人与服务员共同完成,现在,机器人可以自主执行一个完整的任务。这一进步意味着更多人力被解放,可以做更多有价值的事情。
他说,在不久的将来,机器人还能学会自己找活儿干。当人类命令它把房间打扫干净,机器人会感知环境里哪些是垃圾,知道需要拿垃圾桶收垃圾,然后拿吸尘器吸尘;机器人送过来一杯水,水洒了,它会感知到水洒了,并且知道再重新拿一杯水过来,甚至可以拿纸巾把水擦干净。
焦继超说,优必选的最终目标是让机器人走入家庭并成为其中的一员,相比一般机器人,人形机器人需要给人带来更加极致的交互体验。
在一些商用和养老服务的场景中,客户希望机器人不仅能完成一些基础工作,还能在情感上与客户进行更深入地互动,提供陪伴。
优必选以人形机器人全栈式技术为基础,开展智能服务机器人解决方案的研发、设计、智能生产和商业化应用。每年用超过一半的营收投入到研发中。2023年,该公司营收10.55亿元,人工智能教育、智慧物流、消费级机器人及其他硬件贡献了93.7%的收入。
焦继超称,“随着AI进入大模型时代,技术的发展速度超出了我们的预期。这种加速的进展可能意味着原本预计需要5年—8年才能实现场景化落地,现在有可能被缩短至2年—3年。”