蛇年春晚机器人热舞背后:具身智能如何跨越“互动”高山?

03-03 09:01

本文摘自《具体智能:人工智能的下一波浪潮》


刘云浩着


2025年蛇年春晚,舞台上出现了一个引人注目的场景:一群机器人带来了一场独特的秧歌表演,吸引了全世界观众的目光。在张艺谋导演的《秧虫BOT》节目中,这些机器人穿着具有东北特色的棉袄,随着音乐的节奏飞舞,动作准确流畅,手里的手帕也不逊色于人类舞者。



这些惊艳的机器人来自杭州的一家智能创业公司。他们的出现不仅向全世界的观众展示了中国身体服务机器人技术的快速发展,也引起了人们对身体服务机器人行业的高度关注和深入思考。


身体服务机器人作为人工智能与物理世界深度融合的结晶,正逐渐成为未来科技发展的关键方向。清华大学全球创新学院院长、自动化系教授、博士生导师刘云浩在新书《身体智能:人工智能的下一波浪潮》中以通俗易懂的方式分析了什么是身体智能,以及如何实现从人工智能到身体智能的飞跃。


如何使机器“自然地做到”


小狗在草地上快乐地飞翔,小鸟在空中飞翔,这些行为不需要动物的大脑来计算或过度努力。但是要使机器人能够实现跑步、弹跳,那就很难了。首先,智能物体需要准确感知环境和物体的状态,包括物体的位置、大小、形状和纹理等信息。其次,智能物体需要根据感知信息进行运动计划,计算如何移动关节和身体以达到预期的运动;最后,智能物体需要准确执行这些动作,这不仅需要控制关节和身体的精度,还需要适应环境的变化和不确定性。看看波士顿动力——这家公司在工程研究、机械设计、传感器集成和算法开发上花了几十年的时间,这样它的机器人就可以在高度控制的实验室环境中实现包括人类在内的类似动物的飞行和跳跃。


在每个人的日常生活中,很多看似简单的任务,比如切菜、刮胡子、整理收纳等。,人工智能都没有很好地完成,一个粗心的智能体会掉进所谓的“恐怖谷”。这个术语描述了机器人或仿生目标接近但未能与现实人类或其他生物区分时的不适或恐惧。


因为,尽管日常任务对于人类来说很容易,但是对于机器人来说,它涉及到复杂的运动控制和细致的感知。例如,切菜不仅需要根据食物的硬度、形状和纹理来调整强度和切割视角,还需要避免切割,不会造成不必要的浪费。刮胡子要求机器人能够准确识别面部轮廓,柔软有效地去除头发,同时避免划伤皮肤;整理收纳涉及物体的识别、分类和空间布局,需要机器人具备一定的空间智能和组织能力。


它还揭示了具体智能发展过程中的一大瓶颈——如何使机器不仅能“做”这些动作,而且能像生物一样“自然地做”。


“具体智能”由两个词组成,一个是“具体”,另一个是“智能”。首先,我们来谈谈“具体”。


动物,尤其是人类,需要一个复杂细致的过程来控制运动,这涉及到神经系统、肌肉系统和感觉系统的协调。运动控制的核心在于神经系统和肌肉系统之间的协同作用。神经系统通过传输电信号来调节肌肉的收缩和放松,从而通过进化来决定各种动作的运动控制。


对智能机器来说,我们希望它的行动能够准确、快速、协调。但要使机器变得如此灵巧,又不容易呢?


从维纳的控制论开始,行为主义在这个领域做了很多工作。到目前为止,我们已经目睹了大量灵巧的智能机器,从波士顿动力翻跟头的机器人,到穿过大街小巷的无人驾驶汽车,从流水线上组装零件的机械臂,到夜空中飞行旋转形成各种图案的无人机集群。


但是我们还是不满意,因为这种灵巧还不够“通用”,还有很多任务做得不好。即使是普通的家务,目前也没有一台智能机器能够承接和达到商业水平。


那么,这些任务有什么困难呢?互动是关键。在没有外部互动的情况下,智能机器的控制已经得到了广泛的研究,取得了显著的效果。然而,一旦涉及到与环境的互动,机器行为的难度就会急剧增加。摆在互动面前的三座山是“目标”、“环境”与“动态”。


首先,我们来看看互动的目标。目标的种类无穷无尽,可能是一件衣服、一个柜子、一座山、一片大海、一个人或另一台机器。每个目标都有自己独特的属性和特点,我们在与它们互动时的感受和需求也大不相同。比如雕刻木头和堆雪人需要的技巧是完全不同的,抓杯子和捡豆腐的力度是不一样的,打开药瓶盖和打开微波炉门的动作也是不一样的。


其次是互动环境。物理世界中的互动总是发生在复杂的环境中,充满了各种各样的噪音和影响。以晾衣服为例。在可能的风力影响下,我们需要从一堆洗好的衣服中选择一件,并将其固定在晾衣架上。对于无人驾驶汽车来说,雨雪天气和路面障碍物可能会对其行动产生重大影响。


最后是互动的动态性。互动过程通常充满动态性,互动对象的变化和环境的变化在行动之初是无法确定的。即使是这些动态也会导致行为的阶段性目标发生变化,因此智能机器需要及时调整。


然而,当我们将视角转化为一个相对简单和可控的环境,并针对少数目标进行交互时,现代智能机器已经取得了优异的成绩。例如,在生产线上,焊接机器人面临的交互对象和环境在一定时期内是恒定的,因此这些机器人即使需要快速完成多个焊点,也能准确高效地完成任务。


事实上,就重复工作效率和准确性而言,机器已经超越了人类。例如,就乒乓球这种对人们运动控制要求极高的运动而言,智能机器可以在我们将交互环境限制在固定的平台一侧,只限制球拍和球后与人对抗,展示出优秀的技能。


知者敏于行


面对互动的困难,如何提高智能机器的运行能力?“头痛灸头,脚痛灸脚”一直受到批评。要解决互动中的挑战,除了提高控制算法和执行器的物理性能(这些内容已经在其他教材或文献中广泛讨论过)外,还需要关注“知识”的深度和广度。这里的“知识”涵盖了从感知到理解的完整过程,也就是我们对行动对象和对象的全面理解。


如何提高“知识”的深度和广度?或者从我们最熟悉的人类开始进行分析。人之所以能够拥有出色的行动能力,不仅仅是因为身体结构的复杂性,更是因为我们有强大的感官和神经系统。例如,当我们用刀切肉时,我们首先通过视觉给出的信息将其定位到正确的位置和姿势,然后结合视觉和握柄手的触觉信号来确定施加了多少力量和力量。如果我们假设实施者是一台只有视觉传感器的智能机器,那么当肉中有一块骨头时,就很难做出快速准确的反应。


手部皮肤可以感知到各种信息,如疼痛、温度感、振动感、移动触感、恒定触感等。,包括17000多个触感体,可以实现粗粒度的精确触感。在这方面,目前的智能机器显然存在很大的不足。


因此,我们应该充分发挥智能的独特优势。虽然服务机器人没有那么多神经和感官,但它的形状和感知也不受基因的限制。事实上,人们不可能在短时间内在头后进化出一双眼睛,但让智能机器拥有“头后眼”并不奇怪。因此,他们可以探索一个更广阔的感知世界,而不受传统感官的限制。


例如,魔方是许多人喜爱的一种益智玩具,但是对于许多没有经过特殊训练的人来说,恢复魔方并不容易。即便经过一定的学习,对我自己来说,也需要3分钟。2019年,OpenAI发布了一个用机械手解魔方的系统。为了测试机械手的极限,研究人员不仅要求他们单手恢复,还在实验中设置了多重障碍:戴着橡胶手套,一些手指被捆住,甚至一只长颈鹿走过来影响。尽管面临这些挑战,系统仍然表现出出色的鲁棒性。



图片:OpenAI发布的系统,用机械手解魔方。


这位用来玩魔方的机械手,来自ShadowRobot(英国暗影机器人公司)的ShadowDexterousHand(灵巧手),安装在一个方形的笼子里,里面有RGB摄像头和PhaseSpace动作捕捉系统。它的控制方法是以加强学习为基础,输入机械手手指的位置和魔方的状态,导出机械手的下一步动作。机械手在OpenAI发布的一段视频中,在大约4分钟内成功再现了一个三阶魔方。通过三个不同角度的摄像头来估算魔方的状态,而机械手指尖的位置则通过3D(3D)动作捕捉系统跟踪。该系统展示了一个核心理念:尽管只有一个机械手在执行动作,但是它的感知却遍布整个空间。机器可以随时为自己选择很多强大的感官。例如,在无人驾驶汽车中,最新的激光雷达可以实现超过100米的高精度三维扫描,热成像传感器也可以使机器在夜间发现温度目标。它还带来了一个新的问题,那就是如何使多种感官能很好地协同工作。人的感官结合是长期进化的结果,但是在这方面,机器智能才刚刚起步。


使用创新的异构网络架构,DenseFusion可以分别处理RGB和深度数据。这一设计使得各种数据都可以保持其原始结构,而非简单地将其组合成一个单一的通道。DenseFusion在独立处理数据后,首先对两种数据进行预处理,然后使用密集的神经网络进行整合,使模型能够有效地利用RGB和深度数据的互补性,同时保持数据结构。


提出TAVI(TactileAdaptationfromVisualIncentives,新框架的作者认为,仅仅依靠目前智能机器的触觉感知,无法提供足够的线索来推断物体的空间配置,这限制了纠正错误和适应变化的能力。所以,他们建议可以利用基于视觉的奖励来优化灵巧的策略,从而提高基于触觉的灵巧性。


机器并不总是能打“富仗”。在很多应用场景中,由于体积、成本等诸多方面的限制,智能体必须学会充分利用有限的感知数据。


抓取是一种基本而复杂的具体智能体能力,它需要精确的控制,以防止物体受损或滑落。不同的物体会有不同的抓取策略:滑动的陶瓷杯和粗糙的橡胶球,它们的抓取方式也大不相同(毕竟我不希望我精心挑选的卡洛曼设计的咖啡壶被打碎)。AnyGrasp提出了一种新的用于抓取的感知技术,使机械夹爪能够平稳地抓取大量形状不规则、未见过的堆叠物体。感知部件只是一个普通的深度相机。得益于对大量真实世界数据的学习,机器可以主动绕过障碍物,通过感知零件的质心来提高稳定性。这两个特征经常可以在人类的视觉抓取行为中看到。然而,在另一项研究中,Takahashi等人提出了一种方法,可以通过图像来估计触觉特征,这对于具体智能体与环境的交互尤为重要。例如,如果智能体通过视觉观察到某种材料表面比较光滑,则可以采用更紧密的抓握方法来防止脱位。


除了提高感知能力,如何让机器拥有真正的思维能力是现阶段智能研究的前沿,包括图灵获得者杨立昆最近提出的关于世界模型的理论,这个问题正在进行大量的工作。


智能熵增和具体导航


在互联网和物联网时代,连接已经渗透到人们的生活中,互联网变得无处不在。你可能会想:连接不就是交换信息吗?如何影响认知甚至促进智能发展?


连接传递认知。


在没有联系的情况下,感知和认知是如何实现的?依靠观察和猜测。是的,人类做出判断的过程本质上也是一种猜测,即根据自己所看到的信号,结合自己的认知来猜测。显而易见,感知存在盲点和误差,认知也存在局限和错误。我们的视觉可能会被遮挡,我们看到的也可能不是真相。举例来说,同样在黑暗中看到模糊的身影,有些人可能会因为害怕或迷信而认为这是“鬼”;而且有些人可能是基于理性的分析,认为这只是光影效果或视觉错觉造成的“正常现象”。


因此,假设智能机器的任务是从一堆水果中寻找一个苹果,它必须努力克服屏蔽的影响,寻找苹果的特征,然后找到一个非常相似的目标,但这可能是一个表面非常相似的塑料苹果。智能机器抓住它后,甚至可能会发现重量和苹果差不多,所以只能考虑闻闻(如果有嗅觉传感器的话)或者切开继续观察。单一的感知或认知总是举步维艰。


假如智能机器能与所有的交互目标建立联系,它们的行动是否会变得更简单、更直接?


在这一点上,智能机器比人类更有优势。人类的主要交流方式是语言,更不用说与石头交流了。我们可能无法理解跨省的方言,所以人类与外界的交流往往需要智能机器的帮助。另一方面,机器从相连的媒体(无线信号、声音信号、光信号)、连接的“语言”(协议)、连接带宽等各个方面,都要强得多。


此外,许多智能机器可以比人类更充分地分享他们的认知,这样每台机器都可以获得更多的信息,有利于规划自己的行动。这种群体智能显然超越了个人智能。


连接创造认知。


除了传递认知,连接本身也创造了认知。连接的载体,也就是各种信号,都是可以感知和理解的。它们带有物理世界的痕迹,给我们丰富的信息。


例如,在无线导航的研究中,我们利用无线信号强度与距离的相关性来估计距离。一般来说,距离检测依赖于特殊的感知模块,如尺子或激光测距仪,而无线信号的距离估计能力与其固有的相连。此外,通过观察无线信号的相位变化,我们提出了一种精度为毫米的定位技术,比同期技术的定位精度提高了40倍。


对机器设备状态的实时监控尤为重要,无线信号的相位变化也可用于感知高频振动。最为常见的无线信号也能赋予机器“透视”的能力。举例来说,我们平时使用的Wi-Fi路由器可以通过墙壁透视,让我们“看见”墙壁后面的人。这听起来像是一种“超能力”,但事实上,通过分析Wi-Fi信号的微妙变化,科学家们确实能够探测到墙壁另一侧的身体运动。


这一联系的建立本身就是一种认知结果。它不仅代表了物理上的接近和可达性,而且通过这些连接产生的网络,我们可以构建一个拓扑图,反映实体之间的相互关系和连接的复杂性。举例来说,社交网络中的六度分离理论揭示了人类社会关系的密切程度。它告诉我们,任何两个陌生人之间最多只有六个人。这一理论还反映了认知拓展可以通过连接来实现。类似的原理可用于机器世界中的物联网设备,它们通过无线信号相互连接,形成一个巨大的感知网络,使每个设备都能感知到网络中其它设备的状态和位置。


通过这种方式,连接不仅是信息传递的媒介,也是智能系统认识世界的一种方式。


连接影响智能分布。


在生物出现在地球上之前,智力就像一种沉睡的种子,还没有发芽。随着时间的推移,植物和动物逐渐演变。最后,人类以独特的智慧在生命的森林中脱颖而出,智力出现了。智力的集中赋予了人类前所未有的地位。人类不仅成为探索世界的领导者,也成为塑造世界的主要力量。


随着信息技术革命,尤其是人工智能的发展,智能机器诞生并开始帮助人类。互联网和物联网的普及正在改变这种不均匀的智能分布。借鉴信息理论中熵的概念,这种现象也可以称为“智能熵增”。如果智能和非智能有明确的界限,我们认为熵低;相反,如果智能遍布世界各地,我们认为智能熵正在增加。


例如,智能终端本身的计算能力可能有限,但一旦连接到互联网,它就可以从云主机获得强大的计算能力和知识,从而提高自己的能力。换句话说,智能熵增减少了智能机器对自身固有感知和理解的依赖。


让我们回到具体导航的例子。一辆无人驾驶汽车使用自己的摄像头、激光雷达和无线模块来感知周围环境,并采取加速、减速、变道、超车等行动。在传统导航中,路径规划和行动决策依赖于提前获得的地图,引导汽车行动,通过卫星信号等形式进行定位,不断缩短位置与目的地之间的距离。如汽车具有感知周围环境的能力,则无需将自己映射到地图上进行导航。当我们引路时,我们很少直接指定几个坐标位置。更常见的方法是“向前走两个红绿灯,左转向前,看到路左边的商场,右边的白色写字楼就是目的地”。这种导航,完全依靠感知来引导路径。可证明,感知数据所构成的感知空间,也符合线性空间的基本定义。只要定义合适的距离函数(数学称为范数),感知空间和物理空间的尺度就可以保持不变:物理空间远,感知空间远;物理空间近,感知空间近。怎样定义合适的范数,完全是一种数学技巧。事实上,我们都知道物理空间是3D的,感知空间远远超过3D的线性空间,这使得我们有很多数学技能可以通过优化来实现感知空间与物理空间的一致性,即“感知空间-物理空间”的一致性理论。


还有一些其它的推理,比如:感知空间是一种完美的赋范线性空间(数学上称为巴拿赫空间);存在感知子空间与物理空间同构,两者之间存在单一的映射关系;物理空间的运动可以被感知子空间的时间函数唯一描述;物理空间中任意两点之间的距离函数等于感知子空间图像的距离函数;等等。这一推理表明,在物理空间中导航相当于在感知空间中导航。或许有一天,我们的导航完全是在感知空间中进行的,只是通过具体的智能体在物理空间中移动。


实际情况下,感知空间的维度过高,计算复杂度过高。即使是最聪明的无人驾驶汽车,我们也常常在新闻中看到它们在路上。随着车联网的出现,单一智能逐渐走向群体智能,车辆之间的信息共享通过连接完成,使得行动决策更加简单高效。2024年1月,五部委联合发布《关于开展智能联网汽车“车路云一体化”应用试点工作的通知》,进一步将连接范围扩展到云和路面模块。试着考虑一下,几百米外的交通事故被路面模块发现并通知即将到来的车辆,这是任何老司机都无法做到的。一辆无人驾驶汽车进入停车场后,也不需要四处寻找停车位,停车场会直接给出位置的指导,然后汽车本身也会倒车。是否方便,也很自然?


从另一个层面看智能化的演变,不难发现,随着智能熵的增加,智能体的边界正在逐渐消化。这一变化表明,机器不再局限于其物理形态,而是开始将外部环境融入其智能系统内部。就像把外部世界变成了智能体的延伸,把原来的外部行动变成了内部的自然交互。首先,人们驾驶汽车,然后智能机器驾驶汽车。未来,我们将道路和汽车的集合视为一个具体的智能身体,即路面驾驶。道路能充分感知其上的一切情况,掌握所有车辆的实时动态,从“第三视角”出发,进行全局交通调控。将来,交通事故也许真的只存在于历史上。


【新书推荐】



刘云浩着


中信出版集团


2025年1月


作者简介:


清华大学全球创新学院院长刘云浩,清华大学自动化系教授,博士生导师,ACMFellow,IEEEFellow,ACM主席奖、国家自然科学二等奖、教育部技术发明一等奖、中国计算机学会自然科学一等奖、中国电子学会自然科学一等奖。获得清华大学自动化系工程学士学位,在美国密西根州立大学计算机系获得工程硕士和工程博士学位。曾任清华大学软件学院院长,美国密西根州立大学计算机系主任。


内容概述:


人类已经完成了“人工智能初始阶段”的原始积累,正式进入向“更高阶段”迈进的时代。人工智能诞生之初,其目标可能是实现身体智能——这种智能体不仅具有物理形态,还可以与物理世界互动。


具体智能这条路径可以通向通用人工智能吗?从符号主义、联结主义和行为主义三个纲领出发,逻辑学、统计学、神经科学和计算机科学的研究者研究人工智能。建立通用人工智能需要第四个纲领吗?或者依靠这三者的结合来解决问题?这些问题现在给出确定的答案还为时过早,但从古至今,这本书以目前火热的智能话题为基础,探讨了人工智能的过去、现在和未来。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com