人形机器人表情交互:硬件自由、皮肤材料和算法三重挑战
互动体验的革命是提高人形机器人成熟度和普及率的重要突破口。随着机器人面部情感技术的成熟,传统的人机交互模式将以表情等信息的形式进行创新,赋能各种强交互场景的机器人产品。
这篇文章将深入分析行业趋势与机器人表情交互的核心技术节点,行业信息与合作机会欢迎与我们交流。
为什么要注意人形机器人的交互跑道?
——互动是人形机器人的核心技术之一,互动体验的革命将带动人形机器人的进一步完善和普及
自2024年以来,中国的具身智能产业,尤其是人形机器人产业,进入了快车道的发展,未来将具有巨大的爆发潜力。据《2025人形机器人及具体智能产业研究报告》显示,2025年中国具体智能市场规模预计将达到52.95亿元,到2030年,中国具体智能市场规模将达到1,037.52亿元,复合增长81.31%,占全球市场的44.6%。
根据人形机器人的不同技术栈,人形机器人大致可分为三类:
(1)挪动:重点解决locomotion问题,促使机器人能够在环境中平稳地移动自己的位置,代表宇树、众擎等处理这个问题。
(2)操作:重点解决机器人对外部事物的灵活操作需求,特斯拉Optimus等问题的代表。
(3)交互:重点解决机器人对环境或外来物体的感知和相应的互动需求,以及EngineeredArts等解决问题的代表。

图1:人形机器人的核心技术栈分类
当前,人形机器人公司在移动或操作方案方面已经比较成熟,交互技术仍处于初步探索阶段。当机器人具有完善的移动和操作技能时,它可以满足作为生产力的基本需求,并在工业和农业领域进行商业探索。然而,人形机器人之所以作为“人类”存在,是因为它必须融入人类社会,与他人互动。因此,从长远来看,交互能力是提高人形机器人和普及率的关键节点。
以历史为镜,互动体验的革命有望成为未来人形机器人大规模普及的重要突破口。参照PC网络时代,计算机正式进入千家万户的重要机遇就是图形用户界面。(GUI)该发明使普通人能够简单方便地操作计算机,从而大大提高计算机的普及率。移动互联网开始的标志性事件是iPhone的发布、iPhone的触摸屏、APP生态等全新设计,彻底颠覆了传统手机的互动技术,开启了智能手机的新时代。
为什么要注意表情交互跑道?
1. 面部情感的互动将创新人机交互范式
目前,人机交互主要依靠屏幕和语音交互。预计未来,面部情绪丰富、交互自然的人形机器人将大大提高人机交互效果,在交互需求强的智能应用领域。基于美国社会心理学家Albert 梅拉宾法则由Mehrabian教授提出(The Rule of Mehrabian),在人际交往中,只有7%的信息来自语言内容本身,38%的信息来自听觉信息,包括语气、语气等因素,而面部情绪、肢体语言等非语言因素传递的信息高达55%。

图2:梅拉宾法则
2. AI互动领域涌现出许多隐藏的实用场景,完善的面部情感互动技术方案具有很大的应用潜力。
例如,在家庭场景等高度复杂的非结构化场景中,会涉及复杂的感知决策和运动控制。即使是简单的抓杯子、叠衣服等工作,也需要高精度。因此,机器人具有移动、操作等强大功能属性的广泛应用仍然困难。
AI交互产品更注重用户的交互体验,对于交互技术、产品设计等能力要求更高的条件,如表情控制的精度低于移动/控制机器人。相比之下,互动机器人有望率先实现落地,各种新兴产品已在AI陪伴/互动领域涌现。
建梦岛、星野、猫箱等AI情感陪伴软件已经出现在软件级产品中。与此同时,各种硬件级产品也逐渐出现。目前已经推出了各种桌面机器人和宠物机器人,主要是屏幕/语音交互。这些产品大多外观可爱或有趣,可以在一定程度上满足用户的情感互动需求。价格一般在1000元到10000元之间。此外,一些公司推出了具有仿人形状的互动机器人,在面部形状和表情上与人类相似,追求提供更仿人的互动效果。然而,大多数仿人机器人仍然有明显的恐怖谷效应,商品仍在迭代升级。
目前,交互体验低于预期是这类产品的主要瓶颈之一。随着表情交互技术的进一步发展,预计未来将会出现模仿或卡通陪伴机器人,具有完善的表情交互能力。

图3:AI交互陪伴商品的种类不同
核心技术节点表情头
1. 硬件端
(1)自由设计
设计仿人机器人表情头时,需要根据人脸肌肉分布、动作模块等来设计机器人表情头的自由度。按Paul计算 Ekman和Wallace V. Friesen提出的面部动作编码系统(Facial Action Coding System,简称FACS),人脸上下有42块肌肉,其中主要有32块表情肌,形成了30个主要的面部动作模块。(AU)。
机器人表情头的自由可以分为主动自由和被动自由,主动性自由主要由表情肌解剖学理论和应用于数字人脸的动作单元的设计指导组成。目前还没有明确的设计指导。

表:机器人表情头的自由度分类
(2)选择和研发电机。
选择表情头电机的核心关注点是推力/扭距(大)、速度/速度(快)、噪声(小)、尺寸(小)、重量(轻)。下表显示了不同电机对表情头性能参数的影响:

表格:对比不同类型的电机
除了电动机之外,减速器的选择也会影响表情头的性能参数。。一般而言,平行齿减速器噪音大,使用寿命短(数百小时);行星减速器噪音小,使用寿命长(千小时以上),但长度长,价格高。
目前国内外的表情头商品大多采用货架电机商品制作,主流方案是有刷空心杯电机 平行齿减速器。但是这个方案的使用寿命不够长,噪音比较大。扭矩和体积受到电机供应商产品线的限制。控制方法相对简单,但对表情动作的平滑度影响很大,布线复杂,安装方法有限,进一步增加了头部的自由度。因此,为了提高表情头的性能,有必要对电机进行定制改造或自研驱动方案。其主要困难在于进一步的体积压缩,包括电机驱动电路和减速器。
皮肤材料的选择及结构设计
面部面部表情设计应考虑材料性能和结构设计两个方面:在皮肤材料性能方面,应考虑材料的非线性弹性模具、粘弹性模具、各种反应、抗疲劳寿命、环境稳定性、摩擦阻力、灰尘吸附、易成型等。设计皮肤结构,多层次微结构设计应考虑模拟人体皮肤的表皮、角质层、真皮层等。
另外,还要考虑电机驱动结构-材料藕合失效的问题。在多种自由度的共同推动下,容易出现应力集中撕裂、传感器嵌入、被动自由控制等诸多潜在问题,需要厂商根据自己的经验进行调整设计。
面部表情和面部皮肤会直接影响人们的互动体验。目前,不同的制造商有自己的设计方案。硅胶等材料还是有很强的塑料感,在用户互动时容易引起恐怖的谷物效应。再加上自由度和电动机的限制,会产生明显的机械感,影响人机交互感觉。一些公司,如英国Ameca,则在产品设计上选择表情仿人、外形非仿人的策略,在一定程度上绕过恐怖谷问题。
2. 软件算法端
(1)表情的形成
面部情绪对提高机器人的亲和力和共情能力起着关键作用,表情生成能力是当前厂商的关键技术瓶颈之一。当前市场上大多数表情头商品的表情生成主要依赖于机器人动力学的先验知识和硬编码,也就是说,调整者根据经验,通过手工调整的方式对各种表情进行预调,在机器人需要时调用。
但是预编程的做法有明显的局限性:
一方面,真实人脸的表情是多样的、生动的、不确定的,而预编程的表情数量是有限的,取决于调整者的经验,会导致机器人表情僵硬呆板。而且如果机器人只有有限的表情,客户在使用一段时间后会敏感地感知到机器人面部表情的约束性和规律性,从而极大地影响交互体验。
另外一方面,如果采用预编程的方法,在表情头的机械结构、制造工艺和外观上存在差异,则需要重新编程,效率非常低。
一致通用的表情生成方案要求企业具备强大的软件架构能力和R&D表情头的经验,这是目前核心的技术壁垒之一。目前国内外只有少数企业有一键生成表情头的能力。
声唇同步(2)
声唇同步是指当机器人发出声音(如演讲、唱歌、叹息等)时。),嘴巴应该同步和模仿嘴型。,这是具体交互和非具体交互(如手机和音响)的显著区别之一。只有同步声唇,客户才能获得在场感。(sense of presence),也就是说,机器人的确与自己处于同一物理空间,是一个真正的有机体。
动画、游戏、数字人等领域已经取得了声唇同步技术的成果,但是与数字人相比,机器人口腔运动具有电机速度不如肌肉、物理传导延迟、软变形不能人工建模等特点。,这促使数字人口型的手动投射成机器人口型存在运动滞后和形状不一致的问题。所以,实现声唇同步功能的技术难度较大,市场上具有优良声唇同步功能的表情头较少,大多数表情头仍然依赖于预编程,嘴部采用固定的动作循环。
(3)运动控制
机器人表情动作是通过运动控制永磁电机实现的一项复杂的任务,涉及柔性材料力学特性建模、电机精密控制、多自由协同等诸多技术问题。
第一,精确建模柔性材料是主要瓶颈之一。Gazebo可以直接使用传统的刚性结构机器人、Isaac Gym等模拟引擎不同于精确的数字模拟训练,柔性材料具有明显的非线性变形特性。不同材质的比例和厚度会影响机器人面团的变形性能,所以每个面团都需要单独建模,建模需要收集变形数据。
第二,机器人面部电动机的高精度实时控制也是一个关键挑战。与目前主流机器人普遍采用的静态或简单的预置动作不同,自然动态表情涉及面部动作序列的连续性和细致性,对运动的平滑性和准确性提出了更高的要求。。
另外,多自由协同控制问题不容忽视。机器人头部通常包含30多种运动自由度,有许多并联结构,带来运动藕合的问题和同步控制的需要。
重点关注
Ameca2021年底由英国EngineeredArts公司推出,设计具有性别中立和种族中立美学,配有灰色皮肤,配有自主研发的Tritium操作系统和Mesmer表情系统,能够准确模拟人类微表情,如迷茫、惊讶、微笑等,动作响应灵活。Ameca从2023年开始逐步升级,增加了视觉感知和声音克隆能力,并且接入GPT-4和StableDiffusion,可以实现绘画、深度对话和情感表达,显著提高了交互效果。
不管科技(AnyWit Robotics)成立于2023年12月,是国内领先的表情头供应商。公司团队诞生于中国科技大学机器人实验室,是国际智能机器人两大主流认知智能技术之首的“可佳”和独特感觉交互机器人“佳佳”项目组的核心成员,多年来一直从事人机情感交互领域的研究。公司在头脸自由度、表情生成、声唇同步等功能上形成了自主创新的高自由度表情驱动系统和多模态交互算法引擎的技术优势。商品在国内领先,国际领先的标杆行业技术领先Ameca。
交互模式创新颠覆性地开辟了PC互联网和移动互联网。机器人面部情感交互技术的成熟有望成为未来人形机器人大规模普及的重要突破口。表情头行业在软硬件方面有很高的堡垒,行业还处于技术迭代期。预计未来具备电机自主研发、皮肤设计、表情生成算法、声唇同步算法等全栈能力的企业将继续引领市场。
本文来自微信微信官方账号 “云邈资本”(ID:winsoulcapital),作者:郭皓孙蜀钦,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




