具身智能2024:大型“凿壁”,机器人“偷光”

2024-12-13

银河通用官宣两周前完成了5亿元的战略融资。


成立一年半,获得30多只知名基金投资,加持北京、上海、深圳、香港四地政府基金。,银河通用创始人王鹤近日明确表示,“银河通用正在冲刺独角兽,共筹资12亿元。”


它是2024年国内智能热潮的真实写照。


实际上,早在今年年初,高质量的机器人团队就成了全球投资者的疯狂目标。


首先,美国有Figure AI 在国内宇树科技获得了6.75亿美元(约49亿元)的高额融资之后,国内宇树科技获得了10亿元的B2轮融资。


如今,这两家机器人公司已成为智能领域的准独角兽。


另外,根据GGII数据,2024年1月至10月,全球人形机器人产业共发起。69起融资,融资总额高达110亿元


2024年注定要成为机器人总动员的一年,这是一个具身智能的历史大机遇。


但就智能而言,2024年是大幕拉开的一年,是百家争鸣的一年,也是行业热切期待的一年,但并没有成为行业规模化的一年。


对于大模型 人形机器人这种最受关注的具体智能模式,今年我在与从业者的交流中听到最多的一个关键词是,“还很遥远”。


所以,在这一年里,具身智能被推上了全球科技竞争的制高点,这么多热钱涌入这条赛道,具身智能到底是怎样的?


01 具体智能的数据难题


数据创造了OpenAI,数据创造了一个大模型。作为奥特曼眼中通用人工智能的终极形式,数据现在正在实现具体智能。


ICRA是由IEEE机器人和自动化协会主办的全球机器人学术会议,也是世界机器人领域最权威的学术会议之一。今年5月,ICRA在日本横滨举行。 2024年,大会最佳论文奖最终获得Open名称。 X-Embodiment。


Open X-Embodiment包括两个结果,一个是机器人学习数据,另一个是基于该数据训练的RT机器人运动控制模型-X。


其中,最稀缺的是机器人学习数据。本文的数据集是21所大学和研究机构收集的22个不同机器人的数据集。这个数据最终包含了100多万个机器人的真实运动轨迹数据,从而展示了527种机器人技能。


基于这一成就,谷歌今年还训练了一个视觉-语言-大动作模型OpenVLA,数据规模达到7B,这是今年智能领域的标志性事件。


然而,即便如此,OpenVLA仍然无法实现普遍泛化。


银河通用团队在实验室对OpenVLA模型进行了一系列测试。王鹤发现,“当基于OpenVLA的机器人以另一种方式在实验室执行抓取任务时,机器人几乎无法抓取任何物体。”


小样学习,高通过率布局,成为摆在具体服务机器人面前的第一个难题



实际上,目前行业内即使要打造“小样本学习,高通过率布署”的VLA模型究竟需要多少信息量,仍有争议。


这一问题已经成为最近一次机器人主题圆桌论坛的焦点。


“我们正在做具身智能Scalingg”,千寻智能创始人高阳指出 在Law的研究中发现,数据数据只需2000条数据,可以使机器人在任意情况下,对任何物体进行泛化操作(对精度要求不高)。


同时,高阳和他的学生作为清华大学交叉信息研究所的助理教授,也在今年的机器人顶级学术会议CoRL中研究了这个问题。 在2024年获得最佳论文奖。


然而,跨维智能创始人贾奎教授对此提出了不同的看法,他指出:


“无论是机器人续水、打开冰箱还是其他任何动作,如果只需要2000甚至20000条数据就能实现泛化,我们其实可以马上把这个机器人落地赚钱,但其实我们并没有看到这种情况。


这是因为具体智能的数据类型是异构多样的。,有视觉、力觉、触觉等等各种传感器数据,有基于各机器人本身的状态数据,也有动作轨迹数据的不同,由此产生的异构数据的信息量、复杂性差异是巨大的,没有上亿条数据,任何技能的泛化都是不可能的。。”


这是具体智能还处于混沌初期,百家争鸣阶段的形象体现。与人工智能技术的发展不同,具体智能仍然需要像ImageNet一样的基准数据集。


2010年,斯坦福大学李飞飞教授基于ImageNet数据,在全球范围内推出了ImageNet大赛,在这场持续了8年的视觉识别AI大赛中,人工智能算法识别对象的准确率从71.8%提高到97.3%。



其中,今年诺贝尔奖获得者Geoffrey AlexNet是Hinton团队代表作之一,是2012年ImageNet挑战赛的冠军。


李飞飞用数据重新定义了每个人对模型的看法,在ImageNet争霸赛背后,统一的基准测试推动了人工智能技术的进一步发展。


所以,现在的具体智能有这样一个统一的标准吗?


答案是,没有。


然而,我们可以看到的是,李飞飞团队再次构建了BEHAVIOR-1K,BEHAVIOR-1K具有智能基准测试环境,而在中国,通用研究所朱松纯团队构建了通用人工智能标准、评级、测试和结构。


另外,包括北京、上海等地涌现的具身智能创新中心,已建立具身智能数据集,甚至公版人形机器人。


不管是学术界还是工业界,科学家们都在加紧benchmark这一步,使身体智能能够从分散战斗转向集中力量。


虽然基准测试很重要,但是模型的发展更为关键。


02 将世界模型放入机器人中


具体智能是什么?


一个我经常举的例子是:


一群研究人工智能的科学家发现,人工智能技术已经发展到一定阶段,可以将人工智能算法加载到硬件产品中,在现实世界中更直接地工作,所以他们有智能。


所以,在我的理解中,具体智能本身就是人工智能技术发展到一定阶段的产物。,这一时期的一个重要起点是大模型,或世界模型。


把大模型和机器人结合起来,是具体智能的第一要务。


由于机器人本身就是一种拟人化的设计产品,我们可以看到,现在拥有智能大模型的主流设计路线是基于人脑快慢系统的逻辑——快速模拟人类进行快速直觉反应,慢速模拟人类进行反思、推理。


智源研究院作为中国人工智能领域的顶尖科研机构,在开发智能模型时,正是基于这条设计路线,同步跟进两条技术路线:端到端和分层结构。在这里,我们可以直观地了解基于两条路线的智能源的公开研究成果。


针对复杂的长程任务,智源团队设计的端到端大模型任务执行逻辑为:


首先,智源团队设计了一个快速系统来产生快速直觉的动作。当快速系统任务失败时,将通过慢速系统检测和定位任务失败节点进行纠正。


在这个系统中,另一个关键程序是快速系统的不断知识更新模块,不断将慢系统在失败任务过程中积累的知识转移到快速系统中,从而提高快速系统的任务执行能力。


对于端到端目前无法胜任的更复杂的长程任务,基于分层结构的具体大模型将会产生更好的效果。


智源团队设计的分层结构具有大模型任务的执行逻辑。


先通过大脑系统拆解、推理长程任务,提醒小脑关键点,规划操作路径。


为训练这种大脑模型,智源团队对大脑模型进行了收集,并标注了专门的数据集,并制定了多阶段的实践策略。


再通过小脑模型进行拆解后的原子任务。


作为一个可以执行端到端任务的小脑,它不仅需要高效率,还需要一定的推理能力。智源团队选择RoboMamba作为小脑的大型基础。


为了跨越不同机器人本体的使用,智源团队还专门为小脑设计了一种高效的微调算法。面对不同的自身、场景和任务,只选择一些有代表性的参数进行微调,使其适应相应的自身、任务和场景。


根据智源官方透露,与OpenVLA需要重新调整70亿参数相比,该模型需要调整的参数值只有300万左右,效率可达9Hz。


这是大模型给机器人带来的新思路,也给机器人在大脑中进一步拟人的概率。当然,也是现在智能起伏的诱因。


加速进化的创始人程昊曾经指出,“我们这次遇到的历史机遇与以往不同的是,过去的历史机遇更多的是通过AI算法使硬件更加自动化,这一波机遇是人工智能的快速发展,已经开始对现实世界产生强烈的感知,影响世界。,而且现在的硬件媒体不能很好地感知世界,影响世界,人工智能迫切需要一种新的应用媒介。


这个新载体是什么?


在过去两年中,程昊和很多在机器人领域创业的企业家都有同样的看法,那就是:


这一新载体是人形机器人


03 人形机器人“遥远”


要不要 做人型机器 人类,在2024年似乎已经不再是问题了。


早在2023年10月20日,工业和信息化部就发布了《人形机器人创新发展指导意见》。意见中提到,到2025年,要初步建立人形机器人创新体系,突破“大脑、小脑、肢体”等一批核心技术,确保核心部件安全有效地供应。


然而,我们这里所说的具身智能并不只是人形机器人。


具体智能是一个广义的概念,任何符合要求的东西「大模型 硬件」搭配,都可以算作智能体,甚至智能汽车,本质上也属于具体智能。


本文提到的具体智能定义略有收窄,具体指的是「大模型 机器人」,即便如此,四足机器人、轮式机器人、人形机器人都属于具身智能的机器人媒介。


而且之所以人们如此关注人形机器人,是因为人形机器人是具有智能的终极媒体。


然而,由于人形机器人是智能的终极形式,人形机器人仍然有一个长期的标准形成、技术迭代和成本下降的过程,无论是大脑、小脑还是四肢。


就目前而言,大模型 人形机器人(我们又称具身智能人形机器人)落地商业领域还不是最好的时机。


到2024年,我们看到的是具身智能人形机器人两种中间形态正试图率先进入商业场景:


首先是轮足底盘 机械臂 灵巧手形态。


这种形式用轮试底盘代替了人形机器人的下肢,保留了人形机器人的灵巧手。重点是充分发挥机器人的灵巧手在分拣和运输方面的工作能力。银河通用的GALBOT G1是这种形式的典型代表。


根据银河通用官方公告,GALBOT G1已在北京大型奔驰汽车厂、极氪汽车厂、美团前置仓执行转运和搬运任务。


其次是经典的控制算法 人形机器人形态。


这种形式保留了人形机器人的形式,但支持人形机器人的算法不是大模型,而是经典的机器人控制算法,Walker是最好的选择。 S是这种形式的典型代表。


根据优必选官方公告,优必选已与东风柳汽、吉利汽车、比亚迪、北汽新能源、富士康、顺丰等公司合作,Walker使用经典控制算法 S正在进入这些企业工厂的安装、运输、检验、维护等工序。


现在有更多真正的具身智能人形机器人出售到科研领域。


例如,宇树科技的人形机器人受到世界顶尖大学和实验室的高度追捧。随着进化的加快,他们也选择将科研和教育作为自己的人形机器人商业落地主跑道。


2024年,具身智能人形机器人的两个真实情况是:


另一方面,只有人类类型才能适应所有复杂的地形,并能在人类生长环境中执行所有任务;


另外一方面,大模型 具身智能的人形机器人之路,依然遥远。


本文来自微信微信官方账号“锌产业”,作者:山竹,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com