机器人通用大脑是从谷歌RT系列中生长出来的。

2024-11-08

2022年12月13日,是机器人行业值得记住的一天。


这一天,Google RT-1模型Research对外开源。


类似于几个月前发布的ChatGPT,RT-同样是一种基于transformer架构的通用大型模型;


不像ChatGPT,RT-第一,面向机器人这个垂直领域的通用大模型。


作为一种通用机器人模型,RT-1能让机械臂以97%的准确率在厨房执行700多项常见任务。,并具有一定的泛化性



RT-1当它出现时,它足够令人惊叹,它甚至完成了OpenAI想要做却没有制造的具体智能。


但是在RT-1背后,最重要的是Google。 Research是一个由13个机器人收集的13万个真实机器人运行数据组成的训练数据集,耗时17个月,花费数千万美元。


它是RT-1在厨房场景中实现97%任务准确执行的关键“教材”。


此后,2023年7月和2023年10月,谷歌发布了RT-2和RT。-X。


谷歌RT系列相继出现,引起了全球机器人团队的高度重视。大家开始拆解研究谷歌RT系列的成果,思考大模型能给机器人带来什么样的泛化能力。


此时此刻,谷歌机器人科学家Karol,深度参与RT系列模型研发。 从谷歌开始,Hausman就拉出了一个团队,声称要为世界机器人建造一个通用的大脑。


通用大脑的构想Hausman不仅是RT系列的延续,也是一次逃离谷歌的冒险。


01 一代“商品”,二轮融资


为了从谷歌“拖出”这个团队,Hausman起了一个非常接地气的名字。——Physical Intelligence,直译过来是「物理智能」。


当然,你也可以称之为身体智能。但是,他们更愿意称自己为PI,他们的企业LOGO也是数学中直接用来表示圆周率的。π。


现在,PI公布了第一阶段的研究成果。——π0。


π0不是一个机器人,而是一个通用机器人基础模型,PI团队花了8个月的时间,PI团队希望,这一模型能让人们方便地使用机器人,就像使用ChatGPT这样的chatbot一样。



PI团队这里提到的机器人就是机器人品牌随意,形式随意。,可以使这些机器人执行通用任务,也可以通过微调使这些机器人在科学情况下执行专业任务。


就像ChatGPT不挑电脑品牌一样,它甚至可以应用于更多的智能终端,如手机。


然而,PI团队在发表论文和视频时,使用的机器人仍然是基于移动平台的双机械臂。


因为这种形式最适合机器人“练习”,所以一直是机器人,尤其是人形机器人最简单的设备,训练机器人手、眼、脑协调执行任务的能力。



使用莫拉维克谬论的PI团队解释:


“人工智能很容易得到一场国际象棋比赛或者找到一种药物,但是人类很难完成叠衣服或者清理桌面的任务。”


为构建能够执行类人任务的人工智能系统,π在过去8个月的研发中,PI团队的主要工作是收集数据,并通过大量的数据对该模型进行高强度的训练。


根据官方的透露,π0的培训数据主要来源于当前行业的开源数据集,以及它们通过8个机器人实施多样化任务积累的数据。


具体而言,这种模型训练过程可以分为以下四个步骤:


第一,GPT-4V,OpenAI、像Gemini这样的谷歌预训练视觉语言模型(VLM)传承语义知识和视觉理解能力,为了满足机器人实时灵活控制的需要,PI团队基于此对30亿参数VLM进行了再调整;


第二,流匹配是基于PI团队自主研发的。(flow matching)为VLM模型提供连续动作导出的算法,这样就可以实现50次/s的次数导出运动控制指令;


第三,VLM基于开源机器人数据和互联网数据训练,PI团队形成了自己的视觉-语言-动作流匹配模型,并且通过自采集的优质机器人数据对该模型进行后续训练;


第四,对于复杂灵巧的任务,微调模型


基于这四个步骤,经过八个月的研究和开发,PI团队制作了第一版机器人通用大脑,π0。



与年初在学术界闹得沸沸扬扬的斯坦福团队相比,Mobile 对于ALOHA来说,π0真正实现了完全独立的任务


PI团队从烤面包机里拿出吐司的几个任务,包括简单任务、复合指令复杂任务、叠衬衫、密封杂物和从烤面包机里拿出吐司。π0、π0-small(470M参数模型没有VLM预训练)和OpenVLALA、对比Octo得出的结论是,π0完成全面辗压。



由于Hausman从谷歌拉出了一支强大的团队,它能在八个月内迅速制造出这样的模型。


这个有27个创业团队,就像Brian一样。 Ichter、Chelsea Googlele来自Finn。 像UC这样的Brain团队的科学家, Sergey助理教授 像Levine这样的科学家也参与了RT系列项目的外部研究团队。


Hausman可以说是又一次在RT项目中,科学家们聚集在一起,做一个持续的RT系列创业项目


正因为如此,PI团队在美国备受追捧,到目前为止,它已经获得了包括红杉资本在内的7000万美元和4亿美元的二轮融资。Khosla Ventures、Thrive Capital、Lux 著名的投资机构如Capital都挤进了这个项目。


甚至OpenAI、贝索斯,亚马逊创始人,也为PI开了支票。


根据《纽约时报》的报道,这支成立不到一年的球队,现在估值已飙升至24亿美元。


02 硬件天团之后,软件热潮来了


大模型向全世界展示了一条通往通用人工智能的道路,这不仅让全球科技巨头躁动不安,也让大量创业团队涌入这条赛道。


高质量资源沉积的大型跑道,很快在全球范围内经历了一场百团大战。


但是,众所周知,大模型的进化,就是一个又一个科学家团队不断烧钱的过程,烧钱的程度超乎想象。


对于尚未出现的GPT-5练习,马斯克曾经做过一个估计,他认为OpenAI训练GPT-5大约需要3-5万张H100,仅仅买卡就需要6-10亿美元。



它不包括服务器费用、电力费用和顶级科学家团队的薪酬费用。


另一个来自市场调研机构CB Insights的数据显示,2023年,全球生成型AI新创企业共融资204亿美元,甚至在国内,人工智能领域还有232笔融资,融资总额达到20亿美元。


面对这样一个烧钱的人,绝对不可能只进不出。毕竟投资者的钱不是白拿的,他们更关心实际的经济价值和应用效果。


所以,在2024年,我们可以看到全世界都在呼吁大模型着陆。


其中,AI硬件备受期待,具身智能概念风起云涌。


AI PC、即使是不注重商业化的波士顿动力创始人Marcc,AI手机,尤其是AI机器人,也在不断涌向。 Raibert还主导了波士顿动力人工智能研究所的成立。


而且波士顿动力转换为电驱动后的Atlas,最近还发布了Demo视频,在工业场景中自动执行运输任务。——通知Atlas运输位置,它可以自动将零件运输到相应的位置



这个问题自然依赖于人工智能领域波士顿动力团队的研究成果。


大型机器人团队带来的人工智能技术突破,的确让大量机器人团队看到了推动人形机器人产业化的可能性。


根据IT橘子的数据,自2023年1月起,我国共有29家人形机器人公司成立


其中不乏银河通用、星动时代,UniX AI是一个以人工智能算法著称的团队。


目前,人形机器人要进入工业,一个关键技术瓶颈是任务执行的泛化性,因此,对人工智能算法提出了很高的要求。


假设哪一个团队对这种模式有最高的威望,那一定是谷歌RT系列背后的研究团队。


Hausman正是为了打破壁障,建立一个通用的机器人大脑。


如今,他的方法是,通过预训练模型教授大脑相关物理世界的规律和知识,大脑可以通过微调很好地执行特定的任务。


借助于这种模式,π0已学会自动执行11项日常任务,包括叠衣服、收拾桌子、叠纸箱等。



然而,这种模式已经开发出来了。π0,其实还是不能说机器人通用大脑,如果想要制造机器人通用大脑,整个模型的微调过程必须由机器人自动完成。



Hausman的团队也在PI官方博客上坦言,“通用机器人战略仍处于起步阶段,我们还有很长的路要走。”


这次发布的π0,PI团队本人给出的评价是:


强大的通用战略继承了大型预训练模型的语义理解能力,将来自不同目标和机器人平台的数据融合在一起,完成了前所未有的灵活性。



PI团队认为,为了打造机器人通用大脑,他们需要关注三个模型研究方向:


长任务链推理与规划自我提升和自我进化稳定与安全


作为一个脱胎于谷歌RT系列项目的明星团队,也是一个做通用软件的中立团队。据悉,PI团队已与多家机器人公司和实验室合作:


另一方面,帮助合作伙伴的机器人团队提高机器人远程操作和自主执行任务的能力;


另外,引入合作伙伴的数据,将这些数据整合到PI团队的预训练模型中,提高模型的泛化性和兼容性。


作为黄仁勋、马斯克、奥特曼等科技巨头关注的未来产业,人形机器人由三个核心部分组成:大脑、小脑和身体。


而且假设谁最有可能创建机器人通用大脑,那么PI团队或者其中一个就是从谷歌RT系列项目中诞生的。


本文来自微信微信官方账号“锌产业”,作者:山竹,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com