采访银河通用王鹤:真正能“工作”的机器人,不怕价格战涌现36人。

06-26 09:20
迎宾表演市场是昙花一现,要训练机器人做高价值的工作。

涌现(Emergence),它是生成AI浪潮的一个关键现象:当模型规模扩大到临界点时,AI会展现人类的普遍智慧,能够理解、学习甚至创造。


「涌现」也发生在现实世界——硅基文明即将到来。AI领域的企业家和创造者正在用他们的智慧和头脑点亮实现AGI的漫长旅程。


随着新旧生产力的变化,“智能涌现”推出了新频道「涌现36人」,在这个阶段,我们将通过与行业关键人物的对话来记录新的想法。



文|王方玉


编辑|苏建勋


人形机器人除了跳舞、翻翻跟头,还能做些什么?


北京大学助理教授、银河通用机器人创始人、首席执行官王鹤可能是最有资格回答朱啸虎上述“灵魂拷问”的人。他创建的银河通用是中国拥有智能轨道的独角兽,也是业内第一梯队中最专注于机器人“大脑”的。


银河通用自2023年5月成立以来,只发布了一款机器人本体产品Galbot(G1),而发布了多种具体大模型。公司将大部分资源和资金投入到具体大模型的研发中,致力于提高机器人的实用性和泛化性。



在王鹤博士看来,人形机器人卷本身的结果就是机器人出售钢材原材料的价格。目前市场上出现了价格战的迹象;只有提高智能模型的能力,人形机器人才能获得更高的价值。


通用身体模型是人类前沿技术的“无人区”。背负这一宏伟命题的王鹤,在谈到身体模型目前的发展时,却是意想不到的“传统”和务实:


"我特别不推荐去谈具体的AGI,许多企业都希望一步实现具体的AGI,这一点我不同意。"


"具体智能模型还有许多不成熟的地方,可能需要五到十年的时间才能完成任何工作。"


在过去这么长时间里,大量的研究成果一直出现,但是可以大规模生产的商品却一直没有落地。



目前,国内很多具身智能模型厂商都热衷于“秀肌肉”:通过“叠衣服、刮胡子、拉链”等复杂控制的demo(样品)来展示其模型泛化能力;银河通用专注于突破“不那么复杂”的移动、抓取和放置技能,对具体操作模型的命名一点也不“性感”——抓取基本的大模型GraspVLA。


王鹤直言不讳地告诉《智能出现》,银河通用也在开发用衣架挂衣服的技巧,但这种复杂的操作只是一个研究成果,距离着陆和实用还有很长的路要走。


现在拥有智能模型最接近场景落地的技能就是相对“简单”的Mobile,Pick and Place(移动、抓取、放置)。银河通用正致力于Mobile,Pick and Place技能率先应用于药店、零售等部分场景。


据报道,银河通用联合合作伙伴推出了世界上第一个智能人形机器人零售解决方案。目前,机器人24小时无人值守的近10家药店已在北京开业。银河通用的人形机器人不间断地自动准确地挑选药物,并交付给骑手。


今年,该公司计划在北京、上海和深圳开设100家无人值守的零售商店。目前,这一应用领域已经社会化,预计今年将为银河通用带来近1亿元的收入。


在不久前的智源大会开幕式上,银河通用机器人Galbot在主论坛舞台上进行了现场直播演示。在王鹤的语音命令下,机器人独立准确地移动到正确的位置,从货架上取出饮料,完成了抓取和交付复杂货架的全过程。整个过程没有遥控器,没有场景数据的预采集。



王鹤直言,具身智能进入任何一个场景,都要做好一些数据准备,才能打造出100%成功的产品。Mobile,Pick and Place技能仍在不断更新,银河通用选择从零售行业的货架场景入手,逐步提高操作的泛化性。


对王鹤来说,可以把Mobile,Pick and 彻底解决Place“简单”控制的泛化问题,已经成为整个人类智能化和机器人历史上的重要里程碑。根据他的计算,这项技能的提高可以打开1000多亿元的新市场,帮助人类在零售、前置仓库、汽车厂商SPS分拣等场景中完成繁重的工作。


从泛化的角度来看,如果无所不能的人形机器人是100,掌握Mobile,Pick and Place技能的机器人是10,Mobile在零售业的货架场景中进行,Pick and Place的着陆只有“1”。


现在的银河通用,已经实现了“从0到1”的突破,正朝着通用具身智能的最终目标迈进。


下面是《智能出现》与银河通用创始人和CTO王鹤的对话。内容略经编辑:


迎宾表演市场只是昙花一现,要训练机器人做高价值的工作

“智能出现”:企业现在的员工规模是多少?


王鹤:现在我们有100多人。


“智能出现”:似乎比同一个梯队的同行要少一些。


王鹤:在这个阶段,我们仍然专注于生产和研究团队。目前,银河通用推出了人形机器人产品Galbot 围绕工业、零售、服务等场景的关键需求,G1的主要技能是移动、抓取、放置等。


在工业、商业、服务等各种广阔的场景中,我认为这项技能可以构建一个完整的闭环Skillll。 Set技能集,而不是做很多扩散的小技能,或者各种各样的机器人产品,因为这样会导致用户规模大很多。


“智能出现”:银河通用只做了一个自己,但是发布了很多模型,是不是在模型上倾斜了更多的资源?


王鹤:事实上,在公司做“硬件”的成员比做“软件”的成员多,这可能与外部想象不同。外界可能认为银河通用只是一个产品,所以需要的硬件工程师并不多。事实上,我们的机器人标准与许多同行不同。


如果机器人只用于科研、硬件平台和展示5分钟的演示,这种呈现形式对产品的可靠性没有很高的要求。这与一个真正能24小时工作的机器人有很大的可靠性差距,因为它不能应用于地面。


银河通用硬件围绕一款产品进行了多轮、集中的迭代升级,让大家在无人值守药店场景中真正实现机器人24小时工作。如果硬件有问题,工程师需要现场维修,成本会很高。因此,我们产品的设计初衷是根据汽车制造规模甚至高于汽车规模的标准来制造人形机器人产品。


“智能出现”:在资金投入方面呢?


王鹤:作为一家大型模型公司,我们最大的投资就是模型的研发。但是这一块不是靠堆人,因为没有一家公司是靠堆模型培训的员工来做好模型的。相反,我们应该建立一个完整的闭环团队,从数据的基础设施到模型培训和测试。这里的计算率成本占很大比例。事实上,他们在任何公司的人数都不多,因为他们是一些顶级的天才。


“智能出现”:重视信息的生成是银河系的一个非常鲜明的标签。但是很多同行也说会用模拟数据,然后结合一些互联网视频和真机数据。有什么区别?


王鹤:生成数据这个东西,没有人能很好地利用它,所以有人会说模拟“有毒”等等。银河通用可以取得现在的成绩,生成数据在其中起着非常重要的作用。基于我们自主研发生成数据技术,大模型的练习成本大大降低。与此同时,我们还强调虚实融合,这使得我们的具身大模型能够真正跑在世界领先水平。它表明我们真的可以很好地利用生成数据。


比如任何人都可以下载互联网视频数据,远程操作比它有一点门槛。目前,我们在超市和零售环境中部署的身体机器人使用了远程操作的真实数据,但其比例远低于模拟生成数据。


生成数据的方式要求厂家有更好的图形、物理仿真、物理渲染和自动动作生成管道,包括一系列验证闭环的基础设施,需要长期积累和核心技术know。-how。这一积累,也是银河通用为什么能够使模型更好、更泛化的一个关键原因。



“智能出现”:您的机器人本体是轮试底盘,能否理解银河通用更注重机器人上臂操作技能的发展?


王鹤:要看哪一端侧重,在产品端我们以落地需求为指导。


如今,大多数客户都考虑到公司自身的需求,比如在工厂和超市的零售场景中做一些移动、抓取和放置,这些都需要底盘。双脚机器人容易产生噪音,续航时间短。我们轮试底盘的机器人每6-8小时只充一次电,与双脚机器相比具有天然优势。


从R&D的角度来看,银河通用是全栈布局的全智能,也有双脚人形机器人的布局,但现阶段并不是真正可以在产品端广泛使用的产品。


“智能出现”:迎宾表演是今年新兴的一幕,同行们都在大力进军,为什么银河通用没有占领这一幕?


王鹤:在我看来,这些酷炫的场景是昙花一现。最终,市场并不是靠一波流量赢得的,而是靠良好的体验才能真正留下来。


银河通用始终注重客户体验。比如大堂有很多迎宾机器人,但主要是做一些不疼不痒的工作。我们正在做的是第二个时代的接待机器人产品。如果客户愿意使用,他们可以真正帮助人们工作。只要我们能做到这一点,我相信广阔的市场可以和你一起游泳。


所以我们并非说不做,而是已经在布局中,现在正处于由多种技术形成线,在线形成面的过程中。


“移动、抓取、放置”的市场空间很大,但技术尚未完全完善。

“智能出现”:投资者是否给我们商业化带来巨大压力?


王鹤:投资者给了我们很大的支持,这不仅是财务投资,也是战略合作资源。目前,我们取得了优异的成绩,公司今年应该有可观的收入规模。


“智能出现”:教育与科研市场呢,大家有没有布局?


王鹤:我认为每个人对优先级都有不同的认识。教育市场是一个多级别的市场?它的天花板是多少?事实上,足球公司已经足够多地加入了教育市场的竞争。银河通用将专注于其优势领域,从需求的角度考虑,让机器人真正满足当前市场的痛点。


银河通用并不关注人形机器人本身作为钢材原料的销售。因为人形机器人卷起来的后果是,以后大家都倾向于根据材料成本来定价。我们期待的是,人形机器人可以发挥有价值的作用,让智能真正创造智能价值。


“智能出现”:你们是否看到了目前市场上这种价格战的趋势?


王鹤:是的,现在正在疯狂降价。现在已经降到几万了,以后可能会有人降价。事实上,我们很高兴看到整个市场可以通过快速的硬件迭代快速降低硬件成本。供应链的成本降低也有利于银河通用。


问题是这个价格的机器人能解决什么问题。我们现在专注于高价值的事情。我们一个机器人的价格是几十万元,客户还是愿意用的,因为这显著减轻了三班倒员工的成本压力。这就是为什么我们(期望)可以实现1亿元的收入。


“智能出现”:你们卖几十万,为什么顾客还能接受?


王鹤:正如我上面提到的,用户对其他便宜的人形机器人的心理预期与我们在场景中落地的机器人不同。我们对产品的成熟度和可靠性有不同的要求。


银河通用机器人可以连续运行一个月,不会出错,这是我们的核心竞争力优势。我把我们的机器人叫做“场景落地机器人”,市场上用来研究和商场表演的那种叫做“R&D平台机器人”。


“智能出现”:每个人的主要技能都是围绕移动、抓取、放置,但也有人认为这种“PPT操作”(即Pick抓取、Place放置、Transfer转运)可以解决的实际问题,适应的使用场景非常有限。


王鹤:第一,我不同意“PPT操作”的说法。我更倾向于使用“PPT操作”Mobile,Pick and Place",这也是世界上人们认知中比较常见的表达方式。


如今,在零售、仓储、汽车制造商的SPS分拣等场景中,我们看到大量员工在做“移动、抓取和放置”。如果有人认为这个市场没有太大的发展空间,那可能是因为他们对市场需求了解不多。我看到的是一个潜在的市场数十万台,高于全球工业机器人的总价值。


“智能出现”:为什么这种“移动、抓取、放置”的机器人还没有得到广泛的应用?


王鹤:“Mobile,Pick and Place“技能远未成熟,即使是技术领先的谷歌DeepmindRT机器人也无法落地。就像银河通用在智源大会上展示的智能零售一样,机器人负责提货、配送、上架。目前还没有看到其他厂商能重现,尤其是敢于直播演示的时候。


“智能出现”:许多制造商会炫耀一些更复杂的操作,如机器人拉拉链、刮胡子和叠衣服,他们的投资者也将其视为一项非常高的技术成果。


王鹤:如今,许多制造商正在将一些无法实现和实用化的研究亮点描述为他们的产品。我们需要思考什么时候叠衣服机器人实用。现阶段能满足效率、平面、泛化的要求吗?


因为这个研究成果,机器人产品卖得更好,这个逻辑是不成立的。事实上,过去很长一段时间都出现了大量的研究成果,但是可以大规模生产的产品从来没有落地过。


事实上,我们正在开发新技能,我们也会用衣架挂衣服。银河通用的合成数据背后有数百万件衣服的虚拟资产。但说实话,没有人能把衣服叠起来实用,落地。


“智能出现”:银河通用披露的落地场景主要在药店、工厂、零售场景,哪些场景是市场化的,哪些场景还在POC。(Proof of Concept,概念验证)阶段?


王鹤:药房和零售场景已经完全社会化,我们的收入很大一部分来自于此。


工厂场景验证还处于POC阶段,因为工厂场景中的一些工作对节奏、准确性和可靠性要求很高。尤其是在高科技制造中,就像新能源汽车的生产线一样,即使停工一分钟,也会带来巨大的损失。包括特斯拉和Figure AI,每个人都处在POC阶段,都在打磨产品,这样才能最终整合到新开的生产线上。


银河通用率先在全球范围内交付各行各业的标杆POC项目,例如,SPS分拣POC在世界知名汽车公司的场景中。、奔驰移动材料箱和天窗运输的POC、极氪运输POC。通用银河系的发展非常迅速。但是这一场景真正转换到生产线还需要一段时间。


“智能出现”:这些汽车公司不是你的投资者。


王鹤:是的,刚才提到的几家汽车公司的合作伙伴都不是我们的投资者。汽车制造商有很强的自动化需求,所以他们与我们建立了战略合作关系。


智能行业相对“混乱”,真正愿意做实事的人很少。

“智能出现”:每个人都发布过很多模型,除了基本的大型GraspVLA之外,其他模型都是商业化的,比如TrackVLA,新发布的产品级端到端导航模型。


王鹤:我们将通过TrackVLA向C端产品建造。它可以在场景中与人们进行良好的互动,包括跟踪和运输从工业检查到超市的能力。现在,我们也在与合作伙伴宇树科技合作,包括与场景方一起推广TrackVLA模型应用。


同时,我们的模型也可以跨越不同的机器狗泛化。与操作技能相比,导航能力更容易泛化到不同的自身。


“智能出现”:Physicalalalical智能和智元机器人 Intelligence(PI)通过合作,使用上头模型能否更快商业化?


王鹤:我不知道他们与PI合作的具体细节。我了解到PI正在广泛收集各种制造商的真实机器数据。从数据的角度来看,我不同意PI的做法。机器人训练的低质量数据是跨本体的、大量的、不同的机器人数据。


“智能出现”:如果对比AI大模型,目前世界第一梯队的具体智能模型能力在哪个阶段?


王鹤:难以比较,具身智能模型所涉及的维度更高。


例如,在自动驾驶领域,每个人都会谈论L1-L5。自动驾驶侧重于驾驶,智能包括相当多的事情,你可以做得很好。Mobile,Pick and Place”,但是不一定能抱着孩子,帮助老人起床。


每一款智能产品都有L1到L5的不同层次。我们的期望是,当智能产品可以称之为产品时,它至少应该达到L4的水平,也就是它是独立的,而不仅仅是帮助。


与大型语言模型相比,我认为实现通用具体智能是一个长期的技术进步过程,而不是短期的智能爆发。


“智能出现”:所以有智能模型的“ChatGPT时刻”还有很长的路要走。


王鹤:是的。ChatGPT展示了一般问答的能力,可以做任何你想做的智能模型。从硬件和传感器到数据收集还有很多事情要做,还有很多不成熟的地方,可能需要五到十年。


事实上,当我们人类工作时,除了视觉、语言和动作(即Vision)-Language-Action),还有听觉、嗅觉、味蕾、触觉和对温度的感知,在一定程度上用于不同的任务。因此,VLA模型只是一个起点。如果你想实现人类级别的身体智能,你应该不断融入新的模式。


那么VLA现在能做些什么呢?我认为这是“Mobile,Pick and Place“首先,做得非常笼统,在可以批量复制的场景中做得很好,比如所有零售店和所有工厂的分拣线。如果能做到这一点,将是整个人类智能化和机器人历史上的里程碑。它的意义不亚于今天机器人完成了“黑灯厂”。


“智能出现”:业界的同行是否都在朝着这个里程碑的方向前进?或者是在追求其他技术突破。


王鹤:我觉得行业真正愿意做实事的人很少,愿意卖硬件和平台的人也很多。把东西卖给客户后,客户不需要对功能负责。这样的厂商很多。真正愿意做模型厂商的人很多,真正能做模型产品的人也很少。这两个“少”都造成了智能行业相对“混乱”的局面。


“智能出现”:“Mobile,Pick and Place“要不要在服务行业,比如药店、便利店落地,还有什么需要改进的地方?


王鹤:智能进入任何场景都需要做一些数据准备。无论是生成数据,还是小规模收集真机数据,甚至不排除场景中的强化学习,都可以打造出100%成功的产品。


目前,我们所追求的并非全部。Mobile,Pick and Place“一切都要做,但首先要围绕货架,甚至超市的货架,首先要保证它是一个很好的泛化,最后才是我们日常环境中放在各个地方的物品。所以这条路并没有大家想象的那么简单。


“智能出现”:在“Mobile,Pick and Place除此之外,银河通用的下一个Milestone将是什么样的操作,以及它的技术储备?


王鹤:银河通用有几位业内顶尖学者,大家一起推进科研创新的进程。从研究的角度来看,我们将继续推广包括足式机器人和灵巧手在内的新技能的研究——这是我多次获得的。 Paper的荣誉,更终极的终点,自己上边的技能学习。


对研发而言,我们的战略就是推进,并且始终保证在一线。银河通用的使命是让通用机器人服务千行百业,家家户户。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com