自变量机器人王潜:具身智能大模型无法复制海外工作
文|王方玉
编辑|苏建勋
王潜有一副知识分子的样子,说话语调平静,但一旦谈到具身智慧,他就流露出“杀气腾腾”的一面:
「要是跟着别人的想法走,技术自然就会落到低处,这是非常无能的。」
「创业这件事需要一些决心,假如你从一开始就找到了后路,你的心态就不对了。」
机器人是王潜最执着的事情。他毕业于清华大学,在美国南加州大学攻读博士学位。他在美国成立了一家量化基金公司。但量化后,他“整晚睡不着,后悔没有做机器人工作”。

王潜解散基金于2023年回国,在深圳建立了“自变量机器人”。
自成立不到一年半以来,自变量机器人已经完成了7轮融资,累计融资金额超过10亿元。5月12日,智能报道称,它获得了美国使团独立投资的数亿元新一轮融资。
2023年是肇兴在中国拥有智能跑道时,英伟达创始人黄仁勋首次推测,拥有智能将是下一个科技浪潮,今年成立了银河通用和智能元机器人。
与这两种机器人相比,自变量机器人在早期并没有得到很大的声音。但是随着新融资的不断获得,它正逐渐走向智能舞台的中心。
一位双币机构投资者告诉智能的出现。从融资金额来看,中国人形机器人创业公司已经形成了一个鲜明的梯队。第一梯队有三家企业:宇树科技、智源机器人、银河通用,融资金额超过15亿元。自变量机器人融资金额超过10亿元,已从二线企业进入准一线。
就像最初的AI模型一样,中国的智能领域也有两种截然相反的态度:乐观和乐观。一方面是朱啸虎的乐观——“现在是个人机器人,会跟头,但是商业化在哪里?”。另一方面,投资机构不断投入巨资,创业公司不断加快量产,给予乐观的增长预期。
王潜是典型的技术信仰派代表。
自2023年公司成立以来,他创建的自变量机器人坚定地选择了“端到端统一VLA模型”的技术路线,并以每2-3个月更新一次模型的速度推动R&D。
一年后,美国公司Physical Intelligence(PI)VLA已经成为模型发布行业的主流路线。
自变量机器人开发的WALL-A模型,在大多数其他厂商模型仍在执行简单的Pick&Place操作(即Pick抓取和Place放置)时,已经可以让机器人完成各种复杂精细的操作,如衣物处理、收纳整理、线束整理等。

市场上看空的观点认为:“通用具体智能还太早,商业化还不清楚。”而且王潜眼中的行业发展进程图要快很多。
他预计,GPT-3水平的智能模型将在一年左右出现。未来一到两年,智能真正的商业化落地周期将逐步展开。
目前,机器人的商业化场景主要来自两个市场:科研教育和迎宾表演。但在王潜看来,这两个市场总体规模相对较小,对行业的长远发展意义有限,不能作为最后的市场定位。他甚至直言不讳地说,人形机器人进入工厂做简单的重复性工作,“这其实是一种公关行为”。
王潜认为要实现真正有价值的商业化,必须依靠具体智能模型的泛化能力来提高。
目前,自变量并不急于促进商业化,而是专注于模型技能的提升。公司有三分之二的支出投资于模型及其相关业务。
“不谦虚地说,自变量处于中国智能模型的领先水平,投资者自然对第一名有一定的优惠待遇。我相信我们可以实现非常高的upside,希望我们能更加关注一般身体智能模型的大目标。”王潜自信地说。
下面是“智能出现”与自变量机器人创始人王潜的对话。内容略经编辑:
“一体式端到端模型,开发天花板更高”
“智能出现”:在过去的半年里,企业在模型能力方面取得了哪些重要的进展?
王潜:我们的进步速度仍然很快,平均每2-3个月更新一次模型。
在此之前,自变量模型是一种纯导出action(动作)模型,是多模态进、单模态出。自去年10月以来、从十一月开始,我们开始做any。-to-any模型,是多模态进、多模态出,除了导出action(动作)外,还能导出语言和视觉等。
在整个模式融合的框架下,自变量也做了很长的COT(思维链)。几乎就在这两次融资之间,我们做了思维链。
今年3月,Google Gemini robotics公布了他们的进展情况,这也是类似的做法:any-to-any和COT。最近Physicalal Intelligence(PI)新发布的π0.5也做了类似的事情。所以其实我们很早就预测到了技术进步的方向,和PI等外国玩家做这件事的时间差不多。
所以我们敢说我们的模型水平基本和PI、和谷歌在同一水平线上。因为我们确实在相似的时间做了类似的事情,所以我们取得了相似的效果。但是国内厂商一般都是刚开始往这个方向做,进度会差很多。
“智能出现”:现在统一的端到端VLA模型(Vision-Language-Action Model)是否已成为主流的技术路线?
王潜:是的,这在很大程度上受到了去年10月PI新模式发布的影响,大家都会看到端到端是一个很好的方向,也是一个大趋势。
现在基本上,不管你信不信,每个人至少都会打这面旗。但事实上,做好做坏,或者做端到端,还是有很大区别的。同时,你会发现市场上有很多所谓的“定义学”,再次“发明”什么是端到端。
补充一下,端到端路线也有两种不同的做法,一种是Figure的两层模型路径:high levelVLM用来做reasoninging。、planning,low levelVLA用于实际动作生成部分;另外一种方法是不区分,一体式端到端。
在早期,我们也尝试过双层模型,但是发现单层模型的天花板明显高于两层,所以自变量侧重于统一的端到端模型。

“智能出现”:什么是与端到端并行的技术路线?
王潜:只有几种类型与之并行。现在大家都不怎么做了。主要通过3D视觉或其他方法进行感知,加上一些传统控制,做一些Pick&Place操作(指抓取和放置)。
以上方法可能包括上一代工业自动化的场景,比如特别简单的Pick&Place任务,但这显然不是我们想要的。Figure和波士顿动力以前都是这样,现在已经变成了端到端。
“智能出现”:现在的自变量具体智能模型能力,如果对比AI大模型,处于哪个阶段?
王潜:在GPT-2时期,我认为它仍然存在,GPT-当时有一些明显的特点,就是我们今天的模型没有足够的scale来实现。PI和google在行业中的进步是相似的,这是Scaling 客观规律决定了Law。
“智能出现”:国内具身智能大模型要实现商业化还需要多长时间?
王潜:其实基本上快的话是一年左右的时间点,慢的话可能是两年左右。我指的是真正的商业化,实际上可以让用户愿意付费。当然,商业化也分为不同的阶段,可能需要3-5年才能进入C端,比如家庭保姆机器人或者室内智能机器人。
人们普遍高估了短期的技术进步,低估了中长期的技术进步——这比人们想象的要快。
“智能出现”:提到具体模型训练,大家都会说数据短缺是个瓶颈,你的数据够吗?
王潜:数据是一个有时间轴的问题。比如一开始对具体模型没有任何感知或理解,收集大量数据可能不是正确的解决方案,收集到的大部分数据可能是无用的,也可能是低质量的。因此,如果你对具体智能了解多少,你应该匹配多少数据规模。
提高数据采集规模只是一个方面。如何做好数据质量,深刻理解需要什么样的数据,是另一个方面。后者在变量之前已经做了很多工作,这是一种更有效的方法。
目前,一些开源数据集和第三方数据的数据质量普遍不合格。如果实际使用这样的数据进行训练,模型效果不会特别好。这些信息可以作为补充,但不能完全依赖。目前我们的数据主要是自己收集的。
“智能出现”:这波具身智能热潮,国内创企普遍花钱还挺谨慎的,仿佛在为冷静期做储备,你怎么看?
王潜:第一,自变量花钱还是比较谨慎的,不该花的钱绝对不用。我们所做的是长期的重大事件,需要为行业可能发生的变化做好准备。
但另一方面,我们还是要花钱,没有钱我们什么都做不了。如果你一直在等待国外的开源成果来follow或者抄作业,你真的没有能力,根本无法实现通用机器人的最终目标。
事实上,信心和冬天的问题反映了缺乏能力,所以缺乏信心。如果你真的有足够的能力和判断力,你就不会这样想。最初的团队基因和能力水平将决定许多战略判断和看待问题的方法。
归根结底,为什么行业的低谷会到来?是因为行业没有取得实际成果。如果做出来,自然会有一个高峰。为什么要被动地适应环境,而不是做一个推动高峰的企业,推动投资热潮?我觉得这是一个企业家应该有的心态。
"一些商业场景的价值和意义存疑"
“智能出现”:投资者如何评价自变量的技术能力?是依靠DEMO视频,还是现场真机演示?
王潜:我们都是真机演示,自从变量成立第一天,我们就坚持真机演示是第一位的。有太多的方法可以伪造视频。只有在现场,我们才能看到模型的真实表现,甚至需要去现场与机器人互动,进行一些人为干扰,看看模型在各种极限的前提下会有什么样的表现,才能真正体现模型的水平。
“智能出现”:到目前为止,这一估值规模,投资者现在是否需要商业化的自变量?
王潜:分投资者。有的投资者更注重智能模型能力能达到多高的上限,有的投资者更注重商业化,不同投资者的喜好和风格差距还是挺大的。
自变量有些特殊。谦虚地说,我们处于中国智能模型的领先水平,投资者自然对第一名有一定的优惠待遇。每个人都相信我们可以达到非常高的upside,所以我们不需要为了商业化而商业化。每个人都希望我们能做到“有意义”的商业化,希望我们能更加关注一般智能模型的大目标。
“智能出现”:每个人现在都没有发布自己的商品,怎样才能满足另一部分投资者的商业化要求。
王潜:其实我们现在已经有了自己的产品,但是还没有正式大规模发布。而且我们自己的产品已经实际销售落地,主要应用于服务行业。除了现在的型号,我们还会推出新的自己。

“智能出现”:现在有身智能进入服务行业技术成熟了吗?
王潜:我们和种子客户还处于POC(概念验证)期,从今年年底到明年年初还是很有希望的。当然,我们还需要做大量的工程工作。而且我们不会局限于简单的Pick&Place操作(即Pick抓取和Place放置)。
过于简单的Pick&Place操作,无助于进一步实践和发展智能模型。上一代技术其实是完全可以实现的,甚至纯自动技术也是可以满足的。自变量真的希望做一些以前无法覆盖所有技术的场景,充满多样性、复杂性和开放性。
“智能出现”:如果POC在今年年底或明年年初完成实际应用,将会达到什么样的利润水平。
王潜:传统的智能机器人可以做的事情比较简单,但是我们的机器人是通用的,不同的机器人能力,不同的创造价值,不同的市场竞争态势,不同的客户付费意愿。当然,利润初期并不是最重要的目标,我真的希望通过了解实际场景来打磨产品。
“智能出现”:在科研教育和商场里,同行们出货更多的迎宾这两个场景,这两个场景更加成熟。
王潜:虽然这也是商业化,但这两个场景的商业化价值和意义还有待商榷。我觉得更多的可能是为了满足投资者对商业化的要求,而不是真的相信这件事可以达到我真正想去的大目标(一般都是智能的)。
科研和迎宾本身的市场总量不大,不可能作为具体智能的最终市场定位。这两个场景可以作为“沿途生蛋”的产物,但如果作为一段时间的主要方向,最终目标可能会被转移。
“智能出现”:这两个场景确实规模不大,但也有可能和其他小场景一起创造一个小市场,足以让一家公司达到上市规模。比如一家公司的投资人说,“只有股东的需求才能创造上万个机器人的销量”。
王潜:问题是,这种上市有什么意义?这几万台完工后呢?不能说这几万台的需求完成后,就不做生意了。
“智能出现”:假如具身智能比AGI更难,永远无法实现,抓住科研、迎宾这样的小市场,是不是一种务实?
王潜:我认为没有必要。如果企业家不相信自己的智力,为什么要去做?如果你认为自己的智力是一件很遥远的事情,几十年后才会发生,那么你现在根本不应该进入这个领域。
“智能出现”:您如何看待工厂情况?最近Figure被外媒报道,Figure的人形机器人在宝马工厂工作的事有夸大嫌疑。
王潜:现在人形机器人进入工厂,能够落地的事情非常有限,实际上是PR(公关)行为。
实际工厂对速度和准确性有很高的要求,很多企业目前所做的任务实际上更适合利用上一代技术来实现。
比如相对来说,流水线还是一个相对封闭固定的环境,不利于充分发挥大模型所追求的复杂操作、开放、随机、动态环境和场景、泛化要求等。在一般的工厂场景中,具体机器人学不到任何东西。场景太简单,对模型技能提升的帮助非常有限。
自变量更倾向于选择复杂的场景,这样复杂的场景才能真正促进模型能力的有效提升。也是客户需求、客户愿意付费、取代人类不愿意做的事情的领域。
在经济学中,一直被称为需求创造供给或供给创造需求的争议。在Moonshot领域,具体智能是一个明显的供给创造需求。
"对大多数软硬物品而言,开源是一种非常糟糕的方法."
“智能出现”:美国同行估值较高,资金较多,中美两国具体智能模型水平是否存在差距?
王潜:与海外相比,中国的整体水平肯定还是很差的,而且还差很多。我们关注的海外同行包括Physicalal Intelligence(PI)、google、特斯拉。
但是现在,我们仍然有很大的机会与美国在同一水平上发展。即使是今年或明年,我们也有机会超越他们。
我想每个人都会有一种态度,认为自己在中国做得不如美国,这可能与过去长期处于“追随者”的角色有关。然而,在智能化的发展实践中,没有必要过于怀疑自己。以自变量为例,我们可以达到与PI等国际顶级团队处于同一水平的模型水平,甚至在某些指标上超越。
“智能出现”:机器人通用基础模型已开源,第一梯队PIπ0,这样会不会把大家的水平弄平?
王潜:PI开源已经快半年了,国内一些公司也试图在此基础上进行微调,但从实际效果来看,并不明显优于其他开源方案,也不可能完全再现PI团队在自有机器人上的表现。事实上,跨越自身适应仍然是一个重要的挑战。
“智能出现”:PI的π0微调后,能应对什么样的商业场景?
王潜:现在看来,在新本身微调之后,π0的能力会有很大的损失,在商业场景中的实际应用会有限。事实上,PI之所以选择开源,很大程度上是因为它很难直接实现业务。PI本身不做硬件,需要依靠其他公司将模型和硬件结合起来,所以会采用开源模型。
“智能出现”:就像AI大模型创业一样,不贸然投资,等到国外先进模型开源后再跟进,是不是也不错?
王潜:乍一看,这听起来像一个好策略。但首先,抄袭能否得到是个问题。与语言模型不同,具体智能不能蒸馏,很难再现。在再现开源模型的过程中,因为之前没有做过,所以还是要踩自己该踩的坑,其实并没有节省多少时间。
其次,整个公司的精神都没了。如果你不相信自己能做到,为什么要让和你一起做这件事的人相信企业能做到?
做一件有意义的事情需要专注、信念和创造力。如果你依靠等待和复制作业,你只能在科技创新领域做一些平庸的事情,你永远无法成就一家伟大的公司。
“智能出现”:有没有可能像AI大模型一样形成开源和闭源两个阵营?
王潜:本质上,对于软硬兼施的行业来说,开源是一个谬论,至少不是一个商业问题。以前的无人机、自动驾驶等。在发展过程中有大量的开源,但最终所有的开源都失败了。
现在大家对开源都会有一些期待,或者特别敏感,本质上是因为人们在语言模型跑道上看到开源会有一些好的效果。但是软硬物品不同于纯软件。软件,比如语言模型,模型本身就是商品,安排后可以立即使用,自然会获得C端的知名度。
然而,智能模型需要与硬件相匹配才能成为商品。与他人互动的界面和应用的实体都是硬件,所以很难获得一般的音量。目前只能影响学术界、极客圈、行业群体。
例如π0模型在去年发布的时间点无疑是当时世界领先的模型,但在大众端并没有引起什么轰动。因此,智能商业化不能通过开源来实现。
第二,身体智能领域还是有独特性的。比如A实验室开源了一个身体智能模型,世界上没有一个实验室能100%再现开源实验室在自己的环境下能做到的物品。不要说完全再现,即使是大多数再现也很难实现。语言模型可以蒸馏,但在硬件领域,没有机器人是不可能蒸馏数据的。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




