同与异:具有智能的未来世界线(上)

2024-04-21

嘉宾介绍


*姓首字母排序,不分先后。


我们在聊


在学术界和工业界,具身智能方向的共识和非共识是什么?


什么是实现具体智能的途径?


模拟器究竟能提供什么价值?将来会不会有一家公司真的会制作一款专门而精确的模拟软件?


一般硬件的形态会是什么样子?硬件在具体智能化发展过程中起着什么作用?


解耦是否意味着同一个大脑可以应用于不同的机器人形态?


各种形式的机器人,不同场景的数据,对训练一般具体智能有什么帮助?


对于硬件有深入的积累和了解团队,在具身智能创业中能带来哪些最大的优势?


有硬件背景的企业家是否会受到惯有思维的限制?


精彩观点


学术界的“共识”在于数据也是机器人。 Scaling Law 来源,而“非共识”在于数据的来源


从宏观上讲,具体智能的实现路径在任务上有不同的层次。层次分解是共识,包括 Figure、Tesla Optimus 等等。中层任务执行计划是每个人研究的核心问题。


具体智能何时来,取决于数据到底能用得多好,以及获取数据的成本有多低。


模拟并非一种 Scalable 在路线上,人们不可能写无限代码,这使得它无限接近现实。从模拟器中学到的知识上限是代码的长度。


模拟的关键是抽象到什么程度,或者具体到什么程度。在模拟到实际应用实现闭环之前,没有人知道模拟环境应该具体到什么程度。


软件加硬件的落地周期比纯软件要长得多,落地的具体形式还是受制于硬件的客观规律。


适当的情况与适当的构型密切相关,短期内很难有一种通用的形式。


智能化和硬件是解耦的


所有涉及的实体商品都与生产成本有关。


为了找出真正的需求点和大量的落地概率,我们需要知道当前硬件性能的边界在哪里。


硬件性背景创业路径惯性包括技术依赖和商业思维依赖


绿洲:我们请高老师开个头,在推进具体智能或通用机器人方向方面,目前学术前沿的共识和非共识有哪些?


高阳:我觉得 共识是数据和机器人。 Scaling Law 来源,而不是共识在于数据的来源。 有些 观点主张使用模拟生成数据,而其他观点主张收集远程控制的数据。有人认为数据应该从互联网上收集,也有人认为机器人应该自己生成数据...不同的团队有不同的看法。我更喜欢互联网数据和远程控制收集的数据,然后让机器人通过加强学习来收集自己的数据。我不是特别相信模拟产生的数据。


绿洲:您 Vila(RoboticVision-Language Planning)工作收到了 Figure CEO 点赞,具身智能新框架 CoPa(Robotic Manipulation through Spatial Constraints of Parts)精确的规划和操作技巧也令人惊叹,您认为实现具体智能的路径和解决方案是什么?


高阳:在宏观上,具身智能的实现路径,应该是在任务上有不同的层次。比如做汉堡,需要把面包拿出来,做肉饼,放肉饼,加菜十个步骤...这些步骤是第一层,叫做任务分解;然后是每个任务的具体执行,也就是中级任务轨迹规划,从自然语言的具体指令到机器人末端执行器的具体轨迹;底层是一般机器人控制和执行轨迹。这一层次分解属于共识,包括 Figure、Tesla Optimus 等。在这三层中,问题最大的是中间层,到目前为止还没有特别好的解决方案,也是大家研究的核心问题。


我个人认为解决办法应该是使用所有可用的数据。第一类是互联网数据:比如人类视频,视频量巨大,包括现实中人类可能看到的各种场景。但是这些信息不太好用。毕竟拍摄的目的不是为了智能机器人


另一种信息来源是针对机器人的遥操作数据。最近发展特别快,比如Mobile ALOHA ,宋舒然老师 通用操作接口 UM I( 将技能直接从人类演示转移到可以部署的机器人战略) ,还有李飞飞老师 便携式手动捕捉系统 De xCap,这是一种遥操作技术。我认为这些技术可能是最近最大的。 game changer。


Mobile ALOHA 通用机器人是由斯坦福符博士领导的中国团队开发的。


宋舒然团队 UMI ,照明环境发生剧烈变化,丝毫不受影响。



李飞飞团队便携式手动捕捉系统 DexCap


第三种信息来源更依赖于后期。当机器人已经有了更好的能力,在现实环境中做任务,拥有自己的数据闭环时,这是最理想的数据库。


什么时候具身智能来,取决于这些信息到底能用得多好,以及获取数据的成本有多低。


绿洲:韩总,站在工业界的角度,什么是共识与非共识,你如何思考这些问题?


韩峰涛:我认为“如何走到终点”是非共识。。从逻辑上讲,软硬件的落地周期比纯软件长很多。说到硬件,说到交互,就很难了。我认为你可以简单地比较一下自动驾驶。你有一个自动驾驶软件,在模拟环境中驾驶。不要碰车,沿着车道走。 OK。一上真车,物理环境一变,落地时间就会很长。在我看来,落地的具体形式仍然受制于硬件的客观规律。


现在的问题是,现在很多数据问题只解决了一部分,需要继续处理数据。假设通用人工智能是 10 分,在聊天层面刚刚合格,具身方面大概是在聊天方面。 3-4 分数。如果按照纯通用的要求来衡量硬件,可能是及格水平,但大家的期望是 10 分,所以只有通过考试的硬件才难以具有完全的实用性,需要分场景。 而且究竟是什么情况,这是非共识。走路、扫地、工厂、服务?这就回到了依赖路径的问题。原来腿的研究腿和上臂的研究上臂。之前没有什么积累,找什么背景的团队做什么(笑)。


首先,我认为第一,适当的情况与适当的构型密切相关。短期内,我认为很难有一个通用的形式。,但未来肯定可以。第二,切入原来使用过的机器人场景。。以前的问题是机器人智能不够,可以使用,但是效果不好。当然,如果机器人从来没有在某个行业使用过,那不仅仅是技术问题,还有一系列的问题,比如成本问题,机器人的接受度,环境是否合适。


刘琪:高老师,为什么你刚才说不信模拟?


高阳:最主要的问题是做模拟本来就很难。比方说模拟瓶盖扭开的动作,很麻烦。若不设置合适的材料刚度和摩擦力,则可能无法拧开或盖子直接飞向外太空。模拟非常微妙,很多任务都可以在模拟中完成,但是如果专门为“能做到”而建立一个模拟,计算量可能是巨大的。制作模拟环境 contact reach 不太适合操作。


韩峰涛: 由于机器人需要与物理世界互动,模拟在过去的机器人领域得到了广泛的应用。在 AI 这个领域的模拟反而没有得到多少。比如在自动驾驶等领域,虽然有点简单,模拟可以模拟建模精度低的场景,但模拟并不适用于需要高精度模型密集物理交互的场景。从另一个角度来看,建立一个模拟环境来模拟自动驾驶比建立一个通用的机器人模拟环境要容易得多,但是为什么现在人们选择实际跑步而不是模拟自动驾驶呢?所以目前模拟只是一种手段。


高阳:同时,我也看到了一个有趣的观点。每个人都谈论它。 Scaling Law,Scale 是信息,模拟是人类手写的代码,从代码所表现出来的行为中学习新的信息,那么这种信息可以吗? Scale?人类编写的代码的信息量可以增加吗?这就产生了一种观点: 模拟并非一种 Scalable 路线,因为人们不能写无限代码,使其无限接近现实。从模拟器中学到的知识上限就是代码的长度, 这一观点是相当哲学的。


刘琪:反驳一下,还有一种情况是通过一个简单的方程来描述整个物理过程?例如,如果你描述液体的流动,那就是一个运动方程。


高阳:我同意这一点, 最后是几行量子力学方程。


冷哲:或者看看模拟究竟能提供什么价值?或是让我们看看现在有什么东西在使用模拟。自动驾驶中最常用的模拟之一是车辆动力学模拟。它的价值在于这个场景足够复杂,无法判断选择某个设计会在这个场景中产生什么效果,所以我们可以尝试模拟。但这并不能取代实际试验,因为仿真再好,与实际环境还是有区别的。 实验流体力学和理论流体力学有两个分支。理论流体力学希望从第一原理出发,通过一套方程准确计算流体的运动情况,但现在大多数情况下根本做不到。这就是为什么实验流体力学,它从实验测量入手,建立一些只适用于特殊条件的类似方程。有时候,这些类似的方程无法用理论来解释每个参数的含义或结构,但是它们会告诉你它们会是什么样子。由于人类对客观世界的认识不够深入,所以没有办法对复杂的问题进行非常精确的模拟。


目前刚体或固体模拟还不错。然而,现实世界中的材料,如瓶盖,施加了不同的力。它的变形不是线性的,而是三维的扭曲。即使考虑到它的内部结构,也可能是更高维度的变化。模拟所有这些变化将是一个可怕的工作量。软件模拟不太可能不抽象。


我的看法是模拟的关键问题是要抽象到什么程度,或者要具体到什么程度?。甚至没有人知道仿真环境应该具体到什么程度,直到仿真到实际应用实现闭环。将来会不会有一家公司真的会生产出一款专门而精细的仿真软件?近来我觉得不现实。好莱坞做头发特效,只要头发飘起来看起来有点像真实的情况,但是真的是这样吗,真的是这样一个长而粗的头发在真实的环境中运动吗?不一定。但是为使大量的物品、材料达到“看起来像”的效果,好莱坞已经投入了大量的资源,并发表了无数的文章。想象一下,从底层做一个专门而精准的模拟模型,高度贴近真实情况所需的资源,一定是一个更可怕的数字。


当然,创业公司能让投资者或市场部分满意吗?有可能。如果你在有限的场景下做,比如只操作某一类物品,绕过自己不擅长的东西,是有可能的。


绿洲:刚才大家都在谈数据,市面上的硬件声音也不一样。有的团队认为一出来就应该是足够通用的硬件,比如人型。你觉得通用硬件的形状怎么样?


韩峰涛:我认为 智能化和硬件是解耦的。健康的人和肢体残疾人的大脑是一样的,没有手臂就不需要这种手臂。 同样,在生产线上,无论男女,高、矮、胖、瘦,每个人都用手抓住具体的任务。手的长度和力度可能不会影响任务的最终完成,只是因为硬件能力不同,执行效率不同。


冷哲:任何实体产品都有成本问题。一个足够通用的产品能适应所有的场景,再加上通用智能,能适应所有的应用吗?不,任何涉及到实体产品的人,都要考虑生产成本。生产成本最终由客户支付。我认为,无论商品的形状如何,我们都必须从具体情况入手。首先,服务机器人应该在特定的场景中以特定的设计着陆,这是关键点。如果你上去做一个通用的设计,我认为结果可能是无论你把它放在哪里,它都不是很经济。


而且一般设计的R&D总费用必须高于专用设计。当然,理论上,通用设计可能不需要太多具体应用领域的目的性R&D工作,可以跨越多个应用领域,稀释R&D成本。这些都是专门设计无法做到的。所以有这样一种可能,当通用设计真正可以在多个领域使用时,平均分摊后的R&D成本反而低于专用设计。此时,如果一般设计的R&D成本优势能够抵消零部件成本的劣势,那么它可能具有总成本优势。但是我觉得这个条件太理想了,短期内没有企业能够做到这一点。


韩峰涛:进行比较,Windows 操作系统非常全面,也分为标准版和企业版等,但每个人使用计算机的目的不同,商业用途?玩家?长寿命?轻盈?


孟鹏飞:我们认为硬件的最终形式必须是人形的,其他形式可能意义不大。能否完全通用,取决于后续持续获得资金落地的能力。一切都要回归商业本质。如果你做得很高,你永远不会落地。没有商业场景,你做不到。类似的事情在历史上发生过太多次。


刘琪:尽管我认为没有一种形式可以适用于所有场景,但是我认为人的形式将是一种主导和更加普遍的形式。人类机器人能更好地利用人类数据,人类能告诉机器如何操作,如何运动,能解决生活中的问题。 90% 的场景。现在硬件也不贵,那为什么不做成人形呢?可有不同的版本,如轮试或足式。假如使用一种形式,可以解决大多数问题这是最好的,不需要分散精力去做各种适应。


韩峰涛:当你回答这个问题时,向前看的时间节点是不同的,可能分为最近和长期。一般需求可能是1.7米的人形。但是如果你想搬砖,你必须更强壮。如果你想在海里钓鱼,你需要看起来像鱼。


刘琪:我认为形式设计是为了替代人,而不是为了替代机器,应该有一些机械设备。我比较喜欢苹果手机这样的方式,不断优化一个形式就好。


绿洲:硬件在具体智能化发展过程中起着什么作用?


韩峰涛:硬件是大脑的载体。如果硬件不出售,大脑就不会被使用,数据也不会被转移。数据从哪里来?刚才说数据,有些数据会从硬件上收集,但是当收集到的数据被转化为大脑技能的时候,就要和硬件解耦。就像特斯拉一开始卖的。 Model3,但是收集到的数据可以用在其它型号上。


绿洲:是否在一般形式上积累的数据,将来能更好地进行投射?


高阳:在大多数情况下,我认为是解耦的,比如猴子要喝水,也要拿瓶子,虽然它的关节和人类的不同,但是它拧瓶盖的运动是一样的。就物体而言,它是一种通用的,与执行机构关系不大。所以我认为这对物体来说是通用的,但对于一种特定的硬件形式,如何把握会有所不同。即便是非人机器人,它也能积累相当多的数据,覆盖未来的全人形,并能有一些抽象的等级,使其能够共享这些数据。


绿洲:不同形式的机器人,不同场景的数据,对训练一般具体智能有什么帮助?


高阳:不同形式、不同场景的数据可以丰富具体智能训练的数据集,最终使具体底座模型更具泛化性和鲁棒性。但是我们能得到什么样的情况和形态数据取决于商业化的顺序。我觉得一定是简单的形式,简单的场景会先落地,所以这些信息会先用大模型,然后落地形式和场景会更复杂的机器人。到那时,这些信息将继续被用来训练具身大模型。它将是一个渐进的过程。


我们听说了绿洲 Physical Intelligence 还在探索不同的身体形态。 robotics foundation model, 解耦是否意味着同一个大脑可以应用于不同的机器人形态?


注:Physical Intelligence 创立于 2024 年 3 月,由 Sergey Levine 成立,首轮获得OpenAI、Thrive Capital、Sequoia Capital 等机构 7000 投资一万美元,致力于开发基本模型和学习算法,建立一个通用的机器人系统


高阳:这个问题在学术上确实还在探索。但就大多数情况而言,比如拿一个水杯,我们不在乎底盘是轮试还是双脚。可能有成千上万种机器人形式,但核心要解决的事情其实是相似的。最大的区别可能是二指爪还是五指爪,夹的方式也不一样。无论二指还是五指,抓住之后,就变成了一个整体的刚体。当前学术界研究问题的初衷,就是从人类的数据中学到东西,map 去机器人。每个人都发现,如果能够更准确地从人类那里获取数据, map 这个过程并不那么复杂,特别是假设你的下游是一个五指,可以做得很好,最大的困难也许就是五指和二指的区别。


绿洲:对硬件有深入的积累和了解团队,在具身智能创业方面有哪些最大的优势?


韩峰涛:为了找到真正的需求点和大量落地的概率,我们需要知道当前硬件性能的边界在哪里。。如果你没有做过硬件,不知道硬件在做什么,不知道下一步硬件突破的区域在哪里,你就找不到硬件和实际需求的契合点在哪里。即使做硬件,也很难卖,也很难用好。要么成本高,要么有更好的解决方案。


绿洲:做硬件的人会不会因为有些习惯性的想法而对创业产生影响?


韩峰涛:因人而异。但我认为最有可能的思维定势是路径依赖。比如有些人以前做胳膊的时候不做腿,或者认为机器人应该是高个子物品,所以他们必须卖个人机器。 50 万、100 万,但真正能上量的机器人也许就是 2-3 千元。这一路径惯性包括技术依赖和商业思维依赖。。很多人会觉得学了这么久这么深的技术,所以我不会去做扫地机器人。但从商业角度来看,扫地机器人可能是第一个成功使用的场景。


绿洲:大家认为今天的发展或突破方向是什么,对通往具体智能的道路有很大的帮助?


韩峰涛:事实上,主要的卡点仍然在 AI 上面,或叫通用智能。这波 AI 进步,一是泛化能力增强,通用能力增强;二是智能水平。事实上,每个小模型在垂直领域都取得了较好的效果,现在已经成为许多领域中效果还不错的大模型。机器人是一种很典型的硬件和软件分步迭代的物品。目前的情况是机器人的硬件水平远高于软件。当软件再次发展到一个新的阶段,发现硬件的功能不够,比如触感、灵活性等。,硬件将进一步迭代。两者在未来很长一段时间内都会发生变化,能够找到一个好的契合点就能做好。


冷哲:许多做具身智能的企业都不太清楚落地场景应该是什么样子,带来的问题就是不知道硬件应该是什么样子。产品成本常常对产品模块经济模型产生决定性影响。每个产品的成本,包括软件、硬件、调整、数据学习等,其中实体零件的成本占很大比例。对于这个成本的准确评估,是我认为韩总之前提到硬件出身的团队的一个关键优势。


现在做机器人的目的是取代人们所做的事,自然有两种竞争产品——人类、专机(非标准自动化设备)。 假如产品的成本比人高,或者比专机高,那肯定是落地不了的。所以从一开始就要考虑成本。 AI 系统的成本确实可以稀释,但如果硬件(机械、电路等)的成本高于“竞争产品”,无论未来如何稀释,成本都是不可接受的。


韩峰涛:我们的团队硬件有很大的优势,但客观来说,这只是一个先发优势。如果你想做得好,你必须坚强。 AI、强硬件,强落地。假如有一支队伍,原本是强大的。 AI、虽然没有硬件,但是通过公司的慢慢发展,招募一头牛也是可以的。


高阳:数据是我非常关注的。我们刚才讲了各种各样的数据库。如何完美利用每一个数据库,如何优先安排数据库,促进智能模型的满足? Scaling Law 需要数据。其它大模型,如具身智能,究竟是如何输入、导出的?到底是一个 RGB 还是 RGB-D,怎样才能在项目上有更好的选择,又便宜又快速的能上信息量?近来,我主要关注这些问题,以及一系列模仿学习、加强学习的算法。我认为有智慧的身体 Scaling Law 本质是数据 Scaling。因此,解决这一问题的核心是如何尽可能地使数据更加可能。 Scale。有多个数据库,每个数据库都有不同的特点。在技术上,有必要确认每个数据库的优先级,然后按顺序将每个数据放在技术上。 Scaling 做好。


(未完待续)


这篇文章来自微信微信官方账号“欧洲资本” Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com