怎样开始工作, 宇树的机器人正在模仿科比吗?
要说今年春节最受欢迎的科技企业,除了整天忙碌的服务器外, DeepSeek ,估计要数宇树科技了。
那就是春晚用机器人扭秧歌的那个。
看起来很神奇,对吧?结果,没过多久,他们在大正月又开始了新的工作。英伟达和卡内基梅隆大学的团队使用宇树。 G1 研究一个项目,使用机器人复制科比...

看这个动作,这个后仰跳投,是不是还挺有那种味道?
别说你是詹蜜,经典霸王步人家也学会了。

有些朋友可能会说,我是个年轻人,不懂规矩,不看球也不看球。 nba ,怎样才能知道这个机器人到底是什么水平?
不要慌张,大家都知道“NBA “使者”的经典铁山依靠,别人也可以学习。

有句话说,给机器人编程已经不是什么新鲜事了。你在坤哥的招牌动作甚至可以通过简单的机械机构在粉丝内部实现。所以,如果宇树这次只能复制这个,那就不是什么技术硬工了。
那么这波展示真正牛波儿的地方在哪里,大过年的别人不会只是为了唱歌跳舞呢? rap 打篮球吧。
所以哥们去翻别人的论文,才知道这里还真有暗杀,其他人这一手似乎是全明星模仿,实际上是机器人训练技术的重大突破。

对我们为什么要这么说,那么首先要谈谈今天的机器人是如何训练的。
大家都知道,机器人这个东西,不管表面有多酷,骨子里还是算法在跑。
所以,如果你想让一个机器人学会打篮球,最简单的方法就是先测量机器人各方面的数据,比如关节扭距、连杆质量分布等等;然后拿这些信息去做。动力学建模,也就是在计算机中模拟机器人运动。
但是这一块要手动调整各种参数,比如机器人手臂的力量,投球的视角等等。这款“个人裁缝”游戏在专业领域有一个更唬人的名字,叫做系统识别(System Identification,简称SysID)。

但是问题是,要把各种参数一点一点地调整到完美,这是一项特别肝脏的工作,需要很多时间,还得由专业人士来做;
即便你已经在模拟器中调整好了,现实中也不一定是这样。。就好比你在 NBA 2K 里面练出了一代乔丹,但是上了真球场,也许连球都运不利索。
无论虚拟世界有多真实,它都不是现实参数值水平的一个数量级,比如篮球的手感、弹性、空气阻力、风速,甚至其他球员的肘击,模型都不能仔细考虑。
因此,这一传统 SysID 制作出来的机器人,在实验室里看着花拳绣腿,一到真实的场景,就像我爱发明里面的人机对抗一样,就要开始拉了。

由于现实环境如此复杂,一些科学家开始反向操作:与其坚持完美的模型,不如直接把机器人扔进各种“奇妙”的环境中进行训练。
举例来说,有时路面很滑,有时篮球很重,有时篮筐很高。总而言之,让机器人在各种极端环境下自行迭代,找到最佳策略。
这样的骚操作,有一个名字,听起来很神秘。域随机化(Domain Randomization,简称DR)

听起来有点道理,但也有问题。这种方法就像“盲人摸象”一样。即使机器人看到了各种情况,也很难梳理出真正的规律,很容易“用力过猛”。
加上为适应各种极端情况,机器人必须求稳,所以动作非常传统,不灵敏。,举例来说,运球时总是小心翼翼,投球时不敢放开手脚。
总之,这些传统的方法训练机器人,要么完全依靠建模来参考,要么费时费力;要么动作僵硬缓慢,复杂的动作无法完成,纯粹的装饰。

但是如果你想让机器人真正参与到你的生活中,而不是代替我们工作,至少你应该总是有和人一样的灵活性。如果你有一些人工智障,不要白期待。
那宇树这波到底是怎么让机器人如此敏锐的呢,重点来了。
这篇论文说,他们用了一个名字。ASAP(Aligning Simulation and Real Physics,对模拟和真实物理框架进行对齐。

根据文章中的说法,这项技术应该首先“利用这些处理过的人类运动数据,在模拟环境中训练一个基于相位的运动跟踪策略”,然后“通过强化学习训练一个人残疾动作模型补偿模拟与现实的区别” 。
听起来很复杂,但不要担心。这个东西的具体思路相当简洁。其实就是把我们上面提到的传统功夫和化学力量结合起来,开设一个机器人训练速成班。

简而言之,这个速成班分为两步。我们先来说说第一步:给机器人。打好基础,搞模拟预习。
而且要做预习,你必须有教材。下面就是先下载一堆视频,打篮球也可以,其它视频也可以,关键是视频里要有人;
再次通过一个名字 TRAM 运动重建工具,将视频中的人类动作全部拉出,转化为三维运动轨迹,使机器能够理解这些动作;然后把这些动作放在虚拟环境中进行训练,目的是使机器人能够准确地模仿视频中的动作数据。

就打篮球而言,你首先要找一堆打篮球的视频,记录运球和投球的动作,处理好这些动作的数据,然后把这些数据扔进模拟器,让机器人先在模拟器中练习,相当于在考试前做好模拟。

所以速成班的第二步必须是真枪实弹来了,三年模拟完了,是时候参加五年高考了。
虽然之前的数据已经从现实中提取出来了,但是当机器人被拉到真正的体育场的时候,它可以发现云玩家几乎是有意义的。位置、速度、加速度、关节视角等数据在真实环境中仍然与模拟有所不同。
因此,在这个时候,工程师会利用机器人上的传感器收集这些信息,然后将这些数据与之前在虚拟环境中训练过的数据进行比较,通过强化学习进行偏差调整模型。这就是所谓的。残差( delta )动作模型。

有了这个残缺的动作模型,机器人在模拟器中的运动在现实中是相似的。然后工程师微调了几个参数,机器人就可以像视频中的人类运球一样快速流畅。

但是你要把这个放在一边 ASAP 把框架的两个步骤放在一起,你会发现这个东西的效果虽然看起来挺牛逼的,比传统方案练出来的机器人好很多,但是思路其实和我们上面提到的传统训练思路没有太大区别。
原理也很简单,纯建模训练不真实还需要时间,纯现实训练动作不灵敏,那么把这两个方案结合起来:
利用实际数据帮助建模,然后将建模的成功放入实际中进行校准,动静结合,不会两难自解。~

实际上,这种利用实际数据进行虚拟建模,然后将虚拟建模中完成的工程搬到现实中,实际上也算是非常英伟达的操作。
以前,他们有一个 Cosmos 这个平台被称为世界模型,旨在将现实中的物理变化像这次一样移动到计算机中进行模拟,从而大大节省了工程师的R&D时间。
这个东西是给机器人的, AI 、自动化驾驶什么的意义都很大,毕竟这可不再像以前那样戴着各种传感器,花那么多时间慢慢收集实际数据。
训练时间大大缩短,最终训练效果更好,这是一种不恰当的黑技术。

哦,对了,最后还有一个鸡蛋:今天这篇论文的主要作者,英伟达 GEAR 目前在卡内基梅隆大学学习的团队成员哔哩哔哩up主何泰然,当他还是个孩子的时候,他的梦想真的就是在电影《铁甲钢拳》中制作一个机器人(设置为人类操纵机器人拳击)。
对于一个理工科的男人来说,把童年的梦想变成现实,我觉得太酷了。

图片,资料来源:
ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
Human oidLocomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning
Adaptive Kinematic Modelling for MultiobjectiveControl of a Redundant Surgical Robotic Tool
一些图源网络,微博,bilibili等。
本文来自微信微信官方账号“差评X.PIN作者:纳西,编辑:江江 & 36氪经授权发布面线。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




