Coatue报告:大空间模型和通用机器人

2024-07-25

作家|费斌杰 北京市青联委员 熵简技术CEO


最近,世界顶级对冲基金Coatue发表了一份名为“具体智能”的重磅报告。《The Path to General-Purpose Robots》。



Coatue认为,AI机器人是一种颠覆性的力量,有望成为人类历史上最大的科技浪潮之一,值得高度重视。



这份报告有很多亮点,不仅详细分析了AI机器人现阶段面临的问题,还对行业发展做出了合理的展望,从投资的角度给出了专业的建议。无论你是科技投资者、AI从业者还是对机器人感兴趣的朋友,都值得一读。


接下来我给大家解读一下这个大报告。报告链接放在文末,欢迎有兴趣的朋友阅读原文。


(1)理想非常丰满,现实非常骨感。


也许机器人行业是Demo和现实差距最大的行业之一。


Demo视频中是这样的:


现实是另一种绘画风格:



一九六一年,第一台工业机器人起源于GM,用于汽车自动生产线。


经过50多年的发展,机器人形态越来越多样化,功能场景也越来越丰富,包括扫地机器人、四足机器人、人形机器人等。


从历史上看,机器人的渗透率实际上是线性的。


就拿工业机器人来说,从2013年的53个机器人数量增加到2022年的151个机器人数量,每万名制造业员工的CAGR达到12%。



虽然机器人行业的整体发展稳步提升,但是具体企业的表现并不理想。


机器人企业普遍存在商业化困难,加上前期资金支出巨大,22-23年大量机器人企业破产倒闭。


(2)空间智能,使通用机器人成为可能


上一代机器人更多的是执行一些单一的任务。比如扫地机器人只负责扫地,农业无人机只负责灌溉农田,工业机器人只负责机械焊接。


但随着AI泛化智能的出现,下一代机器人有望成为“通用机器人”,承担各种任务和环境。


正如大语言模型使语言推理成为现实一样,大空间模型有望打破第四面墙,让AI真正了解物理世界,进而与之互动。


机器人面临的核心挑战:缺乏训练数据


对于人类来说,任务非常简单,对于机器人来说可能并不容易。



Coatue举了三个具体的例子。


灵巧性:


空间感知能力:


恢复平衡力:



为克服这些问题,需要使用大量的数据来练习,使机器人更智能。


但是机器人是一个很新的领域,训练数据的积累极度匮乏。


对比不同模式下的最大数据集,文本模式大约15T tokens,图片模式有6B图文匹配数据,视频模式有2.6B视听特征数据。


但是,机器人模态只有240万个数据片段,与其它模态相比,数据积累远远不够。


四种采集机器人训练数据的方法?


由于数据是机器人发展的核心瓶颈,那么有什么方法可以快速地积累机器人训练数据呢?


近几年来,这一领域的研究层出不穷,逐步形成了四个派系。


收集机器人数据的方法1:远程控制(Teleoperation)


正如其名称所示,实验者操作机械摇杆,远程操作机器人进行同样的动作,以积累数据。



收集机器人数据的方法2:AR


在一项名叫《Explainable Human-Robot Training and Cooperation with Augmented Reality》通过AR(增强现实)技术,研究人员使人机交互过程具有更强的可解释性,然后积累数据。


收集机器人数据的方法3:仿真


通过大量计算率的模拟计算,可以计算出大量的机器人训练数据集。


目前,模拟可能是实现大规模数据生成的最有可能途径,其背后需要巨大的算率支持。


现在Nvidia的Jimia 这条技术路径就是Fan团队采用的。


收集机器人数据的方法4:视频学习


通过多模态大模型,机器人可以通过视频直接学习人类动作,从而积累训练数据。


机器人费用与人类工资的黄金交叉


由于GPU成本下降,大型模型训练的成本大大降低。


在过去的一年里,Azure云平台上的A100显卡租赁价格从每小时6美元下降到每小时1.5美元,下降了75%。


20年L3的硬件成本也在迅速下降。 LiDAR传感器的成本在7400美元左右,现在已经减半到3200美元。


在机器人成本持续下降的同时,人类的薪酬待遇也在稳步增长。


可想而知,在不久的将来,两者最终都会迎来金叉。


Coatue认为,26-27年人类机器人的成本将下降到人类平均工资以下,这无疑会对全球劳动力市场产生严重影响。


(6)硅基生命进化时:速度更快,灵巧度更高。


机器人作为硅基生命的代表,在许多场合已经超越了人类的能力。


比如宇树的H1机器人行走速度达到3.3米/秒,而人类平均行走速度只有1.42米/秒。


除行走速度外,机器人动作的灵活性也在迅速提高。


今年,新的Optimus机器人将有22个自由度,马斯克说。


硅基生命的进化速度将随着大量AI机器人公司的出现而加快。


(7)与无人驾驶相比,L4人机器人即将到来。


就自主性而言,人类机器人类似于无人驾驶汽车,可以分为L1到L5。


从L1到L2,无人驾驶汽车大约需要20年的时间,而从L2到L4只需要不到10年的时间。


从L1到L2,人类机器人已经使用了大约50年,从L2到L4估计只需不到5年。


机器人“ChatGPT时刻”即将到来?


大型模型正在蓬勃发展,每个人都在期待机器人领域迎来自己的“ChatGPT时刻”。


纵观过去20年,真正被称为科技领域的“WOW!“时刻”只有三次,分别是2007年iPhone。、ChatGPT222年、还有24年无人驾驶。


这些“WOW!“瞬间”有一些共同的特点。


第一,他们都在day。 它带来了令人兴奋的use。 case,并且通过口口相传形成病毒式传播。


第二,应用成本达到拐点,促使技术向市场普及,形成积极的商业模式。


三是开发者社区发展迅速,围绕核心技术和产品形成商业生态。


Coatue预测机器人不会迎来所谓的“ChatGPT时刻”,因为它还没有具备上述特征。


相反,Coatue认为,随着机器人的普及,它将经历三个循序渐进的阶段,走出一条独特的发展道路。


第一阶段:Seeing,每个人都通过电影、小说等媒体对机器人形成了初步模糊的认识。


第二阶段:Experiencing,是指客户直接享受机器人提供的服务,而不是拥有类似B2B2C的机器人。比如你在咖啡馆里享受一杯机器人拉花的咖啡,就属于这个阶段。


第三阶段:Owning,也就是说,每个用户都有一个或多个机器人。


Coatue还预测了人类机器人能力的增长曲线。


对家庭人形机器人而言,能力成长路径分别为:扫地->烹饪 -> 管家-> 保姆。


对户外型机器人而言,应用领域的增长路径分别为:仓库 -> 门店 -> 消防-> 手术。


(9)投融资火爆,机器人生态逐渐形成


AI机器人公司的投融资随着奇点的不断逼近而越来越受欢迎。


一个完整的生态圈正在围绕AI机器人形成,包括机器人开发工具、机器人培训数据集、机器人运维、空间大模型、机器人制造等。


(10)Wintel,还是墙壁花园?


与PC时代相似,AI机器人正在形成Wintel-like和Walled 这两种典型的商业模式Garden。


Neuralink的脑机接口,SpaceX的卫星通信,Tesla的无人驾驶,xAI的大语言模型,Optimus的人类机器人,马斯克的这盘大棋正逐渐浮出水面,越来越清晰。


Optimus作为AI时代极少数具有机器人全栈能力的企业,其发展值得期待。


作家|费斌杰 北京市青联委员 熵简技术CEO


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com