融资14亿美元,Skild AI构建跨任务跨硬件的通用具身智能大脑
人工智能的演进遵循先专用化、再通用化,最终在通用基础上深耕高价值细分场景的路径。
相较于过去人脸识别、语音转录需单独训练专有模型的时代,如今通用全模态模型已能完成各类复杂任务;对通用模型进行针对性后训练,还可在医疗、法律、客服等特定领域展现优异性能。
在物理AI领域,上一代工业机器人、清洁机器人等仅能在特定场景作业,无法泛化至通用场景,尤其难以在非常规环境中完成多种复杂任务,因此家用人形机器人的实际应用仍有较长距离。
不过已有部分具身智能企业尝试推动物理AI迈入通用时代,例如Skild AI,其打造的“全具身(Omni-bodied)”大脑Skild Brain,愿景是能适配任意形态机器人并完成各类任务,赋予机器人跨任务、跨硬件形态的通用泛化能力。

此前Skild AI于2024年完成3亿美元A轮融资,近日又斩获14亿美元B轮融资。此轮融资由SoftBank领投,NVentures(NVIDIA)、Macquarie Capital及Jeff Bezos跟投,公司估值突破140亿美元。
Lightspeed、Felicis、Coatue、Sequoia Capital等头部风投,以及LG、Schneider、CommonSpirit、Salesforce Ventures等战略投资者也参与其中。
全具身智能:单一大脑适配多元硬件与任务
Skild AI的两位创始人Deepak Pathak(CEO)与Abhinav Gupta(总裁)在过去十年引领了机器人领域的多项重大突破,两人合计论文引用量超11万次。
Deepak Pathak是卡内基梅隆大学(CMU)机器人研究所助理教授,Abhinav Gupta是CMU机器人研究所终身教授、FAIR Robotics创始成员及研究负责人。
相识十年后,二人于2023年共同离开CMU投身具身智能创业,组建了由Meta、Tesla、NVIDIA、Amazon、Google等企业,以及CMU、斯坦福大学、加州大学伯克利分校等高校的机器人与人工智能专家构成的顶尖团队。

Skild AI核心团队(来源:Skild AI)
上一代机器人公司多采用定制化方案,仅能打造适配特定任务的专用机器人,缺乏泛化能力。
Skild AI致力于研发面向真实世界的通用人工智能,其机器人大脑Skild Brain具备跨任务与跨机器人硬件的泛化能力。
该大脑无需预先知晓机器人形态,即可控制四足机器人、人形机器人、桌面机械臂、移动操作机器人等各类形态的机器人。
它赋予机器人处理多种事务的能力,从清洁、装填洗碗机、煎蛋等简单家务,到湿滑地形通行等对物理性能要求极高的挑战,只要是可运动的机器,Skild Brain都能操控。
这种跨形态训练不仅解锁了海量数据,还显著增强了模型应对硬件变更或故障的鲁棒性。
基于视觉的端到端运动控制
构建机器人基础模型的最大挑战在于缺乏大规模机器人数据,且利用硬件采集真实世界数据既缓慢又成本高昂。
部分公司基于现有视觉-语言模型(VLM),掺入不足1%的真实机器人数据构建“机器人基础模型”,但这类模型缺乏经物理世界验证的物理常识,难以适应真实物理环境。它们能完成侧空翻、后空翻、舞蹈等动作,却难以可靠攀爬各类楼梯或应对高难度障碍物。
因为爬楼梯需要视觉感知与运动控制的精细协同,机器人需与楼梯物理结构精确交互,并根据台阶高度和几何形状差异动态调整。
Skild Brain采用分层架构:上层是低频运行的操作与导航策略,下层是高频响应的底层动作策略。
作为核心驱动力,底层单一神经网络能将上层宏观指令实时转化为驱动躯体的精确关节角度与电机扭矩。这种设计让机器人无需繁琐的路径规划、建图或手动模式切换,在平地行走、爬楼梯和越障间实现本能般的无缝切换。
本质上,它是完全由在线视觉和本体感觉驱动的端到端运动控制。
真实世界部署对可靠性要求严苛,Skild在验证模型时将其置于城市公园、街道等真实环境,测试其爬防火梯、越障等能力,环境中还包含不稳定托盘、缝隙、不均匀台阶及杂物等障碍。

Skild Brain借助摄像头感知图像,对机器人周遭场景做出毫秒级动态反应,使其能根据最新观测结果自主摸索避障路径。面对未知环境,机器人无需预设动作,可实时调整落脚点、平衡与时机,灵活应对各类障碍。
例如,搭载Skild Brain的机器人面对不均匀台阶时,即便台阶深度比脚长多3厘米,也能精准落足,甚至能在非平坦表面负重搬运箱子上下楼梯。
要让机器人适应真实环境并具备通用性,需打破以往控制器仅针对特定机型训练的传统模式,这种模式本质是让机器人“死记硬背”,易对特定场景或环境“过拟合”。
为此,Skild为Skild Brain设计了无法“投机取巧”的测试环境,并采用特殊训练方法。
方法一是让AI学习控制包含10万种不同形态的“机器人多重宇宙”,而非单一机器人,使其无法“背诵”特定躯体的特解,必须找到通用生存策略。
方法二是让模型从失败中学习,Skild将大语言模型的“上下文学习(In-context learning)”引入物理AI领域,这是通用性的基石之一。
具体而言,Skild让机器人处于非常规环境或状态,如截去小腿保留大腿模拟肢体缺失、软件锁定膝关节模拟关节故障、无预警卡死轮子、在腿上加装高跷改变腿身比等。
面对这些情况,Skild Brain驱动的机器人经短暂适应后能找到解决方法。
以模拟关节故障为例,四足机器人变成未训练过的“三足”机器人,起初会向前倾倒,但很快学会将重心后移至三条腿,2-3秒适应后甚至能行走。
可理解为模型遇到陌生情况时会多次尝试,将前一次尝试作为“提示词(prompt)”输入,直至成功适应环境。
经“上下文学习”训练后,模型能实现零样本运动控制,甚至适应极端形态变化。
Skild的数据飞轮
Skild构建了庞大的数据基础设施,Skild Brain可从四大来源学习。
预训练阶段,它能从大规模仿真数据和互联网视频中学习,观看人类视频是解决具身基础模型数据规模和多样性不足的重要途径。
互联网上第一人称视角的头戴式摄像机画面数量庞大,但并非“机器人原生(robot-native)”格式。
机器人用视频数据存在信号缺失和具身鸿沟两大痛点:信号缺失指视频无法显示底层力、扭矩或触觉反馈;具身鸿沟指人类肢体与机器人形态差异大,将人类动作映射为机器人“驱动”指令难度大。
Skild的模型具备跨越具身差异的核心能力,使机器人能直接从视频演示中习得新技能。实验中,仅需观看视频及极少量机器人数据(少于1小时)微调模型,即可掌握新技能。
后训练阶段有遥操作和真实世界部署两种方法,Skild的机器人已广泛应用于安防、建筑、配送、数据中心、仓库及工厂组装等领域,持续为后训练生成数据。
2025年Skild AI实现规模化营收增长,其机器人在点对点配送、安防、数据中心及制造业仓库等场景部署,数月内营收增长至3000万美元,不过其终极目标是家庭消费级市场。
突破通用性瓶颈,物理AI价值将指数级增长
大语言模型已跨越通用性鸿沟,拥有数亿用户的标杆消费级应用(如ChatGPT),并进入千行百业创造价值。
具身模型正开始跨越通用性门槛,Skild AI已初步研发出能跨机器人形态、适应各类任务的具身基础模型。
通过将“上下文学习”引入物理AI,降低了各类机器人学习新技能和任务的成本,也降低了进入新应用场景的成本。
但具身基础模型和大语言模型目前都面临无法通过学习自我迭代的问题,AI模型每次大升级都需重新训练,迭代成本难降低,导致商业模式较移动互联网时代难成立。
不过仍期待“物理AI”未来进入成熟期,追上大语言模型的发展进度。一旦进入该阶段,物理AI的应用范围将大幅拓展,价值实现指数级增长。
本文来自微信公众号“阿尔法公社”,作者:发现非凡创业者的,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




