硅谷中美具身智能企业圆桌讨论：四大核心问题的行业解法

4分钟前

文｜周鑫雨

编辑｜杨轩

规模化落地已经成为2026年全球具身智能从业者共同瞄准的核心目标，行业竞速已经清晰摆在了各家企业的产能数据、招股文件与出货量报表中。

今年以来，国内企业的量产速度格外抢眼：智元机器人的第1万台量产机器人仅用三个多月就完成了从5000台到10000台的跨越，顺利下线；宇树科技披露的招股书也展现了凶猛的商业化态势，2025年全年营收达17.07亿元，出货量突破5500台。

亮眼数字的背后，是主打「高性价比」的中国具身智能产品在全球市场的快速扩张。宇树科技创始人王兴兴就在2025年世界机器人大会上公开表示，过去几年公司海外营收占比始终保持在50%以上。

在国内一众新兴具身智能企业中，由追觅在2024年孵化的魔法原子MagicLab是入行最晚的玩家之一，近期这家公司提出了一个相当激进的远期目标：到2036年实现140亿美元的年营收。

为了推进全球品牌布局，魔法原子直接把新品发布会搬到了硅谷。美西时间2026年4月28日，全球具身智能创新大会（GEIS）在汇集了Adobe、TikTok、IBM等科技巨头的圣何塞举办。

会上，魔法原子的MagicBot Z1机器人还现场为张艺兴进行了操作展示，本文图片均为作者现场拍摄

本次大会上，魔法原子一次性发布了从底层模型到本体硬件的一整套新产品：

世界模型Magic-Mix：这是魔法原子自研的自主进化模型，由两大核心引擎构成——负责让机器人理解真实物理世界的Magic-WAM，以及支持离线批量生成训练数据的Magic-Creator。这套架构让Magic-Mix可以进入「数据生成-模型训练-真实场景反馈-二次生成数据」的闭环，实现模型的持续自主迭代升级。

灵巧手MagicHand H01：整手具备20个自由度，接近人手24-27自由度的水平，同时搭载了44个高分辨率三维触觉传感器，主打工业制造、生活护理等对精细操作有要求的场景。

人形机器人MagicBot X1：这款人形机器人身高180cm，体重70kg，全身配备31个主动自由度，最大关节扭矩可达450N·m，搭载了支持无限续航的双电系统，可以实现7*24小时连续作业。产品分为两个版本：标准版主打商业落地，开箱即可部署；科研版则面向高校、实验室、开发者与产业合作方，开放底层二次开发权限，同时支持外形定制。

本次大会还邀请了Openmind、PrismaX、Chestnut Roborics等多家硅谷本土的具身大脑与本体企业参会，现场嘉宾围绕数据、模型、硬件、落地四个行业最关心的核心问题，分享了中美从业者的不同思路与解法，以下是本次讨论的整理：

机器合成数据训练效果，会比真实数据更好吗？

高质量训练数据稀缺，长期以来都是限制具身智能模型发展的核心瓶颈。目前真机采集数据不仅成本高、周期长，也很难覆盖全场景的各类需求。

用机器合成训练数据，是行业提出的一个核心解决方案，但合成数据一直存在真实物理信息缺失的问题，比如接触面摩擦系数、动作延迟、触觉反馈等细节很难1:1还原，业界一直担忧模拟数据和真实场景之间存在难以跨越的「仿真到现实鸿沟（sim-to-real-gap）」。

混合数据训练，是当前中美从业者达成共识的主流方案。魔法原子总裁顾诗韬介绍，公司目前日均可以采集约16000条真实数据，再通过数据合成技术将整体训练数据体量扩充一万倍。她提到，新能源汽车制造业迭代速度快，60%-70%的工序都需要人工操作，是天然的真实数据采集富矿。

当前行业已经形成共识：选择真实数据还是合成数据，要根据具体的训练目标和应用场景判断，不能一概而论。

亚马逊前沿AI与机器人研究院科学家Haozhi Qi指出，合成数据适合用来训练机器人掌握单一基础反应技能，但很难让机器人学会制作早餐这类需要多步骤衔接的长程复杂技能——想要还原这类任务，构建足够丰富模拟环境的成本太高，这种场景就必须引入真实数据训练。

英伟达GEAR Lab高级研究科学家Zhengyi Luo则透露，自己团队目前采用的数据配比是：50%模拟数据用于基础训练，15%动作捕捉数据加25%互联网视频数据用于让模型学习理解人类动作，最后再加入10%高质量真实场景数据完成训练。他还提到，现在已经有企业会用公开社交媒体上的内容，作为机器人本体设计的参考。

VLA（视觉-语言-行动）是具身智能「大脑」的最优解吗？

凭借出色的任务泛化能力，VLA已经成为当前具身模型最主流的架构方案。

但一个很直观的例子就能看出它的局限：人类转动指尖的篮球时，只需要触觉和本体感知就能完成，不需要视觉介入——这说明VLA架构在触觉和本体感知两个维度存在明显短板。

在本次GEIS大会上，Haozhi Qi给出了自己的观点：VLA成为主流，其实和当前硬件传感器的发展阶段直接相关：如今视觉传感器技术已经相当成熟，但触觉传感器还处于发展初期，技术并不完善。

因此，具身系统需要用其他成熟的感知输入，来补全还不够成熟的触觉传感短板，才能支撑机器人完成正常操作。从这个角度来说，用视觉和语言补足触觉缺陷的VLA，确实是当下条件下最好的解决方案之一。但未来随着传感器和硬件技术进步，具身模型的算法架构也会随之迭代升级。

灵巧手三条技术路线比拼：连杆、腱绳与直驱

当前灵巧手设计领域最核心的争论，就是要不要做和人手高度相似的设计。围绕这个问题，行业分化出连杆、腱绳、直驱三种不同技术路线。

三者各有优劣：连杆结构最不像人手，但成本低、控制难度小；腱绳结构最接近人手构造，可以完成高精度精细操作，但成本高、控制算法难度大；直驱则是介于前两者之间的折中方案，把驱动单元直接集成在每个关节上，但不仅成本偏高，在力传导效率和热管理方面还存在不少工程难题待解决。

融合多种路线的混合架构，是近期兴起的新技术方向。Chestnut Robotics创始人、前特斯拉Optimus灵巧手核心成员Evan Tao介绍，自己的团队就选择了混合架构方案：以能完成精细操作的腱绳结构为主体，搭配AI控制和自主学习系统。他认为未来所有灵巧手方案，都会在操作灵活度和工程可靠性之间寻找平衡。

机器人怎样才能实现真正的规模化落地？

在数据层面，引入真实世界数据，依旧被认为是让机器人真正理解应用场景、学会复杂任务操作的核心。

XGSynBot CEO Zizheng Li介绍，公司采用的混合数据策略也会加入少量高质量真实数据，这样既能控制整体采集成本，也能有效提升模型能力和泛化水平。

在系统架构层面，Zizheng Li认为机器人需要从「单一功能设备」向「多任务通用平台」升级，比如XGSynBot的机械臂就配备了支持6种快拆的模块化结构，这样一台机器人就能在不同工序之间灵活切换，能适配更多不同的落地场景。

最后OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt总结了参会者的共同观点：让机器人进入真实世界，越早越好。

他发现，实验室环境根本无法模拟所有现实中会遇到的复杂场景：过强的环境光线、泥泞潮湿的地面、生锈卡顿的门铰链、多个系统同时运行带来的负载压力——这些复杂的细节，往往是机器人离开实验室后出现系统故障的原因。

因此，机器人不应该在落地前一直待在实验室里打磨。Jan Liphardt建议，开发者应该尽早让机器人进入家庭、学校、机场、幼儿园等各类真实公共场景完成实际部署，在真实交互中收集数据，实现持续迭代。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

明星提前套现离场留下85亿巨亏，曾经的影视龙头华谊兄弟为何走到如今地步？

被炒高的老牌投资标的跌落神坛

DeepSeek V4评测曝光：距美国顶尖模型差距8个月，国产AI已迎来百花齐放

景区NPC互动擦边引争议：低俗博眼球难长久，文化内核才是长久之道

复盘八个季度增速变化：白酒行业进入慢筑底新阶段