物理AI商业化落地，工厂或成首个破局点

05-29 06:42

本文来自微信公众号：极客公园，作者：LiYuan，编辑：郑玄

近两年来，人形机器人与具身智能领域热度持续攀升，融资消息、技术Demo与行业新概念不断推高市场关注度。但在热潮推进的过程中，一个现实问题逐渐凸显：工业场景的落地门槛不会因为新概念的出现自动降低。

直到今年，一大批打出「进厂落地」旗号的企业真正扎根工业现场后，行业才看清一个事实：Demo跑通，不代表整套系统能在工厂长期稳定、低故障运行。哪怕是Figure AI这样的行业明星企业，也开始从展示技术想象转向验证设备的连续作业能力。

如今资本与产业端的关注点正在转移：企业到底拥有哪些可复制的落地场景？客户为什么愿意付费采购？投入产出比能不能达到要求？

我们就此采访了微亿智造董事长兼CEO张志琦，他分享了微亿从2018年开始，如何一步步将AI技术落地到真实工业现场；也聊到了在工厂环境中，视觉语言行动（VLA）技术哪些场景能用、哪些暂时还无法落地，以及工业具身智能最终可能走向何方。

01 从2018年起步：给传统机械臂装上AI大脑

极客公园：微亿智造把自家产品定义为「工业具身智能机器人」，但从外观来看，它还是机械臂、相机、工装和产线设备的组合。就拿外观检测来说，传统机械臂也能完成，工业具身智能机器人也能做，两者到底有什么本质区别？

张志琦：没错，两种方案都能完成外观检测任务，但用到的技术逻辑完全不同，最终给客户带来的价值也不一样。

微亿智造2018年刚成立的时候，我们的核心产品其实更接近传统自动化设备：用一台定焦相机拍摄工件，采集图像后再用AI模型判断缺陷类型，最后分拣出不同品质的产品。

这种模式确实用AI做了赋能，但还称不上是工业具身智能——本质上，机器的每一步动作还是提前靠编程固定好的。

到2022年的时候，微亿接到了一个大客户的项目：给长度超过两米的大型一体化压铸件做缺陷检测和打磨。

这个零件需要拍摄近3000个点位，客户要求整套流程必须在10分钟以内完成。但传统机械臂根本做不到——光是按照预设轨迹打磨一遍，就要花一个小时，而熟练工人只需要七八分钟就能做完。

差距其实不在机械臂的运动速度，而在自主判断能力。工人会先定位缺陷位置，只加工有问题的区域；但传统机械臂只能按照预设路径走完全部点位。这个客户此前找了两年多服务商，始终没能解决这个问题。

后来微亿重新设计了一套「检测加工一体化」的工业具身智能机器人。这套方案的基础，是我们从2018到2020年逐步研发成熟的飞拍技术，能让机械臂不停车连续拍摄，5分钟以内就能完成3000个点位的图像采集。

更关键的变化是，这套系统的拍摄点位和运动轨迹可以由算法自动生成。

因为不需要提前人工设计轨迹，系统可以像工人一样，先识别目标和缺陷，再判断哪些位置需要打磨，自动生成加工轨迹。最终这套设备把检测加打磨的总节拍压缩到了7到10分钟，已经接近人工水平。

这种「感知—判断—执行」的自主能力，就是传统自动化和工业具身智能的核心分界点。

极客公园：如果说在检测打磨场景里，具身智能解决的是「先看、再判断、再处理」的问题，那在其他场景中，它和传统机械臂的差异还体现在哪里？

张志琦：就拿我们2024年展示的具身智能装配机器人来说，两者的差异会更加明显。

现在针对一些简单的装配任务，我们已经可以做到：工人操作一遍，机器人通过视觉观察一遍，就能理解装配逻辑，再通过双臂协同完成整个装配过程。

对工业客户来说，示教成本是非常关键的指标。在真实工厂里，每台设备安装都会有误差，传统机械臂需要每台单独示教调试，根本满足不了柔性生产的需求，调试太麻烦，工厂宁愿直接用人工。

但我们现在只需要一次视觉示范，就能让机器人理解操作逻辑，能大幅缩短客户的项目导入时间。

除此之外，现在的机器人已经可以应对现场的不确定性。

比如机器人已经抓到零件了，你把零件拿走，它会自己重新去寻找目标；本来要沿着固定路径取料，你把路径挡住，它会自己想办法绕开。过去传统机械臂更多是执行工程师提前编好的动作，而搭载了AI「大脑」的机器人，可以根据现场环境变化重新做决策。

我们现在也在落地物流行业的码笼场景，机器人可以兼容各类箱体和包裹，自动设计放置策略完成智能分笼，这些都是传统机械臂做不到的。

02 VLA技术落地，要过工厂0.1毫米精度这道关

极客公园：要做到这些能力，你们用到的是VLA技术吗？行业普遍认为VLA才是实现泛化能力的核心技术。

张志琦：我们认为，工厂现场的岗位大体可以分成两类：一类是技术工种，一类是普通普工。

技术工种的经验很多都只掌握在老师傅手里，必须到具体现场才能积累得到。比如打磨、焊接、检测这类技术岗，我们现在没有用VLA架构，甚至认为未来也不一定需要用VLA架构。

这类场景基于规则引擎，加上对目标对象的识别认知、轨迹自动规划和执行，甚至在执行过程中完成有效纠偏、不断优化轨迹，就可以更快更高效地解决问题。它仍然属于AI技术，但其实不需要特别大的模型参数——百亿级别，甚至几十亿参数就能解决问题。

而普工类岗位，比如码垛、上下料、分拣，普通人来了三十分钟就能上岗，只要对物理世界有基础认知就能做。

这类场景我们认为就可以尝试部署端到端技术，用大量通用数据训练出一个泛化性更强的基础模型，再结合工厂特定场景做微调泛化，最后落地应用。我们两三年前就开始前瞻性布局VLA这类技术，今年已经启动了项目POC验证。

极客公园：目前POC项目的推进情况怎么样？

张志琦：我们现在在几个不同的场景做POC验证。

比如物流场景的无序码笼：就是箱体大小不一，需要把它们规整码放到物流笼车中，供下一个环节处理。

目前我们对箱体的识别、轨迹规划的有效处理、异常情况的人机协同处理，还没办法做到完全端到端，仍然需要一些兜底策略。

但我们在这个过程中也在不断积累数据，客户也愿意和我们一起共建这个场景，我们试图解决的问题，其实和通用机器人公司在工业领域攻坚的方向是一致的。

在我们看来，像无序码笼这类任务，技术难度甚至比供料还要高，因为码放本身需要特定的策略，不是简单把快递翻个面就行——一般要大箱子铺底，小箱子插缝放置。如果箱子有破损、是异形件或者易损件，还需要特殊处理，这里面大量依赖人类的经验，对感知和决策都提出了更高要求。

极客公园：有没有可能未来VLA发展足够成熟，会把所有原来专用小模型覆盖的场景全部替代掉？

张志琦：未来技术发展很难预判，但至少最近三五年内，VLA不太可能替代技术工种场景的方案，哪怕是普工场景也很难马上完成替代。

一个核心原因是VLA目前的精度达不到要求，就算经过强优化，精度大概也只能做到厘米级或者几毫米级。但像CNC上下料这类场景，虽然属于普工范畴，但要求误差控制在0.1毫米以内，还不允许出错，这种要求下VLA目前还是没法用。

不是所有场景都需要用最大的模型，也不是所有场景都应该被VLA覆盖。

我们2018年开始做的，前面提到的偏自动化设备的「AI赋能智能化产品」，到今天仍然在产生收入，就是因为这些场景里，原有自动化搭配简单AI能力就已经能把问题解决好，那就应该继续做。

极客公园：如果VLA不是唯一答案，物理AI会不会是一个更大的技术框架？您怎么理解物理AI和工业具身智能的关系？

张志琦：从技术实现角度看，业内说的物理AI，大概率就是指世界模型——也就是让AI能够理解物理空间、物理场景、物体之间的相互关系，还有基础物理规则本身。

具身智能更强调机器人本体和AI模型的深度结合，而物理AI承载的内容可能比具身智能更广，它不一定非要绑定某一种机器人本体。未来如果世界模型足够强大，机器人本体反而可能没那么重要。

我们认为工业场景会是物理AI相对较早落地的方向之一，原因很简单：工业场景里的操作对象相对有限，任务边界也比较清晰，所以技术上更容易达到可用的状态。

03 未来工业赛场，主流竞争者会越来越不像人形

极客公园：今年以来，微亿智造的客户情况有什么新变化？

张志琦：客户的行业覆盖一直在扩展，新能源汽车、3C消费电子这些原有客户，每年都持续下单，既有原有场景的复制，也有新场景的落地。

工业场景里，客户的信任是非常重要的：客户原来用我们的产品好用，就会接着问，我们这边新场景还有很多人工岗位，能不能换成你们的方案？我们也就跟着客户的需求往前推进。

今年让我们比较欣喜的是，海外业务也开始从0到1突破了。未来两三年，我们希望海外收入能占到总营收的20%到30%。一方面，我们可以把国内打磨成熟的产品通过海外渠道快速推出去；另一方面，海外也有自己的独特需求——有些项目在国内算不过来ROI，在海外可能就能达标。

极客公园：下一步在技术能力上，你们更关注哪些方向？

张志琦：下一步重点是把触觉能力彻底打通。现在很多项目我们不敢碰，核心瓶颈就是触觉。比如插拔、理线这类任务，都非常依赖触觉反馈。

但目前触觉技术的发展远落后于视觉，把触觉融入系统后，整个模型都会发生很大变化，甚至不一定是基于语言模型的架构。

我们的判断是：加入触觉模型后，视觉仍然会发挥重要作用。纯触觉能完成的任务很少，但和视觉判断结合后，能处理的任务会大幅增加。

从去年开始，我们已经启动了触觉方向的前沿研究，核心是做触觉模型和视觉模型的深度融合，目前同时在看两条技术路线：霍尔触觉和视触觉。

极客公园：未来三年，你觉得工业具身智能哪些细分赛道会迎来爆发？

张志琦：工厂里人工密集的岗位都有机会。哪怕具身智能相关收入每年翻番，我也不觉得接近天花板了，技术还需要持续提升。

但我觉得现在离真正的大规模爆发还很远，如果真的算爆发，那应该是工厂里的用工数量明显下降，哪怕减少五分之四还能正常生产，那才算真的爆发。

过去工厂很多时候是把人当机器用：质检岗位非常伤眼睛，年轻姑娘在强光下看两年产品，视力可能就会出问题；拆码垛这类重体力活，对工人的腰和身体都会造成不可逆的损伤，这些岗位都应该优先被替代。

极客公园：未来的行业竞争中，传统工业机械臂公司、微亿这样的工业具身智能公司，还有追求泛化AGI的人形具身智能公司，各自的优势和短板是什么？

张志琦：我们的优势还是对工业场景的深度理解。很多公司说「我也能做」，那不妨来现场试试。具身智能有意思的地方就在于，是不是好用拉出来遛遛就知道，客户愿不愿意买单是最直观的检验。

在ROI可算得过来的前提下能不能完成任务，这是工业落地最基本的第一性原理。

现在我们的竞争对手很多还是传统自动化公司，说实话，自动化公司里也有不少能工巧匠，可以设计出特殊的结构构型，满足柔性生产的需求。

但从中长期看，未来主流的竞争对手大概率会是那些做得越来越不像人的人形机器人公司。

对追求AGI的具身智能公司来说，估值核心还是生活场景，但生活场景落地太难了，走着走着就会转向工业场景，转过来又发现纯人形不是适合工业的架构，于是开始做泛人形。但泛人形在生活场景里又会遇到新的问题。

这两年人形机器人公司已经开始改口，说自己的产品是泛人形，泛人形的问题是还要沾着「人形」的边，因为有人形公司的叙事包袱，还得加个头部，你说和传统机械臂组合有什么差异？其实没什么差异。

我觉得这些都是最早坚持全人形结构的时候，大家讲给投资人听的故事，到今天实际落地，大家都发现全人形有成本问题：多一个关节、多一个自由度，对算力的要求就会高很多，一个全身四五十个自由度的机器人，需要多少算力才能流畅完成任务？

回到工厂场景，说到底，工厂在意的就是能不能解决问题，其他都是其次。

极客公园：只聚焦工业场景，外界会不会担心你们在一个个项目交付里分散精力，没有足够的技术力量冲击更高的技术目标？

张志琦：这个担心其实多余了。现在在AI技术研发投入上，微亿和国内绝大多数AI公司的投入强度是差不多的，我们不是以项目交付为核心，而是以研发为核心驱动力。

我们这一代AI公司和上一代AI公司最大的区别是：物理AI的世界里一定需要一个实体载体，有载体就会有和物理世界的交互，就会有反馈机制，产生新的训练数据，所以也一定会有一批新公司跑出来。

极客公园：你觉得现在市场宣传或者投资人叙事里，最不靠谱的说法是什么？

张志琦：以前只要放出一个机械本体、拼出一个人形外观，大家就觉得这家公司能做人形机器人了。到今天，二级市场这类公司也很多，但再只放一个人形外观，大家已经不信了。

过去很多Demo演示背后其实是人工遥操作，大家之前并不了解，现在慢慢明白，有些机器人是自主运行，有些还是遥操作。这个变化的核心，是市场越来越认识到AI才是核心，也看清有些公司其实只做了运动控制，并没有做机器人的AI大脑。

所以对我们来说，过去可能吃了外观的亏——看起来就是传统机械臂，但现在我们更希望大家理解，有没有AI大脑的机械臂，差别其实非常大。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

《给阿嬷的情书》爆火背后：大麦娱乐财报里的长期发展样本

抗体应答可维持500天！新型糖基佐剂能否打破mRNA疫苗免疫持久性难题？

爱运动的年轻人解锁了最有质感的度假新玩法

GPT-5.5涨价翻倍，Gemini暴涨三倍：当前AI涨价潮还能持续多久？

刘强东最新内部讲话：京东启动涅槃项目，被机器替代的一线员工一个都不裁

项目推荐

迪瓜租机

康老板 · 氧疗堂