在AI进化的关键一年,具身智能、自动驾驶迎来了“拐点时刻”?
特斯拉Optimus机器人完成了工厂零部件的分拣,宇树机器人在春晚准确完成了舞蹈动作,比亚迪拉开了智能驾驶员的普及...这些标志性事件宣告了人工智能正在进入技术进化的关键一年。
近日,阿里巴巴集团首席执行官吴泳铭宣布,未来三年,阿里将投资3800多亿元建设云和AI基础设施,总额超过过去十年的总额。它还创造了中国民营企业在云和AI基础设施领域历史上最大的投资记录。根据IDC的预测,到2030年,AI将为全球经济贡献19.9亿美元,推动2030年全球GDP增长3.5%。
每一次技术跃迁,从工业革命到信息革命,都伴随着基础设施的颠覆。假设AGI是一次浩瀚星辰的远征,那么AI基础设施就是通向目的地的“阳关大道”。汽车需要铁路网络,电力需要电网,互联网需要光纤和基站。AI的爆发正在呼唤一个全新的基础设施网络——它不仅是一个数据传输管道,也是一个连接实体和智能、协调全局和局部、平衡效率和安全的“神经中枢”。它是一个新的网络,可以同频共振机器智能和物理世界。
在这个网络下,通过自主决策和协同控制,机器人、无人驾驶汽车、低空飞机等各种智能机体一次又一次地完成了即时对话和人机交互,从而打开了通往AGI新世界的大门。

从感知AI到物理AI,AGI是一定的路径。
语音助手可以准确识别方言指令,手机镜头可以自动捕捉到最灿烂的笑容。这些感知AI的杰作构建了现代社会的数字感官。它们就像隐形的眼睛和耳朵,将光信号和声波转换成可计算的数据流。
然而,当无人驾驶汽车面临突如其来的道路坍塌,或者智能机器人在凌乱的客厅找不到充电插座时,简单的环境感知能力立即表现出致命的缺点。
在平衡木上完成空翻时,波士顿动力的人形机器人Atlas不仅展现了动作精度,还揭示了物理智能的本质:重力加速计算需要与关节扭距控制同步,摄像头捕捉的视觉信息必须立即转化为肌肉记忆般的机械响应。这种感知和行为的毫秒闭环远比AlphaGo击败人类冠军更能体现智力的本质特征。
大模型的不断进化,像蝴蝶翅膀一样颠覆了人工智能的传统理解。这些突破性进展正在不断刷新机器智能的界限,从第一次尝试新的结构到发现新的普遍规律,从能力泛化到模式无缝结合。
大型模型完成了感知和思维能力的全新升级,使机器具有更细腻、更丰富的理解能力。与此同时,人工智能正朝着另一个关键层面前进——模拟和适应现实物理世界。
从感知到决策再到控制执行,端到端的智能系统正在崛起,机器的适应性和灵活性不断突破。它不仅可以独立感知和推理复杂的场景,还可以积极规划行动并做出决策。智能自动驾驶的加速落地进一步塑造了机器的物理形态。
感知AI作为人工智能发展的初始阶段,注重机器对环境的感知,使机器能够通过视觉、听觉等感官获取信息,并进行基本的理解和响应。感知AI使机器能够与外界进行初步的交互,为更复杂的智能行为提供概率。现阶段的典型应用包括语音识别、图像处理和推荐系统。
2012年,一个名为AlexNet的神经网络引爆了AI研究领域,它的表现远远超过了所有其它类型的模型,并且赢得了曾经的ImageNet比赛。从那以后,神经网络开始变得辉煌起来。自ImageNet以来的13年里,计算机视觉研究人员掌握了物体识别,并将其转化为图像和视频生成,为后续生成AI奠定了基础。

在感知AI的基础上,通过进一步的发展和延伸,生成AI构成了机器生成内容的能力。这个阶段意味着人工智能不仅可以理解信息,还可以创建文本、图像和音频等新内容。它被称为“生产力放大器”,为营销和创作领域提供了前所未有的工具概率。
今年,DeepSeek的流行将生成式AI再次推向风口浪尖。然而,DeepSeek的底层逻辑仍然是统计机器学习-喂养数据、训练和输出结果。这意味着生成式AI的技术天花板已经清晰可见,甚至因为它的“深度思考”过程是透明的,人们可以更清楚地看到它的本质——一个训练出来的智能模型,而不是一个真正的智能体。
一个有趣的例子:当被问到“strawberry有多少r”时,DeepSeek需要反复思考50秒才能给出正确的答案。它可以解决复杂的问题,但在简单的场景中暴露出局限性。因为它依赖于统计关联,而非因果逻辑。正如超级市场发现“尿布与啤酒销售成正比”一样,AI可以发现规律,但无法理解“爸爸们顺手买酒”的因果链。“即使比OpenAI强,也要尝试反思式推理(比如GPT-4o的多路径思维),但本质仍然是数据驱动的提升。
最近,Meta首席AI科学家杨立昆(Yann LeCun)AI需要在2025年人工智能行动峰会上了解物理世界,只有在此基础上,AI才能真正接近人类的智慧。
虽然目前的大模型在通过律师资格考试、解决数学问题等任务方面表现出色,但在日常生活中无法完成基本任务,比如做家务。对于人工智能来说,很多看似简单的动作,比如洗碗或者擦桌子,仍然是一个无法解决的复杂问题。这些模型并没有真正理解物理世界,而是通过模式识别和数据生成来模拟现象。
为了进一步提高AI对现实世界的理解能力,提出了物理AI,使人工智能系统不仅能理解信息,还能在物理世界中操作。它结合了对物理变化的理解和智能决策能力,促进了智能系统灵活应对复杂情况。
物理AI赋予更强的环境感知、理解和交互能力,让他们更好地了解周围的环境,并根据物理规律做出相应的反应。例如,AI可以直接控制仓库中的机器人进行货物运输,或者提高自动驾驶汽车的驾驶策略。
从感知式AI开始、生成式AI最终走向物理AI,体现了人工智能技术不断进化的轨迹。每个阶段都继承了前一阶段人工智能发展的技术成果,促使机器不仅能够“看”和“听”,还能够“理解”和“行动”。这种逐渐演变为实现更高级的通用人工智能(AGI)奠定了基础,也对各行各业产生了深远的影响。
AI和物理智能“双螺旋上升”
传统的人工智能就像“缸中之脑”。虽然它可以解决方程和诗歌,但它不能真正触及现实。物理AI的颠覆性在于将智能注入物理实体,使机器具有“感知-决策-执行”的闭环能力。这些系统不再满足于“理解世界”,而是痴迷于“改变命运”,从自动驾驶车辆到智能能源,从柔性机器人到分子级制造设备。

与生成式AI相比,它处理的是文字、照片、音频或视频等一维或二维信息的输入,并输出相同类型的信息。物理AI需要从三维甚至四维(包括时间和空间)的角度来理解信息,这与信息智能有本质区别。
在输入方面,物理AI系统可以从摄像头、惯性传感器、雷达、激光雷达等多种工具中获取输入。它处理的是感知和理解世界的数据,包括视觉和触摸等感官信息,可以直接在传感器数据中学习和理解环境,让人工智能从简单的感知和生成到推理、规划和行动。
就输出而言,物理AI产生的是TSD数据,即时间(T)序列(S)资料,这些资料可以直接用来控制具体智能,给它们一个能够在实际物理规则下灵活运行的“大脑”。
此外,生成AI和物理AI在产品形式和应用领域也有所不同。生成AI不受时间影响,不需要实时反馈。例如,一些信息可能只在ChatGPT升级到去年9月。物理AI系统必须实时处理输入信息,需要即时感知和推理环境,以确保智能快速响应。
目前大部分物理AI系统只能处理特定的任务或小环境,效果参差不齐。在落地上,一个非常受欢迎的例子是宇树科技的四条腿机器狗,可以爬山涉水,也可以用一系列高难度的体操动作出现,包括原地旋转两周,然后倒立旋转三周半,以及一套流畅的托马斯全旋转、侧空翻和360度弹跳转体。
物理AI已经成为具体智能、自动驾驶等领域进入新阶段的“钥匙”,就像大模型创新了生成式AI一样。
第一,大模型“上车”难题将得到很好的解决。
目前,大型模型主要体现在车辆应用领域的两个方面:一是智能驾驶舱,二是自动驾驶。前者与大型模型技术自然匹配,因为目前的智能驾驶舱更注重娱乐和互动功能,与大型模型语言处理能力非常一致,难点在于后者。
对于自动驾驶来说,如何在复杂动态的交通环境中实现快速安全的车辆控制已经成为一个核心问题。现有的自动驾驶系统普遍缺乏多智能身体协作、高效决策和解释的能力。面对复杂的交通环境,很难有效理解周围交通参与者的行为和意图。
二是数据。在自动驾驶领域,大型模型需要“喂”大量的真实世界数据来练习,使其更加拟人化。因此,如何让这些信息更好地服务于大型模型进行培训,是目前汽车公司面临的另一个难点。
第二,人形机器人加快了“ChatGPT时刻”的发展。
Figure是一家人工智能机器人初创公司。 Figure发布Figure 02时,就引起了市场的高度关注。Figure 02将OpenAI的GPT-4o多模态模型集成到大脑中,使其能更好地理解和响应复杂的指令。
多模态大模型不仅是技术的简单叠加,也是推动物理AI发展的重要技术保障。大模型能力的本质是压缩和二次处理信息。多模型大模型扩大了信息输入模型,提高了模型能力的天花板。
多模式大模式技术路径是从图像-语言模式结合到三种以上模式的结合。语言模式的实践赋予了模型逻辑思维能力和信息生成能力;视觉模式的信息流密度高,更适合现实世界,可以大大拓展应用场景,因此成为多模式技术的首选信息载体。在此基础上,模型可以继续发展不同的模式,如运动、声音和触觉,以应对更复杂的场景。

多模态大模型的核心优势在于优异的信息整合能力。通过同步处理和深度整合不同模态数据,模型可以探索跨模态信息之间的内在联系,从而产生更全面、更准确、更有洞察力的理解和回应。
例如,在生成图像描述任务时,模型可以结合图像中的视觉元素和相关文本描述,生成准确流畅的自然语言描述,这样机器不仅可以“看到”图像内容,还可以用人类可以理解的语言“描述”故事,从而更好地满足机器在物理世界中的广泛应用需求。
通向AGI的新型网络基础设施
随着物理AI的兴起,人工智能的发展正在向一个临界点推进:我们能否构建一个智慧、坚韧、包容的网络,既释放了技术的所有潜力,又保护了技术的核心价值?这不仅是工程师的挑战,也是整个社会的共同话题。
物理学世界的运行规律远比数字空间残酷:决策错误导致的不是程序错误,而是血腥的交通事故;模型推理需要的不是概率的提高,而是毫秒级的精确控制。作为智能体与实体世界实时互动的AI网络,车路云网络是打破这个玻璃的关键钥匙。它将数字智能注入物理世界的毛细管,通过大规模布局路边感知模块、每秒处理海量数据的边缘计算节点和覆盖市政道路的网络。
这个庞大网络的技术核心在于“通感算一体化”结构的突破。通信光纤就像一个神经系统,在0.1秒内传递着每辆车的加速度变化。激光雷达阵型就像视觉神经捕捉200米外行人的步态特征,而云超级计算集群则在时空维度编织着城市交通的数字孪生。
当暴雨导致某个路口的可见度急剧下降时,路侧基站可以在100ms内预测车道的行驶轨迹,并通过车路云网向800米范围内的车辆发送分级制动指令,赋予自动驾驶车辆群体决策能力,实现超越人类反应极限。
现实与现实相结合的AI网络正在重构技术进化的底层逻辑。在将70%的感知计算任务转移到路边设备后,车辆只需要保留基本的计算率模块,就像普通司机借助智能交通系统获得“第三视角”一样,相当于用市政设施的群体智能填补了自行车感知的物理局限性。
更深层次的变化发生在模型和算法上。数字世界AI可以承受99%的准确率,但控制制动系统模型的容错率必须为6个9。通过数字孪生技术,车路云网络将真实路网复制成虚拟沙盘,可以无限试错。这种虚拟闭环的进化机制,让人工智能在面对电动自行车突然变道时,可以像一个有30年驾驶经验的老司机一样预测轨迹,但不受人类司机的情绪影响。
在车路云网络中,车辆不仅是数据的接收者,也是信息的生产者。每辆车的传感器、摄像头和其他设备收集的数据都会实时传输到云端。这些信息不仅有助于改善当前汽车的驾驶决策,还会反过来影响整个智能交通系统的运行。通过共享信息,多个车辆和交通管理系统可以形成协同感知,从而提高整个道路的安全性和流畅性。
从技术进化的角度来看,车路云网络的价值远远超过了交通效率的提高。它证明了一个更普遍的范式:当AI突破数字世界的边界时,其进化轨迹必须与物理实体紧密结合。
这种组合不是简单的控制和控制,而是通过持续的环境交互形成自主演变的能力。就像生物神经系统的进化史一样,智能的飞跃总是伴随着与现实世界互动维度的扩展,从单细胞生物的压力反映到人脑的复杂认知。
物理学AI的觉醒表明智能革命的拐点已经到来。当城市化为流动神经网络时,每个机器人和汽车都可以成为自主决策的智能体。正如DeepSeek的创始人梁文峰所说:“AI 未来不是取代人类,而是像水电一样成为基础设施,让每个人都能体验到科技带来的便利。
在咖啡杯滑落之前,试验室的机械臂正在研究预测震颤频率,气候AI系统同步调整风力发电机的叶片视角。这类看似碎片化的技术突破,实际上是在编织覆盖全球的智能协同网络。在这一网络达到临界规模的时候,或许我们最终会明白1950年图灵提出的最终问题:机器是否可以思考?当机器与物理世界持续对话时,答案可能隐藏在电光石火中。
本文来自微信公众号“极智GeeTech”,作者:半山,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




