新质观察|智能化的时代已经到来,AI正迈出关键的一步

03-19 08:53

2024年7月6日,在上海,2024年世界人工智能大会上,人工智能机器人伸出仿生机械手与参观者握手。视觉中国 资料图


一九九七年,IBM击败了国际象棋大师加里·卡斯帕罗夫,震惊了世界。2016年,“阿尔法围棋”(AlphaGo)围棋冠军李世石无能为力。从那以后,人工智能成为全球热门话题。但当时的AI只是一个会计的“头脑”,可以分析棋盘的情况,却摸不到棋子。


AlphaGo可以在服务器上快速训练1000多场棋局,甚至击败世界冠军。但本质上,它仍然是一个纯粹的算法系统,缺乏在物理世界中执行动作的能力。每当它下棋时,它必须依靠一个工作人员来帮助它在球场上停留。这就是AI 信息智能发展的第一阶段。它擅长处理数据,但不能直接影响现实。


如果 AI的发展是一场马拉松,所以在第一阶段,我们创造了一个非凡的大脑。现在,它正在迎来第二阶段-具体智能(EmbodiedAI),也就是物理智能。在这个阶段,AI不再局限于数据中心和屏幕,而是拥有感知,长出手脚,开始与物理世界互动。2025年,《政府工作报告》首次将“身体智能”写入其中,提出建立未来产业投资增长机制,重点培育生物制造、量子技术、身体智能、6G等未来产业。这个政策信号,意味着具身智能正从实验室走向现实,成为人工智能发展的重要方向。


从算法到动作,AI 迈出重要的一步


想象一下,你走进一家餐馆,点了一杯咖啡。一个机器人服务员优雅地拿着拖盘,把热咖啡放在你面前,没有洒出一滴。一个普通人很容易做到这一点,但对于AI来说,这是一个很大的问题。


在过去的几十年里,计算机视觉、语音识别、自然语言理解等信息智能取得了惊人的进展。AI可以识别图像,理解语言,甚至与人类顺利交谈。然而,这些技术仍然停留在数据世界。他们可以“理解”一杯咖啡,但他们不能真正拿起一杯咖啡。为了让AI走出屏幕,影响现实,它必须学会如何在物理世界中行动。


这是物理智能面临的核心问题。拿起一杯咖啡,这个看似简单的动作,其实涉及到复杂的传感、肌肉控制和平衡调节。AI需要准确感知杯子的形状、材质和重量,计算手指施加的力度,调整身体的平衡,以确保液体不会溢出。这些几乎是人类的本能,但对于AI来说,需要从零开始学习。


如果说信息智能的AI是一个生活在“理想国家”中的思想家,那么物理智能的AI就是一个需要工作的工人。现实世界比数据世界复杂得多,更难预测。


波士顿动力就是最典型的例子。(Boston Dynamics)机器人。他们可以跑,可以跳,甚至可以后空翻,看起来他们已经掌握了物理智能。但是如果你让它开门,拧螺丝,或者在光滑的地面上跑,它可能会摔倒。流畅的运动并不意味着真正的灵活性。机器人适应复杂的现实环境仍然存在巨大的挑战。


斯坦福大学李飞飞团队提出了一个全身操作的综合框架——行为机器人套件,以使机器人更好地执行日常任务。(BRS)。该框架旨在提高机器人在家庭环境中的独立执行能力,使其能完成各种家务任务,如扔垃圾、整理衣物、刷厕所等。这项研究是一个典型的具有智能突破的案例。它不仅让机器人“理解”任务,还让他们真正具备“动手”能力,让AI逐渐走向现实世界的高效实施者。


AI的关键不仅在于思考,还在于行动。


信息智能让AI成为“世界上最聪明的学者”,但它只能思考,不能改变世界。真正的改变来自行动。智力是AI走向现实的关键。


回首人类的进化过程,我们是因为会思考而变得强大,还是因为会行动而变得强大?


牛顿发现了万有引力定律,这是划时代的突破;然而,没有工程师来设计和制造飞机发动机,我们仍然不能在蓝天上飞翔。爱因斯坦提出了相对论,这是科学史上的突破;然而,没有科学家和工程师的不懈努力,我们无法享受GPS技术带来的便利。知识塑造世界,但实践最终推动世界前进。


人工智能也是如此。信息化使AI了解世界,物理智能使AI改造世界。今天,我们可以用Deepseek生成一篇文章,用豆包AI画一张图片。但是我们不能让AI盖房子,做饭,或者为病人做手术。未来,拥有智力的突破才是真正让AI进入日常生活的关键。


谷歌于2025年3月与机器人开发公司Apptronik合作,以Geminik为基础,推出了两家公司。 机器人AI模型2.0——Gemini Robotics和Gemini Robotics-Embodied Reasoning(ER),目的是帮助机器人完成比过去更多的实际任务。


这两种模式的核心目标是让机器人不仅能理解指令,还能理解和适应新的环境和任务,这是物理智能发展的关键一步。测试表明,Gemini Robotics具有更强的泛化能力,可以处理未经训练的任务,例如折纸,把眼镜放进盒子里,打开瓶盖等。相比之下,Gemini Robotics-ER版本更注重空间感知和任务规划,可以将可靠的机器人开发者集成到自己的系统中。在现实环境中,这些技术突破意味着机器人的适应性和执行能力取得了重要进展,使AI进一步从虚拟世界走向物理世界。


“三座大山”在智能眼前


AI要真正进入物理世界,最大的挑战是什么?现在,主要有三座大山:感知、运动控制和学习能力。三者的突破,正使具体智能从“实验室玩具”转变为“全能助手”。


第一座山:感知的进化,从“盲人摸象”到“眼见六路”


感知是机器人走向现实世界的主要问题。人脑依靠眼睛、耳朵、皮肤等各种传感器来感知世界,机器人也需要类似的“感官”——摄像头、激光雷达、触摸和液位传感器等。但问题是人类的感知是动态的、全面的、适应的,而目前的AI感知系统一般都是单一的、分裂的。


未来的机器人需要更强的泛化能力,能够适应从未见过的任务,并在新的环境中迅速理解和反应。例如,当面对不同的物体、复杂的场景或陌生的环境时,机器人需要迅速识别并采取适当的行动。未来的家庭机器人管家需要在昏暗的卧室里绕过乐高,抱起婴儿时自动调整强度,煮咖啡时根据香味调整提取时间。AI需要真正的全模态感知能力,让机器人像人类一样“眼、耳、鼻、舌、身”,精确感知,灵活应对现实世界。


第二座山:运动控制革命,从“机械舞者”到“灵活工匠”


假设感知决定了机器人能够“看见”世界,那么运动控制决定了它是否能够与世界互动。你们有没有注意到,今天的机器人可以做很多事情,但是他们的动作总是显得有点僵硬。这种情况主要是由于人类的运动控制非常灵活,我们的肌肉、神经系统可以实时调节,而现有的AI运动系统仍然显得粗糙。人走路时,每一步涉及200多块肌肉的毫秒协调,机器人必须突破稳定平衡、精细操作和能量效率三大难点,才能实现这种流畅的动作。


伴随着技术的进步,机器人在动作控制方面的灵活性也在不断提高。在未来,机器人可以精细地完成一些复杂的任务,例如折纸,拿起易碎物品,甚至像人类一样操作物品。为了实现这一点,机器人不仅需要精确的动作控制,还需要对周围环境进行实时的感知和调整。这一灵活性将使机器人能够更好地适应现实世界中多变的场景,并执行需要高度协调和精确操作的任务。唯有真正做到这一点,机器人才能适应现实世界中多变的场景,由流水线上的机械臂演变为能胜任各种精细任务的“灵活工匠”。


三山:学习能力的成长,从“死记硬背”到“随机应变”


学习能力是机器人面临的第三大挑战。人类的学习往往是通过试错、实践经验和直觉判断相结合的。虽然现有的AI可以通过加强学习来训练动作,但它们仍然缺乏真正的“直觉”和“经验”,这使得它们在面对环境变化时往往无法应对。


未来的机器人需要有更强的自适应性学习能力,可以通过日常对话或指令理解不断优化自己的行为,根据环境的变化不断优化自己的操作方法。这种持续学习和动态适应的能力,可以让机器人在复杂的现实世界中真正做到任务,而不仅仅是按照预设的程序进行操作。真正的智能不是存储在数据库中的代码,而是存在于物理交互中的活力。


这一突破表明,未来的机器人将不仅仅是一个简单的工具,而是一个具有感知、行动、学习和适应能力的智能体。伴随着技术的不断进步,AI将逐步从云计算率堆积起来的“数字鬼”,进化成扎根现实世界的“硅基生命体”


AI的边界,还能延伸到哪里?


智能信息让AI变得聪明;物理智能让AI变得强大。然而,AI的终点不仅仅是更强的计算能力或更灵活的四肢,而是更高级的第三阶段——生物智能。


MIT实验室正在探索将神经细胞与芯片结合的技术,中国科学院的研究团队已经成功地通过脑机接口“感知”了虚拟疼痛。这些探索可能意味着AI正在接近生命的复杂性。未来的AI不再只是一台冰冷的机器,而是像人类生活一样思考、学习、适应甚至自主进化。


但是,生物智能仍然是遥远的第三阶段。现在,我们刚刚进入第二阶段——具身智力的门槛。使AI具有真正的执行能力,使AI能够理解、感知和适应现实世界,这个过程可能比我们预期的要长。在历史上,每一次技术革命,都是从思想到行动的演变。从哲学思辨到科技实践,从设想工具到掌握工具,再到成为工具的创造者,人类用了几千年。而AI,正沿着同一条路径前进。


唯一的问题是,我们是否准备好迎接这个“站起来的AI”?


(作者胡逸是数据工作者,有《未来可期:与人工智能同行》一书)


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com