未来的“AI空间智能”已经到来,如何打开人工智能的下一章?
视觉,是人类感知世界的一扇窗,大约80%的人类知识来自于此。
在《物种起源》中,达尔文认为,单个感光细胞的生物出现在大约5.4亿年前的寒武纪。视觉能力被认为是寒武纪生命的爆发,这是大量动物物种进入化石记录的阶段。一旦有了视力,生物就会变得更加活跃,神经系统开始进化,视觉变成了洞察力,所以视觉加速了生物的进化。
图像和视频模型和大型语言模型的出现意味着人工智能在视觉领域的潜力,但它们只触及了更大可能性的基础,目前只是人工智能的“第一章”。为实现更高层次的人工智能,空间智能(Spatial Intelligence)作为人工智能从二维空间向三维世界推进的一把钥匙,它不仅要让人工智能“看到”世界,还要让它理解三维世界,并在其中进行互动和学习,这是从简单的视觉识别到真正理解和操作现实世界的飞跃。
该技术概念的提出,将为人工智能场景应用开启新的一章,包括具体智能、自动驾驶、车路云一体化等。

人工智能“灵气”是世界模型的触发
如今,我们正站在智能时代的转折点上,空间智能已经成为推动人工智能突破当前能力限制的关键。正如视觉能力催生生物智能一样,空间智能有望推动人工智能进入一个全新的发展阶段,但人们必须看到实现它的可能性。
李飞飞教授被称为“AI教母”,第一次创业就选择了空间智能方向,引起了业界对这一领域的高度关注。
在温哥华举行的2024年TED会议上,她发表了题为《有了空间智能,AI就会理解现实世界》的演讲,将空间智能描述为人工智能发展的下一个重要里程碑。“机器视觉远远不够。”李飞飞说:“视觉变成洞察,看到变成理解,理解变成行动,行为的冲动是所有具有空间智能的生物的本质”。

众所周知,大型人工智能模型具有超大规模参数(通常超过十亿)、计算结构复杂的机器学习模型,一般能处理大量数据,完成自然语言理解、图像识别等各种复杂任务。传统的通用大模型擅长处理文本、语音、图像和视频四种数据,但对于机器人来说,核心是了解空间坐标,知道自己在哪里,如何捕捉目标。它还强调了空间智能与现有人工智能技术的本质区别。
空间智能被称为实现通用人工智能(AGI)关键环节,可以理解为三维空间中机器的感知、理解和交互能力。它在二维世界的基础上,增加了深度信息,变成了三维,非常立体。目标是将人工智能模型从像素的2D平面提升到立体的3D世界,赋予它们像人类一样丰富的空间智能。这种空间智能最终呈现的方式可能是两个虚拟智能体的交互,也可能是机器人的“大脑和小脑”,从而实现实体交互。

虽然OpenAI的Sora模型可以是文学视频,但本质上还是一个没有三维理解能力的平面二维模型。只有通过空间智能,我们才能看到世界,感知世界,理解世界,让智能身体独立做事,从而形成良好的闭环。
形成空间智能的核心是建立一个“世界模型”,使机器人具有类似于人类感知的“气场”。具体来说,需要建立一个“世界模型”,可以准确地建模、理解和推理空间几何和物理过程,使各种机器人传感器具有人类感知的能力,包括视觉、力觉和触觉。
世界模型的基本思想来自于对人类和动物如何理解世界的分析。我们的大脑可以模拟可能的未来场景,并根据这些模拟做出决定。借鉴这一机制,世界模型旨在为人工智能系统提供内部环境模拟,使其能够预测外部世界的状态变化,进而在不同的场景下做出适应性决策。

该模型从未标记的数据中学习,无需明确指示即可理解世界动态。该模型结构由六个模块组成,包括执行控制的配置器、了解当前状态的感知模块、预测世界模型、决策成本模块、规划行为的行动模块、跟踪状态和成本的短期记忆模块。
世界模型在强化学习领域已显示出其强大的潜力。通过模拟模型中的环境,人工智能不仅可以在虚拟环境中“想象”行动的后果,还可以在实际行动前评估不同行动计划的效果,大大提高了学习效果和决策质量。另外,在无人驾驶汽车和机器人等自主决策系统中,世界模型可以帮助系统更好地预测和应对可能的变化,提高安全性和可靠性。
世界模型最大的优势在于其环境模拟和预测能力,这促使人工智能系统在资源有限或风险高的场景下,在实际操作前通过内部模拟来评估不同行为的后果非常重要。世界模型还支持决策支持和计划能力的提高,允许系统在许多可能的未来“看到”并选择最佳路径。
然而,世界模型的构建和应用面临着显著的挑战。首先,环境模拟的准确性很大程度上取决于模型的复杂性和数据质量。需要大量的数据和强大的计算资源来准确预测复杂环境下的动态变化,这可能是资源有限的项目的限制。
其次,建立一个可以泛化到各种环境的世界模型是非常具有挑战性的,因为现实世界的复杂性和不可预测性远远超出了目前任何模型的处理能力。
虽然世界模型在理论上有很大的潜力,但在实际应用中仍然存在许多未知数量。例如,需要进一步研究和探索如何保证模型预测的准确性,如何处理模型可能出现的误差,如何在不同的应用场景中调整模型参数以满足特定的需求。
在世界范围内,模型的潜在应用非常广泛,各个领域对其理解和预测能力都有不同的要求。
以自动驾驶为例,世界模型需要即时准确地掌握道路状况,准确预测其变化趋势,重点是对环境瞬间感知和对复杂变化趋势的预测和判断。在机器人技术领域,世界模型在导航、物体识别检测、任务规划等关键任务中发挥着不可或缺的作用,要求能够准确分析外部动态环境,构建具有互动性和实体体验的环境场景。然而,在虚拟社会系统模拟方面,世界模型需要敏锐地捕捉和预测更抽象的行为动态,如人际交往互动和人类决策的制定。
现在,空间智能的发展正处于起步阶段,但是整体发展速度特别快。根据Omdia的最新报告,预计2029年全球空间计算市场规模将超过100亿美元,广泛应用于客户和企业,累计平均增长率(CAGR)将达18%。根据泰伯智库的预测,到2030年,中国元宇宙市场将达到8500亿元;其中,2030年与空间计算相关的市场可能达到3400亿元,约占整个元宇宙市场的40%。
空间智能打开无尽的想象力
从技术进化的角度来看,世界模型代表了人工智能领域的一种全新思维模式。通过将感知信息转化为外部环境的抽象模型,智能身体可以有效地预测和理解周围世界的动态变化。世界模型设计的核心是利用历史数据建立一个可以模拟现实环境的数字框架。
以自动驾驶为例,世界模型不仅可以帮助智能驾驶系统根据历史经验预测其他车辆和行人的行为,还可以在特定情况下提前调整驾驶策略,大大提高驾驶安全性和效率。这种基于物理规则和常识的数字世界生成能力,是过去任何人工智能技术都无法比拟的。
空间智能是世界模型的自然延伸,可以看作是人工智能从“自发感知”向“自主认知”的发展。它使人工智能技术开始突破信息空间的局限,扩展到现实世界的三维空间,进一步提高人工智能在现实环境中的适应性。它不仅是人工智能技术的再进化,也是人工智能系统向真正理解和交互我们生活的3D世界迈出的关键一步。正如语言智能使人工智能能够理解和生成人类语言一样,空间智能使人工智能能够理解和利用物理世界。
与传统的图像识别技术相比,空间智能要求人工智能具有理解三维空间和调整即时行为的能力。人工智能不仅可以识别物体,还可以通过分析和决策动态场景来理解它们之间的位置关系和运动轨迹。
例如,在复杂的城市交通环境中,自动驾驶系统必须使用世界模型来预测交通流量,同时可以依靠空间智能来有效应对突发的交通状况。这种双重能力的融合,使得自动驾驶的安全性和可靠性有了质的飞跃。
空间智能与世界模型的融合,不仅拓展了人工智能的使用场景,也促进了算法的进一步发展。未来,它们将为智能机构提供更深层次的认知和推理能力,使其能够在模拟的虚拟环境中反复测试,从而优化决策在现实世界中的应用。
通过这种方式,科学家和工程师可以在零风险的情况下对智能算法的性能进行测试和优化。这种在虚拟环境中的训练,为实际应用提供了更安全的保障,对技术的成熟具有重要意义。
空间智能在日本已经全面启动。举例来说,日本正在对整个东京进行3D数字孪生,这是实现AI空间智能化的关键一步。这个数字孪生模型规模特别大,对东京的刻画也相当精细,它的绝对位置精确度在10cm以内,不仅包括LiDAR点云,还包括详细的CityGML和实时交通数据。根据日本的预期,到2030年,将实现一个完整的数字孪生城市,越来越多的城市房屋和工厂将从交通到能源的信息无缝结合转化为模拟数据。

事实上,城市的数字孪生是基于感知的城市数据,建筑、路面等基础设施、经济行为、人流等各种元素像“双生”一样重现在网络环境中。换句话说,基于从物理空间各行各业的活动中获得的实时动态,我们可以在网络环境中进行高级分析和模拟,并以互动的方式将其结果高速反馈给物理空间。
就像英伟达高级研究科学家Jim一样。 根据Fan的说法,未来的城市管理将依赖于即时图形引擎中的模拟和集群系统,这将使机器人和自动化机器能够快速适应复杂的环境。机器人不能独立练习。它们可以在即时图形引擎中模拟,并通过一个巨大的集群进行扩展,从而生成下一个数万亿级的高质量培训数据。
机器人可以获得丰富的训练数据,并在复杂的场景中快速学习,通过在高精度的模拟环境中进行训练。该方法将促进机器人从虚拟世界向现实世界的顺利转移,提高其在实际应用中的效率和智能化。
与传统的城市模拟相比,数字孪生可以随着城市的动态变化而提供实时反馈和调整其状态,使城市管理执法更加灵活高效。
例如,在新南威尔士州,交通管理可以通过数字孪生和人工智能相结合的技术实时调整,从而减少拥挤,从而最大限度地提高社会效益。
随着交通基础设施智能化升级的全面开放,在中国,即时数字孪生也开始发挥作用。蘑菇车联创始人兼首席执行官朱磊曾表示,车路云一体化的本质是“通感算”网络,其主要功能是通过紧密结合通信、感知和计算能力,为所有智能产品提供实时数据服务,帮助交通甚至更多行业实现更高效的合作、决策和处理。
AI数字路面基站通过在路口铺设具有“通感算”能力的路面基站,并与AI路边边缘计算系统(AI-MRS)通过相互配合,交通管理者可以在路口300米范围内获取所有交通参与者的动态信息,并立即构建数字孪生系统,为所有车辆提供实时数据服务。

同时,将即时数字孪生系统嵌入车载大屏幕中,驾驶员可以清晰地看到路口的所有动态信息,从而进一步掌握更全面的实时路况。由于数字孪生系统和实际物理世界的延迟低于0.1秒,数字孪生与实际交通环境的实时动态同步可以实现,为驾驶员做出最准确的驾驶决策提供了可靠的依据。
空间智能技术可以对医学影像信息进行三维重建和分析,帮助医生更准确地诊断疾病。例如,对CT、三维重建MRI等图像数据,可以更清晰地显示人体器官和病变的位置、形状和大小,为医生提供更准确的诊断信息。同时,空间智能技术还可以为医生提供手术导航和辅助决策。通过对患者身体结构的3D建模和分析,医生可以更好地了解手术部位的解剖结构和血管分布,提高手术的准确性和安全性。
5亿年前,视觉的出现颠覆了黑暗的世界,引发了动物进化最深刻的方式。在过去的十年里,人工智能的进步也令人惊叹。当我们开始给计算机和机器人赋予空间智能时,就像大自然开启了一个生物多样化的时代一样,这种数字寒武纪大爆发的所有潜力都将得到充分展现,人工智能的未来将更加充满想象力。
本文来自微信公众号“极智GeeTech”,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




