前智源团队创业,联想、智谱AI投资人形机器人大模型公司。

06-15 09:58

作者|黄楠


编辑|袁斯来


硬氪了解到,北京智在无界科技有限公司(以下简称「智在无界」,英语为 BeingBeyond)最近完成了数千万元的融资,联想新星领投,智谱 Z 作为独家财务顾问,基金、燕源创投、彬复资本跟进。资金将用于增加R&D核心技术投资,加快当前模型迭代和产业验证,从而不断提高技术壁垒和产品竞争力。


「智在无界」创立于 2025 年 1 月亮,专注于人形机器人通用大模型的研究与应用。创始人卢宗青是北京大学计算机学院院长聘请的副教授。他曾担任智源研究院多模态交互研究中心负责人,负责国家自然科学基金委员会第一个通用智能体项目的原始探索计划;许多核心成员来自智源研究所,在技术研发、积累和应用方面有丰富的经验,如加强学习、计算机视觉、机器人控制和多模态。


目前,数据规模和泛化能力是限制具体大脑性能提高的关键分歧。另一方面,具体服务机器人依靠大量多样化的数据进行深度训练,以实现高度拟人化的行动和管理能力。这一数据涵盖了日常琐碎的操作、复杂的环境交互等各种场景,数据规模呈指数级上升趋势。然而,数据收集过程仍然面临许多门槛,如技术和资源。由于大量的人力和困难,随着信息量的快速增加,存储成本迅速上升。


另一方面,即使有大量的数据支持,机器人仍然依靠强大的泛化能力来灵活应对未知环境中的新任务、新对象和新影响。但目前模型在面对明显不同的场景时,表现不尽如人意,难以将所学知识有效转移到新场景,在实际应用中适应性差。


所以,如何在有限的数据规模下提高泛化能力,成为具体大脑突破性能瓶颈、走向产品化的关键挑战。


「智在无界」预训练数据(图源) / 公司)


面向人形机器人的操作和运动两个核心能力,「智在无界」通用大模型系统分为三层:具体多模式大语言模型、多模式大模型和运动模型,并构建了自学习具的智能框架。


卢宗青告诉硬氪,与其它模型不同,「智在无界」预训练数据来源于互联网上的人类运动和手部操作视频。通过分析这些自然场景中的动作序列,可以构建机器人运动操作技能的预训练基础。这种以公开视频数据为驱动的技术路线,突破了传统方案对机器人真机数据的强烈依赖,可以实现从 “人类行为示范” 到 “机器人动作生成” 跨模态转移。


具体来说,「智在无界」提出了多模态姿态模型,从第一人称视角抓取物体、工具使用等手部精细操作数据。通过互联网上丰富的影视资源,包括行走、舞蹈等人体全身运动,可以为模型提供丰富多样的动作样本。通过这些视频 - 动作数据,模型可以学习不同环境下各种动作的表现形式,可以根据环境信息和任务的实时要求,实现端到端的泛化运动。


就具体多模态大语言模型而言,「智在无界」自主研发了 Video Tokenizer 技术,它强调对时空环境的理解和推理能力,尤其是对第一人称视频内容的分析。将连续视频流解构为兼顾时间序列和空间语义的视觉 token 模块促使模型准确捕捉动作的时序逻辑,如伸出手、抬起手臂到抓住物体的连贯过程,并根据物体的位置和身体的位置关系等空间特征了解物理世界和人类行为。


现在,虽然简单的多模态大语言模型 运动策略已经具备了商业落地的条件,但由于真实场景中动态环境的变化,机器人的泛化能力无法适应。如何让人形机器人有自主学习的能力,成为实现商业化的关键突破点。


因此,「智在无界」提出 Retriever-Actor-Critic 通过真实交互数据的框架 RAG(检索增强生成)和强化学习,两者的协同应用,不但可以提高模型响应的准确性和客户体验,形成 "数据采集 - 模型优化 - 效果反馈" 闭环,使机器人具有动态适应多变场景的能力,为其大规模落地提供了可行的技术路径。


预训练➕后期训练架构(图源) / 公司)


在网络视频预训练的基础上,卢宗青指出,通过后期的适配训练,可以完成不同机器人本体和场景的转移,「智在无界」技术路径可以避免硬件迭代造成的数据浪费,从而有效解决真实机器数据稀缺和场景泛化的矛盾。目前,企业正在推动场景验证与头部机器人制造商的合作,以加快智能在更多领域的应用。


投资者观点:


高天,联想新星合伙人。表示,目前具体大模型的技术路线尚未收敛,例如缺乏统一的架构模式,BeingBeyond 团队的技术路线解决了训练信息来源有限的问题,同时通过模块化的方式构建了一个完整的技术框架。与国外技术路线相似的团队相比,拥有全栈技术能力,依靠多模式、大模型等自主研发的大模型。具有较强的竞争力,在处理具体大模型的任务、环境泛化、跨自身等问题上,逐步实现“零样本”泛化,期待 BeingBeyond 在高潜力应用场景下,团队产品实现了商业闭环。


智谱 Z 王璞,基金合伙人我说,作为一个无界智慧的天使投资者,我非常自豪地见证了卢宗青教授和他的团队在通用人形机器人领域取得的里程碑式突破。从行业内第一个百万规模的建设开始 MotionLib 从开发端到端的数据 Being-M0 动作生成模型,团队不仅验证了“大数据” “大模型”在具体智能中的规模效应,更完成了跨平台动作迁移的技术闭环。这一创新不仅突破了传统方法的局限性,而且为机器人进入千家万户铺平了道路,将文本指令转化为机器人认知能力的能力。相信智能在无界将继续推动智能的迭代——从灵巧的操作到全身的运动控制,推动机器人从实验室走向日常生活。在无界中,我们将与智慧携手,与大家一起迎接一个通用机器人赋能的新时期。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com