与腾讯、美团、比亚迪达成智能合作的IDEA研究所|最前线
作者|黄楠
编辑|袁斯来
开发环境感知和理解是具体智能的核心能力。视觉感知作为机器与物理世界互动的基础。自Transformer架构诞生以来,视觉模型与之结合,走上了“从小到大,从N到1”的道路,带来了全场景视觉感知能力的提升,拓宽了技术落地的空间。
11月22日,2024 IDEA大会在深度召开,IDEA研究院发布了最新的DINO-X通用视觉模型。它具有理解物体等级的能力,可以实现对开放世界的开放,无需客户提醒。(Open-world)目标检验;同时也推出了行业平台架构,通过大模型底座与通用识别系统相结合,实现模型不需要重新训练就可以边用边学,提供多种应用需求。
在以智能为代表的新一轮落地浪潮中,技术路径强调泛化,追求现实场景适应。会上,IDEA研究院宣布与腾讯合作,在深圳福田区、河套深港科技创新合作区建设福田实验室,聚焦人居环境智能技术;与美团一起探索无人机视觉智能技术;与比亚迪一起,扩大工业机器人的智能应用。

美国国家工程院外籍院士沈向洋IDEA研究院创院董事长
此前,机器人已经进入工厂制造、汽车生产线、物流仓储港口等场景,可以在半结构化领域完成基础工作,但对真实场景的思维能力仍然缺乏,应用空间有限;例如,住宅区道路汽车的物流运输需要克服复杂的地面环境。
IDEA研究院计算机视觉与机器人研究中心负责人张磊指出,“机器人有不同的形式,包括手臂机器人和移动机器人。如果移动机器人分为室内和室外,室外更像是无人驾驶。它需要面对结构化和半结构化的道路环境。高速公路更加结构化。当你进入城市和小巷时,你面临的问题会更加复杂。”
随着AI模型的到来,机器人的认知和管理能力得到了很大的提高。腾讯Robotics X实验室智能体中心负责人韩磊表示,“语言作为人类知识或思维的高度抽象,符号语言可以长期、慢速、高维地思考。机器人从第一人称的角度对待世界,所以首先要从视觉上理解世界。”

圆桌圆桌《从视觉到行动:具体智能的挑战与机遇》
当机器人运动时,通常很难用简单的语言描述一个纸箱的折叠和向某个方向移动的步骤。加入多模式后,结合物理世界理解的身体智能,可以有效增强机器人对世界的理解视角。
在着陆方面,美团副总裁兼无人机业务部负责人毛一年认为,机器人的主要使用场景需要以人类高风险任务为切入点,如山区检查、 海底检查、油田钻井、高层建筑清洁等。“随着全身控制、行动控制、手部和视觉协调,客户不会说好,也不会骂,也不会一脚把它清理干净。这件事非常重要,我们希望看到它不会砸锅。”
在IDEA会议上,IDEA研究院创始人、美国国家工程院外籍院士沈向洋指出,在R&D爆发阶段创新对技术的深刻理解非常重要。“深圳是一个以迭代软件的速度迭代硬件的城市。”
除了上述福田实验室外,IDEA与前海深港合作区共创IDEA前海创新研究所,与深圳龙岗区合作建设IDEA低空经济分支机构,与横琴粤澳深度合作区共创IDEA-横琴数字技术和人工智能评估中心。在创业生态方面,IDEA还孵化了智渊科技、AI玩伴机器人爱小伙伴、GPU加速电影产业渲染器Smaray慧光追等生态企业。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




