洞察:数据与模型双重挑战下,AI智能体与机器人的破局之路
9月10日 - 13日,2025 Inclusion·外滩大会在上海盛大举行,AI毫无疑问成为了本届大会最受瞩目的焦点。
在多个论坛里,行业专家、企业家和投资人展开了热烈的讨论,深入剖析了当前行业发展面临的挑战。在算力爆发和模型创新的关键时期,不管是专注物理实体的机器人,还是聚焦数字世界的智能体(Agent),都共同面临着数据质量、模型能力以及产业化落地的多重难题。
数据困境与模型挑战:机器人何时能走进家庭
在大会主论坛的圆桌环节,宇树科技创始人、CEO王兴兴多次提到“数据”问题:怎样采集真正优质的数据?数据质量应达到何种标准?当前该采集什么类型、多大规模的数据?哪些数据更有价值需要重点采集?
王兴兴指出,目前机器人的数据在采集、噪声以及数据质量方面问题很大,“仍处于比较模糊的阶段”。
他表示,希望通过提高数据利用率、增强模型对数据的理解能力,实现用少量数据也能取得良好效果。从模型角度看,很多时候数据并非单纯从数量衡量,一些特征性数据非常关键,比如机器人哪些动作或场景的采集更有质量。
在一场分论坛上,银河通用联合创始人张直政强调,具身大模型的发展可能需要上万亿条数据。
张直政认为,全部采用真实数据采集既不可行也不可持续,即便同一个人重复相同动作,每次的一致性也很差,导致真实数据的样本效率极低。而仿真数据在可控性和规模化方面优势明显,虽然在物理和语义学习上不如真实数据,但可通过图文大模型和数字大模型弥补。
清华大学交叉信息研究院助理教授、具身智能实验室负责人、星海图联合创始人许华哲在大会期间也表示,真实数据虽成本高,但质量好,仿真和互联网数据更便宜、易获取,但与真实数据质量仍有差距。而且,即便采用真实数据,也存在“真实到真实的差距”(Real2real Gap),影响训练出的VLA(视觉 - 语言 - 动作模型)最终质量。
模型也是机器人的一大瓶颈。王兴兴指出,对于机器人而言,最大问题是AI模型无法很好地运用硬件,比如灵巧手。同时,目前纯语言模型或纯视频模型效果显著,但要将语言与图像深度融合就面临巨大挑战,特别是在机器人控制领域,让生成视频与机器人的控制模态精确对齐仍是难题。
如何解决灵巧手的难题?灵心巧手联合创始人兼首席AI架构师苏洋给出了答案。
苏洋表示,就像预训练模型需要大量数据一样,如果有1万台、10万台、100万台设备,真机数据采集会变得容易,成本也会大幅降低。
同时,苏洋指出,目前灵巧手占人形机器人成本的比例约在21% - 23%。他希望制造更多、更便宜的灵巧手,争取三年内将价格降到500元甚至100元,“届时机器人就能进入家庭,先在工业领域使用使其稳定,在苛刻环境下解决稳定性、可靠性和灵巧性问题,再降低成本,走进千家万户”。
国家地方共建人形机器人创新中心首席科学家江磊指出,当前具身智能的路径还远未收敛,“但好在目前具身智能的四条路径——智驾、机械臂、腿足式机器人以及芯片,就像四条产业链的射线,当有一天集中于一个点时,具身智能产业或许就能落地”。
智能体的窗口期有限,产业将走向分化
业界普遍认为,今年是AI智能体元年。在本次大会上,展区内的各类智能体功能齐全,数量众多。
BAI资本创始及管理合伙人龙宇坦言,智能体的概念仍在定义和落地过程中,大家都在不断努力。
她认为,当前用户端、消费者和企业端对智能体概念给予了前所未有的宽容,愿意接受30% - 60%的完成度,这在传统企业级服务中是难以想象的。不过,这种宽容并非没有期限。龙宇强调“留给我们的窗口时间不多了”,随着token成本大幅下降,重新设计和优化构架以及工作流成为可能,大家对智能体交付的完成程度会更加严格,特别是在金融等高风险领域,容不得丝毫差错,“做得还不错”是无法被接受的。
RockFlow创始人、CEO Vakee也指出,目前大模型在垂直领域的数据匮乏,在金融领域落地对准确性要求极高,同时强监管的场景性质也要求算法具备可解释性。
对于行业未来,龙宇表示,半年前备受关注的Devin等垂直Agent,如今已较少被提及,“目前技术已足够,关键是定义新的交互范式,而非产品形态”。未来,智能体产业将呈现分化、模型产业化的趋势,大家都开始深入思考。
在AI发展的关键节点,无论是机器人还是智能体,只有真正理解数据价值、提高数据利用率、突破模型挑战,才能迎来真正的爆发式发展。当机器人能进入千家万户,当智能体能够真正理解并完美执行人们的指令,一切都将焕然一新。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




