Meta华人团队打造新模型Muse Spark:从一张截图复刻豆包App看AI新突破

1天前
Meta超级智能实验室(MSL)交出首份答卷,其打造的原生多模态推理模型Muse Spark(内部代号牛油果)正式亮相。

Meta的“牛油果”模型,终于迎来成熟时刻!


智东西4月9日消息,成立9个月的Meta超级智能实验室(MSL)发布首款模型——Muse Spark(内部代号牛油果)。这是一款支持工具使用、视觉思维链与多智能体编排的原生多模态推理模型。


在大模型测评平台Artificial Analysis上,Muse Spark的智能指数从Llama 4 Maverick的18分跃升至52分,介于Claude Sonnet 4.6与Claude Opus 4.6之间,成功跻身行业第一梯队。



我们第一时间体验该模型,上传豆包App截图并要求复刻。可以看到,Muse Spark的回复风格偏口语化,甚至带有“豆包味儿”,这或许与其面向C端用户的定位有关。



Muse Spark生成速度快、效果出色,基本实现了豆包页面的1:1复刻,连图像细节都精准还原。



Muse Spark还通过了小球弹跳测试。有网友感慨,时隔1年多,Meta终于推出了能通过六边形小球弹跳测试的大模型,这一时刻值得记录。



Muse Spark是ScaleAI创始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10个月后交出的首份答卷。



这一成果来之不易。此前Llama 4遭遇重大挫折后,Meta对AI团队进行了大刀阔斧的重组,唱衰大语言模型的杨立昆最终离开。


汪滔表示,Meta在过去9个月从零搭建全新AI技术栈,基础设施、架构、数据管线均为全新打造,Muse Spark正是这些努力的结晶。


不少加入Meta的华人AI专家纷纷转发这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei等。值得注意的是,MSL团队华人占比很高,从领导到基层员工,许多都是华人面孔。



据Top华人科创社报道,Meta还迎来了新的华人大牛——前蚂蚁集团RL实验室首席科学家吴翼加盟Meta MSL,直接向Meta副总裁、MSL联合负责人Nat Friedman汇报。



Muse Spark是MSL Muse系列的首款模型,未来还将发布更多同系列产品。目前该模型已逐步推送至Meta旗下应用及Meta.ai网页端,但仍有用户反映使用的仍是Llama 3。



值得注意的是,相关博客中未提及“开源”二字。


体验链接:meta.ai



01.多模态与医疗健康表现亮眼,智能体及编程工作流待提升


从基准测试结果看,Muse Spark在多模态感知、推理、医疗健康及智能体等领域表现处于行业第一梯队。不过MSL也承认,该模型在长程智能体系统和编程工作流方面仍有提升空间。


以下是Muse Spark的完整基准测试成绩。需注意的是,Meta采用的部分数据呈现方式存在“图表误导”嫌疑:乍看之下Muse Spark所有成绩均标蓝,似乎全面领先,但实际上在图中20项基准测试里,仅4项拿到SOTA( state-of-the-art,最先进)



在多模态能力维度,Muse Spark竞争力较强,在美国大模型领域未被拉开明显代差,基本与GPT-5.4处于同一水平,符合其原生多模态大模型的定位。


作为将部署于Meta旗下众多社交媒体、面向广大个人用户的模型,Muse Spark在用户高度关注的医疗健康领域表现不俗,在HealthBench Hard与MedXpertQA(多模态)两项评测中均斩获SOTA,显然经过重点优化。


Muse Spark此次还推出了“沉思模式(Contemplating mode)”,可协调多个智能体并行推理,使其能与Gemini Deep Think、GPT Pro等前沿模型的极限推理模式相媲美。


开启“沉思模式”后,Muse Spark在复杂任务中的能力显著提升,例如在HLE“人类最后的考试”基准测试中正确率达58%,在“前沿科学研究”基准测试中正确率为38%。



02.算力需求较Llama 4降一个量级,采用新型强化学习技术


除跑分外,该模型的新定位及背后技术也值得关注。


Meta表示,Muse Spark是迈向个人超级智能的第一步,能理解用户所处世界,多模态能力与医疗健康是当前两大重点方向。


Muse Spark从底层架构整合了跨领域和工具的视觉信息,在识别、定位方面能力突出,结合这些功能可实现多种交互式体验。


例如,用户上传游戏画面截图后,可让Muse Spark将其转化为可互动的游戏。



或是告知Muse Spark自己有高胆固醇问题,让其基于多模态能力和医疗知识制作动态食物推荐页面。



Meta博客分享的demo仅涉及多模态和医疗健康领域,这或许意味着Muse系列模型最终将服务于扎克伯格的个人超级智能愿景,而非单纯追求智能上限。


技术层面,MSL大幅提升了算力利用率:与此前的Llama 4 Maverick相比,Muse Spark用少一个数量级以上的计算资源就能达到相同性能。



同时,MSL在强化学习阶段采用了新技术栈,实现了大规模强化学习中平稳、可预测的性能提升。



03.实测:精准识别食物热量,为Meta AI眼镜设计新品


Muse Spark发布后,我们进行了更多实测。


其多模态能力表现出色:上传啤酒瓶照片后,Muse Spark准确识别出品牌、容量,甚至原图中肉眼难辨的酒精度。



热量分析来自搜索,还将热量换算成日常食物,并给出消耗对应热量所需的运动量,实用性较强。



我们让Muse Spark为Meta AI眼镜设计宣传网页(未提供参考)。过程中,它主动调用AI生图模型生成产品图片,再编写完整页面代码,耗时约2分钟,效果如下:



该网页完成度高,直接设计出搭载Muse Spark的Meta AI眼镜新品。模型还自评称,这是旗舰级官网,按Apple Vision Pro发布会标准制作,而非普通落地页。


Muse Spark还可用于购物推荐:我们让它搜索汽车雨刮器,几秒内就给出多个选项,包含每款产品的优劣势分析及最终购买建议。



04.结语:“牛油果”成熟,但个人超级智能仍需时间


作为Meta超级智能实验室的首秀,Muse Spark已展现出第一梯队的水准,让人对Muse系列后续产品充满期待。


不过,扎克伯格所期待的“个人超级智能”,目前仍停留在医疗健康问答、网页复刻、购物推荐等相对可控的场景。要真正改变数亿用户的交互方式,还有很长的路要走。


本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:云鹏,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com