Meta华人团队打造新模型Muse Spark：从一张截图复刻豆包App看AI新突破

1天前

Meta超级智能实验室（MSL）交出首份答卷，其打造的原生多模态推理模型Muse Spark（内部代号牛油果）正式亮相。

Meta的“牛油果”模型，终于迎来成熟时刻！

智东西4月9日消息，成立9个月的Meta超级智能实验室（MSL）发布首款模型——Muse Spark（内部代号牛油果）。这是一款支持工具使用、视觉思维链与多智能体编排的原生多模态推理模型。

在大模型测评平台Artificial Analysis上，Muse Spark的智能指数从Llama 4 Maverick的18分跃升至52分，介于Claude Sonnet 4.6与Claude Opus 4.6之间，成功跻身行业第一梯队。

我们第一时间体验该模型，上传豆包App截图并要求复刻。可以看到，Muse Spark的回复风格偏口语化，甚至带有“豆包味儿”，这或许与其面向C端用户的定位有关。

Muse Spark生成速度快、效果出色，基本实现了豆包页面的1:1复刻，连图像细节都精准还原。

Muse Spark还通过了小球弹跳测试。有网友感慨，时隔1年多，Meta终于推出了能通过六边形小球弹跳测试的大模型，这一时刻值得记录。

Muse Spark是ScaleAI创始人、Meta首席AI官汪滔（Alexandr Wang）加入Meta 10个月后交出的首份答卷。

这一成果来之不易。此前Llama 4遭遇重大挫折后，Meta对AI团队进行了大刀阔斧的重组，唱衰大语言模型的杨立昆最终离开。

汪滔表示，Meta在过去9个月从零搭建全新AI技术栈，基础设施、架构、数据管线均为全新打造，Muse Spark正是这些努力的结晶。

不少加入Meta的华人AI专家纷纷转发这一成果，包括赵晟佳、毕树超、余家辉、Jason Wei等。值得注意的是，MSL团队华人占比很高，从领导到基层员工，许多都是华人面孔。

据Top华人科创社报道，Meta还迎来了新的华人大牛——前蚂蚁集团RL实验室首席科学家吴翼加盟Meta MSL，直接向Meta副总裁、MSL联合负责人Nat Friedman汇报。

Muse Spark是MSL Muse系列的首款模型，未来还将发布更多同系列产品。目前该模型已逐步推送至Meta旗下应用及Meta.ai网页端，但仍有用户反映使用的仍是Llama 3。

值得注意的是，相关博客中未提及“开源”二字。

体验链接：meta.ai

01.多模态与医疗健康表现亮眼，智能体及编程工作流待提升

从基准测试结果看，Muse Spark在多模态感知、推理、医疗健康及智能体等领域表现处于行业第一梯队。不过MSL也承认，该模型在长程智能体系统和编程工作流方面仍有提升空间。

以下是Muse Spark的完整基准测试成绩。需注意的是，Meta采用的部分数据呈现方式存在“图表误导”嫌疑：乍看之下Muse Spark所有成绩均标蓝，似乎全面领先，但实际上在图中20项基准测试里，仅4项拿到SOTA（ state-of-the-art，最先进）。

在多模态能力维度，Muse Spark竞争力较强，在美国大模型领域未被拉开明显代差，基本与GPT-5.4处于同一水平，符合其原生多模态大模型的定位。

作为将部署于Meta旗下众多社交媒体、面向广大个人用户的模型，Muse Spark在用户高度关注的医疗健康领域表现不俗，在HealthBench Hard与MedXpertQA（多模态）两项评测中均斩获SOTA，显然经过重点优化。

Muse Spark此次还推出了“沉思模式（Contemplating mode）”，可协调多个智能体并行推理，使其能与Gemini Deep Think、GPT Pro等前沿模型的极限推理模式相媲美。

开启“沉思模式”后，Muse Spark在复杂任务中的能力显著提升，例如在HLE“人类最后的考试”基准测试中正确率达58%，在“前沿科学研究”基准测试中正确率为38%。

02.算力需求较Llama 4降一个量级，采用新型强化学习技术

除跑分外，该模型的新定位及背后技术也值得关注。

Meta表示，Muse Spark是迈向个人超级智能的第一步，能理解用户所处世界，多模态能力与医疗健康是当前两大重点方向。

Muse Spark从底层架构整合了跨领域和工具的视觉信息，在识别、定位方面能力突出，结合这些功能可实现多种交互式体验。

例如，用户上传游戏画面截图后，可让Muse Spark将其转化为可互动的游戏。

或是告知Muse Spark自己有高胆固醇问题，让其基于多模态能力和医疗知识制作动态食物推荐页面。

Meta博客分享的demo仅涉及多模态和医疗健康领域，这或许意味着Muse系列模型最终将服务于扎克伯格的个人超级智能愿景，而非单纯追求智能上限。

技术层面，MSL大幅提升了算力利用率：与此前的Llama 4 Maverick相比，Muse Spark用少一个数量级以上的计算资源就能达到相同性能。

同时，MSL在强化学习阶段采用了新技术栈，实现了大规模强化学习中平稳、可预测的性能提升。

03.实测：精准识别食物热量，为Meta AI眼镜设计新品

Muse Spark发布后，我们进行了更多实测。

其多模态能力表现出色：上传啤酒瓶照片后，Muse Spark准确识别出品牌、容量，甚至原图中肉眼难辨的酒精度。

热量分析来自搜索，还将热量换算成日常食物，并给出消耗对应热量所需的运动量，实用性较强。

我们让Muse Spark为Meta AI眼镜设计宣传网页（未提供参考）。过程中，它主动调用AI生图模型生成产品图片，再编写完整页面代码，耗时约2分钟，效果如下：

该网页完成度高，直接设计出搭载Muse Spark的Meta AI眼镜新品。模型还自评称，这是旗舰级官网，按Apple Vision Pro发布会标准制作，而非普通落地页。

Muse Spark还可用于购物推荐：我们让它搜索汽车雨刮器，几秒内就给出多个选项，包含每款产品的优劣势分析及最终购买建议。

04.结语：“牛油果”成熟，但个人超级智能仍需时间

作为Meta超级智能实验室的首秀，Muse Spark已展现出第一梯队的水准，让人对Muse系列后续产品充满期待。

不过，扎克伯格所期待的“个人超级智能”，目前仍停留在医疗健康问答、网页复刻、购物推荐等相对可控的场景。要真正改变数亿用户的交互方式，还有很长的路要走。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：陈骏达，编辑：云鹏，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

宁德携手紫金老将，能否抗衡王传福的家族矿局？

11万里程兑换护肤品疑为假货南航客服竟要求删帖才退里程

存储涨价下的消费变迁：从科技编辑到电脑店老板，大家都在调整策略

学音堂：标准化线上课程破解成人声乐学习难题

巨亏234亿！“中国巴菲特”致歉，复星的“财务大洗澡”与转型阵痛