马斯克AI新王牌:Grok 4.1登顶LMArena排行榜

2025-11-19

IT之家11月18日消息,埃隆・马斯克(Elon Musk)旗下人工智能公司xAI于昨日(11月17日)发布公告,宣布推出最新大语言模型Grok 4.1,并已面向grok.com、X平台及移动应用(iOS和安卓)的所有用户全面推送。


此次更新旨在全面提升Grok在真实世界场景下的可用性。官方表示,Grok 4.1不仅继承了前代模型的敏锐智能与高可靠性,还在创造性、情感理解和协作互动方面有重大改进,能更精准感知用户细微意图,提供更具吸引力和人格连贯性的对话体验。


Grok 4.1的性能达到业界顶尖水平。在大型语言模型竞技场(LMArena)的文本能力排行榜上,其具备深度思考能力的版本(代号:quasarflux)以1483的Elo分数位居榜首,领先第二名31分。IT之家附上相关截图如下:


更值得关注的是,其无需深度思考的“即时响应”版本以1465的Elo分数位列第二,性能超越其他所有模型的“全推理”模式。这一成绩相比前代Grok 4(排名第33位)有巨大飞跃,证明了其在底层能力上的绝对优势。


除在通用能力基准测试中表现出色外,Grok 4.1在“软实力”方面也有显著进步。在衡量模型情商的EQ - Bench3基准测试和评估创意能力的Creative Writing v3测试中,新模型表现优异。


在评估情感理解、洞察力和人际交往能力的EQ - Bench3基准测试中,Grok 4.1的推理与非推理模式包揽榜单前两名。


在创意写作领域,根据Creative Writing v3基准测试结果,Grok 4.1的两种模式分别位列第二和第三,仅次于早期的GPT - 5.1模型。


这表明Grok 4.1不仅能处理复杂逻辑推理,还能更好理解并回应带人类情感的提示,进行富有想象力的内容创作,在人机交互中更具“人情味”。


另一关键改进是大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型,因推理深度和工具调用预算有限,易出现事实性错误。


x.ai在Grok 4.1的训练后期,针对优化信息查询类提示,着重减少事实性幻觉。根据对真实世界查询样本的评估,新模型的幻觉率显著降低,能为用户提供更可靠、准确的信息。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com