最强代码模型刷新:Mistral新产品上线即登顶,前后文窗口增至256k

2025-01-15

“欧洲版 OpenAI” Mistral 代码模型CodeStral,又上新了!


并且与 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同居住 Copilot 第一个竞技场。


前后文窗口也是增长到以前 8 倍,达到了 256k



据报道,新版本 Codestral(2501)采用更有效的结构和分词器,生成速度大概比上一代快。 2 倍。


在多个 Benchmark 之中,2501 所有版本都获得了 SOTA 结果,代码补充(FIM)能力也是可圈可点的。


Mistral 的合作方 Continue.dev 联创 Ty Dunn 还强调,Codestral 2501 这意味着FIM领域的重大进步。


登顶代码模型试验场,各种编程语言均为SOTA


代码模型试炼场 Copilot Arena 上,CodeStral 2501 获得第一名,和 Deepseek V2.5 以及 Claude 3.5 Sonnet 并排。


之后是 CodeStral 最后一个版本(2405),与这个版本相比,新版本的评分提高了。 12 分数(1.2%)。


Llama 3.1、Gemini 1.5 Pro 和 GPT-4o 排名还会再次落后。


但名单中没有 o1,如果加入对话,情况可能会有所改变。



Copilot Arena 由卡内基梅隆大学和 UC 伯克利的研究人员和 LMArena 合作于去年 11 月推出。


它更熟悉我们 LLM 试炼场非常相似,用户提出问题并让系统随机抽取两个模型匿名导出,然后用户根据导出选择优胜方。


Copilot Arena 可以看做是LLM 特殊版本的竞技场代码?,但同时它也是一个开源编程工具,可以在 VSCode 同时让多个模型同时生成,方便用户“货比三家”。


目前已经有 12 一个代码模型在 Copliot Arena 中进行了 PK,总共进行了 1.7 一万多场battle。



但根据 Mistral 官方曝光的成绩单,CodeStral 2501 在 HumanEval 在其它测试中,等待多个指标, SOTA 的成绩。


(按照 Mistral 主张,选择参与对比模型是参数数量。 100B 以下且在 FIM 在任务中,一般被认为是表现良好的模式。)


而窗口的长度也是如此 2405(参数量 22B)的 32k 增长到了 256k。


在 Python 语言和 SQL 在数据库检测中,CodeStral 2501 在多个测试指标中排名第一,其他测试指标排名第二。



其它语言方面(据宣传) CodeStral 共支持 80 种语言),CodeStral 的 HumanEval 平均分为 比第二名高出近71.4% 6 %。


具体来说,是的 Python、C 、JS 在各种常用语言中也是如此。 SOTA,并且实现了 C# 超过一半的语言评分。


但有趣的是,现在 Java 上 CodeStral 2501 与前一代相比,成绩有所下降。



除了生成,Mistral 这个团队也发布了 CodeStral 2501 的 FIM 表现(单行精确匹配)。


结果是平均分和 Python、Java 和 JS 与前一代相比,三个单项都取得了显著进步,并且优于前一代。 OpenAI FIM API(最新版本为3.5 Turbo)等待其他模型(但紧随其后的模型 DeepSeek 咬得很紧)。



在 FIM 的 pass@1 在这些表现中,表现也是相似的:



目前,CodeStral 2501 可以通过 Mistral 的合作方 Continue,在 VSCode 或 Jetbrains 系列 IDE 中应用。


当然,动手能力强的用户也可以通过 API 自行安排,价格是 0.3/0.9 每百万美元或欧洲输入/导出 token。


参考链接:


[1]https://x.com/lmarena_ai/status/1878872916596806069


[2]https://mistral.ai/news/codestral-2501/


本文来自微信微信官方账号“量子位”,作者:克雷西,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com