DeepSeek-R1 再次进化!这次更新好强啊!.

06-05 09:02

又被 DeepSeek 偷袭了!


业界苦等的 R2 模型迟迟没有到达,结果 DeepSeek 却悄悄地出手:


DeepSeek R1 摇身一变,变成了 DeepSeek-R1-0528!


还在开源,还在节前。这次更新不会改变大版本号,只会低调添加日期,延续。 DeepSeek 一贯的命名招数,就像两个月前的命名招数 DeepSeek-V3-0324


不要看名字没变,这波 R1 这个版本的升级并不简单,特别是在“复杂推理”、“前端开发”、“幻觉减少”等方面,带来了真正的进化。


这次的 DeepSeek-R1-0528 还是沿用了 2024 年 12 月发布的 DeepSeek V3 Base 模型,只不过这次后台“砸”了更多的算率,让它可以像人一样多思考一步,多思考一步。


举例来说,用" tokens “去衡量它的“思考”:


同样是做 AIME 2025 检测,旧版 R1 平均每道题只要 12K tokens 交卷,新版本 R1-0528 则要跑到 23K tokens 才满意。


换句话说,DeepSeek-R1-0528 会把题目拆得更准、更透彻。


充分考虑材料,答案自然更准确:准确度由原来的 70% 一口气飙到了 87.5%。


有些网友实测,新版本 R1-0528 不断思考一个复杂的问题可以跑上去 25 分钟。


似乎是为了提高模型的深度思考能力,DeepSeek-R1-0528 有意延长探索大模型的时间。


在经典物理模拟试验中,DeepSeek-R1 对比新旧版本


但究竟是否值得,还要看你怎么用:


说到底,一个问题需要半个小时,即使结果再完美,也难免等得心痒痒。


但是相应地,思考更深,编程和推理能力也随之而来。


在 LiveCodeBench 在基准测试中,DeepSeek-R1-0528 结果已经可以和谐了 o3-mini(High)和 o4-mini(Medium)堪比,甚至在某些场景中超越了它。 Gemini 2.5 Flash。


对新版本进行测试 R1-0528 有网友提醒物理世界的推理能力,让他们生成一个页面:R1-0528。 一次性输出 728 行代码,而 Claude 4 Sonnet 只给出了 542 行。


经过仔细对比,老狐发现,新版本 R1-0528 无论是橙色球表面的光影反射,还是砖墙被破坏后的不规则坍塌,细节处理都更加精致,都是稳赢的。 Claude 4 Sonnet。


但是在数学推理方面,很多网友提到,DeepSeek-R1-0528 这是目前唯一能够长期稳定正确回答的答案。 9.9 - 9.11 等于多少?”模型。


不但如此,还有网友让 DeepSeek-R1-0528 构建单词评分系统,结果只需一次提醒即可生成前端和后端文档,直接运行,完全不需要调整。


要知道,以前只有 Open AI 的 o3 模型可以达到如此平稳的输出,现在新版本 R1-0528 同时也顺利跟上,成为第二个达到这一水平的模型。


看到这些测试,老狐对官方的说法更有说服力:


DeepSeek-R1-0528 在数学、编程、通用逻辑等多种评价中,我们不仅稳居国内领先地位,而且紧跟国际顶级模型 o3 和 Gemini 2.5 Pro 的表现。


对于 AI 就模型而言,编程和推理的能力当然是核心,但是就像 Chat GPT 和 Gemini 这种海外模式,面对中文复杂的情况,有时会显得“水土不服”。


相比之下,DeepSeek 作为当地 AI,这次更新在英语对话方面下了很大功夫,更符合我国用户的需求。


先讲 AI 老问题:“幻觉”,顾客苦恼 AI 幻觉久矣,DeepSeek-R1-0528 这个领域取得了很大的进步。


之前,旧版 R1 改写润色、总结摘要、阅读理解时,总是喜欢“想象”一些不可靠的内容。


新版 R1-0528 然后稳定很多,幻觉率直接降低。 45%~50%,输出内容可靠多了,不用担心它“瞎编”。


但是在创意写作方面,DeepSeek-R1-0528 而且表现也更上一层楼。


相比旧版 R1 常见的“卡壳”现象,使用新版本 R1-0528 在导出论文、小说、散文时,基本上可以一气呵成,不但逻辑流畅,情节也很自然,再也不用大删大改了。


一说一,看完 DeepSeek-R1-0528 写作小说,老狐的心情那叫一种复杂。


大型模型越来越卷,这种写作能力真的让人瑟瑟发抖,难道连写小说的饭碗都要被抢了?


总体而言,本次更新,DeepSeek 或者一如既往地“低调内卷”。


表面上看起来只是一个小小的升级,但是掰开看,每一个细节都是硬活。


无论是和旧版本 R1 比较,还是和其他大模型相比,DeepSeek-R1-0528 所有的表现都很能打。


当然,并不是每个人都买。也有网友嘲讽这次更新的“雷声大雨点小”,觉得 DeepSeek-R1-0528 还是有点“名不符实”。


然而,更多的人仍然抱着期待的态度。国产产品 AI 网民们更希望代表, DeepSeek 能够越做越强,真正扛起“国产之光”的排面!


老狐倒觉得,即使不说技术硬核,也不提民族情怀,这一次, DeepSeek R1 更新仍值得称赞。


毕竟,AI 最终的意义,难道不是让每一个普通人都更容易接触到星辰大海吗?


参考资料:


DeepSeek、其他网络截图,如中国券商、财联社等。


编辑:不吃麦芽糖


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com