DeepSeek V4评测曝光：距美国顶尖模型差距8个月，国产AI已迎来百花齐放

1分钟前

本文来自微信公众号：特大号，作者：小黑羊

在DeepSeek发布全新V4版本模型后，美国官方AI评测与标准机构CAISI对外放出了一份针对性评测报告。

根据这份评测给出的结果，当前DeepSeek的能力，已经落后于美国顶尖闭源大模型大约8个月。

评测给出的这张趋势图其实很能说明问题：图中横轴是各个模型的发布时间，纵轴则是模型的综合能力评分。

从图中能很清楚看到，刚刚正式发布的DeepSeek V4 Pro，整体综合能力只相当于美国去年8月推出的GPT5的水平。

更值得关注的是模型能力迭代曲线的斜率，美国头部模型的曲线明显更陡峭，这也意味着两者之间的差距还在持续被拉大。

DeepSeek的差距到底出现在哪些地方？

看这份细分能力评分表就能一目了然。

DeepSeek在数学、自然科学、基础代码能力这些维度，其实和GPT、Claude等美国顶尖模型处于同一水平，但是在网络安全、复杂工程落地、抽象推理这类领域，差距就非常明显了。

所以也有人形容，DeepSeek更像是大家所说的「小镇做题家」：理科基础扎实、刷训练数据效率高，基础代码编写能力也不错，但一进入复杂的真实实战场景，能力短板就会凸显出来。

而对企业级落地场景来说，不管是代码开发还是智能体应用，想要真正投入使用，都非常依赖复杂软件工程能力和抽象推理能力。

另外还有网络安全能力，本身就非常依赖真实实战积累，在这个领域DeepSeek的短板确实相当突出。

这些差距的形成，其实是多方面因素导致的↓

首先一点，我们必须承认，目前国内在训练算力和硬件生态方面，确实和头部水平存在代差。

就比如数学能力，完全可以通过高质量合成数据搭配强化学习快速提升，就像学生刷题一样，只要多练、找对方法，很容易拿到好成绩。

但复杂工程、网络安全、智能体这类任务，不仅需要训练模型本身，还要搭建大量真实运行环境、自动评测沙盒等配套设施，这就相当于实战演练，早就脱离了书本课堂的范围，也远比刷题更消耗算力和工程资源。

第二点，缺少高质量的真实实战数据积累。

数学题、竞赛题、科学问答这类数据，本身很容易做标准化处理，获取门槛不高。

但网络安全和复杂软件工程不一样，这类领域需要大量真实代码仓库、项目issue、依赖运行环境、完整漏洞链路、实际调试过程这类数据，这种真实工作流程数据的积累，我们目前还差得比较多。

第三点，可以说成也MoE，败也MoE。

MoE架构的模型确实有很多优势，比如同等参数量下性价比更高，但面对高度连续、长链路、跨领域的任务，MoE架构会面临更大的挑战，输出稳定性不如稠密模型。

从某种程度上来说，传统稠密模型的综合能力会更强，而国内模型选择MoE架构其实也和第一点原因息息相关——毕竟我们确实缺算力，MoE是更贴合现有条件的选择。

第四点，开源其实是一把双刃剑。

闭源模型的优势在于它是黑盒，可以把推理成本、系统复杂度、多模型组合方案、工具链、检索系统、隐藏推理策略这些优化都放在API后端，用户看不到。

甚至说不定当用户提出安全需求的时候，闭源模型背后还有专业的人工安全专家提供支持。

简单来说，闭源黑盒的内部可以隐藏很多外人不知道的组合优化手段，比如多模型路由调度、工具执行器、安全过滤模块等等。

但像DeepSeek这种开放权重的开源模型，几乎是把所有能力明明白白摆出来，大家能直接接触到的基本上就是原生裸模型的能力，没办法像闭源模型那样，把大量后端优化方案打包进去提升表现。

这也就导致，在智能体、网络安全、复杂工程这类任务上，闭源黑盒模型天然就更容易拿到更高的评测分数。

最后还有两点需要理清↓

第一，我们不需要过度盲从这份报告的结论，还要看评测机构的立场和评测维度偏向。

CAISI的这份评测本身就带有比较明显的美式叙事偏向，更侧重网络安全、软件工程、抽象推理这些领域。

如果换一个评测维度，看中文场景适配、企业私有化部署、低成本推理、国产硬件适配、开源生态价值这些方向，DeepSeek的优势会立刻显现出来。

第二，不用只把目光盯在DeepSeek身上，现在能代表国产AI力量的大模型，已经可以组团出战了。

过去一年里，DeepSeek是国产开源大模型的一面旗帜，吸引了所有人的目光，也扛着「国产模型不能输、开源模型不能输」的压力，负担实在太重了。

但进入今年之后，DeepSeek肩上的重担其实可以慢慢卸下来了，一大批国产大模型已经开始接棒，共同扛起国产AI发展的大旗。

Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6…越来越多的国产模型已经成长起来。

国产开源大模型也从之前DeepSeek一枝独秀的阶段，走到了现在百花齐放的新阶段，各个模型都有自己的特色和优势。

而且这一波国产模型的集体成长，和2024年的百模大战不一样，经过洗牌留下来的这些模型，每一个都有过硬的实力，不管是实战表现还是市场口碑，都不输给DeepSeek。

比如在Artificial Analysis的模型性能总榜单里，DeepSeek V4 Pro仅仅排在国产开源模型的第四位，Kimi k2.6、Mimo-V2.5、Qwen3.6的排名都在它前面。

再看另一份LmArena的代码模型榜单，DeepSeek V4 Pro也只排在总榜的第15名。

国产模型里GLM-5.1排在第5、Kimi-k2.6排在第7、小米2.5 Pro排在第11、Qwen3.6-Plus排在第12，表现都比DeepSeek V4 Pro更好。

这也让人想起DeepSeek V4发布时，官方在公告结尾引用的荀子名句↓

「不诱于誉，不恐于诽，率道而行，端然正己。」

当DeepSeek慢慢走出被神化的位置时，恰恰就是国产大模型各自突破、集体向前迈进的时候。

静水流深，未来可期！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

景区NPC互动擦边引争议：低俗博眼球难长久，文化内核才是长久之道

复盘八个季度增速变化：白酒行业进入慢筑底新阶段

电脑涨价幅度超黄金！半年涨幅最高达3800元，等等党彻底失算了

欧盟牵手印度：全球贸易棋局正发生静悄悄的变化

猪价十日反弹超16%，底部信号明确，新一轮猪周期要开启了吗？

项目推荐

迪瓜租机

水灵珑

康老板 · 氧疗堂