DeepSeek-对豆包进行R1对决，Kimi，国产AI大模型第一花落谁家？

02-08 09:45

日常生活用户超过2000万，与中国移动、华为、金山办公、吉利汽车等公司达成合作，DeepSeek迎来了亮点。

如今，随着互联网巨头争相进入AI 行业，公司花巨资购买数据和计算率芯片，打造万卡集群，以达到领先水平。然而，DeepSeek选择了一条独特的“花小钱做大事”路线，V3模型的培训成本只有557.6万美元。最新的R1模型以V3模型为基础，号称能力不输OpenAI开发的o1模型。

前提是练习费用只有其它AI大模型的几十分之一，DeepSeek-R1真的能持平o1大模型，以国内众多AI大模型为荣吗？

在实践中，小雷决定将其与国内用户数量较多、名气较大的豆包结合起来，Kimi、文心一言，通义千问四大AI模型进行对比，检测DeepSeek-R1是否真的像宣传中那样强大。

挑战四大AI模型，DeepSeek技术更高？

在架构优化、计算率升级、参数增加后，AI模型的功能越来越丰富，值得探索的细节也越来越多。在这次测试中，小雷选择了三个项目:内容分析、创意写作和数学推理。

DeepSeek-R11的五个大型模型参与了测试，具体版本、豆包云雀、Kimi-k1.5、文心3.5、通义千问2.5，可以免费使用。

内容分析：DeepSeek-R1傲视群雄

为了加快工作效率，很多专业人士会使用AI工具帮助总结文档、PDF等文件。小雷选择了JD.COM、第一财经联合发布的《2024年年轻人生活方式与营销趋势》文档，检查各大AI模型是否能梳理出重点内容，帮助小雷快速了解2024年年轻消费者的特点。

在小雷评估AI大模型之前，他曾经抱怨AI大模型很难分析文档的核心内容，导致车轮话旋转输出结果。然而，短短三四个月，AI大模型的文档总结能力有了很大的提高。

在这一轮测试中，除了通义千问没有取得明显进展，总结的内容太简单，信息严重缺失外，其他几款大型模型都表现出色，尤其是豆包和Kimi，不仅总结了2024年的十大趋势，还对2025年的生活方式趋势进行了分类。与此同时，Kimi还指出，90后和00后消费占了一半以上，强调了年轻消费者的重要性。文心一言以蔽之，总结了2024年十大趋势，却忽略了2025年展望的相关内容。

作为这次评估的主角，DeepSeek-R1表现更好。在总结的每一个趋势下，都会添加一些数据或产品作为例子，与观点相互证实，增强内容的稳定性。许多AI写的文章都能一眼认出来，原因在于AI产生的内容比较空洞，没有落到实处，往往缺乏例证，DeepSeek-显然，R1已经进入了更深层次。

总体而言，DeepSeek-R1在这一轮测试中证明了自己名副其实，表现超过了其他四个AI模型。在其他四款AI模型中，豆包和Kimi的表现明显高于一个层次。免费版的文心3.5表现一般，而通义千问表现不佳。

创意内容编写：DeepSeek再次获胜

二月五日，小说平台阅文集团和数字出版社中文在线连续宣布，已经接入DeepSeek-R1，将采用AI来提高作者的创作效率，但是AI真的能取代网络作者吗？

小雷要求AI模型以古龙风格写一部5000字至10000字的武侠小说，并输入大纲：

天南剑宗第一高手叶飞霜与太玄门掌门慕容宸约战华山之巅，双方各带弟子助战。慕容宸却暗中与五大帮派合作，试图彻底消灭天南剑宗。

然而，天南剑宗实际上是一种将六扇门插入江湖的力量，旨在借助这场师门约战引出帮派力量，并一举消灭它。当黑道势力与太玄门合作围攻天南剑宗徒弟时，六门大军背后抄袭，彻底消灭了为祸一方的帮派力量和太玄门。

与之前的测试限制不同，虽然写武侠小说有大纲限制，但可以发挥很大的空间，各大AI模型之间的差距和风格也表现出明显的差异。

在这一轮测试中，豆包和Kimi在写作时分别命名为《剑影风云录》和《龙影霜华录》，这与古龙大部分小说的命名风格不符，但更像是梁羽生的习惯。DeepSeek-R1、文心一言没有给小说命名，通义千问简单地命名为“华山之巅”。

在内容方面，通义千问仍然是倒数，缺乏详细的描述和转折点。通义千问没有主动加入任何小雷没有提到的名字或帮派名称。Kimi产生的内容质量更好，细节更丰富，对大纲的认知也更到位，但和通义千问一样，只是在大纲原来的人物身上写的。

DeepSeek-R1、文心一言，豆包产生的内容质量更好，人物、招数、师门名称齐全，而且剧情有许多转折点，还主动丰富了细节。比如在DeepSeek-R1写的小说中，两位英雄原本是好朋友，因为女人反目成仇，为继续写作奠定了基础；在文心一言生成的内容中，叶飞霜在战斗中几乎被附身，只有在师兄的帮助下才转向胜利；豆包主动继写了一段内容，加入了叶飞霜事业有成后被身边的朋友背叛的情节。

不幸的是，文心言语产生的内容忽略了大纲中的六扇门，将故事完全写成了江湖恩怨。豆包继续写的内容反派描述太少，导致小雷对它的评分略有下降。

本轮DeepSeek-R1测试的表现仍远远领先于其他AI模型，但并非其它几种AI模型表现不佳，文心一言和豆包的表现已超出小雷的预期，只不过DeepSeek-R1的表现非常出色，有情感纠葛，情节转折，尤其是最后一部分的内容，颇具古龙遗风。

目前AI模型写小说还是有点困难，需要用户尽可能细化大纲。小雷匆忙想出的大纲太笼统了，可能是通义千问和Kimi表现不佳的原因之一。

数学推理：AI大模型永远痛苦。

2024年，苹果工程师发表了一篇论文，称AI模型没有真正的数学推理能力，AI公司的宣传被夸大了。随后，各大AI企业纷纷以“复杂推理”为噱头，推出全新的大模型版本。然而，几个月过去了，AI模型真的有推理能力吗？

本轮考试小雷选择的数学题是2024年高考第一卷第十四题，具体内容如下：

A和B各有四张卡片，每张卡片上标有一个数字，A的卡片上标有1、3、5、7、B的卡片上标有2、4、6、8的数字。在每轮比赛中，他们从自己持有的卡片中随机选择一张卡片，并比较所选卡片上的数字。数字大的人得1分，数字小的人得0分。随后各自废除本轮所选卡片废除的卡片在此后的轮数中无法使用，那么四轮比赛之后，甲的总分不低于2的可能性是什么？(正确答案：1/2)

从人类的角度来看，这个问题的难度其实并不高，即使把每一种可能性都列出来再算，所需的时间也不会特别多。但在AI大模型眼中，这个问题却是难上天，DeepSeek-R1、豆包给出了17/24的答案，Kimi、文心一言，通义千问给出的答案分别是1971/4096、243/256、551/576，居然再次全部阵亡。

随后小雷再次使用OpenAIo1。、o3 mini、GPT-计算了4o三个大模型，这三个大模型都算出了正确答案，但是细节上也有一些问题，比如o1模型输出内容时出现了2=1/2，但是不影响其计算出正确答案。这种情况表明，在数学推理方面，DeepSeek-R1和OpenAI的大模型可能还有一些差距。

最为有趣的不是这些离谱的答案，而是AI大模型的推理过程，DeepSeek-Kimi-k1和R1.五是不断地打断自己的思考过程，选择新的方案。数学推理仍然是目前AI模型难以克服的一个关口。DeepSeek-R1，前两个测试领先于其他国产AI模型，在这轮测试中无法拉开距离。

名下无虚士，DeepSeek的荣耀当之无愧。

2024年12月，DeepSeek-当V3大模型刚刚上线时，小雷就对此进行了测试。那时小雷的评价是，DeepSeek-在内容总结、文字生成方面，V3可与豆包相媲美，Kimi，但是功能多样性远不及其它AI智能体。

仅仅一个多月过去了，基于V3模型调整的R1模型就实现了质的飞跃。在内容总结和文字生成方面，与著名的豆包相比，Kimi、文心、通义千问等AI模型领先很多。当然，在数学推理方面，大家还是一样的“菜”，OpenAI还是处于领先地位。

DeepSeek-R1只有能力强，不能造成如此大的影响，最重要的是它的训练费用只有600万美元左右，远低于GPT-4，估计只有GPT-5的1/200甚至更低。

在过去的认知中，提高AI模型的行业需要积累计算率和购买数据，AI公司确实在这样做。例如，小米计划在2025年投资400亿元购买AI计算率芯片，以建立万卡集群和字节跳动。Macquarie分析师质疑DeepSeek隐瞒了开发成本。经过他们的计算，R1模型的实践成本约为26亿美元。

然而，DeepSeek告诉我们，只需几百万美元，相当于不到9位数的人民币，就可以训练出堪比OpenAI的东西。大型O1商品。由于DeepSeek-R1的影响，NVIDIA股价最近一段时间全球计算率芯片主要供应商暴跌，尽管最近两天有所回升，但仍未能回到巅峰。

凭借DeepSeek-R1的出色表现，DeepSeek瞬间成为AI行业的热点，与各行各业的巨头达成合作。即使是在工业AI领域实力超群的华为，也让小艺接入了DeepSeek-R1。由于客户数量过多，最近DeepSeek官网经常出现服务器繁忙的情况，API调用充值入口也因为人数过多而关闭。

DeepSeek-虽然R1练习和推理的成本很低，但是大量的用户可以涌入，DeepSeek目前所拥有的算率已经不能满足用户的需求。中国公司最擅长的就是从1到无穷无尽，DeepSeek指明了道路，其他AI公司也会很快跟上。如果DeepSeek想要保持这一波流量，增加算率规模，提升用户体验刻不容缓。

这篇文章来自“雷科技”，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

春节期间走到基层|博物馆，这张“文化大餐”让人大饱口福！

英国媒体：伯利是二手球票网站的董事，切尔西球迷信托对此非常不满。

王楚钦谈到有球迷打开闪光灯：离这么近还打开闪光灯，我也不明白为什么。

WTT新加坡赛第五天：动画组合3-0中日会师决赛晋升为孙颖莎王楚钦

国内首个“公证提存”预付资金监管平台，如何兼顾商家利益和消费者权利？