DeepSeek-对豆包进行R1对决,Kimi,国产AI大模型第一花落谁家?
日常生活用户超过2000万,与中国移动、华为、金山办公、吉利汽车等公司达成合作,DeepSeek迎来了亮点。
如今,随着互联网巨头争相进入AI行业,公司花巨资购买数据和计算率芯片,打造万卡集群,以达到领先水平。然而,DeepSeek选择了一条独特的“花小钱做大事”路线,V3模型的培训成本只有557.6万美元。最新的R1模型以V3模型为基础,号称能力不输OpenAI开发的o1模型。
前提是练习费用只有其它AI大模型的几十分之一,DeepSeek-R1真的能持平o1大模型,以国内众多AI大模型为荣吗?
在实践中,小雷决定将其与国内用户数量较多、名气较大的豆包结合起来,Kimi、文心一言,通义千问四大AI模型进行对比,检测DeepSeek-R1是否真的像宣传中那样强大。
挑战四大AI模型,DeepSeek技术更高?
在架构优化、计算率升级、参数增加后,AI模型的功能越来越丰富,值得探索的细节也越来越多。在这次测试中,小雷选择了三个项目:内容分析、创意写作和数学推理。
DeepSeek-R11的五个大型模型参与了测试,具体版本、豆包云雀、Kimi-k1.5、文心3.5、通义千问2.5,可以免费使用。
内容分析:DeepSeek-R1傲视群雄
为了加快工作效率,很多专业人士会使用AI工具帮助总结文档、PDF等文件。小雷选择了JD.COM、第一财经联合发布的《2024年年轻人生活方式与营销趋势》文档,检查各大AI模型是否能梳理出重点内容,帮助小雷快速了解2024年年轻消费者的特点。
在小雷评估AI大模型之前,他曾经抱怨AI大模型很难分析文档的核心内容,导致车轮话旋转输出结果。然而,短短三四个月,AI大模型的文档总结能力有了很大的提高。
在这一轮测试中,除了通义千问没有取得明显进展,总结的内容太简单,信息严重缺失外,其他几款大型模型都表现出色,尤其是豆包和Kimi,不仅总结了2024年的十大趋势,还对2025年的生活方式趋势进行了分类。与此同时,Kimi还指出,90后和00后消费占了一半以上,强调了年轻消费者的重要性。文心一言以蔽之,总结了2024年十大趋势,却忽略了2025年展望的相关内容。

作为这次评估的主角,DeepSeek-R1表现更好。在总结的每一个趋势下,都会添加一些数据或产品作为例子,与观点相互证实,增强内容的稳定性。许多AI写的文章都能一眼认出来,原因在于AI产生的内容比较空洞,没有落到实处,往往缺乏例证,DeepSeek-显然,R1已经进入了更深层次。

总体而言,DeepSeek-R1在这一轮测试中证明了自己名副其实,表现超过了其他四个AI模型。在其他四款AI模型中,豆包和Kimi的表现明显高于一个层次。免费版的文心3.5表现一般,而通义千问表现不佳。
创意内容编写:DeepSeek再次获胜
二月五日,小说平台阅文集团和数字出版社中文在线连续宣布,已经接入DeepSeek-R1,将采用AI来提高作者的创作效率,但是AI真的能取代网络作者吗?
小雷要求AI模型以古龙风格写一部5000字至10000字的武侠小说,并输入大纲:
天南剑宗第一高手叶飞霜与太玄门掌门慕容宸约战华山之巅,双方各带弟子助战。慕容宸却暗中与五大帮派合作,试图彻底消灭天南剑宗。
然而,天南剑宗实际上是一种将六扇门插入江湖的力量,旨在借助这场师门约战引出帮派力量,并一举消灭它。当黑道势力与太玄门合作围攻天南剑宗徒弟时,六门大军背后抄袭,彻底消灭了为祸一方的帮派力量和太玄门。
与之前的测试限制不同,虽然写武侠小说有大纲限制,但可以发挥很大的空间,各大AI模型之间的差距和风格也表现出明显的差异。
在这一轮测试中,豆包和Kimi在写作时分别命名为《剑影风云录》和《龙影霜华录》,这与古龙大部分小说的命名风格不符,但更像是梁羽生的习惯。DeepSeek-R1、文心一言没有给小说命名,通义千问简单地命名为“华山之巅”。

在内容方面,通义千问仍然是倒数,缺乏详细的描述和转折点。通义千问没有主动加入任何小雷没有提到的名字或帮派名称。Kimi产生的内容质量更好,细节更丰富,对大纲的认知也更到位,但和通义千问一样,只是在大纲原来的人物身上写的。
DeepSeek-R1、文心一言,豆包产生的内容质量更好,人物、招数、师门名称齐全,而且剧情有许多转折点,还主动丰富了细节。比如在DeepSeek-R1写的小说中,两位英雄原本是好朋友,因为女人反目成仇,为继续写作奠定了基础;在文心一言生成的内容中,叶飞霜在战斗中几乎被附身,只有在师兄的帮助下才转向胜利;豆包主动继写了一段内容,加入了叶飞霜事业有成后被身边的朋友背叛的情节。

不幸的是,文心言语产生的内容忽略了大纲中的六扇门,将故事完全写成了江湖恩怨。豆包继续写的内容反派描述太少,导致小雷对它的评分略有下降。
本轮DeepSeek-R1测试的表现仍远远领先于其他AI模型,但并非其它几种AI模型表现不佳,文心一言和豆包的表现已超出小雷的预期,只不过DeepSeek-R1的表现非常出色,有情感纠葛,情节转折,尤其是最后一部分的内容,颇具古龙遗风。
目前AI模型写小说还是有点困难,需要用户尽可能细化大纲。小雷匆忙想出的大纲太笼统了,可能是通义千问和Kimi表现不佳的原因之一。
数学推理:AI大模型永远痛苦。
2024年,苹果工程师发表了一篇论文,称AI模型没有真正的数学推理能力,AI公司的宣传被夸大了。随后,各大AI企业纷纷以“复杂推理”为噱头,推出全新的大模型版本。然而,几个月过去了,AI模型真的有推理能力吗?
本轮考试小雷选择的数学题是2024年高考第一卷第十四题,具体内容如下:
A和B各有四张卡片,每张卡片上标有一个数字,A的卡片上标有1、3、5、7、B的卡片上标有2、4、6、8的数字。在每轮比赛中,他们从自己持有的卡片中随机选择一张卡片,并比较所选卡片上的数字。数字大的人得1分,数字小的人得0分。随后各自废除本轮所选卡片废除的卡片在此后的轮数中无法使用,那么四轮比赛之后,甲的总分不低于2的可能性是什么?(正确答案:1/2)
从人类的角度来看,这个问题的难度其实并不高,即使把每一种可能性都列出来再算,所需的时间也不会特别多。但在AI大模型眼中,这个问题却是难上天,DeepSeek-R1、豆包给出了17/24的答案,Kimi、文心一言,通义千问给出的答案分别是1971/4096、243/256、551/576,居然再次全部阵亡。
随后小雷再次使用OpenAIo1。、o3 mini、GPT-计算了4o三个大模型,这三个大模型都算出了正确答案,但是细节上也有一些问题,比如o1模型输出内容时出现了2=1/2,但是不影响其计算出正确答案。这种情况表明,在数学推理方面,DeepSeek-R1和OpenAI的大模型可能还有一些差距。
最为有趣的不是这些离谱的答案,而是AI大模型的推理过程,DeepSeek-Kimi-k1和R1.五是不断地打断自己的思考过程,选择新的方案。数学推理仍然是目前AI模型难以克服的一个关口。DeepSeek-R1,前两个测试领先于其他国产AI模型,在这轮测试中无法拉开距离。
名下无虚士,DeepSeek的荣耀当之无愧。
2024年12月,DeepSeek-当V3大模型刚刚上线时,小雷就对此进行了测试。那时小雷的评价是,DeepSeek-在内容总结、文字生成方面,V3可与豆包相媲美,Kimi,但是功能多样性远不及其它AI智能体。
仅仅一个多月过去了,基于V3模型调整的R1模型就实现了质的飞跃。在内容总结和文字生成方面,与著名的豆包相比,Kimi、文心、通义千问等AI模型领先很多。当然,在数学推理方面,大家还是一样的“菜”,OpenAI还是处于领先地位。
DeepSeek-R1只有能力强,不能造成如此大的影响,最重要的是它的训练费用只有600万美元左右,远低于GPT-4,估计只有GPT-5的1/200甚至更低。

在过去的认知中,提高AI模型的行业需要积累计算率和购买数据,AI公司确实在这样做。例如,小米计划在2025年投资400亿元购买AI计算率芯片,以建立万卡集群和字节跳动。Macquarie分析师质疑DeepSeek隐瞒了开发成本。经过他们的计算,R1模型的实践成本约为26亿美元。
然而,DeepSeek告诉我们,只需几百万美元,相当于不到9位数的人民币,就可以训练出堪比OpenAI的东西。 大型O1商品。由于DeepSeek-R1的影响,NVIDIA股价最近一段时间全球计算率芯片主要供应商暴跌,尽管最近两天有所回升,但仍未能回到巅峰。
凭借DeepSeek-R1的出色表现,DeepSeek瞬间成为AI行业的热点,与各行各业的巨头达成合作。即使是在工业AI领域实力超群的华为,也让小艺接入了DeepSeek-R1。由于客户数量过多,最近DeepSeek官网经常出现服务器繁忙的情况,API调用充值入口也因为人数过多而关闭。
DeepSeek-虽然R1练习和推理的成本很低,但是大量的用户可以涌入,DeepSeek目前所拥有的算率已经不能满足用户的需求。中国公司最擅长的就是从1到无穷无尽,DeepSeek指明了道路,其他AI公司也会很快跟上。如果DeepSeek想要保持这一波流量,增加算率规模,提升用户体验刻不容缓。
这篇文章来自“雷科技”,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




