拼多多DeepSeek在AI界的实力如何?经过几轮测试,我得到了答案。

01-01 11:58

训练一个AI大模型要多少钱?


OpenAI CEO山姆·奥特曼曾经说过,GPT-4的练习成本约为1亿美元(约为7.3亿元人民币),未来大型训练模型的成本将高于10亿美元。未经训练的GPT-5模型,为了半年左右的一轮训练,消耗了大约5亿美元,可见AI公司的支出成本有多高。


然而,AI行业有一个不同的类别,被很多网友视为“AI行业的拼多多”。这家公司是DeepSeek(深度追求),其大模型培训成本被网络爆炸压缩到极致。,最近推出的DeepSeek-V3模型训练费用仅为557.6万美元(约4070万元人民币),约为GPT-4的二十分之一,总共消耗了约278.8万个GPU,参数为6710亿,其中激活参数为370亿。


根据DeepSeek官网的价格表,缓存命中输入价格仅为0.1元/百万tokens,缓冲未命中输入价格为1元/百万tokens,导出价格为2元/百万tokens,在众多AI模型中属于最低档。(注:1token大约等于1.5个汉字或3个英文字母)



AI大模型,如豆包、通义千问等,能力较低的版本几乎都是这个价格,但是Doubaoo等性能较强的大模型-pro-输入价格为5元/百万tokens128k,导出价格为9元/百万tokens,Kimi。moonshot-v1-128k的导出价格更高达60元/百万tokens。(注:AI公司官方数据)



DeepSeek-V3超低的训练成本和最低的输入和导出价格让人纳闷,是其他AI公司资源利用率差,还是DeepSeek技术水平太强,还是DeepSeek-V3的能力被吹?


幸运的是,尽管DeepSeek-V3的大型模型主要推广开源和API接口,但是也为用户准备了网页版本,使用方便。通过对其进行测试,对比主流大语言模型之间的差距,我们可以了解DeepSeek的真正实力。


DeepSeek-实测V3,结果令人惊讶。


DeepSeek页面极其简洁,主框只有四个按钮:深度思考、网上搜索、上传文件和发送。如果不打开网上搜索功能,就无法搜索网上相关内容,只能作为本地大模型使用,深度思考和网上搜索不能同时打开,但仍然需要计算机联网向DeepSeek发送问题。


为了更直观地观察DeepSeek-V3的能力,小雷准备了四轮测试,包括通用问答、内容总结、专业数学题、金融知识问答等,部分测试还将与豆包、Kimi等大语言模型进行比较。


常规问答:简洁整洁,易读性高。


作为一名科技编辑,小雷每天都会问AI“科技圈今天有什么新闻”,让AI模型帮我快速收集新闻,大部分大模型都可以轻松做到。因此,小雷将其作为第一轮测试问题。


DeepSeek为我找到了10条新闻,新闻之间用分隔线划分,视觉上更加清晰。在每个新闻的结尾,都会提供一个可以一键直接连接的网站链接。在这个项目的测试中,DeepSeek的亮点是,新闻总结简洁突出,收集的内容不限于国内平台。一些消息来自海外新闻媒体。点击链接直接访问海外新闻媒体。有趣的是,DeepSeek也找到了自己的“黑料”,DeepSeek-V3模型会称自己为ChatGPT,山姆·奥特曼发表回应,认为原因是数据污染。



当小雷用豆包和Kimi收集新闻时,豆包回复的内容太多了,内容不够简洁清晰,而Kimi太简洁了,新闻的总结基本上只有一句话。


随后,小雷还要求AI推荐几首古典音乐。在没有联网的情况下,DeepSeek仍然可以准确地回答我的问题,但所有的内容都变成了英语。切换到网络模式后,同样的问题再次被提问,答案变成了中文。


本着求真的心态,小雷又进行了几次测试,发现在没有联网的情况下询问西方古典音乐时,DeepSeek给出的答案是英语,询问中国相关的音乐内容,比如周杰伦的歌曲,DeepSeek就是中文。DeepSeek实际上是根据答案内容的相关性来选择语言,而不是用来提问的语言,这让小雷有些吃惊。


总的来说,DeepSeek在常规问答项目中表现出色,无论是网络状态还是非网络状态,都能准确回答小雷提出的问题,表现丝毫不逊色于国内第一梯队的AI模型,如豆包、Kimi等。


内容总结:结果非常简洁,重点缺失。


之前大模型横评中,小雷曾经让豆包,Kimi、小红书发布的《潮流数码白皮书》总结了各种AI模型,如文心一言、讯飞星火等。结果大模型总结出来的内容普遍缺乏重点,还有车轮话旋转的情况。


和大多数大模型一样,DeepSeek给出的内容已经失去了太多的关键点,尤其是《潮流数字白皮书》给出的一些例子。DeepSeek根本没有总结出来。(名字:浅色部分是思维步骤,深色部分是正文)



AI模型基本上都有同样的问题,在总结内容的时候很容易变成“总结大纲和标题”,导致大量的信息无法呈现,客户仅靠“想象”很难还原原有的内容。


就内容而言,DeepSeek的表现和Kimi、文心一言比较接近,略强于讯飞星火,略逊于豆包。能达到这一效果,已经超出了小雷的预期。


数学问题的答案:快速、准确、有过程。


在数学题的答案中,小雷准备了三道数学题。第一道题是比较简单的小学数学题,第二道题是经典的三道题。DeepSeek很容易正确回答,所以小雷不再展示AI给出的答案,朋友们可以自己思考。


在DeepSeek取得两连胜后,小雷决定给AI大模型一个强度,并拿出了第三个问题,这些问题已经击败了许多AI大模型:


一个班有39名学生参加了短跑、跳远和抛掷三项体育比赛,分别有23名学生、18名学生和21名学生,其中5名学生参加了三项比赛,3名学生只参加了跳远比赛,9名学生只参加了抛掷比赛。有多少人只参加短跑?(正确答案:9人)



在之前的测试中,只有付费版o1-preview计算出这个问题的正确答案,豆包,Kimi、文心3.5、GPT-4o等大型模型的免费版本都是错误的答案。令小雷没想到的是,DeepSeek给出了正确的答案。



有一段时间,小雷怀疑所有的大模型都可以通过这段时间的训练来计算这个问题的答案,所以小雷测试了几个大模型。结果豆包和文心3.5还是没能正确回答。他们给出了3人和12人的答案,升级了k1视觉思维模型的Kimi和讯飞星火给出了正确的答案。


DeepSeek不仅能正确回答问题,还能详细展示思维步骤。有些问题会反复验证答案,甚至用其他方法重新计算,回答问题的速度是独一无二的。


在这一轮测试中,DeepSeek的表现非常出色。所有的问题都回答正确,回答速度快,有思考的步骤。相反,著名的豆包和文心3.5再次失败,第三个问题无法回答。DeepSeek的实力远远大于它的名气。


第四,回答金融问题:准确理解,给出适度的建议。


到目前为止,大多数面向所有客户的大语言模型仍然免费提供服务。相反,主要的重点是B端市场和主要推广专业功能的AI模型,逐步收费服务。C端市场的客户很难调整,很多人不愿意付费使用。只有打造专业的使用场景,面对有相应需求的用户,AI公司才有机会盈利。因此,在第四轮测试中,小雷准备了一个财务知识问题:


当市场利率上升或下降时,债券价格将如何变化?为了保证债券投资组合的价值,投资者应该如何应对利率波动?



在本轮测试中,所有AI模型给出的答案都是相似的,可以准确解读市利率变化与债券价格的关系,并给出一些投资建议,包括分散投资、缩短期限、投资债券基金等。



网上金融相关内容太复杂,查询、选择、净化信息的过程也比较麻烦。AI可以很好地解决这个问题,帮助我们收集相关信息,提取有用的内容。


在金融问题的相关测试中,小雷仍然没有打开网络搜索功能,DeepSeek给出的答案是平淡无奇的,与其它AI模型拉不开差距,但是这足以证明DeepSeek的优秀性,毕竟它的训练费用只有557.6万美元。


总结:能力出乎意料,功能需要丰富。


在测试DeepSeek-V3之前,小雷有点看不起这个大模型,OpenAI训练GPT的成本基于“亿美元”,一个训练成本只有557.6万美元的AI大模型,表现能有多高?实际测量结果给了小雷一巴掌。


经过几轮测试,除了大部分大模型都有丢失重点的内容总结阶段外,其他几轮测试DeepSeek都取得了高分,表现丝毫不逊色于国内著名的文心言论。Kimi、AI大模型,如豆包。


在数学题的答案项目中,即使面对豆包和文心3.5,DeepSeek也无法给出正确答案的问题,答案仍然很快得到解决。讯飞星火和Kimi上次测试给出了错误的答案。这一次,答案是正确的,进步很大。


有些小伙伴看到这里也许会觉得,DeepSeek花费数百万美元就可以训练出如此优秀的大模型,OpenAI、百度,字节跳动都是浪费钱。事实上,尽管DeepSeek在逻辑判断方面表现出色,但是它的功能缺失是最大的问题,不能用来创作图片,PPT,还没有提供智能体可选,功能较少。



豆包,文心一言,ChatGPT等等,都在朝着“全能大模型”前进,即Any。 To Any,用户可以输入任何模式的内容,输出任何模式的内容。对于很多行业来说,豆包和文心都推出了相应的智能体,包括生活、学习、创作等方面,这是DeepSeek无法企及的。


对以文字生成为主要需求的用户而言,DeepSeek-V3是一个很好的AI模型,但是如果有更多的需求,比如写经典小说、创作图片、投资计算、豆包、Kimi等免费服务的AI模型及其提供的智能体可能更合适。


当然,DeepSeek确实花了很多钱做大事。通过更先进的MoE结构、多技术融合升级、FP8混合精度训练框架等技术,以及与开源社区合作的方法,在低成本的情况下,它训练了DeepSeek-V3,它的文字生成和逻辑推理能力不输,甚至领先于主流的AI模型。


培训成本高,竞争越来越激烈已经成为一种趋势。在不久的将来,国内外将会有大量的AI公司倒闭。如何开源节流已经成为AI公司必须思考的难题。DeepSeek降低成本的方法值得其他AI公司学习。


这篇文章来自“雷科技”,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com