显卡可能没那么重要?中国公司给硅谷上了一堂好课。

01-04 06:45

我万万没想到,就在西方还沉浸在圣诞假期,疯狂“过年”的时候,我们中国公司在新年第二天给别人踢了一脚,让他们的头崩溃了。


上面有宇树科技的机器狗视频让大家惊呼,还有什么波士顿动力。



接着又来了一个国产大模型 DeepSeek,甚至有一股做空英伟达的味道。


具体怎么回事,我给你唠叨一下。


01


日前,DeepSeek刚刚发布了V3的最新版本,注意,自称与大洋彼岸 Open ,却越来越 Close 不同的企业产品,这个 V3 是开源的。


但开源并非他最重要的标签,DeepSeek-V3(以下简称V3)也是兼具的性能世界一流,技术实力强,价格穿透地心。三大特点,这一套不解释连招打的行业大模型厂商都有些晕头转向。



V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨,甚至发出灵魂问题,大型模型不需要大型显卡集群吗?


看到这个头皮,我估计老黄会麻木的。



同时, Meta 的 AI 这位技术人员也大喊大叫DeepSeek 的成效杰出



知名 AI 评测博主 Tim Dettmers ,直接吹起来,表示 DeepSeek 处理优雅”elegant”。



而且有这些技术背景的人,看着 V3 当成绩被送去表扬时,也有人着急。


比如奥特曼就搁那说,复制相对简单,很难不让人感觉到他的内涵。 DeepSeek 。



更有意思的是,做到这一点的企业既不是大工厂,也不是纯血 AI 厂商。


DeepSeek 公司的中文名字叫深度追求,它们原本和 AI 没有关系。


就在大模型爆红之前,他们事实上,私募股权机构幻方量化了一个团队。



而且深度追求能实现弯道超车,既有点必然,又似乎有点运气。


早在 2019 2008年,幻方投资 2 1亿元搭建了自研深度学习训练平台“萤火虫一号”,到达 2021 每年都有整整一年的购买 1 万丈英伟达 A100显卡的算率储备。



要知道,此时大模型没有火,万卡集群的概念更是没有出现。


而且正是有了这部分硬件储备,幻方才得到了。 AI 大型门票,最后一卷出现。 V3 。


你们说一个好的量化投资领域的大厂,为什么要来做呢? AI 呢?


深层追寻的 CEO 在一次采访中,梁文锋与大家交谈,并非什么看中的东西。 AI 前景。


但在他们看来,“通用人工智能也许是下一件最困难的事情之一。”,对于他们来说,“这是一个怎样做的问题,而非为什么。”



正是抱着这样一股“莽”劲,深度追寻才造出了这个大新闻,下面给大家具体讲一下。 V3 还有什么特别的地方。


02


第一,性能强,现在看来, V3 在开源模型面前,几乎没有一个可以打。


还记得去年年中,小扎的Meta推出了Llama模型。 3.1,当时由于性能优异,开源,一度被捧上神坛,结果在V3手中,基本上,是全面落败


但是在各大厂商手中的闭源模型,那些大家耳熟能详的是什么? GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 还可以打得有来有回。



看着这个,也许觉得没有什么比这更好的了,也就是赶上国际领先水平,值得这样吹吗?


残忍还在后面。


大家大概都知道,现在的大模型是一个炼药过程,可以通过大量的计算率,让模型服用各种数据。


这一炼药期间,需要大量的计算能力和时间才能进入。


所以在圈子里有了一个新的计量单位“GPU “时间”,也就是用了多少块? GPU 训练需要多少小时?



GPU 时间越高,花费的时间、金钱成本就越高,反而物美价廉。


之前提到的开源模型之王, Llama 3.1 405B ,训练周期已经耗尽 3080万 GPU 时。


可以更好的性能 V3 ,只花了不到 280万 GPU 时


以金钱换算, DeepSeek 搞出 V3 这个版本,大概只花了 超过4000万人民币。


而 Llama 3.1 405B 训练期间, Meta 只是在老黄那里买的 16000多个 GPU ,保守性估计至少要花费十几亿人民币。


对其他几个闭源模型来说,往往都是几十亿、几百亿的大撒币。



你别以为 DeepSeek 靠什么旁门左道,人家是正儿八经,有技术接近身体。


为了弄清楚 DeepSeek 技术如何?我们特意联系了语核科技创始人兼创始人。 CTO 池光辉,他们的主要发展公司。 agent 数字人,早就是 DeepSeek 的铁粉了。



池光辉告诉我们,这次V3更新主要是三个方面的改进,通讯与显存提升平衡推理专家的负载以及混合精度FP8训练


关于如何实现各个部分,我就不多说了。一般来说,大的整体结构没有变化,更像是我们从事基础设施建设的传统艺术能力,使项目更加高效合理。



第一,V3通过通信和显存大幅度提高,降低资源空闲率,提高使用效率。


而且推理专家(有推理能力的) AI 或者系统算法,可以用大数据得出结论)的负载平衡就更巧妙了。对于一般的大模型,每次启动,所有专家都必须等比例地放入过程中(存储)。但是,在真正回答客户问题的时候,十几个专家中只使用了一两个,剩下的专家占用过程(存储)钓鱼,其他的事情都做不到。


而且DeepSeek将专家分为热门和冷门两类,热门专家,复制一份存储,处理热门问题;不受欢迎的专家不钓鱼,总能分配到问题上。


FP8 混合精度训练是许多团队在之前尝试失败的方向上扩大的新一步。通过降低训练精度,可以降低训练时的计算费用,但答案质量基本保持不变,这是神奇的。


同时,正是这些技术创新,才得到了大模型圈的一致好评。


通过一直以来的技术更新迭代, DeepSeek 所获得的收益也相当惊人。


他们 V3 这个版本推出后,他们的价格已经是了。从几毛钱到几百万次,几块钱


在明年之前,他们甚至开展了新的产品营销活动 2 月 8 在号码之前,在原来低价的基础上再打折。



而且一开始提到了同样的开源 Claude 3.5 Sonnet ,每个百万输入输出,至少要花费几十块钱。


更加致命的是,这一对 DeepSeek 现在已经是常规的套路了。


早在去年年初,DeepSeek V2模型发布后,靠一手低价,被人们称为AI界拼多多。


它们还在进一步发展引发了国内大型企业的价格战,比如智谱、字节、阿里、百度、腾讯等大厂商纷纷降价。



池光辉还告诉我们,他们的公司早在去年。 6 、 7 从月份开始使用 DeepSeek ,那时国内还有一些其它大型厂商来找他们。


但是价格和DeepSeek差不多,模型“又太笨了与DeepSeek不在一个层次上。”;假如模型能力和 DeepSeek 差不多,那个价格”基本上是10倍以上”。


根据他们的创始人梁文峰所说,更夸张的是,即使DeepSeek卖得这么便宜,因为技术“遥遥领先”带来的成本降低,她们公司仍然赚钱。。。是不是有一种比亚迪在隔壁搞? 998 ,财务报告仍有红色的味道。


03


但对普通用户来说, DeepSeek 看起来也有点冷门。


由于他的优势主要在于推理、数学、代码方向,而多模式和一些娱乐领域并非他们的优势。



而且现在,虽然 DeepSeek 他们说自己还是赚钱的,但是他们的团队上下都有极客的味道,所以他们的商业化比其他厂商要弱一些。


但是无论如何, DeepSeek 成功也证明了,现在 AI 这条赛道还有更多的可能性。


按照以前的理解,想玩玩。 AI 后面没有一个金主爸爸烧钱买显卡,压根就玩不了。


但是现在看起来,掌握了算率并不一定意味着掌握了一切。


每个人都可以期待未来,更多的提升出现,让更多的小企业、初创企业都能进入。 AI 领域,差评君总觉得,那才是真正的。 AI 浪潮才对。


本文来自微信微信官方账号“差评X.PIN作者:差评君,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com