真的可以代替英伟达吗?我觉得这个东西够呛。

02-18 06:51

据说金融市场从来不缺故事讲,最近几天, A 股票大神讲的故事那也无法避免。 Deepseek ,各式各样的短文全方位吹了一波国产大模型的技术路线,想必大家也已经快听吐了。


眼瞅着 Deepseek 底裤几乎被扒下来了。托尼认为现在永远不会有新的东西可以拿出来,上市公司的股价可以停止一波。结果这两天在微博刷了几篇震撼的作文,说 " Deepseek 已是开胃菜了, LPU 真正的氢弹级别突破! "


听到氢弹都来了,还是点进去看看吧。。托尼也很好奇,这个声称可以抹去英伟的未来。 LPU 到底什么是芯片?


但是在看了几篇文章,看了几篇研究报告,托尼觉得这个芯片真的没有。股票专家们吹得如此美丽。。。


先给大家介绍一下 " LPU " 到底是什么?


这不是什么新鲜事,指的是去年的美国。 Groq 公司发布的一个 AI Cpu,这个中文名叫做 " 语言处理单元 " ,推理和计算大语言模型。值得一提的是,目前国内还没有消息。说实话,这个概念是用来炒的。 A 股票也有点超前了。。


现在又被大家拿出来炒了,还是因为有人讨论过? Deepseek 低成本计划,发现他们只是在 CUDA 驱动的 PTX 层进行了一些改进,实现了内存和通信效率的大幅提升。那么,如果再来一次。 " 硬件的独立算法设计 " ,提高效率将更加令人印象深刻。


所以大家突然想开了,以前干过。 AI 把显卡堆起来的做法就是自己把路走窄。。现有的硬件和软件都可以再次挤压,可以起到事半功倍的效果。


这软件 Deepseek 做到了,硬件嘛,研究人员翻箱倒柜找到的东西就是这样。 LPU 那个。作为专门为大语言模型推理设计的硬件,在发行之初,官方声称其推理速度为英伟达 GPU 十倍,成本只有英伟达的十分之一。


实现高效率的原则其实并不复杂, LPU 把通用 GPU 高带宽内存在里面( HBM )它被静态随机内存取代,容量更低,但速度更快。( SRAM ),对需要频繁阅读内存的大语言模型计算而言,推理速度要快得多。


给你举个例子, HBM 就像原来的双向八车道一样,虽然很宽,但是什么车都可以跑,红绿灯也很多,反而很容易堵在一起;而且 SRAM 正如双向两车道,只能跑公交车的快速公路,虽然车道较少,但通行效率较高。


听起来有点有趣,不是吗?众所周知,这张显卡最初是为游戏玩家使用的,而且是错误的。 CUDA 后来被人发现是非常合适的。 AI ,老黄也见机行事布局一下通用性。 GPU 和 AI 计算,结果造就了今天的万亿王国; LPU 听到这个名字就是为大模型准备的,这难道不比英伟达的开始高吗?


嗯,说到这里,托尼就要开始泼冷水了:事实上,目前现在的托尼 LPU 可能比你想象的有更多的局限性。很难说未来会发生什么。至少现在看来,我们想取代通用。 GPU 还差一点意思。。。。


为了解释这个问题,我们必须先讲一个看似表面无关的故事——关注币圈的老朋友可能都知道,有一件事叫做。 ASIC 矿山机械。这就是所谓的 " ASIC " 它是一种专门为某种用途定制的芯片。用于采矿。 ASIC 在硬件方面直接实现了一些挖掘算法,这样挖掘的效率就会比显卡高很多,成本也会便宜一些。


您看,成本更低,效率更高,专用芯片,听起来像是 LPU 看起来是个门道啊?


但是直到最后,显卡都没有被使用。 " 矿场 " 淘汰,或者老黄自己出手自废武功,禁止。 40 、 50 采矿时系显卡 HASH 计算率。。这是为什么?因为 ASIC 矿井机械的计算效率确实很高,但是成本是 --- " 专用 " 。


前面提到过, ASIC 在硬件开发方面,芯片与挖掘算法相匹配,因此导致挖掘比特币。 ASIC 矿山功能,只能挖比特币和以太坊,只能挖以太坊。如果矿主想用另一种硬币挖掘,他们必须更换机器。这有点抽象:如果有一天BTC一文不值,哥们囤积的比特币矿机会变成矿渣吗?


之后数字货币逐渐井喷,一天发一个新货币并不难,但是一天设计一个新的。 ASIC 采矿芯片可就不那么容易了。


现在大家应该明白了,显卡看起来和矿机相比没有什么优势,但是可以长盛不衰。主要原因是显卡更多。 " 通用 " 。即便英伟达 40 部门一开始就不能再挖矿了,矿场里还有很多。 30 系统显卡发光发热。


而 LPU 这里也是类似的道理,正因为这是专门用于大语言模型推理的芯片,所以如果让它处理一个图片视频这样的类型就没有优势了。但是现在每个人都想要 AI 做更多的事,除了推理之外,还要能够识别物品,理解语言,全靠推理。 LPU 扛起 AI 计算能力的一天显然是不现实的。并且在 AI 在这方面的训练,内存较小。 SRAM 同样尴尬大用,还是要显卡出手。


并且, " ASIC 矿机 " 还有一个原因可以引爆市场。——不单单是比显卡效率如此简单,这比显卡效率高出1000多倍!BTC ASIC 采矿机械发展到最后,采矿效率甚至比显卡高出数万倍!


但如今的 LPU 芯片远未如此夸张地提高效率:Groq 官方表示,效率提高了100多倍,也有新闻称增加了10倍以上。但是,无论哪种信源观点,都比当初更好。 ASIC 矿山机械的成绩差距很大,谁能保证? LPU 是否会变成更不值钱的矿渣?


还有各种资本谈论侃侃的成本。事实上,在去年的这个时候,我们的同龄人《 芯东西 》也写过 LPU 该芯片报道引用了前阿里副总裁贾扬清所做的粗略计算。


按三年运营费用计算, Groq LPU 英伟达达的采购成本将是 H100 的 38 两倍,运营成本就达到了 10 倍。


看到这里, LPU 相信大家都很清楚芯片目前的水平。


托尼不这么认为 LPU 这是个没用的东西,毕竟那一年, NPU 刚推出的时候,朋友们一般都不太看好——但是现在几乎只要是一个消费级的处理器芯片,里面就会集成一个小的。 NPU 。


但是托尼认为,如今吹 LPU 还是有点过早,尤其是各行各业。 A 股大神借着 LPU 便开始 " 荐股 " ,让我也很纳闷儿,不知情的还以为还以为是。 LPU 它是由中国企业制造的。。


这个真的有点不厚道。。


更何况,现在的 AI 这个行业仍然存在许多不确定性。—— Deepseek 低成本的方法会是昙花一现吗?现在的 AI 模型是否会被更有效的替代?下一代 GPU 是否会有划时代的技术突破?没有人能确定这些。


当然,未来的不确定性也可能是正确的。 LPU 有益。但是现阶段我们还是不听。 A 大神们胡吹,如果他们能压准,早就不在这里给你推荐了。 LPU 概念股。。。。


发文:小柳


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com