284毫瓦的LPU芯片：真能颠覆大模型推理吗？

1天前

本文来自微信公众号：歪睿老哥，作者：歪睿老哥

朋友们，今天来聊聊一款颇具争议的AI推理芯片。

一家韩国公司研发出了一款AI推理芯片，其功耗仅为284毫瓦。没错，不是284瓦，而是284毫瓦。就是这样一款低功耗芯片，却声称在LLM推理性能上超过了NVIDIA H100，能效比更是比H100高出33%。如果这是真的，那无疑是AI芯片领域的一大突破。今天我们就来深入分析这款名为LPU的芯片，看看它究竟是真材实料还是夸大其词。

1. 指甲盖千分之一大小的芯片，为何如此强悍？

先来看一组参数，绝对让你惊讶。

首先是LPU这个名字，它的全称是Latency Processing Unit（延迟处理单元），而非LLM Processing Unit（大语言模型专用处理器），不过它确实是用于处理LLM大语言模型推理的，只能说命名思路比较特别。

这款芯片的架构如下：

据研发团队介绍，该芯片采用三星4nm工艺制造，芯片面积仅0.824平方毫米。这是什么概念呢？我们的指甲盖大约有100平方毫米，这款芯片的面积还不到指甲盖的1%。它的功耗为284.31毫瓦，仅相当于手机充电器功率的零头。

就是这样一款“袖珍”芯片，性能却不容小觑。处理13亿（1.3B）参数的大模型时，每生成一个token仅需1.25毫秒；两颗LPU协同处理660亿参数的大模型时，每生成一个token的速度为20.9毫秒，比GPU快1.37到2.09倍。更关键的是，它的能效比H100高1.33倍，比L4高1.32倍。

要是在三年前，有人说284毫瓦的芯片能与1100瓦的H100抗衡，恐怕会被认为是天方夜谭。但HyperAccel公司确实进行了对比测试。

2. LPU的核心优势：高效、精准、协同

这款芯片之所以性能出色，与其独特的架构密不可分。

第一大优势：Streamlined Memory Access（SMA，流线型内存访问）

简单来说，就是对内存访问进行了专门优化。大模型推理的主要瓶颈并非算力不足，而是内存带宽。GPU效率低的原因在于，它是为并行计算设计的，拥有大量核心同时工作，但LLM推理的特点是每次只处理一个向量，完成后再处理下一个，导致GPU的多数核心处于闲置状态。

LPU则不同，它专为大模型推理设计了“流线型”内存访问机制，数据从HBM直接传输到计算单元，中间无需绕路，带宽利用率可达90%。而H100在处理小模型时带宽利用率仅为28.5%，处理大模型时也只有70%左右，差距明显。

第二大优势：Operand Issue Unit（OIU，操作数分发单元）

这个单元负责数据调度，就像一位智能管家，提前准备好计算所需的数据，一旦计算单元需要，就能立即提供，避免了等待时间。

第三大优势：Streamlined Execution Engine（SXE，流线型执行引擎）

这是LPU的计算核心，内置了大量定制的MAC树（乘加运算单元），专门用于处理向量乘矩阵的运算，而这正是大模型推理中最耗时的操作。LPU将这些MAC树排列得十分规整，数据流进来后能一路计算到底，中间不停顿，就像一条高效的生产线。

第四大优势：ESL（Expandable Synchronization Link，可扩展同步链路）

这是LPU的关键技术。运行大模型时，单颗芯片的内存往往不足，需要多颗芯片协同工作。多颗芯片之间如何通信呢？GPU采用NVLink，带宽达900GB/s，看似很快，但通信时计算必须停止等待，导致效率下降。双GPU的加速比平均只有1.38倍，四GPU的加速比更低。

LPU的ESL技术则不同，它能隐藏通信延迟，实现通信与计算的重叠进行。因此，双LPU的加速比能达到1.75倍，接近理论极限的2倍。

这种可扩展性，连GPU都望尘莫及。

3. 软件生态：HyperDex让使用更便捷

硬件性能再强，如果软件不好用也难以推广。HyperAccel公司开发了名为HyperDex的软件框架，功能十分全面：

它支持自动编译，能根据模型参数生成内存映射和指令；同时支持HuggingFace API，主流的LLM模型都能在上面运行。这对开发者来说是个好消息，无需重新学习一套全新的工具。

不过，新架构的生态建设是一个长期过程。NVIDIA的CUDA生态已经发展了十几年，护城河十分深厚。LPU要想撼动NVIDIA的地位，仅靠性能优势还不够，还需要吸引更多开发者和厂商加入。

4. LPU能超越NVIDIA吗？还需冷静看待

看到这里，你可能会问：LPU真的这么厉害吗？

需要明确的是，这只是一款原型芯片。

首先，它是原型专用芯片，而非通用芯片。LPU只能用于大模型推理，无法完成其他任务；而GPU则能兼顾训练、推理、游戏、挖矿等多种用途，应用场景完全不同。

其次，论文数据与量产实际情况存在差异。论文中的数据是在理想条件下测试得到的，而真实场景中模型类型多样、请求复杂，能否保持这样的效率还不确定。

最后，生态差距巨大。NVIDIA拥有CUDA、TensorRT以及众多优化库，而LPU目前还只是一个新入局者。

不过，专用芯片在特定领域超越通用芯片的情况并非没有先例。比如比特币挖矿，最初使用GPU，后来专用ASIC芯片出现后，GPU就被淘汰了。大模型推理是否会走同样的道路呢？可能性很大。毕竟推理任务相对固定，不像训练那么复杂。如果专用芯片能降低成本和功耗，云厂商没有理由不采用。

5. 对我们的影响：端侧AI推理或迎爆发

作为普通用户，你可能觉得这与自己无关，但事实并非如此。

端侧推理AI芯片可能会迎来爆发。284毫瓦的功耗，在手机上也能使用。未来，我们的手机或许能本地运行大模型，无需联网，这样隐私、延迟、费用等问题都能得到解决。

不过，目前存储仍是瓶颈。这款284毫瓦的芯片使用了FPGA原型上的HBM来存储数据，就像一辆摩托车拉着一个大油罐。但这也说明，当前大模型推理芯片的瓶颈更多在存储，而非计算。

6. 总结

LPU芯片让我们看到了专用AI芯片的潜力，在特定场景下，专用架构确实能比通用架构高效得多。但要说它能颠覆NVIDIA，现在还为时过早，毕竟生态建设不是一蹴而就的。

不过可以确定的是，AI推理芯片领域的竞争会越来越激烈。除了LPU，还有Gorq、SambaNova、Tenstorrent、Taalas等众多参与者，未来会有更多架构加入这场竞争。

你认为专用AI推理芯片能撼动NVIDIA的地位吗？

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

廿五载岁月流转，81192，我们永远铭记！

无锡公积金2026年4月还贷提取资金划转安排及本地动态

方寸荷包藏锦绣：吴文化博物馆刺绣特展里的盈握之美

龙乡巾帼志愿红温暖三月春

危急时刻显担当！民警紧急救援车祸被困人员