英伟达新对手悄然崛起。

2024-06-16

� � 假如你想经常见面,欢迎标星。� � 收藏哦 ~


英伟达的对手是什么?


首选当然是 AMD 和英特尔,前者本身就有 AI 加快卡业务,集 CPU 和 GPU 与设计能力相结合,后者呢? x86 建筑的奠基人,现在也参与其中 AI 在加速卡领域,我们可以看到,他们推出的产品不仅在参数上与英伟达进行了比较,而且在定位和售价上也发动了一轮又一轮的攻势。


而且英伟达的客户和博通和博通 Marvell 在形成统一战线后,它也成为了它的对手,不断推陈出新的自研定制芯片,开始取代传统的通用。 AI 加速卡,让英伟达感受到另一种压力。


但是在网络领域,英伟达也迎来了自己的对手。


英伟达独占 AI 网络


进入 21 自20世纪以来,随着云计算和大数据的日益普及,数据中心发展迅速。而且 InfiniBand 这其中起到了很大的作用,特别是从 2023 年开始,以 ChatGPT 以大型为代表 AI 模型依赖于 InfiniBand,进一步提高了这种网络技术的关注度。


大家都知道,自诞生以来,现代数字计算机一直使用冯。 · 该系统架构包含诺依曼系统架构 CPU(算术逻辑单元和控制模块)、内存(RAM、硬盘)和 I/O(输入 / 导出)设备。20 世纪 90 年初,为了支持越来越多的外围设备,Intel 率先在标准 PC 在结构中引入了外围部件的互连。(PCI)总线设计。


随后,因特网进入了快速发展阶段,在线业务和用户数量的不断增加。 IT 该系统的容量提出了巨大的挑战。在摩尔定律的支持下,CPU、存储器、硬盘等部位都在快速进步, PCI 总线升级换代速度较慢,极大地限制了总线的升级换代速度 I/O 性能,成为整个系统的瓶颈。


针对这一情况,Intel、微软和 SUN 率先制定“下一代” I/O(NGIO)“技术标准,而且 IBM、康柏和惠普牵头制定了“未来” I/O(FIO)",并于 1998 年度联合制定 PCI-X 标准。


1999 年,FIO 开发论坛和 NGIO 并且建立了论坛合并 InfiniBand 贸易协会 ( IBTA ) 。很快,在 2000 年,InfiniBand 架构规范 1.0 正式发布版本。InfiniBand 替代是诞生的目的 PCI 它引入了总线 RDMA 协议,提供更低的延迟,更高的带宽,更高的可靠性,从而实现更强的延迟。 I/O 性能。


同样在 1999 年 5 月份,几名离开英特尔和伽利略科技公司的员工在以色列成立了一家名为“ Mellanox 芯片公司, Mellanox 成立后加入 NGIO,之后 NGIO 与 FIO 合并,Mellanox 也加入 InfiniBand 阵营,并于 2001 第一款是每年推出的 InfiniBand 商品。


而且随着英特尔的转变 PCI Express(PCIe),还有微软撤出 InfiniBand,这种网络技术开始转向计算机集群互联的应用范围,而新成立的网络技术 Mellanox 开始走上舞台,逐渐变成 InfiniBand 发展过程中的中坚力量。


InfiniBand 虽然英特尔和微软同时放弃了它,但它已经在新的领域找到了增长点。2012 2000年后,高性能计算(HPC)需求不断增加,需求不断增加,InfiniBand 随着技术的不断进步,市场份额不断增加。2015 年,InfiniBand 技术在 TOP500 榜单中的份额首次突破 50%,达到 51.4%(257 个系统)。这标志着 InfiniBand 该技术首次成功挑战以太网技术,成为超级计算机首选的内部互联技术。


而 Mellanox 也在成长:2010年 年,Mellanox 与 Voltaire 合并,Mellanox 和 QLogic 变成 InfiniBand 主要供应商;2013 年,Mellanox 进一步进入网络领域,收购硅光技术公司 Kotura 和并行光互连芯片制造商 IPtronics,进一步巩固其行业地位; 2015 年,Mellanox 已占据全球 InfiniBand 市场 80% 的份额。业务范围从芯片扩展到网卡,交换机 / 网关、远程通信系统、电缆和模块已成为国际网络供应商。


随着 AI 稳步发展,InfiniBand 它的价值也越来越明显,Mellanox 又因其在这一技术上几乎垄断的地位,成为厂商眼中的热点。


为何 InfiniBand 对于 AI 如此重要?对于 AI 对于超级计算机来说,我们可以把它看作是一个很多图形控制部件。(GPUs)这些模块构成了大量复杂的集群计算。另外,还有一些中央处理单元(CPUs)负责指挥计算机的操作,再加上一些 DRAM 芯片和 NAND 芯片的成本大致分配如下:50-60% 用于 GPUs,10-15% 用于 CPUs 和 DRAM 芯片,5-10% 用于 NAND 芯片。


但是以上所有芯片都需要相互连接,这可以通过 InfiniBand 或者用太网电缆来实现,即所谓的“网络”,它们占用硬件成本。 10-15%,目的是提供尽可能高的带宽,这样数据就可以快速传输。如果不能实现更高的带宽,那么不管是什么。 GPUs 花多少钱,最终都会变得毫无价值。


英伟达作为 AI 这个领域最早的探索者之一,非常敏锐地意识到了这一点,同时决定把重点从游戏转向游戏。 AI。2019 年,英伟达以 69 亿美元收购 Mellanox,超过竞争对手英特尔和微软的出价,后两者的出价分别是 60 亿美金和 55 亿美元,这笔巨额收购,为英伟达进入网络技术市场铺平了道路。


那时候的英伟达 CEO 黄仁勋解释说,收购 Mellanox 理由是:“这是两家世界领先的高性能计算企业的合并,我们专注于加快计算, Mellanox 然后致力于相互连接和存储。


GPU 与网络技术捆绑销售,听起来有点像强买强卖,但很多人没想到的是,黄仁勋创造的这种模式很快就成功了。截至今年 1 月份,英伟达的年收入翻了一番多,实现了 609 亿美元,运算网络单位销售额增长 占英伟达业务的215% 78%。虽然英伟达 GPU 一部分引起了很多关注,但是它的网络业务也是成功的关键。黄仁勋在企业最后一次财务报告电话会议上表示,InfiniBand 与去年同期相比,收入增长了五倍,这意味着其增长速度约为整个计算网络业务的两倍。


英伟达将自己的 GPU 算率与 Mellanox 结合网络技术,打造了一个强大的“计算引擎”,在计算基础设施方面,英伟达无疑占据了领先地位,


大威胁的英伟达


以前,业界一直在使用英伟达配套设施。 InfiniBand 人工智能和机器学习技术的布局是网络解决方案,原因很简单,它是目前支持大规模部署的最成熟的网络技术,但是 InfiniBand 这并不完美。一方面,由于收购,它已经成为英伟达的专属产品;另一方面,它的成本很高,这是普通公司无法承受的。


英伟达的 CEO 黄仁勋曾经调侃过,InfiniBand 只有集群成本 20%,而且它可以提高人工智能训练的性能。 20%,在一定程度上已经收回了成本, InfiniBand 实际上是免费的。但是这种观点显然是偏概全的,顾客必须先拿出集群成本。 为了真正压榨集群的性能,20%,这意味着使用它, 120% 的成本创造 120% 的性能。


相比之下,基于以太网的集群通常只需要额外的集群。 10% 尽管后者在性能上往往很难,甚至更低的成本, InfiniBand 与之竞争,但是它凭借自己的廉价价格也赢得了一部分顾客。事实上,现在高性能网络的竞争, InfiniBand 与高速以太网的竞争,资源充足的厂商更倾向于选择 InfiniBand,而且重视性价比的厂家可能会重点关注高速以太网。


然而,这种情况并不是一成不变的。即使是资金雄厚的大企业也在寻找更便宜、更合适的网络解决方案,英伟达和 InfiniBand 不断地受到挑战。


2023 年 7 月,Linux 该基金会宣布将成立一个超级以太网联盟进行监管,其创始成员包括 AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 在微软的支持下,超以太网联盟表示,为了满足高性能计算和人工智能系统所需的低延迟和可扩展性要求,将致力于改善以太网。


这个联盟的首要任务是定义和开发他们所说的超以太网传输。(UET)协议,这是一个新的以太网传输层协议,可以更好地满足人工智能和 HPC 需要工作负荷。


在高层次上,超以太网联盟希望通过手术来完善以太网,只改进和改变实现目标所必需的部分。从一开始,联盟就专注于改善以太网技术的软件层和物理层,但不改变其基本结构,以保证成本效率和互操作性。


为了定义超以太网通信的协议、接口和数据结构,联盟的技术目标包括开发规范、应用程序接口和源代码。此外,联盟还致力于更新现有的链接和传输协议,创建新的监控、信令、安全和拥堵机制,以更好地满足大型人工智能和高性能计算集群的需求。与此同时,由于人工智能和高性能计算的工作负荷有许多不同之处,UET 为适当的部署提供独立的环境变量。


得益于这个超级以太网联盟,以前的以太网运行 AI 工作负荷的几个问题正在解决中,也促进了以太网在过去。 HPC 在工作负荷中的应用更加广泛,这也使得以太网网络公司找到了反击 InfiniBand 的机会。


以太网络企业是以太网联盟的一员。 Arista Networks 在今年 2 月度财务报告电话会议,其CEO Jayshree Ullal 解释了 InfiniBand 与以太网的区别:“如你所知,从历史上看,应该独立考虑。 InfiniBand 和以太网各有优势。传统上,InfiniBand 它被称为无损,而以太网被认为具有一定的损失特征。但是,当你实际上把一个完整的 GPU 当集群与光学设备一起考虑,查看所有数据包大小中任务的结束时间一致性时,数据-包括来自博通的第三方数据-在现实环境中展示比较这些技术,以太网的任务结束时间可能很快。 10%。所以,你可以独立地看待这些技术,也可以在实际集群中对待它们。但是在实际集群中,我们已经看到了以太网的改进。请记住,这只是我们今天知道的以太网。一旦我们有了非常以太网联盟和一些改进,比如数据包喷洒、动态负载平衡和拥塞控制,我相信这些数字会变得更好。"


" Arista 声称其以太网在任务结束速度上比以太网更快 InfiniBand 快约 10%,这让我们感到惊讶,尤其是考虑到这一点。 InfiniBand 在当前 GPU 深度渗透到集群中。" Jefferies 分析师 George Notter 会后表示。


他指出,英伟达将 GPUs 与 InfiniBand 简单的捆绑销售是技术成功的关键原因,也就是说,InfiniBand 之所以受欢迎,是因为它与英伟达有关。 GPU 一起销售,但是现在 GPU 积压订单减少,使用减少, InfiniBand 同时,动机也会减少,这对 Arista 而另一家以太网网络公司博通则是个好消息。


"我们主要在四个方面 AI 在以太网集群中取得了进展,我们打败了这些集群。 InfiniBand 例子。在所有四个案例中,我们现在正从实验转向试点,每年连接成千上万的案例。 GPU," Arista CEO Jayshree Ullal 解释说。


Arista 上个季度的表现也很不错,到最后一个季度, 3 月中三个月,Arista 收入同比增长 每股收益增加16%。 分析师预计,44%, AI 随着基础设施支出的增加,这种增长将加速。Arista 约 40% 业务来自微软和 Meta,两家公司都宣布明年将再次增加资本支出。Jefferies 分析师 George Notter 近期还将 Arista 评级由拥有提高到购买,他指出:“现在,部署是基于 GPU 基础设施(包括以太网)的热潮将持续很长时间。"


Arista 并非唯一得益于“布署热潮”的网络公司。博通截至 2 月 4 三个月的日收入同比增长 34%,达到 120 亿美元,其中网络收入增加了。 46%,达到 33 亿美金。“这主要是因为我们的两个超大客户对于 AI “博通CEO”加速器需求强劲 Hock Tan 解释财务报告电话会议。


对于网络硬件的需求比博通预期的要快,“超大型客户和部署” AI 大型企业在数据中心的强劲需求推动了这一增长。因此,博通预期其网络业务的全年增长 30% 上调至 总的来说,博通今年的收入预计是35%。 500 与去年相比,亿美元增长 40%。


国外媒体 nextplatform 提出了一个有趣的数学问题:Arista Networks 在 AI 在集群互连销售中赚取每一个收入 7.5 亿美元,英伟达可能会损失。 15 亿至 22.5 亿美金。在过去的 12 在这个月里,英伟达粗略估计在 InfiniBand 网上销售额为 64.7 十亿美元,而数据中心的 GPU 销售计算为 397.8 在四比一的分红率和稳定的市场环境下,英伟达能够保留约1亿美元。 13 十亿美元,而非常以太网联盟可以保留。 17 亿至 26 如果一切都一致,亿美元,InfiniBand 实现销售目标 120 亿美金。


媒体指出,以太网联盟的成员可以占据很大的市场份额,但他们将通过从系统中移除收入来占据,就像 Linux 对 Unix 与其把收益从一种技术转化为另一种技术,不如把节省下来的资金重新投入到其中。 GPU 中。


挑战英伟达


在网络领域,英伟达不仅仅是一个挑战,正如我们前面提到的,它最大的依赖就是—— GPU 正在受到 AMD、虽然英特尔、博通等公司都在围攻, 3 市值亿美元,但仍会倍感压力。


网络市场,Arista 现在无疑还是一家相当弱小的公司,与英伟达相比, InfiniBand 几十亿美元的利润,短期内也很难挑战,但是巨头们对于巨头们来说, AI 集群网络垄断的不满, Arista 获得快速发展的宝贵机遇,假以时日,很有可能成为英伟达新的心腹大病。


点这里� � 更加关注,锁定更多原创内容


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com