「C位观察」数据流动艺术:构建AI时代的高速通信网络

在上一期的C位观察中,我们分享了对生成式AI带来的技术创新和产业落地的探索。在期待、拥抱和感受生成式AI和大模型的同时,我们也清楚地看到,中美在AI领域的合作和竞争是挑战和机遇的共存。因此,我们应该面对如何理清国内的优缺点,拆解和追逐各个环节。从AI的三个要素来看,数据,算法,算率从各自的角度来看,数据和应用领域是国内AI行业的优势,算法模型的差距也在逐渐缩小,但算率仍然是目前公认的最需要追赶的环节。
为提高和追求计算率,国内有大量的厂商和从业者在各个产业链环节努力工作。但是,面对中短期内架构、工艺、生产能力、出口禁令等方面的制约,我们认为从芯片方面实现单点突破仍然非常困难和不足。但借助国内电力和基础设施的优势,通过多卡、多节点、多集群的方式,以绝对数量的沉积取得突破,将是一条可行的路径。事实上,全球产业的发展也在跟随这一趋势,AI算率集群正在从千卡演变到万卡甚至十万卡。这个突破角度的关键是如何建立一个庞大的集群,如何将千卡/万卡拧成一根绳子来发挥更好的能效。我们认为互联网通信将在其中发挥特别重要的作用。因此本期「C位观察」由赵凡CMC资本投资副总裁赵凡和高级投资经理柴泽宇共同写作,与大家分享和交流数据中心的互联通信,尤其是节点/集群之间的通信。

赵凡 FanZhao
CMC资本投资副总裁
专注于投资领域:先进封装,chiplet、存储、DPU、半导体生产设备及材料,CIM
柴泽宇 BryanChai
CMC资本 资深投资经理
专注于投资领域:GPU//AI芯片,DPU、AI Infra、互联&协议,IP&EDA、汽车芯片
长期预警:本文约7000字,
估计阅读时间:18分钟
1

计算、存储、互联通信-构建AI计算集群“高速交通系统”三要素
自从模型时代开始以来,工业界一直遵循Scaling。 Law不断推出更大的参数模型和更多的模式模型,这带来了大量数据的收集、分析和应用,使得整个行业的计算能力需求以惊人的速度飙升。根据统计,大模型训练对计算能力的需求每三个月翻一番。能否获得更多、更有效的算率,成为每一个“玩家”的核心竞争力之一。在这波囤积卡、集群、建立数据中心的“军备竞赛”中,在摩尔定律接近极限、单卡计算率边际提高效率放缓的背景下,除了花费大量资金和资源获得计算卡和服务器绝对数量的囤积优势外,如何在实际场景中充分发挥这些AI芯片的性能,如何持续提高数据中心的整体数据计算和处理效率,这是工业正在探索的另一个方向,可以事半功倍。
一般来说,如果把一个AI智能计算中心比作一个以数据为中心的大型交通网络,那么构建和运行这个交通网络的三个核心要素就是计算率、存储和互联通信。在这个大型交通网络中,如果我们认为每个计算集群都是一个综合交通枢纽,那么计算率主要解决了这个枢纽站点单个站点的交通速度问题,而存储主要解决了单个站点的交通上限问题。互联网通信主要解决枢纽内部网站和网站之间的交通能力问题,以及枢纽和枢纽之间的交通能力问题。三者紧密相连,三管齐下,提高整个运输网络的运行速度和效率。
图1:计算率、存储、互联通信,构建数据中心“高速交通系统”的三要素
如何系统地扩展这一“高速交通系统”来处理更大规模的工作任务?当前行业主要有两种方式:1)Scale-up(向上/垂直扩展):通过增加单个系统的资源(如芯片计算率、内存或存储容量)来提高其性能,即使单个系统变得更强;2)Scale-out(横向/水平扩展):通过增加更多相同或相似设备的系统来分散工作负荷,也就是增加更多的独立系统来共同完成任务。
继续对比前面提到的枢纽站,Scale-up是针对单个枢纽的扩展,通过集成36个GB200x芯片推出的DGX,使用更大更多的网站来提高内部承载力和通行能力。 GB200系统。而且Scale-out就是建立和访问更多的枢纽来扩大整个运输网络,列出英伟达DGX。 SuperPOD,至少可以集成8个甚至更多的DGX 通过不断的扩展,GB200系统实现了数万个GB200芯片的汇聚。
图2:Scale-up vs Scale-out
从图2中,我们可以清楚地看到,计算能力和存储的主要焦点是Scale-up下单个枢纽内站点的规模和吞吐能力。大量的优化和改进实际上来自于基础设施硬件的性能和软硬件的协同。在这方面,行业通过架构、工艺、介质、软件生态等方面做出了大量努力,一批优质企业在国内外涌现。
但是,要解决Scale-up后枢纽中越来越多的网站接入和网站之间的运输能力问题,以及Scale-out之后越来越多的枢纽连接和运输问题,就需要建立更好的运输能力,即互联通信能力。同时,我们还观察到了数据中心整体规模和实际性能&效率提升的天花板,更多的是从过去计算能力的约束转变为互联通信的约束。换言之,我们认为未来提高集群效率的重点将从计算转变为网络。所以,本文将重点放在建设高速通道、支持和提高点到点之间的运输能力的互联通信领域。

图3:I/O带宽与计算率之间的差距不断扩大

图4:AI计算基础设施需要更好的互联通信能力,突破计算效率和规模瓶颈
2
互联网通信-AI计算集群的快速通道系统,处理枢纽和枢纽之间的物流效率
AI计算集群互联通信能力系统化的构建,主要来自三个方面,从内到外可以分为1)Die-to-Die(裸片间)互连:发生在芯片封装中,实现芯片内不同功能模块之间的数据交换;2)Chip-to-Chip(片间)互联:实现服务器内部,主板上不同的芯片间(例如 CPU-GPU,GPU-GPU)数据通信;3)Board-to-Board(机房)互联:服务器外部通信实现服务器-交换机、交换机-交换机之间的数据传输,数据中心集群的组网结构层层叠加。

图5:数据中心各级互联通信示意
英伟达为什么能在计算领域如此强大?除了众所周知的芯片架构和CUDA软件生态带来的单芯片的性能优势外,它在互联通信领域的多年布局也是针对Scale的。-up(NV Link、NV Switch)并且面向Scale-out (InfiniBand) 组合拳,使其在节点和集群方面的性能和效率遥遥领先。
图6:DGX英伟达 H100 内部网络结构SuperPod
就技术发展路线而言,Die-to-目前,Die通信能力的提高主要依赖于2.5D先进封装/3D,高速Serdes等更加统一规范,Chip-to-Chip互联网主要依靠更高速度的PCIE。、CXL协议和英伟达特有的NVLink技术等,但是这两条路线的主要解决方案是芯片和服务器内部的通信效率,也就是我们前面提到的如何解决Scale-up的问题,我们将在未来的一系列文章中进行更多的讨论。但是我们认为, Scale-由于受物理空间、布线、工程实现等限制,up的整体可扩展潜力和规模有限,而Scale-out作为Scale-up的进一步可持续性,将会更加规模化和扩展潜力。
在模型时代,过去传统的AI单卡、单服务器或单机柜可以解决的计算任务已经提升到需要千卡、万卡甚至10万卡的分布式集群来支撑。所以,如何提高服务器外部的Board?-to-Board、为了构建整个数据中心的“高速运输网络”,节点之间/集群之间的互联通信能力越来越重要,应对前面提到的更关键的Scale-out带来的通信挑战。那怎样实现大规模的Scale呢?-up?大型时代需要哪些数据中心网络?软硬件和技术服务需要哪些?下一步我们可以继续探索到底。
3

专注于枢纽之间的通行物流效率,处理Scale-up问题,大模型时代需要哪些数据中心网络?
大型数据训练量大,主要通过数据并行和模型并行练习。因此,需要采用分布式集群和多节点的训练方法,需要在节点之间进行中间值的实时高频通信,从而带来数据通信的两大新趋势:1)数据流量大幅增加;2)东西向流量主要由传统数据中心的南北向流量转变为AI数据中心。
图7:全球数据流量保持高速增长
图8:南北向流量向东西向流量转变。
为了提高AI芯片的有效计算时间比例,防止网络延迟和带宽限制,增加AI训练效率,提出了大量新的需求,如超大型组网、超高带宽、超低延迟和抖动、高可靠性和网络自动化部署,促进了网络结构的更新和升级,从典型的网络结构(树形)转变为多核心、少收敛的形式(胖树形、脊叶形)。
图9:与传统数据中心相比,AI数据中心对通信性能和效率的要求大大提高
图10:左边是传统数据中心网络的三层树架构,右边是AI数据中心的三层树叶架构。
传统的TCP/IP网络结构已经不能满足AI数据中心的低延迟、大吞吐、高并发等特点的应用需求。由于传统的TCP/IP网络通信使用核心发送消息,因此需要通过CPU进行数据传输。该通信方式具有较高的数据移动和数据复制费用,促使CPU负责大量的协议费用处理,从而导致更高的数据复制费用。 CPU 负荷和高流量,减缓其它任务的速度。面临这一问题,RDMA(Remote Direct Memory Access,为了节省数据传输步骤,提高通信效率,远程直接内存浏览)的横空诞生具有现实意义。与传统的IP通信不同,RDMA绕过了通信过程中的核心干扰,允许网卡避开CPU,主机可以直接访问另一台主机的内存,大大降低了CPU的成本,在高价值计算和逻辑控制上运用了珍贵的CPU资源,从而提高了整体的网络吞吐量和性能。
现在主流RDMA方案有三种,层次结构和网络硬件配置各不相同:
IB(InfiniBand):这是一个专门为RDMA设计的网络,最早由IBTA设计。(InfiniBand Trade Association)上下于2000年推出。InfiniBand专用网卡和交换机在RDMA方案中的性能最好,在设计之初就保证了可靠的传输。从最初的百花争艳,到现在英伟达/Mellanox的一枝独秀,生态相对封闭。
RoCE(RDMA over Converged Ethernet):通过以太网实现RDMA功能,RoCE可以绕过TCP/IP并使用硬件卸载,从而降低CPU利用率,提高传输速度和功率,降低成本。从2010年开始,IBTA发布了第一个RDMA-RoCEv1,它可以融入以太网运行,RDMA协议是基于以太网链路层,但是在传输层上仍然是基于InfiniBand协议。RoCEv2将于2014年发布, RoCEv1 用UDP/IP协议替换InfiniBand网络层。 仅用于传输层 InfiniBand传输层协议。支持RDMA流控技术的RoCEv2使用以太网交换机和支持 网卡RoCE。基于以太网的RoCE,所以生态开放,有很多“玩家”。
iWARP(Internet Wide Area RDMA Protocol):RDMA技术是基于TCP的,但是与RoCE相比,TCP连接在大型组网时仍然会占用大量的内存资源,数据传输效率仍然很低,性能比InfiniBand和RoCE差。iWARP使用普通的以太网交换机,但是需要支持iWARP的网卡。现在很少使用。

图11:IB、RoCEv1、RoCEv2、对比iWARP架构
4
IB vs RoCE,选择高速铁路还是高速公路?
从技术和性能的角度来看,目前在数据中心构建这个数据“高速运输系统”最主流的两条路线是由英伟达/Mellanox和其他制造商组成的“反抗军”。、RoCE基于传统的以太网改造升级。
更通俗的解释是,如果把传统的通信网络比作省道,IB就像一条新建的专有高速铁路,运输速度更快,效率更高,但只能跑基于轨道的高速铁路;RoCE类似于将现有的省道更新改造成高速公路,帮助以前在省道上行驶的各种车型以更快的速度和质量通过。所以,IB是一个“专业单项高手”,而RoCE则是一个“全能选手”。接下来,我们将通过一张图表,看看它们在性能、布局复杂性、生态、成本等方面的竞争:
通过对表格的直观对比,不难看出IB在传输性能、集群规模、运维等方面具有一定的优势。因此,在短期内,一些制造商受到军备竞争下计算资源紧张的限制,要么选择利用IB的特点快速建立集群进行模型训练,要么选择英伟达成套的方案,因为他们的网络组织能力不足,IB暂时在高性能计算领域占据了更大的市场。但从中长期来看,RoCEv2将凭借其更好的经济性和兼容性,获得更广阔的市场,因为它基于更大、更开放的生态和更好的跨平台支持,以及更低的硬件成本和更广泛的供应商选择。
当然,IB和RoCE都在不断演变以应对未来的考验,包括如何不断提高可用性,如何支持更大的集群等等。IB的未来版本将继续提高带宽,减少延迟,以保持其在高性能计算中的领先水平;RoCE可以通过改进流量控制系统和拥堵管理来提高其在大规模网络中的表现。另外,2023年7月硬件配置厂商博通,AMD、思科、英特尔、Arista和云制造商 Meta、UEC等微软共同创立了UEC(Ultra Ethernet Consortium,超以太网联盟)致力于开发物理层、链路层、传输层和软件新的开放式“Ultra Ethernet"解决方案,为了满足智能计算通信需求的增长,旨在促进高性能以太网的发展。目前,UEC联盟约有70家成员企业,华为、新华三、星融元、阿里、腾讯、百度、字节等国内厂商也是联盟的核心成员。
图12:例如UEC联盟成员
同时,我们也惊讶地看到,以太网追逐IB的步伐正在加快。就技术路线而言,以太网已紧跟IB推出800G带宽产品,并有1,600G计划,而且在时间线上并不落后。从下游客户的角度来看,Meta最近优先考虑了以太网的方案,无论是用来训练Llama的万卡集群,还是马斯克希望建立的10万卡集群。作为IB的领导者,英伟达还同时推出了全新的Spectrum-X以太网网络解决方案,并最近加入了UEC联盟,业界认为这是英伟达多年来“孤军奋战”后的第一次“乘势而上”。

图13:IB和以太网带宽路线图
5

在RoCE这条高速公路上,交换机、网卡和交换芯片是我们认为国内产业发展的核心基础设施。

交换机、交换芯片和网卡是构建以太网基础设施的核心部件。其中,交换机是当代网络&数据中心基础设施的核心部件,集成了每一个核心硬件和软件操作系统,负责网络中数据的传输和路由。世界主要供应商包括思科。Arista、华为等。作为交换机的核心部件,交换芯片决定了交换机的端口速度和吞吐量,技术门槛高。全球核心制造商包括英特尔、博通和Marvell。网卡利用其物理接口与交换机连接,实现计算机与网络物理层的连接,决定了数据的传输和卸载速度。世界核心供应商主要集中在互联网上。、英伟达和博通等等。

图14:交换机产业链
在交换机整机和操作系统方面,国内已经有一批具有全球竞争力的厂商,包括华为、新华三等传统通信厂商,锐捷、星融元等。走白盒路线。他们推出了基于800G端口的最高带宽51.2T自研交换机,在产品和解决方案能力上不落后于海外。但是在核心交换机芯片和网卡领域,国内还有很大的差距,海外厂商占据了绝大多数的市场份额。在交换芯片方面,博通、Marvell等海外大厂已经开始批量出货51.2T交换芯片,完成了完善的商业化。然而,国内主流交换芯片仍然是2.4。T/3.2T为主,性能较弱,无法满足大型因特网、数据中心的需要。就网卡而言,海外大厂供应给数据中心的网卡主流传输速度已达200G/400G。 bps的水平已经开始引入800G。 Bps网卡,但是目前国内RDMA网卡的最高性能仍然在100G。 bps水平。
总的来说,虽然国内在交换芯片和网卡方面存在差距,但在集群集成、核心交换机整机、光模块等领域取得了很大突破。基于以太网。我们认为,目前国内RoCE的行业阶段可能与原来的新能源汽车类似。首先,它开始突破整个(全车/交换机整机)和一个核心部件(锂电池/光模块),然后在此基础上推动整个产业链的全面突破。
从行业发展的角度来看,许多制造商仍然坚持过去传统的封闭软硬件系统和黑盒计划,包装、销售和交付从硬件芯片、网卡和交换机到软件操作系统。但我们认为,开放式架构和开源软硬件生态是数据中心互联通信的未来方向,如白盒&软硬件解耦交换机产品、SONiC等基于开源的交换机产品。(Software for Open Networking in the Cloud)通用网络操作系统,基于RoCE的商用网卡和交换芯片等,云原生&容器化。同时,我们也坚信,只有坚持开放、开放、建立泛在的生态联盟,国内才能在这一领域取得全面的突破。
6
结语
本期重点介绍了数据中心的互联通信,尤其是集群之间的Scale-out。我们对基于以太网的互联通信生态在中国的发展持乐观态度。这条技术路线也是中国公司未来面对英伟达最有希望实现追求的方向之一。虽然目前国内交换芯片、网卡等硬件还存在差距,但互联通信领域的一批初创企业已经开始崭露头角。可以预见,当地行业将迎来新的发展机遇,尤其是基于开放和开源生态的商业产品和软硬件解决方案制造商。
在未来,我们将聚焦互联通信的主题,在Die。-to-Die互联、片间互联、板间互联等多个方向进行更多的分享与交流。CMC资本将继续聚焦数据中心领域的关键技术和产业发展趋势,在AI和算率基础设施领域进行全面布局,依托基金团队丰富的产业背景和深刻的洞察力,结合AI算法厂商、芯片设计公司、晶圆厂、整机厂商等一线产业资源和政府资源,帮助加快国内化的全面突破。
参考资料:
1. “AI浪潮之巅系列InfiniBand”中金公司研究部: VS以太网,智算中心网络 “需求迎升级”
2. CICC研究部:“10年通信技术展望系列展望系列 224G PHY已经启航,数据中心有线通信正走向新的征程。
3. Morgan Stanly Research:“AI Supply Chain - AI Datacenter Network Switch Also Growing”
4. https://mp.weixin.qq.com/sBmcsn81mQ2TTCI7dIXef
5. https://mp.weixin.qq.com/sM87AR66iTrwj5QVsLI8px
6. https://mp.weixin.qq.com/s/mgppjGqPBQTAQxSvkSvvAw
7. https://mp.weixin.qq.com/s/N4gVhSUVMjGw50OKy0CTJQ
8. https://new.qq.com/rain/a/20240731A04LWP00
9. https://mp.weixin.qq.com/s/RyApSIT-wyrEzbiWEsvgZQ
10. https://mp.weixin.qq.com/s/_ccsHKM8G4lKdr3t44DuaLQ
本文来自微信微信官方账号“CMC资本”,作者:C位,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




