国产AI的希望!在摩尔过程中,夸娥千卡集群解决了AI算率产业化问题
这是一个 AI 时代,这是一个计算能力的时代。
不幸的是,我们已经没有机会接触到最先进的。 AI 使用硬件和计算率 H20 这种方法切割了两次 N 卡片,还要交几百亿的费用,真是憋屈。
面临持续上涨的问题 AI 计算能力的需要,我们只能发展自己的国产计划,发展自己的规模。 AI 计算集群,可以突破紧追不舍,走上康庄大路。
说到这里,很多人可能会第一时间想到华为,在美国制裁下顽强屹立突破的中国企业标杆,升起腾腾。 910B 在 AI 在计算领域也取得了一定的成就。
中国仅仅依靠一个华为当然是不够的。在中国 AI 生态学需要蓬勃发展,才能有更多的突破,使生态学更加繁荣。
现在看来,摩尔进程是多功能的。 GPU 走通用计算路线是另一条希望之路,尤其是它已经成为华为之外的另一条全国性的产品,可以实现千卡千亿参数的大模型训练。 AI 芯片公司。
说到这里,大家对摩尔的进程并不陌生,它可以称之为中国自主。 GPU 最大的希望,但是许多人对摩尔线程的认识仍然停留在国产游戏显卡上,其实并非如此,摩尔进程在 AI 上面的力量也很突出。
摩尔的过程自成立以来就是通用的。 GPU,就像英伟达一样,除了图形渲染,它还可以用于 AI 加速人工智能,科学计算。
经过三年多的潜心发展,摩尔进程正在进行。 AI GPU 从芯片、板卡、服务器到集群、软件栈等方面都展现出了强大的实力,构建了一个全栈。 AI 智算商品版图,并已多点落地,处处盛开。
例如清华系 AI 大型公司无需询问芯穹的合作。摩尔进程是国内第一家接入无问芯穹并成功完成千卡等级大模型培训的公司。 GPU 公司。
“夸娥”摩尔线程 ( KUAE ) 千卡智算集群,已与无穹 Infini-AI 大型模型开发与服务平台完成系统级别的适应,并完成 LLama2 700 一亿参数大模型的练习测试。近日,双方再次完成“ MT-infini-3B " 3B ( 30 亿参数 ) 实践大模型。
这个意思是什么?这个行业是第一个基于国产的 GPU 芯片从 0 到 1 端到端大模型实践案例。同时,夸娥也成为行业内第一个成功运行并完全运行国产大模型千卡集群。
无问芯穹联合创始人兼兼 CEO 夏立雪表示支持:“经过无问芯穹 Infini-AI 平台实践与联合优化工作验证,摩尔进程夸娥千卡智算集群在精度、性能、便捷性、计算利用率等方面表现突出,实践中长期稳定训练不中断,可为千亿参数级大模型训练提供持续高效的高性能计算率支持。"
此外,基于摩尔线程的夸娥千卡智算集群成功完成了不同参数量级的大模型分布式训练测试,具有完善的效率、精度和稳定性。基于夸娥千卡智算集群的摩尔进程,滴普科技成功完成 700 亿参数 LLaMA2 大型语言模型的预训练测试,总训练时间 77 小时,全程无故障连续运转,集群训练稳定性达到 100%。
夸娥(KUAE)这是摩尔进程推出的智算中心全栈解决方案,而夸娥这个名字来自于我国神话传说中的大力神夸娥氏,
可以说,为 AI 算率集群取这样一个名字,充分展现了独一无二的中国人的坚韧和浪漫。出自《愚公移山》:"帝感其诚,命夸娥氏二子负二山,一厝朔东,一厝雍南。此后,冀之南,汉之阴,无陇断。"
夸娥解决方案的基本节点是大型智算加速卡 MTT S4000 由两路八卡组成 GPU 服务器" MCCX D800 ",以软硬件一体化交付、开箱即用的方式,高度可靠地进行大规模处理。 GPU 计算能力建设与运营管理问题。
MTT S4000 是摩尔进程的新一代专为摩尔进程。 AI 基于其自主研发的第三代智算加速卡大模型, MUSA 架构。
运用自研的 MTLink 互连技术,MTT S4000 能高效平行千卡,线性加速比高达 91%以上。
最为重要的是,摩尔进程具有自研多功能。 GPU MUSA 统一的系统架构,包括指令集架构,MUSA 编程模型、驱动、运行时间库、算法库、通讯库、数学库等。,并完全适应 CUDA 软体生态,代码几乎可以零成本转移,也不用担心未来的可用性。
MTT S4000 不但可以大规模使用 AI 还具有领先的图形渲染能力,视频编码解码能力,8K 超高清晰度显示能力。
这样就可以支持数字孪生、云游戏、云渲染、数字内容创作等场景,配合大模型推理能力,服务于 AIGC 等待多模态需求场景。
从 2024 从年趋势来看,多模态需求将迅速上升,英伟达 CFO Colette Kress 曾经预计这项业务将在零增长到数十亿美元,国产芯片也是如此。
MCCX D800 作为 AI 大型训推一体机,是专门为支持而设计的。 MTT S4000 大型智能计算加速卡可以更好地发挥训练和推理性能、稳定性和可靠性,同时适应主流服务器系统。 GPU 软件和硬件生态。
因此,从核心基础方面来看, MUSA 在性能强大、可灵活部署的情况下,统一架构芯片 MTT S 一系列智能计算加速卡,到高度集成和完整战略的训练推动一体机,到小型智能计算微模块,最后到夸娥千卡集群,摩尔进程提供了一套完整的多功能。 GPU 产品组合。
因此,不同需求的客户,可以根据实际情况,选择最适合自己的相应级别方案。
夸娥智算中心全栈解决方案,包括以夸娥计算集群为核心的底层基础设施、中间层基础设施。 KUAE Platform 集群管理平台,顶级管理平台 KUAE Model Studio 大型平台,软硬一体开箱即用,一站式方案,一体化交付。
第一,在基础设施方面,多功能 GPU 这是一个非常坚定的基石, AI 加快计算,3D 图形渲染、高清视频编码解码、物理仿真、科学计算四大计算引擎,在功能上是国内唯一可以比较的。 NVIDIA 多功能国产产品 GPU。
其次是软硬结合,因为它与传统结合。 GPU 从芯片到卡路径不同,摩尔的进程走的是系统级的平台路线,不仅包括千卡规模的算率集群,还包括集群管理平台和大型平台,从而实现软硬结合,以集成交付的方式处理大规模。 GPU 计算能力建设与运营管理问题。
最后,从底层基础设施到中间层管理平台,再到上层应用,摩尔的过程得到了充分的覆盖,具有云全栈的能力,能够有效地为1000亿参数的大模型训练和推理提供强有力的支持。
综上所述,夸娥智算集群全栈方案有 8 核心优势:
第一,一般模型覆盖,支持包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、在行业内,如玉言等数十种主流模式的实践和微调。
二是 CUDA 摩尔进程代码移植工具可用于主流生态适应。 Musify,几乎零成本的把手 CUDA 代码自动转移到摩尔的统一系统架构 MUSA,再次有效地完成升级,并完全独立可靠。
第三,断点续训可以实时监控训练任务集群,分钟发现故障,自行恢复训练。此外,检查点的备份恢复可以大大降低故障率,提高综合训练效率。 15-50%。
第四,支持大模型分布式训练, DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 其他行业主流分布式框架,并结合多种平行算法策略,还支持大型分布式训练断点续训,分布式推理。
第五,加快推理,包括 KUAEModel Studio 综合应用平台,MUSA Serving 推理服务软件,MT Transformer 分布式推理加速框架,TensorX 推理能有效支持主流大语言模型推理,加快四大框架。
第六,高性能通信,包括 2/4/8 卡片节点内互连,PCIe 和自主研发 MT-Link 环节带宽汇聚,自研 MCCL 集合式通讯库等,MT-Link 带宽高达 112GB/s。
第七,高性能存储,支持存储数据。 RDMA 网络读写、GPU Direct Storage、加快数据读写,加快数据缓存,AI 训练性数据集载入加速、高性能并行文件系统、冷热数据与外部存储交换等。
第八,集群的可靠性和性能完全可以支持万卡以上的大规模。 GPU 集群运转。
历史无数次证明,越是艰难的时刻,越需要中国人勇敢地站出来,自力更生,打破封锁,AI 计算时代也是如此。
作为中国第一个落地的多功能 GPU 摩尔进程夸娥千卡集群方案是国内1000万卡的基础模型培训平台,完成了软硬设计、性能计算率、生态应用等诸多突破。凭借自主研发的软硬架构、开发平台和通用计算路线,在很多方面都有独特的优势。
尤其在极端的国际形势下,在我国 GPU 在技术相对薄弱的情况下,摩尔进程是最有希望破局的,多功能 GPU 唯一能与英伟达相媲美的功能,尤其是摩尔线程的创始团队,几乎都来自英伟达。创始人张建中是原英伟达全球副总裁和中国区总经理。他不仅有丰富的行业经验和丰富的技术基础,而且能够运筹帷幄。
但是除了技术之外,GPU 该行业还迎来了优惠政策,更有利于实现突破。
举例来说,北京市最近发布的《北京市计算基础设施建设实施方案(2024-2027 年)明确指出,要加快核心软硬件产品的自主可控性,构建自主可控率技术体系,推动人工智能大模型适应自主可控芯片。
自主可控的采购 GPU 根据投资额的一定比例,对芯片、进行智能算率服务的企业给予支持,加快智算资源供给自主可控。
摩尔进程夸娥千卡集群在各方面都有成熟的经验,堪称“中国英伟达”,最有希望实现国内自主替代和国内处理,从大模型训练与推理一体化到极高的稳定性和可靠性。它是“中国英伟达”,最有希望实现国内自主替代。 AI 计算率短缺的难题。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




