支持摩尔进程 DeepSeek 开源周“全家桶”

2025-03-03

IT 世家 3 月 2 日消息，DeepSeek 开源周正式结束，摩尔进程智能科技(北京)有限公司昨晚发布消息，宣布短期内成功实现。 DeepSeek 全面支持每一个开源项目，包含 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer 文件系统(3FS)。

IT 支持世家附摩尔的进程 DeepSeek 开源周“全家桶”代码合集如下：

FlashMLA

FlashMLA 这是一种高效率 MLA（Multi-Head Latent Attention）推理核心开源仓库，旨在加快推理 MLA 计算系统，特别适用于 DeepSeek 系列模型（如 DeepSeek-V2、V3 和 R1）。

基于全新的摩尔进程 MUSA Compute Capability 3.1 计算结构，可以提供原生 FP8 在升级高性能线性代数模板库的同时，计算能力 MUTLASS，迅速支持了 FlashMLA。借助 MUTLASS 0.2.0，摩尔进程发布开源仓库 MT-FlashMLA，能够快速对 DeepSeek FlashMLA 进行适配布署。

MT-FlashMLA 开源地址：

MUTLASS FlashAttention33 地址：

DeepEP

DeepEP 是一个用于 MoE(混合专家)开源模型训练与推理 EP（expert parallelism，通讯库，专家并行)，主要用于大模型训练，特别是需要。 EP 集群训练。通过优化通信通道的利用率，显著提高了训练效率。基于摩尔过程 MUSA Compute Capability 3.1 多功能 GPU，第一时间适应 DeepEP，支持下列特点：

高效优化的 All-to-All 通讯，支持 dispatch & combine

支持 MTLink GPU（MUSA Compute Capability 3.1)节点内部通讯

高吞吐量计算在训练和推理预填阶段的核心

低延迟计算核心推理解码阶段

原生支持 FP8 数据分发

灵活控制 GPU 实现高效重叠计算和通信的资源

MT-DeepEP 开源地址：

DeepGEMM

DeepGEMM 是一位支持密集矩阵和混合的专家（MoE）矩阵乘法的 FP8 GEMM 库，为 V3 / R1 实践和推理提供了强大的动力。该开源仓库基于高性能通用矩阵乘法（GEMM）的 C 设计模板库。基于摩尔的过程 MUTLASS 在全新 GPU 完成了架构上的提升 FP8 矩阵乘法，支持 DeepGEMM 相应的功能。

MUTLASS FP8 GEMM 地址：

DualPipe

DualPipe 是 DeepSeek-V3 通过前向计算和后向计算阶段的计算与通信完全重叠提出的双向流水线并行算法，显著减少了“流水线气泡”(设备闲置等待)。与传统流水线并行相比，DualPipe 采用双向数据流设计，使数据从两侧进行相向处理，大大提高了资源利用率和训练效率。

依托深度学习框架的摩尔进程 Torch-MUSA(已开源)和 MUSA 软体栈全方位兼容，完成了对软件栈的兼容性 DualPipe 这种算法得到有效支持。MT-DualPipe 能完全接入摩尔进程 MT-Megatron 框架和 MT-TransformerEngine 框架(即将开源)，实现 DeepSeek V3 训练流程的完整复现。

MT-DualPipe 开源地址：

Torch-MUSA 开源地址：

3FS

Fire-Flyer 使用现代化的文件系统(3FS)是一种 SSD 和 RDMA 网上所有带宽并行文件系统，都能最大限度地利用固态盘的带宽性能， V3 和 R1 在3FS的练习和推理过程中成为应对的关键支撑， AI 测试练习和推理工作负荷。

一天之内，摩尔进程迅速完成了高性能分布式文件系统 3FS 建造，并有效地开发存储插件，与夸娥智算集群成功实现无缝集成，为 AI 训练、AI 提供全栈存储加速计划，如推理、科学计算等场景。

3FS CSI Driver 地址：

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

12.99万起！欧萌达奇瑞新款SUV流畅版

总投资307.8亿甘肃340项水利工程集中复工复工

【中央媒体看甘肃】张掖甘州区：“小种子”扛起“大产业”

继续重罚，森林狼在观众台失球，本赛季累计罚款32万美元。

订单量同比增长50%以上！北京亦庄企业创新驱动量子技术冲刺新目标