国产AI有望实现生态闭环,DeepSeek引路算率优化路径。
·DeepSeek还考虑了算法的准确性和系统的效率。协同优化除了极致的底层提升外,还可能使大型模型在使用国产计算率时达到甚至超越英伟达GPU的性能。从顶层的产品用途到底层的基础设施,大型模型的每一个层次都形成了非常好的生态,每一个层次都有优化的空间。
·未来推理率可能会有2-3个数量级的提高。计算能力的训练需求还是会增加的。总的来说,计算能力的需求会急剧增加,成本也会更高。但是计算率成本还有很大的压缩空间,单位计算率成本会降低,效率也会提高。
他说:“原来大家都认为训练模型只需要招聘一批算法工程师,再融一大笔钱,买一大批卡片,这件事就可以做了。但是现在不行了,现在还要招一批懂系统的人,这对AI行业来说是一个很大的变化。近日,上海交通大学长聘教轨副教授、无问芯穹首席科学家戴国浩在接受《ThePaper》采访时表示,DeepSeek使用的实践服务率并没有随着模型尺寸的比例成倍增加,而是通过底层提升释放了底层硬件性能和软硬件协同创新的“榨取”算率,大模型“炼制”开始追求终极性价比。
运用2048张H800 GPU,预计DeepSeek训练不到2个月。 V3。H800每小时2美元的租赁费用,培训费用约550万美元,其中不包括前期探索模型架构、消溶试验等费用。戴国浩说,DeepSeek拉响了生态闭环的第一枪,为提高国内计算率提供了更清晰的途径。总的来说,计算能力的需求会急剧增加,推理率可能会增加2-3个数量级,计算率成本会更高。但是计算率成本还有很大的压缩空间,单位计算率成本会降低,效率也会提高。
戴国浩,上海交通大学长聘教轨副教授,无问芯穹首席科学家。
底层提升释放底层硬件性能
与模型架构、预训练方法和后训练方法相比,DeepSeek更注重系统架构的拆解DeepSeek的技术报告。相比之下,在海外开源模型公开技术报告中,系统架构的介绍空间较小。
戴国浩表示,DeepSeek的终极性价比来自两种类型的推广。一是了解硬件细节,实现终极底层推广;二是打通软件和硬件,实现联合协同推广。前者基于确定性的算法模型和底层硬件进行通信推广和内存优化,不改变任何程序的运行结果。后者,如混合精度的量化,底层硬件的修改,系统的优化空间的扩大。
例如,在通信推广方面,DeepSeek选择了双向流水线机制,使得计算通信重叠近100%,实现了更大的专家并行,使模型能够像流水线一样“边计算边传”,这被认为是利用有限的资源对更大模型进行训练的有效手段。PTX的优化促使系统和模型能更好地释放底层硬件性能,这也是DeepSeek能更精细地控制底层硬件,实现“边算边传”的重要原因。
对大模型进行训练,首先要有GPU。但是开发者不需要注意底层硬件的外观,只需要通过Python等高级语言或者英伟达CUDA等硬件接口进行编程,最后调用底层GPU。而且PTX可以直接与底层硬件互动,一般都是隐藏在CUDA的驱动中,PTX是比CUDA更底层的硬件接口编程语言。越接近底层语言,硬件的使用效率越高,在相同的硬件能力下实现更详细的通信任务管理,最耗时的跨界点通信效率提高60%,跑出效果更好的模型。
PTX编程不是行业秘密,但是大多数大型算法工程师以前都不会接触到这种语言。所以,如果PTX可以编程和调用,底层硬件就可以更好的调用。然而,戴国浩解释说,这并不意味着绕过了英伟达CUDA的垄断。在编程范式上,DeepSeek在一些代码上绕过了CUDA的编程,但是CUDA生态并没有完全避免。
软硬件协同创新“榨取”计算率
“从顶层的产品用途到底层的基础设施,大模型的每一个层次都形成了非常好的生态,每一个层次都有优化的空间。戴国浩表示,协同优化除了极致的底层提升外,还可能使大型模型在使用国产计算率时达到甚至超越英伟达GPU的性能。“原来的算法结构只考虑算法的准确性,每个人都认为只要算法足够好,但是DeepSeek也考虑了算法的准确性和系统效率。”
例如,英伟达H800集成了FP8计算单元,戴国浩表示,理论上,使用较低的精度训练可以带来2倍的计算速度和50%的显存减少。但由于低精度训练容易失去模型效果,大模型试错成本高,开源社区还没有实现大规模FP8预训练的项目。而且DeepSeek完成了FP8低比特训练出高质量的模型,坚定地“榨干”硬件的全部潜力。
MLA(隐空间注意计算机制)架构和MoE(混合专家模型)架构是DeepSeek的选择,MLA架构可以进一步减少推理消耗的内存。MoE架构采用1名共享专家和256名路由专家,每一个token激活8名路由专家。
据悉,MoE架构训练超大型模型,最大的挑战是负载平衡。引入DeepSeek的专家意见(expert bias),确保专家负载平衡,提高集群效率。专业人士的偏见只影响专业人士的路由,不会对梯度产生影响。专业人士成见动态管理,若某一专家过载,成见就会下降,若某一专家负荷不足,成见也会增加。选择MoE架构的DeepSeek,也解决了MoE本身在算法和软件方面因专家并行而产生的通信费用问题,对算法、软件、硬件进行了深入的探索。
第一枪国产AI生态闭环
“无论是底层推广还是协同优化,都要对底层硬件和系统有深刻的理解,不仅要懂算法,还要懂硬件。”戴国浩说,以PTX编程为例,开发者需要清楚地了解英伟达的硬件是如何制造的,所以门槛很高,很少有大型公司对PTX编程有系统优化能力,团队了解PTX编程,但模型训练本身投入很大,很难持续优化。
DeepSeek开始了第一枪,为提高国内计算率提供了更清晰的途径。降低计算成本是我国大型发展模式的核心之一。软件和硬件的协同路径包括模型、系统、芯片等关键因素,在国外已形成完善的闭环生态。戴国浩表示,在过去的认知中,使用海外芯片预训练和海外模型进行微调,与国外闭源或开源模型相比,获取模型总有一定差距,国内系统和芯片很难形成闭环生态。但是DeepSeek的出现使国内模型超越了海外模型,软硬件协同降低了计算成本,这种方法论可以打破目前的闭环生态瓶颈。
戴国浩表示,DeepSeek在文章中单独使用两页文字提出了关于未来硬件开发的建议,进一步证明了模型、系统和硬件的闭环路线。国外闭环AI生态系统一直是同构AI系统,其核心竞争力在于CUDA-X的垂直整合能力。因此,他认为,未来国内AI的发展应该通过激发跨越软硬件和上下游生态来增加模型、芯片和系统的协同优化和垂直开放,例如根据新一代模型架构来定义未来芯片的底层电路实现,并根据国内AI系统的互联网通信方式设计高效的混合专家模型架构。
“如何使国内模型、系统和芯片形成一个独立和可控的闭环,这在未来肯定会发生。”戴国浩表示,戴国浩的崛起是国内计算能力发展的好消息。未来,推理算率可能会有2-3个数量级的提高。训练计算能力的需求仍将增加。总的来说,计算能力的需求会急剧增加,成本会更高,但计算成本仍有很大的压缩空间,单位计算成本会降低,效率会提高。
戴国浩判断,未来大模型的发展方向,一是继续产业化,二是软硬件协同优化带来的成本降低,提高了模型训练和应用的极致性价比。性价比越高,计算能力的需求就越大,计算率就越紧张。目前,中国的计算率生态存在供不应求和供大于求的多重差异。中国独特的AI基础设施格局是多模型多芯片,异构算率很多,需要在闭环中使用硬件和算法产生正循环,使其易于使用。戴国浩表示,要通过软硬协同和多元异构榨取算率,降低获得强大底座模型的成本,处理算率缺口,以有限的算率赶超国产模型的能力。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




