适合国产芯片的DeepSeek:多样化的性能,不同的商业前景。
随着DeepSeek热浪的爆发,国内各大GPU企业纷纷投身于适应浪潮。
看起来同样的动作,背后却各有千秋。
现在,业界报道更加注重适应性。 DeepSeek 然而,很少有人仔细研究这些企业之间的差异。是技术路线不同,还是性能表现不同?是生态建设有自己的特点,还是应用领域不同?
适应模型,选择正版还是蒸馏版?
从适配 Deepseek 从模型的角度来看,芯片制造商的行动大致可以分为两类。一个是原生。 R1 和 V3 适应模型,另一种则是适应。 R1 小模型蒸馏而成 。
三者之间的差异:
推理优先模型定位于DeepseekR1。,专门为需要深度逻辑分析和解决问题的场景而设计。它可以在数学、编程和推理等多个任务中实现高性能。
DeepseekV3定位于通用大语言模型中。,它可以快速、灵活地应用于多种自然语言理解任务中,满足多个领域的需要。Deepseek R1/V3正版模型一般参数较大,结构较为复杂。
DeepSeek-R1系列蒸馏模型基于DeepSeek R1蒸馏得到的轻量级版本参数少,结构更简洁,旨在在降低能耗的同时保持一定的性能。适用于边缘设备推理、中小企业快速验证等轻量级部署和资源有限场景。 AI 应用。
尽管每个家庭都在占据适应Deepseek的高地,但实际上每个家庭适应的模型类型也不同。

从图中可以看出,虽然主流GPU制造商正在加快DeepSeek模型的适应速度,但是明确宣布适配DeepSeek R1和V3的正版模型只有一半左右。。该模型对芯片计算能力、内存带宽、多卡互联等技术要求较高。包括华为升腾,海光信息。
另一部分厂商主要支持支持 DeepSeek-R1 系列蒸馏模型(参数规格为 1.5B - 8B 之间)。这类蒸馏模型的原始模型是通义千问和LLAMA,所以本来可以支持通义千问和LLAMA模型平台,基本上可以适应这些DeepSeek的蒸馏模型,工作量也比较小。包含摩尔线程,壁邈科技等。
不同尺寸的模型适用于不同的场景。云推理需要模型参数大,模型性能最好,主要适用于原生。 R1 或是 V3 模型;端侧芯片主要适配 1.5B~8B 这种模型的推理结构非常成熟,不需要花费额外的工作。 。
各企业的优势在哪里?
除适应的模型类型不同外,每个家庭选择的技术路线也不同,适应时遇到的难度也不同。
第一,从目前的技术生态和实际应用领域来看,,DeepSeek模型的运行与适应主要依赖于英伟达的硬件和编程语言,而各厂商的适应性则取决于其对原始开发生态的兼容性。
这个也意味着,DeepSeek 目前主要适用于英伟达芯片,对其他硬件平台的应用和性能有一定的影响。因此,是否容易适应基于英伟达GPU开发的DeepSeek等大型模型,与芯片是否兼容CUDA有关。能够兼容CUDA的厂商,适应水平也不一样。
第二,从性能表现来看,,FLOPS等不同GPU的计算能力、不同的内存带宽也直接关系到DeepSeek在处理大规模深度学习任务时的速度。有些GPU在能效比方面可能表现更好,适合在低功耗环境下运行DeepSeek。
下一步,读者不妨看一下主流芯片公司的适配。 DeepSeek 每个人都有自己的优点和难题。

华为昇腾(Ascend)
升腾有芯片 框架 全栈AI能力,如工具链,与DeepSeek的技术栈适应潜力巨大。
就硬件而言,为了提高AI练习和推理,升腾910芯片计算密度高,特别适合大规模模型训练。
就软件生态而言,如果DeepSeek基于MindSpore的提升,CANN异构计算架构与MindSpore框架深度绑定,那么升腾适应性极强;同时支持PyTorch/TensorFlow的迁移工具。
DeepSeek面临的升腾适应难题,如果DeepSeek依赖于CUDA生态,则需要通过华为适配层(例如升腾异构计算加速库)转换,部分性能可能会丧失。
海光信息(DCU)
海光的优点是海光 DCU 适应一般的“类CUDA”环境,并擅长高性能计算。
就硬件而言,基于AMD DCU系列的CDNA架构适用于ROCm生态,对CUDA代码转移友好,适用于DeepSeek场景,需要适应当前生态。
就情景适应而言,如果DeepSeek侧重于HPC,那么智算中心的应用是完善的。 AI结合场景(如科学计算),海光更具优势。
DeepSeek面临的海光适配难题,也许就软件工具链的成熟度而言。
兖原科技(深思)
在云端AI训练和推理方面具有优势。
就架构设计而言,针对Transformer等大型模型优化,深思芯片计算密度高,适用于DeepSeek的大型参数场景。
就软件适配而言,支持TF/PyTorch主流框架,为DeepSeek转移提供自动编译工具。
DeepSeek面临的困难问题是适应消息原。,其生态知名度较弱,需要依靠客户定制合作。
沐曦(MXN)
沐曦的优点是GPU实用与CUDA兼容。
就兼容性而言,MXN系列与CUDA兼容,如果DeepSeek严重依赖CUDA生态,沐曦的转移成本相对较低。
就商品性能而言,沐曦GPU理论计算率对标国际旗舰产品,适用于高计算能力需求场景。
关于沐曦适配DeepSeek面临的难题,商品量产进度和实际落地案例较少,需要验证稳定性。
天数智芯(天数)
与CUDA生态相兼容的天数智芯优势。
就生态适应而言,DeepSeek项目与CUDA相兼容,对现有代码库的DeepSeek项目友好。
DeepSeek面临的关于天数智芯适配的难题,支持千亿级大模型训练的高档算率不足,存在压力。
BR系列(BR系列)
单芯片计算率高,壁邈科技。
就硬件指标而言,高计算能力峰值使其适用于DeepSeek任务,需要完美计算能力。
对于DeepSeek所面临的壁邈适应问题,软体栈的成熟度有待提高。
昆仑芯
如果DeepSeek与百度生态协调,与百度Paddle深度绑定,则适应性更强。
摩尔线程(MTT S系列)
聚焦图形渲染与AI相结合,适用于DeepSeek的多模态应用(例如3D视觉),但通用计算能力有限。
云天励飞/太初元邈
侧重于边缘端推理,如果DeepSeek部署在智能终端上,这两个更有优势。
龙芯
目前龙芯主要是CPU,GPU商品处于初期阶段,适应DeepSeek还不成熟。
近期行业紧锣密鼓地适应行业 DeepSeek 一系列模型之后,如何商业化成为这个问题的焦点。
商用DeepSeek,有什么方法?
云端布署
比如DeepSeek模型通过华为云平台提供服务,公司客户可以直接使用DeepSeek功能,如图像识别、自然语言理解、语音识别等。,通过API调用或云服务。企业根据实际使用量(如计算资源、API调用频率)进行支付,降低前期投资成本。云服务模式可以快速上线和应用,无需公司本地部署硬件。
本地化部署
一体机方式:当前DeepSeek大型一体机分为推理一体机和训推一体机。DeepSeek-R11推理一体机内置DeepSeek 32B、70B、不同尺寸的模型,如满血版671B,价格从几十万到几百万不等,主要面向对数据安全、数据隐私比较敏感的企业客户。在DeepSeek-R1中,训推一体机的价格更高。 32B模型预训练和微调一体机价格已达数百万。
企业自行部署:DeepSeek模型可以在GPU芯片等硬件上本地部署,对性能要求极高的公司(如自动驾驶、金融风险控制)或对安全性要求极高的公司(如政府和金融机构)实现“满血”性能。
从目前的商业模式来看,由于GPU芯片和DeepSeek模型的本地部署成本较高,企业客户在考虑私有云部署、一体机等方式之前,会先在公共云上进行测试,以满足需求。因此,中小企业可能更倾向于通过云服务使用相关技术。
自然,一些高度重视数据安全或急需高性能计算能力的公司会毫不犹豫地投入10万甚至100万元来安排一体机来满足自己的需求。随着 DeepSeek 随着开源模式的发展,其私有化部署需求日益突出,集成机化等相关市场蓬勃发展,吸引了众多企业投身其中。
DeepSeek商业化,芯片公司谁做得更好?
升腾和海光的商业化在DeepSeek概念中取得了良好的进展。
一体机热销,升腾获利。
升腾:70%的公司将基于升腾向DeepSeek靠拢。
最近,DeepSeek一体机的发布商包括华鲲振宇、宝德、神州鲲泰、长江计算等,都是建立在升腾产品基础上的。
可以看出,随着DeepSeek一体机的密集发布,升腾的产业联盟不断扩大。
据报道,目前已有80多家企业基于升腾快速适应或推出DeepSeek系列模型,并提供外部服务。预计未来两周将有20多家企业上线。这意味着70%的国内公司将在升腾的基础上更接近DeepSeek。
与进口GPU方案相比,升腾芯片本地化服务和团队对DeepSeek部署的影响显著。例如,MindSpore工具链的自动并行功能使得分布式训练代码减少了70%。
海光:智算中心、金融等多个场景渗透
海光与 DeepSeek 合作涵盖了智算中心、金融、智能制造等关键场景。
就智算中心而言,海光信息与青云科技联合推出 “海光 DCU 基石智算 DeepSeek 模型” 计划,支持按压 Token 灵活调用收费方式,减少企业 AI 应用门槛。
就金融技术而言,中科金融与海光信息科技有限公司联合推出软硬一体化解决方案。该方案结合了自主研发的多场景多底座大型发动机和海光DCU系列加速卡,完成了与DeepSeek模型的深度适应。
就智能制造而言,海光 DCU 通过适配 DeepSeek-Janus-Pro 多模式模式,赋能工业视觉检测和自动化决策,帮助三一重工等企业实现生产线的智能化升级。
就数据管理而言,智慧创造的空天数 “睿思矩阵数据有用平台” 完全适应海光 DCU,将 DeepSeek 嵌入平台,作为 “非常发动机” 为生态资源、能源电力、航天工程等领域提供深入的数据处理支持。
另外,新致软件与中科海光合作,正式发布新致信创一体机——海光K100 GPU服务器是计算率的基石,与DeepSeek系列的大模型紧密结合,为用户提供从芯片到模型的全栈产业AI解决方案,开启安全、高效、敏捷的智能转型新时期。
JD.COM云还发布了DeepSeek大型一体机,支持华为升腾、海光等国产AI加速芯片。
国产GPU,机会来了。
伴随着DeepSeek一体机等应用的推出和广泛应用,市场对国产芯片的需求日益增加。
沐曦科技CTO杨建表示,大型后训练部分预计今年将有更多的非英伟达卡加入,对于国产芯片来说,DeepSeek推动的大模型私有化部署也是一个机会。
“2025年国内GPU的一个机会在于私有部署。基本上这个市场会专注于大模型后的实践和推理。”杨建表示,英伟达卡基于AI领域应用的GPU进入国内市场的方式,基本消失在零售市场,而私有部署则依赖于零售市场。如果私有部署市场爆发,国产卡就有机会了。
随著海外芯片计算率限制带来的难题接近,全球计算率可能形成两条并行路线,并逐步脱钩。到2026年和2027年,美国预训练和后训练的算率基础仍然是英伟达,而在中国,其中一部分由英伟达承担,另一部分由国产芯片承担。其中,今年将逐步有更多的非英伟达卡加入后训练部分,因为后训练对集群的要求比较低,不需要1000卡以上的集群。
同时,天数智芯相关人士也表示,随着国产模型的突破,对国产芯片的适应需求不断增加,今年国产芯片的发展机会也越来越大。
DeepSeek模型的火爆也暗示着AI应用爆发的机会,芯片制造商将注意力转向AI应用所需的推理率。去年,国内芯片评估主要集中在培训上。国产芯片将被用作英伟达培训的替代品。从2025年开始,将会有一个变化,那就是每个人都会慢慢看到国产芯片在推理市场的机会。
清扬提到DeepSeek对国产芯片的推广,上海人工智能研究院数字经济研究中心资深顾问。“DeepSeek通过强化学习机制将模型无效训练降低60%,并行计算的需求比传统结构降低40%。使得国产芯片在特定计算任务中的能效比可以达到英伟达GPU的75%。
同时,ASIC不仅限于GPU芯片,而且在AI推理方面具有细分优势、FPGA等芯片也将有丰富的发展机遇。值得注意的是,虽然上面提到的DeepSeek的火爆给国内芯片公司带来了许多机遇,但国内芯片公司仍然需要在互联网和生态学等诸多方面进一步完善,因为DeepSeek仍然依赖英伟达CUDA生态。
本文来自微信公众号“半导体产业纵横”(ID:ICViews),作者:丰宁,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




