国产GPU直面英伟达H200:请给自主芯片多些成长时间
2025年12月17日,专注高性能GPU研发、产品覆盖AI计算、通用计算及图形渲染领域的沐曦股份登陆科创板,首日收盘价829.90元,较104.66元的发行价暴涨725.24%。
仅在不到两周前的12月5日,摩尔线程率先敲开科创板大门,成为“国产GPU第一股”,不仅是2025年科创板募资规模最大的IPO,更以88天的受理到过会速度刷新纪录,114.28元/股的发行价在上市首日收获425.46%的涨幅。
国产GPU厂商密集上市并获市场热捧,某种程度上是对“狼又来了”的回应。据媒体报道,2025年12月8日,美国前总统特朗普在社交媒体宣布:美国将允许英伟达向中国“经批准的客户”出口H200人工智能芯片,但销售收入的25%需上缴美国政府。
美国智库进步研究所报告显示,H200性能约为H20的六倍,却与最新Blackwell芯片存在代际差,恰好卡在“能用但不先进”的区间。因此美国解禁H200,实则是“温水煮青蛙”策略的延续——通过“倾销”性能相对落后却仍具竞争力的H200,试图延缓中国芯片的国产替代进程。
英伟达CEO黄仁勋曾直言,增加对华芯片销售既能让中国企业依赖其技术,又能为公司带来更多研发资金。这种“以战养战”的思路,与美国鹰派的“技术依赖论”不谋而合。
不过这场“温水煮青蛙”能否奏效,还要看中国是否接招。从加速推动国产GPU厂商上市的动作来看,显然中国并未上钩。
01 没有H200的三年:至暗时刻与破局之路
2022至2025年,美国对华半导体出口管制层层加码。2025年4月的进一步收紧,导致英伟达为中国定制的H20特供芯片被迫停售,公司因此承受约45亿美元库存损失及80亿美元潜在收入损失。同年10月,黄仁勋公开表示,受管制影响,英伟达中国市场份额从95%骤降至0%,“100%退出中国市场”。
这三年被业界称为中国AI芯片产业的“至暗时刻”,却也成了国产芯片加速崛起的催化剂。面对外部封锁,国产GPU厂商祭出“三管齐下”的突围策略:
在单卡性能暂难匹敌英伟达时,通过堆面积、晶体管、芯片弥补差距。华为昇腾910C采用双Die设计,FP16算力达800 TFLOPS,性能逼近英伟达H100的80%;寒武纪思元590综合性能达A100的70-80%;海光信息深算二号FP16算力1024 TFLOPS,接近A100的90%。
因能效比不足,国产卡普遍以“电力+工程能力”硬顶功耗问题。摩尔线程“平湖”架构支持单芯片最高1000W TDP动态功耗管理,通过液冷等手段保障稳定运行。虽每瓦性能仍落后英伟达约30%,但低功耗版国产卡已在流片。简言之,这段时期国产卡常靠更密集的液冷、更多服务器机架,以工程能力弥补能效短板。
最后是“生态兼容+编译层优化”。针对英伟达CUDA生态垄断,国产厂商采取兼容策略。海光DCU通过ROCm生态实现CUDA“软兼容”,实测迁移效率达85%;华为CANN架构用“指令翻译+动态调度”技术,覆盖80%的CUDA API。这种兼容相当于做了层“翻译器”,让国产GPU能运行英伟达指令语言,如将CUDA_X函数转为国产BR_X函数,通过算子合并、分拆、调整执行顺序适配本地语法。但弊端也很明显:永远慢半拍——英伟达每次更新CUDA或架构,国产厂商就得跟进新“翻译器”,战略上十分被动。
被H200“断供”的三年,国产GPU技术路线呈现鲜明“中国式风格”——工艺受限下,靠“架构取巧、集群堆叠、算子融合、软件兼容”的工程努力,将落后硬件打磨至可用、上规模、适配大模型训练的程度。这虽非工程最优解,却是封锁环境下的现实可行方案。
02 差距几何?单卡落后但推理已追平
评估国产GPU与H200的技术差距,需以美国商务部BIS定义的“总处理性能”(TPP)为统一标准,TPP=2×MacTOPS×操作位长(通常以TFLOPS(FP16)×16计算)。据伯恩斯坦2025年12月报告,主流芯片TPP对比:
- 英伟达H200:60,000 TPP(Hopper架构,141GB HBM3e,4.8TB/s带宽)
- 英伟达H20:15,832 TPP(特供版,仅为H200的26%)
- 华为昇腾910C:36,912 TPP(约为H200的61.5%,国产最高)
- 寒武纪思元590:29,360 TPP(约为H200的49%)
- 海光BW1000/DCU3:14,688 TPP(约为H200的24.5%)
- 摩尔线程S4000:约20,000 TPP(约为H200的33%)
公开数据显示,国产顶级芯片单卡性能仍落后H200约1.6-2倍,但已超越H20,达到“可用”水平。
训练能力上,国产单卡仍落后2-3倍,但集群层面可通过“堆卡+高速互联”弥补部分差距。华为CloudMatrix 384集群(384张昇腾910C)性能接近英伟达GB200 NVL72,部分大模型训练任务表现良好。不过因工艺限制(国产芯片多为7nm,H200为4nm),每瓦性能仍落后约30%。
推理能力上,国产顶级卡已持平甚至超越阉割版H20。华为昇腾910B2的INT8算力达762 TOPS,低精度数据处理效率高;寒武纪思元590在推理场景表现优异,KV-Cache容量与带宽均达标;沐曦曦云C550显存带宽1600-1800GB/s,在大规模推理任务中占优。
成本与功耗方面,海光BW100采购价约10万元/张,寒武纪590从8.5万元降至6-7万元,华为910C约18万元,均远低于H200的30-40万元,且H200需额外支付25%“美国税”,国产卡在成本上有50%左右优势。功耗上,虽国产卡单卡功耗较高,但H200 TDP达700W,实际差距并不悬殊。
生态是国产芯片最大短板,却是进步最快的领域。华为昇腾CANN工具链已支持与MindSpore深度协同及PyTorch一键迁移,其他国产平台也在做深度编译器与中间表示(IR)适配,减少开发者手动改代码的工作量。这背后是不同厂商、云厂商、软件团队、科研院校合作推动生态标准化、工具与适配案例共享,形成产业协同优势。

综合来看,国产芯片训练能力仍有差距,但推理已达“能用+成本低+可控”水平。伯恩斯坦推测,2026-2027年国产芯片将在部分场景实现与H200的全面竞争。
03 未来较量:迂回战术VS堆料路线
技术演进上,英伟达刚发布的Blackwell Ultra系列延续“堆料涨性能”路线,赌摩尔定律(或“黄氏定律”)未终结。“黄氏定律”是黄仁勋提出的“GPU性能每两年翻一倍”经验法则,与其说是自然规律,不如说是英伟达研发投入与市场策略的体现——每年超70亿美元研发费用让对手望尘莫及。
国产芯片未直接硬碰硬,而是用“架构取巧+多芯片封装+集群堆叠”的迂回战术。华为昇腾采用双Die设计,以先进封装提升集成度;摩尔线程“平湖”架构实现Chiplet可扩展设计,支持计算Die、HBM3e存储Die与IODie灵活配置;沐曦曦云C700系列扩展FP4等低精度计算支持,对标H100。先进工艺受限下,国产芯片靠架构创新突破性能瓶颈:昇腾910C用达芬奇架构3.0,集成32个自研AI Core,支持原生CANN异构计算;思元590用MLUarch架构,通过指令集优化提升效率;海光深算三号采用x86+GPGPU的Chiplet封装,2.5D封装实现HBM2e内存直连,带宽达1.6TB/s。这些创新让国产芯片在特定场景能与英伟达媲美。
应用层面,国产AI芯片已找到“舒适区”且表现亮眼:
智算中心成华为“主场”,截至2025年,全国600多个智算中心项目中,超300套Atlas 900超节点商用部署,覆盖互联网、电信、制造等行业,中国电信粤港澳大湾区智算昇腾超节点更是全球首个商用超节点项目。
面向国内大生态的专用场景,如智能安防、金融风控、OCR/文本语义检索、音视频处理(自动剪辑、AI转码)等,国产卡可针对特定算法深度定制优化。通过自研编译器和算子库对接MindSpore等国内框架,在“只需特定任务跑得快”的场景中,专用定制效率常高于通用GPU。
低延迟/小规模边缘场景,如边缘AI、工控设备、机器人本地推理等,国产NPU/ASIC方案比通用GPU效率更高,因架构从设计之初就针对推理优化低功耗,不依赖重型CUDA生态。

国产芯片优势场景的共同点是:对成本、功耗、供应链安全敏感。这些场景中性能不是唯一指标,性价比和自主可控才是核心。
综上,H200有限解禁是美国“技术依赖”策略的延续,试图用次高端产品维持中国对美技术依赖。但这一策略为时已晚——封锁期内中国已建立从硬件到软件、单卡到集群的完整AI芯片解决方案,这套基本盘并非一块H200就能撼动。
更关键的是,大模型日趋稳定,训练次数减少,推理量却爆炸式增长。国产卡短期能否拿下训练市场不重要,只要站稳推理市场,产业就能立住。当前已进入“战略相持”阶段,若给国产芯片多些时间,假以时日训练卡也能“上桌掰手腕”。
本文来自微信公众号“最话FunTalk”(ID:iFuntalker),作者:最话团队,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

