对于国内AI算率短缺的一些看法?
苹果WWDC今天早晨验证了一点:AI推理算率将长期处于“云为主”的状态,这一“长期”至少需要三到五年的时间。是的,苹果与OpenAI建立了战略合作,计划将下一代iOS系统与ChatGPT紧密结合;然而,包括文字和图片生成任务在内的大多数生成式AI推理仍将上传到ChatGPT数据中心,并在云端完成。OpenAI在公告中已经明确表示了这一点。苹果的“终端AI”仍然局限于软件。
假如连苹果都做不到推理算力的“端侧化”,那其它手机厂商就更做不到了。PC端的进度可能比移动端稍微好一点,但在可预见的未来,大多数AI PC(包括桌面工作站)仍将以英伟达的桌面级显卡为基础,并且只能实施参数相对较小的大模型推理(蒸馏后)。大型模型和应用开发商无论从技术角度还是成本角度,都会更愿意完成云即数据中心的大部分推理任务。金融业再一次意识到这一点,所以WWDC举行后,苹果股价下跌,而英伟达股价小幅上涨。
在未来很长一段时间内,我们不必过多考虑“端计算率”。在这种情况下,国内人工智能计算率的短缺是不可能通过开发所谓的“端计算率”来处理的。自2022年11月底ChatGPT问世以来,国内人工智能计算率几乎一直供不应求,这是由以下因素决定的:
全球AI算率非常短缺,尤其是在生产端,英伟达H系列显卡只能由台积电代工(三星不能),产能瓶颈将持续到很多年。
特别是在2023年下半年全面加强后,美国芯片出口禁令日益严格,许多“侧门”被堵塞,国内厂商采购数据中心级显卡的难度与日俱增。
众所周知,AI大模型所需的计算率可以分为练习和推理两种,前者的要求更高;目前国内的情况是两种算率都不足。具有讽刺意味的是,在过去几年中国云游戏的发展中,互联网制造商和通信运营商都购买了一批英伟达Turing架构的显卡来建造RTX刀片服务器,这些显卡可以用于AI推理;如果没有云游戏,中国推理计算能力的瓶颈会更严重。中国游戏产业是一个勤劳的背锅产业。任何人都可以踩一脚,任何人都可以污名化,但拯救所谓的“硬科技”产业就靠它了!
即便如此,国内AI推理计算能力的供求关系仍然十分紧张。所以,在过去的一个月里,国内大模型的“降价”措施,很大程度上只是一种行为艺术。尤其是对于B端客户来说,无论大型API的调用价格降到多低,关键在于能否买到数量。今天的问题是“供不应求”:只有极小规模的采购才能以“出版价格”执行,稍微大一点的采购一定要找销售人员独立协商排队,实际成交价格难以预测(肯定比“出版价格”高很多)。
更不用说B端用户了,即使是C端用户也能感受到推理计算能力的紧张:在国内几款最受欢迎的AI大型应用中,免费用户在高峰期几乎肯定会遇到需要排队的情况,为了提高效益,必须充值或奖励。要知道,目前国内主流生成AI应用的DAU一般只有几百万个数量级,推理率已经这么匮乏;如果AI超级应用真的超过1亿DAU,计算率几乎跟不上——所以这样的超级应用目前在中国是不可能出现的。(注:文心一言和通义千问都声称累计客户超过1亿,API日调用次数超过1亿,但距离1亿DAU还有很长的路要走;估计豆包差远了。)
不难想像,训练算率比推理要求更高,更紧缺。字节跳动于2024年2月在一篇论文中公布了其前一年9月成立的“万卡集群”。遗憾的是,它由12,000张(相对落后)A100显卡组成,而美国科技巨头早已更换了由(更先进)H100组成的“万卡集群”,例如Meta的LLaMA-3就是由25,000张H100组成的集群训练;以亚马逊为代表的大型云计算公司正积极转向(更先进)B100和GB200计算率集群。A系列显卡于2020年发布。当时芯片禁令还没有发布,国内采购也没有太大障碍。H系列于2022年发布,芯片禁令已经发布,但在中国仍然可以通过购买“特别版”(主要是H800)来绕过;B系列于2024年发布,此时绕过芯片禁令的方式已经非常狭窄,朝不保夕。
长期而严重的计算率瓶颈对国内AI行业产生了两个深远的影响。首先,计算率短缺意味着计算率高(无论是自购显卡还是租赁)。国内所有大型厂商的售价都不能覆盖培训 推理费用,有些甚至不能覆盖边际推理费用,卖一单亏一单(最近一波降价后可能亏的比较严重)。其次,国内大部分计算率都集中在少数科技厂商手中,初创公司高度依赖他们,非常渴望他们以计算能力的方式投资股票。结论是,大规模创业在中国是一项非常糟糕的业务,远不如以前的移动互联网创业。
接下来,我们不妨通过问答进一步说明中国AI计算能力的现状。问题是市场上最关心的问题。答案不是来自我,而是来自我在云计算和AI行业的信任朋友。我只是总结了他们的答案。

问题:目前我国AI算率储备和分布情况大致如何?
答:首先讲一下训练中使用的“大卡”。如果将A100-800、如果H100-800都算作“大卡”,那么国内的“大卡”储备肯定会超过6位数,甚至超过20万张。问题在于,随着技术的进步,A系列很难再被视为“大卡”。按照扎克伯格所谓的“H100等效率”,国内储备肯定不会超过6位数,而仅Meta家族的“H100等效率”就已超过30万张,到2024年底将超过65万张,远远超过国内所有大型工厂的算率储备之和。
具体到算率分布,有两个标准:一是“把握算率”,二是“可调用算率”。像阿里这样的云计算厂掌握了巨大的计算率,但大部分都要租给客户。自己的大模型训练和推理可以调用的计算率可能没有很大的优势。若只计算“把握算率”,国内第一的无疑是阿里,其次是百度、字节跳动,腾讯可能会少一些。由于内容推荐系统、自动驾驶训练等环节都需要掌握一两千张开卡互联网企业。
推理能力的分布就更复杂了。如上所述,云游戏中使用的显卡可以承担一定的推理任务。目前,中国的推理率可能很大一部分来自之前的云游戏。
问题:如何看待AI算力的国产替代?
答:即使一些国产显卡声称自己的性能参数可以达到A100水平,他们也不具备NVlink互联技术和CUDA开发环境,从而不能承担大型模型训练任务。另外,A100是英伟达2020年发布的产品,在2024年“追上”前者四年前的水平并不创新。大型不是核弹,它是一种注重性价比的民用商品,使用非主流硬件开发出来的大型可能没有商业价值。
但在推理端,并非完全不可能,因为推理卡对NVlink和CUDA的依赖程度很小。在推理端,英伟达的城墙仍然很高,但比训练端差得多。问题在于,推理计算能力的技术路线也在不断变化,技术变革的领导者仍然是英伟达。如果有选择的话,主流厂商肯定会愿意购买英伟达的推理解决方案。国内厂商的问题是在芯片禁令下没有选择,在推理端进行国产替代总比没有强。
问题:如何看待Groq和国内一些厂商推出的“远超英伟达”推理卡?
答:在高度特化的技术路线下,确实有可能制作出远超英伟达同期产品的表面技术推理卡——但代价是应用领域非常狭窄。这种显卡不仅仅是一种大型推理,甚至可能只是一种特定类型的推理。大型工厂建立数据中心应考虑实用性和后续升级要求,高度特化的显卡无法满足这些要求。如上所述,云游戏中使用的显卡可用于推理,但是高度特化的推理卡能否执行图形渲染任务?能否执行自动驾驶等非生成式推理任务?
而且,在硅谷,那些不缺钱的大工厂,同时执行“大卡”练习和推理任务是很流行的:速度更快,更灵活,管理更方便。你的训练任务一年四季都没有平均分布。也许这三个月训练消耗的算率更高。接下来,推理消耗的算率更高。统一建立“大卡”集群有利于提高灵活性。这样做当然不够经济,所以推理任务主要还是要靠推理卡来执行。只想说,英伟达在练习端和推理端的环城河是相辅相成的,并非相互孤立。
问题:有没有可能绕过芯片禁令?现在每个人的替代方案是什么?
答:很多人认为芯片禁令可以以“异常”的方式绕过。但他们忽略了两点:一是英伟达高端显卡近年来供不应求,因此没有巨大的二手和散货市场。即使是海外厂商淘汰的显卡,一般也是内部余热。第二,即使你能绕过英伟达的官方销售获得一些显卡,你也无法获得技术支持。
H系列和B系列训练卡并非单片销售,而是基于服务器(训练机)销售。B系列训练机已经非常像高端数控机床这样的高科技设备,可以将其位置判断系统植入内部,发现位置偏移后可以自动停止。因此,无论在理论上还是在实践中,只要英伟达愿意认真执行芯片禁令,就很难绕开。虽然英伟达肯定愿意卖出更多的客户,开拓中国市场,但它的显卡总之卖不出去,短期内不可能主动承担破坏禁令的风险。
当然,一切都可以讨论。只要双方都想认真做生意,拿出一些物品进行交换,没有什么生意是做不到的。这取决于每个人都有多愿意做生意!我们不能低估解决问题的难度——因为只有充分估计难度,才能从现实的角度解决问题。不建议单方面低估难度,假装处理问题。我相信真正的从业者不会这么做。
本文来自微信微信官方账号“互联网怪盗团”(ID:TMTphantom),作者:裴培,怪盗团团长,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




