资深半导体分析师:英伟达就像“三头龙”,全球70%的AI工作依赖于其芯片。

2024-12-29

敲重点:


  • 由于其在硬件、软件和网络方面的“三头龙”战略,英伟达在AI工作负载市场占据主导地位。
  • 大型投资数据中心,如谷歌、亚马逊、Meta和微软,表明“规模扩张”并未落后。
  • 在AI芯片领域,英伟达仍然占据主导地位,来自AMD。、在短期内,谷歌和亚马逊的考验很难撼动他们的王座。
  • 帕特尔预测,半导体市场将在2025年持续增长,但2026年存在不确定性,关键因素是模型持续改进和资金持续涌入。


迪伦·帕特尔,半导体研究和人工智能领域的知名分析师(Dylan Patel)


十二月二十五日消息,Open在美国当地时间周二上线 半导体研究和人工智能领域的著名分析师迪伦·帕特尔在Source双周对话播客中。(Dylan Patel)接受采访。在采访中,帕特尔谈到了英伟达在行业中的主导地位和竞争优势,在扩大AI预训练规模时面临的挑战,数据中心基础设施的发展和资本支出策略,数据生成技术的生成,推理时间计算的成本效益分析,以及英伟达目前面临的挑战,并展望了未来一到两年的行业前景。


(编者注:帕特尔是SemiAnalysis的创始人,也是半导体研究咨询公司的首席分析师,他在半导体领域具有深厚的专业知识和广泛的行业影响力,因其对芯片行业的透彻洞察和准确的预测能力而被称为。SemiAnalysis致力于研究半导体供应链,业务涵盖化工原料、芯片制造、晶圆厂运营、知识产权管理设计、战略规划等各个环节。SemiAnalysis的子栈平台汇集了大约50,000用户,是世界上第二大技术子栈。)


本文对迪伦·帕特尔的主要观点进行了梳理:


01英伟达就像三头龙一样


英伟达在全球人工智能工作负载领域占有压倒性优势。如果不纳入谷歌,全球98%的人工智能工作负载将在英伟达芯片上运行。但是,在纳入谷歌之后,这一比例已经下降到了70%左右,这主要是因为谷歌在人工智能领域,尤其是生产工作负荷领域,占据了很大的市场份额。


帕特尔认为,英伟达之所以能够在人工智能领域占据主导地位,是因为他能够将其比作三头龙。第一,与世界上其它半导体公司相比,英伟达的软件实力(CUDA生态)非常强大。第二,英伟达的硬件性能也远远超过了大多数同行。英伟达之所以能够快速引进新技术,是因为他们始终致力于实现特定的生产目标,从芯片设计构想到最终布局,速度远远超过竞争对手。最后,英伟达在网络领域也展现出了强大的实力,他们通过收购Mellanox,进一步增强了自己的网络能力。三个方面优势的融合,使英伟达成为三头龙,使其它半导体公司难以期待。


值得注意的是,英伟达的竞争壁垒通常被低估。它们创造了一个NVLink架构,可以有效地将多个芯片连接起来。现在,英伟达的Blackwell系统备受关注,它不仅是一个GPU机架,而且是一个巨大的系统,集成了数以千计的电缆和复杂部件,重达三吨。


然而,英伟达面临着挑战。人工智能工作负荷巨大,成本高,大客户可能会花费数十亿美元。这意味着客户可能会投入资源研究如何在其他硬件上运行自己的模型。虽然在其他硬件上练习可能仍然具有挑战性,但客户可能更容易在推理中找到替代方案。


02 “缩放定律”仍然有效


帕特尔解释说,预训练的缩放定律原理相对直观:通常可以通过增加计算资源并合理投入模型来提高其性能。这个过程可以分为两个方面:数据和参数,并且有最佳的比例来达到最佳的缩放效果。


然而,在数据稀缺或难以获取的情况下,单纯增加模型参数并不能带来显著的收益。从对数图来看,每次性能提升都需要十倍的投入。因此,在数据不足的情况下,增加资源投入可能无法获得预期的收益。然而,数据生成技术仍处于起步阶段,未来发展潜力巨大。


帕特尔估计,由于生成数据生成技术的不断发展,我们可能会在未来六个月到一年内见证模型特性的显著提高。虽然目前计算资源的投入已经相当可观,但我们还没有在数据生成、功能验证、推理培训等领域投入数十亿美元,目前只投入数百万到数千万美元。


随着规模的扩大,新的资本投资方向将会出现。同时,测试中的计算需求也会增加,即在推理过程中投入更多的时间以获得更好的结果。许多实验室研究人员认为,未来一年或六个月的收入将更加显著,因为这一新方向的解锁。


这仍然是大规模发展的体现,因为这个过程需要巨大的计算量。生成的数据量远远超过网络上现有的数据。虽然大部分数据会被放弃,但生成的数据量足以支撑模型的持续运行。


03 “规模扩张”没有落伍


当我们审视全球数据中心的发展趋势时,不难看出微软、谷歌、Meta、亚马逊等巨头在数据中心的投入是惊人的。从电力供应状况、控制文件到卫星图像等诸多迹象,我们可以清楚地看到,这些公司正在加快数据中心建设。


这些公司的实际行动无疑对“规模扩张已经死亡”的判断给出了最有力的反驳。例如,Meta正在路易斯安那州建设一个大型数据中心,亚马逊、谷歌和微软也在许多地方建设一个吉瓦级数据中心,他们不惜花费数十亿美元购买光纤网络连接这些信息中心,这证明了他们对规模扩张的信念。


超大型公司在数据中心领域的不断巨额投资,不仅展现了“规模扩张”战略的活力,也朝着更高效、更高性能的规模化方向发展。数据中心的发展不再单纯追求数量的增长,而是更加注重资源的有效利用和整体性能的提升。


值得注意的是,数据中心的建设并非没有限制。电力供应和空间资源成为比GPU芯片供应更紧迫的限制因素。


04 推理时间计算虽然贵但是值得。


帕特尔还在采访中解释了推理时间计算带来的好处。


在计算推理时间的过程中,我们不需要在模型训练上投入额外的时间,这有效降低了训练成本。虽然推理成本可能会增加,但这种衡量是值得的。


就拿GPT-4来说,它的训练费用高达数亿美元,但是,它目前创造的收益已经远远超过了这个数字。对OpenAI而言,GPT-4投资回报率非常可观。如果能够防止高额的初始训练投入,并在模型产生收益时立即安排,无疑是一个非常吸引人的选择。


想象一下,如果能够提高开发者在湾区年薪30万美元的效率,那么效益将是巨大的。如果100人的开发团队可以精简到75人或50人,同时保持相同的工作量,甚至代码交付量可以翻倍,那么选择成本更高的模型是物有所值的。相比之下,即使是昂贵的o1模型,与4o模型相比也相对划算。


因此,拥有最好的模型很重要,但更重要的是,公司或客户愿意为这些高质量的模型支付高额费用。毕竟,只有当有人愿意为这些模型买单时,我们才能保证他们的高利润。这些买家要么是公司,要么是客户。因此,帕特尔认为,在不久的将来,能够参与最佳模型竞争的市场参与者将逐渐减少到为数不多的巨头。


05 英伟达王座稳定


在人工智能芯片领域,英伟达仍然占据主导地位,但是正面临着定制的专用集成电路。(ASIC)对芯片开发商、AMD和其他企业的考验。


其中,AMD在硅工程领域表现出色,成功击败了英特尔,但软件存在不足。帕特尔指出,AMD在软件开发上投入不足,缺乏GPU集群来支持软件开发,这与英伟达形成鲜明对比。英伟达利用内部超级计算机集群开发和快速更新软件,包括网络和计算推理软件。AMD忽视了软件和系统级设计的重要性,过于依赖硬件竞争。


对于谷歌TPU来说,它在工作负荷方面排名第一。谷歌在芯片互连、与博通合作、水冷技术和可靠性等方面进行了工程优化,英伟达直到最近才开始关注这些方面。然而,TPU只广泛应用于谷歌,帕特尔认为谷歌应该开放更多的软件来源。此外,TPU的定价也让用户望而却步。


在硅材料、内存和网络方面,亚马逊的芯片Tranium与TPU相当,但是效率较低,部分原因是它与Marvell和Alchip合作,而不是博通,导致电缆成本较高。


06 OpenAI等将继续烧钱增长。


帕特尔最终预测了2025年和2026年半导体领域的发展方向。


他认为,未来一年,超大型公司将继续增加投资,网络设备制造商、ASIC供应商和系统供应商的生态系统将受益,英伟达将推动供应链增长。新兴云计算服务市场正在整合,大约有5到10家相关企业能够生存下来。


2026年英伟达的销量是否会下降,取决于模型是否会持续改进,超大型公司是否愿意继续投资。如果模型有所改进,公司愿意投资,英伟达的收入可能会因为芯片性能和成本的增加而大幅增加,即使单位销量没有增加。


此外,主权财富基金、养老基金等资金来源可能会涌入中东、新加坡等地区的半导体行业,促进公司的持续增长和支出。竞争也会导致这些公司支出更加积极,防止被超越。


帕特尔认为,就像OpenAI一样、像XAI和Anthropic这样的公司为了维持增长势头,将继续筹集越来越多的资金。


本文来源于“腾讯科技”,作者:金鹿,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com