阿里、百度大模型价格混战,小企业还是没钱买算率。 | 硬氪分析

2024-06-16

作者|黄楠


编辑|袁斯来


价格战大火从OpenAI烧开,迅速蔓延到大洋彼岸。


5月13日,OpenAI在发行GPT-4o的同时,将其API价格降至50%,每百万tokens的输入价格降至5美元(相当于35元左右),这是大模型价格战的第一棒。


随后半个月,国内各大模型厂商掀起了降价浪潮。在阿里旗下9款大型模型降价后,百度随后宣布文心Speed和文心Lite两款模型都是免费的。随后,智谱GLM-3-Turbo模型、字节豆包模型、阿里通义系列模型等也纷纷将百万tokens的输入价从100元降到1元左右。


降价背后的主要原因是大型厂商急于商业化。然而,看似激烈的价格战难以缓解行业困境。


“本轮价格战的主要参与者是云制造商。几家大型头型公司都有行动,但并不激进。毕竟还是有少数企业可以大量购买计算能力和模型服务。”关注芯片行业的投资者胡杨告诉硬氪。


归根结底,公司在模型上的应用取决于大量的实践和无休止的迭代。仅仅推理token的降价并不能解决练习和部署的高计算费用。计算率的焦虑挥之不去。


集成软硬件服务的算率一体机在此背景下开始引起关注。


计算机集成了高性能计算的硬件和优化的软件算法。大工厂价格战只为行业提供便宜甚至免费的API。计算机集成了一个设备上的所有计算资源,思考如何降低模型计算率、部署成本和技术门槛,提高性能等。,并针对一般公司无法建立自己的数据中心,开发大模型。


长期的计算焦虑在一定程度上限制了国内AI产业的大规模发展。以计算率一体机为代表的“开箱即用”产品,可能成为企业尝试大模型应用的关键一步。


最大瓶颈用于大型模型应用


计算率布署是一场持久战,需要金钱灌注。


目前,全球GPU芯片缺口巨大,英伟达无法满足所有AI模型训练和推理的需要。除了英伟达,其他多元异构GPU也在快速发展,计算率生态趋于分散。2018年1月至2021年1月,参数每18个月增长340倍。相比之下,2016年至2021年的GPU内存增长率仅为每18个月的1.7倍。



随著时间的推移,模型参数增加


英伟达、AMD、单芯片计算率增长,如英特尔,跟不上大模型参数、训练信息所需的计算率增长。


对能够获得计算能力的企业来说,摆在我们面前的就是成本问题。


Meta曾经明确表示,LLaMA需要使用2000个A1000个A1。 GPU,每三周进行一次训练,每次训练的费用是500万美元。百川智能CEO王小川也表示,每1亿参数对应的训练费用约为15,000-30,000元,从而计算出一个千亿参数模型一次训练的费用约为3000万元。模型越大,GPU的费用就越大。


从传统行业和中小企业的角度来看,用户的需求非常明确:高性能、低功耗的计算率、稳定性和快速响应模型,以确保数据安全。


然而,这些企业风格相对保守和现实。在初始阶段,他们非常重视ROI在特定业务中的应用。当前景不明朗时,他们不愿意贸然投资。


若要及时有效,在场景应用时,常用的做法是在基于通用底座微调后进行私有化部署。但是, "这种方法通常对企业来说是一个很大的负担."2024年SusHii Tech 在Tokyo的会场上,「Avalanche Computing」陈杰CEO告诉硬氪。


在展厅里,关于工业智能升级和AI融合的讨论无处不在。从底层结构、模型培训,429家参展商随处可见与AI相关的材料。AI 超过70%的公司展示了自己与生成式AI的关系,如Agent工具、服务器设备硬件到芯片等。


当成本和计算率难以两全时,计算率一体机可能是一个突破。


以「Avalanche Computing」举例来说,它主要经营hAlsten Al低代码工具和Althena终端系统平台,提供软硬件一体化服务。


其中,终端系统平台Althena是一款可以提供离线模型服务的计算率一体机。它支持英伟达的各种设备,配备了包括LLaMa3在内的主流开源模型、Mistral AI、Gemma等,可以降低企业开发大模型的技术门槛。


进入使用阶段,公司可选择HAIsten AI培训获得的模型,并提问模型。测试显示,在离线状态下,该模型可以在2-3秒内产生答案;同时,公司可以在连接网络后自由更换想要调用的大模型。


Althena算率一体机可以支持2-3个人一起使用,每年售价最高1.5万美元(相当于每年10.9万元)。一台英伟达DGX A100服务器,其售价为19.9万美元(相当于约145万元人民币),以目前常见的四年折旧期计算,每年42.5万元。


可以看出,价格只有DGX。 Althena算率一体机,A100四分之一,大大降低了大型训练和部署的成本。


DGX英伟达 A100服务器


确保企业安全,降低开发门槛


目前,行业正在探索MOE(混合专家模型)架构、高性能AI计算系统、计算率一体机等多种优化计算率资源调度的途径。


其中,计算率一体机兼容性高、性能稳定、可扩展性高、计算能力利用率高,通过定制的硬件架构和优化的软件系统进行优化。对于前期计算能力需求不大的传统行业用户和中小公司来说,在一定程度上可以满足他们处理数据和复杂计算任务的需求。


根据硬氪的说法,大模型产业落地除了考虑计算成本外,还存在两大难题,即企业安全和应用开发门槛。例如,日本市场,「Avalanche Computing」目前,我们接触的客户主要是传统制造业。陈杰告诉硬氪,“这些企业非常强调数据的隐私,担心机密泄露。他们的知识地图和数据库经常选择keep。 in house(即存储在公司内部)。”


计算一体机采用边缘私有化部署的方式,是保护公司数据隐私和安全的有效手段之一。它将通用计算率、智能计算率、存储、网络和安全融为一体。公司可以快速部署本地化,无需自建机房。


其次,公司的安全也涉及到系统的稳定性。此前,国内云厂商频繁发生停机事故,不仅停止了自身重要业务的工作,也影响了很多客户企业产品的崩溃,造成了一系列技术问题。即使自建单机房,一旦机房或网络出现故障,业务可靠性也无法保证。


在紧急情况下,计算率一体机的离线服务可以保持系统的稳定运行;同时降低了公司的使用门槛。用户只需要将这些数据打包上传到一体机,选择想要使用的模型,就可以低成本获得部署在企业内部的大型私人模型。


最为直观的体现是,过去公司调整了一种模式,只接受了一种模式。⼊、至少需要验证等⼀一周的时间。如今使用计算率一体机,半天就能跑通。⼀一个模型并且可以看到使用效果。


但需要注意的是,目前基于通用大型模型,并不是公司可以通过将数据库输入到模型中进行训练来获得专业的结果,仍然需要不断使用和迭代。由于推理所需的算率成本往往无法预测,Althena算率一体机的租赁方案灵活,提供弹性推理资源。对于初期需求不多的公司,可以选择少量采购,后期开始后再增加设备。


大型行业正在进入价格内卷期,但在这波热潮下,同时具有足够的成本效益、合适的价格和安全性的商品还没有诞生。目前,对于还处于起步阶段的企业来说,扮演基础设施角色的计算率一体机可能是一个答案。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com