大模型「六小虎」里面,至少两个要放弃大模型了。 | 焦点分析

2024-10-11

文|周鑫雨


编辑|苏建勋


在2024年,许多曾经立下“做中国OpenAI”军令状的模型公司开始面对面。


根据《智能出现》,被称为“AI六小虎”的6个中国大型独角兽(智谱,零一万物,MiniMax、在百川智能、月亮暗面、阶跃星)中,两家公司逐渐放弃了预训练模型,减少了预训练算法团队的数量,专注于AI应用。


(本文希望重点探讨国内AI公司对“预训练”模型的路线选择,以及背后的思考和后续重点。为了不引起不必要的纠纷,他们隐瞒了放弃预训练模型的企业名称。)


百度赶大模型早集,9月份有消息称“大概率放弃一般基础大模型的研发,主要用于应用”。即使后续被百度辟谣,“放弃预训练模式”也成为了行业的转折点。


可说,能够让厂商上大型牌桌的,就是“预训练”。所谓“预训练”(pre-train)“,就像大模型的基础教育阶段一样,赋予大量通用的模型知识是决定模型性能的关键阶段,也是模型制造商的核心技术壁垒。


对于AI行业来说,随着第三方预训练模型性能的提高,网络层公司逐渐放弃了预训练模型,致力于让模型更好地了解用户的“后训练模型”(post-train)"阶段,是考虑到节约算率成本的正常趋势。


2024年8月,典范Character,硅谷艺人AI公司,角色扮演类应用。.AI,宣布放弃预训练,转而与第三方模型合作。他们在官方博客上给出的理由是:这样我们就可以投入更多的资源进行后期训练,为不断增长的用户群体创造新的产品体验。


然而,模型层公司放弃了预训练模型,代表着主动走下AGI速度的牌桌。


此外,短短一年时间,“自研预训练模型”的故事给这些模型企业带来了丰富的融资、顶尖人才和市场声誉。模型公司放弃了预训练,戳破了AI技术的泡沫。


正如一位AI从业者对“智能涌现”所评价的那样:


许多制造商从OpenAI那里得到的不是通向AGI的技术,而是盲目跟随的信心。


但是对AI跑道来说,放弃预训练并不是一个完全负面的信号。目前,大型模型厂商在资金、计算率短缺的情况下,也开始重新评估自己的能力和资源状况。


由模型转变为应用,意味着AI企业在追求AGI之前,首先选择了生存。


钱不够烧,模型和商品二保一

Scaling疯狂堆参数 Law,如今是预训练的主流路径,同时也意味着昂贵而持续的计算能力和数据投入。


马斯克估计,GPT-5的练习可能需要3-5万张H100,仅芯片成本就超过7亿美元(约50亿元),几乎是百度整个季度的净利润。


对尚未盈利的初创企业来说,继续堆积参数炼模型,筹集资金首先是个难题。


据《智能出现》报道,随着估值达到200亿元水平,国内大模型公司最新的单轮融资规模约为50亿元。随着融资难度的增加,估值的上升也会增加。


一位投资者告诉《智能出现》,今年第一季度,大型独角兽将不再积极安排融资,“企业和一级市场对下一轮融资持悲观态度”。


在数十亿元的融资中,模型制造商不仅要分配给持续堆积参数的模型培训,还要喂给持续烧钱营销但盈利能力有限的AI应用产品。


目前,与OpenAI的技术差距仍然难以消除,国产模型的性能还没有拉开鲜明的差距。许多国内模型制造商开始使用“数据” 情景的长板在AI应用上下了很大功夫,试图率先走出AI时代的“微信”和“抖音”——甚至ToB基因显著的智谱AI和百川智能也推出了“智谱清言”和“百小应用”等C端应用。


大规模的AI应用逐渐取代了领先的模型性能,成为模型制造商留在AI品牌桌上的筹码。因此,用户信息已经成为模型制造商必须关注的指标。


据《智能出现》报道,哔哩哔哩月亮暗面给出的注册会计师(用户转换人均成本)价格高达30元左右。另一位知情人士告诉《智能出现》,目前模型厂商的最高价格来自字节跳动的“豆包”,“几乎是Kimi报价的两倍”。


从2024年开始,刷脸的营销玩法让很多模特厂商的营销预算翻了好几倍。随着营销价格的上涨,但目前AI产品的差异化水平还不够,烧钱买流量几乎是获得客户的唯一途径。


一个大模型独角兽的员工告诉《智能出现》,2024年中,企业在一些社交媒体上暂停了AI对话产品的发布,“当月获取的客户数据立刻变得难看”。一个月后,企业恢复了投资流程。


并非所有的大型企业,都可以从无尽的烧钱中看到希望。


如今,与一年前相比,AI产品消耗的推理成本下降了近99%。然而,许多业内人士表示,模型培训仍然占据至少70%的机会成本。


也就是说,放弃预训练模式,是目前资源短缺的最具成本效益的决定。


据多位知情人士透露,自2024年以来,全公司的目标重点已放在海外AI应用产品上市,放弃了其中一款预训练模型的独角兽。


大型企业,困在变现焦虑中

为何选择在模型和商品中放弃前者来保证后者?主要原因是,现在依靠大模型本身,没有明确的实现渠道。


许多从业者反映了“智能涌现”,2024年启动的模型降价潮,并未提高模型的盈利能力。


“模型API的降价本质上是为了让客户感受到模型能力,转化成本部署等高净利润业务的支付。”一位模型制造商的大客户经理告诉《智能出现》,“但表现并没有达到预期。上半年,大多数模型制造商的ToB业务收入减半。”


他记得,在一个模型宣布免费后,很多“白嫖”开发者涌入后台。“有一个研究开发者,他每天使用的Token数量占所有用户的60%。”


在很大程度上,模型付费转换的失败,是因为被称为“价格屠夫”的开源模型更加强大。


跟随Llama 3.1、Mistral Large 2、DeepSeek V 一系列开源模型,如2.5,性能已达到GPT-4,甚至GPT-4o。


相比之下,闭源模型的竞争力正在被削弱。“付费能力高的公司一般都有自己的技术团队,可以直接基于开源模型进行开发。”上述大客户经理表示,对于技术能力不足的企业来说,“开源模型影响了顾客对模型价格的心理预期。


2023年Llamamama的经典案例 2发布后,某大型独角兽收到的用户价格,直接砍掉了一个“0”。


模型流动性不足代表了目前模型制造商的现金流,几乎只能依靠融资,可以快速找到PMF(商品-市场匹配度)的AI应用。


但是现在,能够为模型制造商吸引融资,除了漂亮的用户数据,只剩下跃升模型性能。


一位投资者告诉《智能出现》,谁能先把o1(OpenAI最新模型)的能力追平,一级市场还是会为它做点什么。


但是到2024年,许多大型制造商,已经陷入了技术瓶颈。


GPT-四是大模型技术的发展进入深水区。九月份,前OpenAI首席科学家Ilya Sutskever——他曾经把Scaling Law在ChatGPT等关键模型上的成功应用——在宣布成立新公司SSI时,他直言不讳地说:“大家只说Scaling假设。但是每个人都忽略了一个问题:Scaling我们究竟是什么?


大型语言模型迭代速度缓慢,多模态仍处于攻坚初期,是模型赛道的现状。“GPT-在此之前,OpenAI有一份公开的详细技术报告,每个人都可以面对‘抄’。后来技术报告不公开,国内厂商的答案也没了。”一位从业者说:“更何况OpenAI的答案可能不正确。”


在技术不确定性方面,一群失去方向的大型企业需要重新找到稳定性。


放弃预培训模型厂商,抓住有盈利潜力的AI应用。很多内部人士告诉《智能出现》,其中一家厂商的一款海外AI生产力工具产品,为2024年以来的大部分收入做出了贡献。“公司现在70%的人力都在做商品”——但这款海外应用的底层模型逐渐被GPT-4和GPT-4o所取代。


另外一家在国内起步于ToB的模型公司,也在2024年推出了C端AI应用程序,生产力和娱乐性。


剩下的还在坚持预训练的厂家,就开始在技术上降低成本。


一个模型独角兽的员工告诉《智能出现》,今年企业对计算率采购非常克制,计划先采取优化培训框架的形式,降低模型培训成本。


例如,最新的OpenAI模型o1使用的Self。-play(自我博弈)战略,能在不增加参数的情况下提高模型性能,也成为许多模型制造商低成本训练模型的稻草。


对于整个AI行业来说,放弃预训练模式,并非一个负面信号。拾象科技CEO李广密最近也公开表示,未来80%的企业将放弃预训练。硅谷逐渐形成的共识是,RL(强化学习)是下一个突破点,可以提高特定参数模型的能力,同时控制计算率和成本。


也就是说,在技术疯狂回归理性之后,厂商开始重新思考和整合技术范式和行业资源。



欢迎交流!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com