小米MiMo跟进DeepSeek降价99%,国产大模型正式踏入成本竞争新阶段

4分钟前

本文来自微信公众号:观网财经 ,作者:陈济深



5月27日,小米创始人雷军在微博转发了小米MiMo-V2.5系列API降价的官方消息。



根据小米MiMo发布的官方公告,从5月27日零时开始,MiMo-V2.5系列API正式开启永久降价,最高降幅达到99%,同时官方取消了过去按照上下文窗口长度分档计价的规则。配套的Token Plan计费体系也同步完成调整,同等价格下用户可获得的token用量提升至原来的5到8倍,目前仍在有效期内的用户额度也做了统一重置。



雷军在转发微博时特意强调,本次价格调整“最高降幅达到99%,不再区分上下文窗口”。





99%的降价幅度足够吸引眼球,但更值得行业关注的是调价后MiMo-V2.5-Pro的三项核心定价:输入缓存命中价格为0.025元/百万tokens,输入缓存未命中为3元/百万tokens,输出价格为6元/百万tokens。



这三组定价数字,和五天前DeepSeek敲定的V4-Pro长期价格完全一致。





DeepSeek V4系列在4月25日正式上线,当时V4-Pro的首发定价为输入缓存命中1元/百万tokens。上线仅仅一天后,DeepSeek就宣布将全系API的输入缓存命中价格下调至首发价的十分之一,同时V4-Pro还叠加了2.5折的限时优惠,优惠后缓存命中价格降到了0.025元/百万tokens。原本这项优惠计划在5月5日结束,之后被延期到了5月31日。到5月22日晚间,DeepSeek直接宣布这项2.5折优惠不再设时限,改为永久生效。一个月内连续调整价格,也让DeepSeek V4-Pro的初始“原价”更像是一个只短暂存在的定价参考。



DeepSeek官方价格页面显示,5月31日优惠活动结束后,V4-Pro将正式把定价调整为原定价的四分之一。调价完成后,V4-Pro的定价就是输入缓存命中0.025元/百万tokens,输入缓存未命中3元/百万tokens,输出6元/百万tokens,和小米本次调价后的定价完全相同。



也就是说,小米MiMo这次并不是单纯的常规降价,而是直接把自家Pro档模型的定价,对齐到了DeepSeek刚刚定下的行业价格基准上。



这个动作也让本次降价超出了普通品牌促销的范畴,引发了行业更多联想。



值得注意的是,小米本次降价刚好发生在上一轮MiMo开发者激励结束之后。根据官方公告,从4月28日启动的100T Token创作者激励计划,已经在5月26日提前发放完毕。对MiMo来说,推出永久降价同时重置Token Plan额度,不只是降低开发者的尝试门槛,更是打算在免费Token的红利结束后,继续承接Agent框架和应用开发者的生态需求。



过去大模型API的定价逻辑更多是“能力溢价”:模型能力越接近闭源前沿水平,越能在代码生成、逻辑推理、长上下文处理、Agent搭建这类场景中证明自身能力,厂商就越有理由维持更高的定价。



但DeepSeek和小米MiMo的这两轮降价,透露出新的定价逻辑正在成型:模型服务不再只按照“能力强弱”定价,也开始受到“单次推理成本能压缩到多低”的约束。



成本能压到这么低,背后是推理系统效率的持续优化。小米MiMo在公告中解释,技术团队基于SGLang HiCache完整支持SWA,把KV Cache在GPU显存、CPU内存、SSD多级存储之间的数据搬运量降到了优化前的近七分之一,可缓存的token数量提升到了原来的近5倍,同时还通过专家并行、输入长度分桶等方式提升了集群吞吐能力。



正是这些发生在后台的工程优化,决定了厂商有没有能力长期维持低价。现在大模型API的价格战已经不只是模型参数和榜单能力的竞争,而是延伸到了推理框架、缓存系统和集群资源调度能力的底层竞争。能不能在高并发、长上下文和多轮调用的场景下持续压低单token的服务成本,已经成为大模型厂商基础设施能力的核心考核项。



其中最关键的就是缓存命中价。



0.025元/百万tokens并不是所有输入的统一价格,而是请求前缀命中Prompt Cache之后的优惠价格。但对代码助手、企业知识库、智能客服系统、文档审核和Agent工作流来说,大量调用都会包含重复的上下文内容:系统提示词、工具说明、对话历史轨迹、检索片段、代码仓库背景,都会在多轮任务中反复出现。



过去,长上下文处理和多步Agent之所以很难实现大规模部署,一个核心原因就是持续调用的成本太高。当缓存命中价格被压缩到0.025元/百万tokens之后,被重估的不只是单次问答的成本,更是复杂任务连续运行的整体成本,这直接打开了更多落地场景的可能性。



这也是小米取消上下文长度分档计价的核心意义。



在此之前,MiMo-V2系列是按照256K以内、256K至1M两个档位给上下文窗口分档计价,长窗口输入的成本明显更高。这次V2.5系列降价后,MiMo不再区分上下文窗口长度,相当于直接降低了长上下文任务的使用门槛。



对开发者来说,这比单纯降价一点要关键得多。Agent、代码助手和企业知识库真正消耗成本的部分,恰恰不是短问短答,而是长上下文处理、连续调用和多轮任务。



放到全球大模型的价格体系中对比,这个定价的差异会更加明显。OpenAI此前披露,GPT-5.5 Pro API的定价是输入30美元/百万tokens、输出180美元/百万tokens。对比下来,DeepSeek V4-Pro和MiMo-V2.5-Pro调价后,哪怕不算0.025元的缓存命中价,只按照缓存未命中输入3元、输出6元计算,价格也已经低了不止一个数量级。



这意味着,国产大模型的低价不再只是“平价替代”的营销叙事,而是开始对全球大模型API的价格体系形成实实在在的压力。



这种压力最终会传导改变企业的大模型采购方式。



未来企业选择大模型的时候,不会只问“哪个模型最强”,而是会更关注“什么任务该用什么模型”。高风险的法律文书审核、金融分析、关键代码审查和重大经营决策类任务,仍然可能交给价格更高、性能更稳定、合规保障更完善的模型;但客服初筛、批量文本摘要、内部知识库问答、代码初稿生成、文档整理这类高频、重复、低风险任务,就会更多被分配给低价模型。



换句话说,未来企业采购的可能不再是单个大模型,而是一套多模型路由调度系统。



这种趋势其实已经在海外企业的实践中出现。Airbnb CEO Brian Chesky此前就公开表示,其客服AI系统由13个不同模型组成,并且在很大程度上依赖通义千问,原因就是“效果更好,价格更便宜”。当企业开始把不同模型放进同一套生产系统,模型之间的竞争就不再只是榜单分数的竞争,而是单位任务成本、服务稳定性、集群吞吐能力、响应延迟和合规能力的综合竞争。



当然,标价低并不代表企业实际使用的总成本一定低。



0.025元只对应缓存命中输入的价格。实际部署过程中,企业还要综合考虑缓存命中率、首token延迟、并发限制、服务稳定性、长上下文吞吐、第三方平台加价以及数据合规成本。如果企业的业务场景高度动态、上下文频繁变化,或者服务在高峰期无法稳定承载,价格表上的低价未必能完全转化为生产环境里的实际低成本。



因此,这轮价格战的关键不只是“谁的标价更便宜”,而是大模型厂商能不能在低价的前提下,依然保持服务可用、稳定,并且支持规模化部署。



更值得玩味的是,据彭博社等海外媒体报道,DeepSeek近期正在推进规模约700亿元人民币的融资,潜在投前估值约为450亿美元,创始人梁文锋向投资者强调的核心方向仍然是开源模型和AGI目标,而非短期商业化盈利。如果这一轮融资最终落地,那么V4-Pro的永久降价就更像是一种长期生态布局策略,而不是阶段性的促销活动。



DeepSeek先把限时优惠转为长期价格,小米MiMo随后直接对齐Pro档价格,两家厂商共同释放的信号非常清晰:国产大模型API正在从能力溢价的阶段,正式进入成本约束的竞争阶段。



接下来,价格压力会逐步传导给更多国内大模型厂商。



既然同等能力区间的模型已经可以把缓存命中输入价格压到0.025元/百万tokens,那么定价更高的模型就必须回答一个更直接的问题:价格更高的部分,究竟是来自更强的能力、更高的稳定性、更好的合规保障,还是仅仅延续了过去的定价惯性?



从更大的产业格局来看,这也是中国大模型发展路线的一个典型切面:国产大模型不只是追求单点最强的模型,而是通过低成本、高频迭代和开放调用,把模型能力尽快落地到真实的应用场景中。



当海外前沿模型仍然维持高价策略的时候,中国厂商正在把大模型推理服务打造成更接近通用基础设施的产品。价格战只是表面现象,真正比拼的是哪家厂商能用更低的成本支撑起更大规模的应用生态。



大模型的价格战还没有结束。它只是从“谁敢率先降价”的阶段,进入了“谁能用真实成本支撑低价”的全新竞争阶段。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com