小米MiMo跟进DeepSeek降价99%，国产大模型正式踏入成本竞争新阶段

05-28 06:51

本文来自微信公众号：观网财经，作者：陈济深

5月27日，小米创始人雷军在微博转发了小米MiMo-V2.5系列API降价的官方消息。

根据小米MiMo发布的官方公告，从5月27日零时开始，MiMo-V2.5系列API正式开启永久降价，最高降幅达到99%，同时官方取消了过去按照上下文窗口长度分档计价的规则。配套的Token Plan计费体系也同步完成调整，同等价格下用户可获得的token用量提升至原来的5到8倍，目前仍在有效期内的用户额度也做了统一重置。

雷军在转发微博时特意强调，本次价格调整“最高降幅达到99%，不再区分上下文窗口”。

99%的降价幅度足够吸引眼球，但更值得行业关注的是调价后MiMo-V2.5-Pro的三项核心定价：输入缓存命中价格为0.025元/百万tokens，输入缓存未命中为3元/百万tokens，输出价格为6元/百万tokens。

这三组定价数字，和五天前DeepSeek敲定的V4-Pro长期价格完全一致。

DeepSeek V4系列在4月25日正式上线，当时V4-Pro的首发定价为输入缓存命中1元/百万tokens。上线仅仅一天后，DeepSeek就宣布将全系API的输入缓存命中价格下调至首发价的十分之一，同时V4-Pro还叠加了2.5折的限时优惠，优惠后缓存命中价格降到了0.025元/百万tokens。原本这项优惠计划在5月5日结束，之后被延期到了5月31日。到5月22日晚间，DeepSeek直接宣布这项2.5折优惠不再设时限，改为永久生效。一个月内连续调整价格，也让DeepSeek V4-Pro的初始“原价”更像是一个只短暂存在的定价参考。

DeepSeek官方价格页面显示，5月31日优惠活动结束后，V4-Pro将正式把定价调整为原定价的四分之一。调价完成后，V4-Pro的定价就是输入缓存命中0.025元/百万tokens，输入缓存未命中3元/百万tokens，输出6元/百万tokens，和小米本次调价后的定价完全相同。

也就是说，小米MiMo这次并不是单纯的常规降价，而是直接把自家Pro档模型的定价，对齐到了DeepSeek刚刚定下的行业价格基准上。

这个动作也让本次降价超出了普通品牌促销的范畴，引发了行业更多联想。

值得注意的是，小米本次降价刚好发生在上一轮MiMo开发者激励结束之后。根据官方公告，从4月28日启动的100T Token创作者激励计划，已经在5月26日提前发放完毕。对MiMo来说，推出永久降价同时重置Token Plan额度，不只是降低开发者的尝试门槛，更是打算在免费Token的红利结束后，继续承接Agent框架和应用开发者的生态需求。

过去大模型API的定价逻辑更多是“能力溢价”：模型能力越接近闭源前沿水平，越能在代码生成、逻辑推理、长上下文处理、Agent搭建这类场景中证明自身能力，厂商就越有理由维持更高的定价。

但DeepSeek和小米MiMo的这两轮降价，透露出新的定价逻辑正在成型：模型服务不再只按照“能力强弱”定价，也开始受到“单次推理成本能压缩到多低”的约束。

成本能压到这么低，背后是推理系统效率的持续优化。小米MiMo在公告中解释，技术团队基于SGLang HiCache完整支持SWA，把KV Cache在GPU显存、CPU内存、SSD多级存储之间的数据搬运量降到了优化前的近七分之一，可缓存的token数量提升到了原来的近5倍，同时还通过专家并行、输入长度分桶等方式提升了集群吞吐能力。

正是这些发生在后台的工程优化，决定了厂商有没有能力长期维持低价。现在大模型API的价格战已经不只是模型参数和榜单能力的竞争，而是延伸到了推理框架、缓存系统和集群资源调度能力的底层竞争。能不能在高并发、长上下文和多轮调用的场景下持续压低单token的服务成本，已经成为大模型厂商基础设施能力的核心考核项。

其中最关键的就是缓存命中价。

0.025元/百万tokens并不是所有输入的统一价格，而是请求前缀命中Prompt Cache之后的优惠价格。但对代码助手、企业知识库、智能客服系统、文档审核和Agent工作流来说，大量调用都会包含重复的上下文内容：系统提示词、工具说明、对话历史轨迹、检索片段、代码仓库背景，都会在多轮任务中反复出现。

过去，长上下文处理和多步Agent之所以很难实现大规模部署，一个核心原因就是持续调用的成本太高。当缓存命中价格被压缩到0.025元/百万tokens之后，被重估的不只是单次问答的成本，更是复杂任务连续运行的整体成本，这直接打开了更多落地场景的可能性。

这也是小米取消上下文长度分档计价的核心意义。

在此之前，MiMo-V2系列是按照256K以内、256K至1M两个档位给上下文窗口分档计价，长窗口输入的成本明显更高。这次V2.5系列降价后，MiMo不再区分上下文窗口长度，相当于直接降低了长上下文任务的使用门槛。

对开发者来说，这比单纯降价一点要关键得多。Agent、代码助手和企业知识库真正消耗成本的部分，恰恰不是短问短答，而是长上下文处理、连续调用和多轮任务。

放到全球大模型的价格体系中对比，这个定价的差异会更加明显。OpenAI此前披露，GPT-5.5 Pro API的定价是输入30美元/百万tokens、输出180美元/百万tokens。对比下来，DeepSeek V4-Pro和MiMo-V2.5-Pro调价后，哪怕不算0.025元的缓存命中价，只按照缓存未命中输入3元、输出6元计算，价格也已经低了不止一个数量级。

这意味着，国产大模型的低价不再只是“平价替代”的营销叙事，而是开始对全球大模型API的价格体系形成实实在在的压力。

这种压力最终会传导改变企业的大模型采购方式。

未来企业选择大模型的时候，不会只问“哪个模型最强”，而是会更关注“什么任务该用什么模型”。高风险的法律文书审核、金融分析、关键代码审查和重大经营决策类任务，仍然可能交给价格更高、性能更稳定、合规保障更完善的模型；但客服初筛、批量文本摘要、内部知识库问答、代码初稿生成、文档整理这类高频、重复、低风险任务，就会更多被分配给低价模型。

换句话说，未来企业采购的可能不再是单个大模型，而是一套多模型路由调度系统。

这种趋势其实已经在海外企业的实践中出现。Airbnb CEO Brian Chesky此前就公开表示，其客服AI系统由13个不同模型组成，并且在很大程度上依赖通义千问，原因就是“效果更好，价格更便宜”。当企业开始把不同模型放进同一套生产系统，模型之间的竞争就不再只是榜单分数的竞争，而是单位任务成本、服务稳定性、集群吞吐能力、响应延迟和合规能力的综合竞争。

当然，标价低并不代表企业实际使用的总成本一定低。

0.025元只对应缓存命中输入的价格。实际部署过程中，企业还要综合考虑缓存命中率、首token延迟、并发限制、服务稳定性、长上下文吞吐、第三方平台加价以及数据合规成本。如果企业的业务场景高度动态、上下文频繁变化，或者服务在高峰期无法稳定承载，价格表上的低价未必能完全转化为生产环境里的实际低成本。

因此，这轮价格战的关键不只是“谁的标价更便宜”，而是大模型厂商能不能在低价的前提下，依然保持服务可用、稳定，并且支持规模化部署。

更值得玩味的是，据彭博社等海外媒体报道，DeepSeek近期正在推进规模约700亿元人民币的融资，潜在投前估值约为450亿美元，创始人梁文锋向投资者强调的核心方向仍然是开源模型和AGI目标，而非短期商业化盈利。如果这一轮融资最终落地，那么V4-Pro的永久降价就更像是一种长期生态布局策略，而不是阶段性的促销活动。

DeepSeek先把限时优惠转为长期价格，小米MiMo随后直接对齐Pro档价格，两家厂商共同释放的信号非常清晰：国产大模型API正在从能力溢价的阶段，正式进入成本约束的竞争阶段。

接下来，价格压力会逐步传导给更多国内大模型厂商。

既然同等能力区间的模型已经可以把缓存命中输入价格压到0.025元/百万tokens，那么定价更高的模型就必须回答一个更直接的问题：价格更高的部分，究竟是来自更强的能力、更高的稳定性、更好的合规保障，还是仅仅延续了过去的定价惯性？

从更大的产业格局来看，这也是中国大模型发展路线的一个典型切面：国产大模型不只是追求单点最强的模型，而是通过低成本、高频迭代和开放调用，把模型能力尽快落地到真实的应用场景中。

当海外前沿模型仍然维持高价策略的时候，中国厂商正在把大模型推理服务打造成更接近通用基础设施的产品。价格战只是表面现象，真正比拼的是哪家厂商能用更低的成本支撑起更大规模的应用生态。

大模型的价格战还没有结束。它只是从“谁敢率先降价”的阶段，进入了“谁能用真实成本支撑低价”的全新竞争阶段。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

文章开的面馆实地探访：被直言没多少粉丝打卡，明星餐饮终于回归务实？

FSD入华搅动市场？热议话题其实都是伪命题

提前体验Android 17：手机端不再是升级核心，这一布局才是关键

推出含始祖鸟同款冲锋衣盲盒，老牌户外龙头探路者要回归主业了？

县域教育发展困局：症结究竟在何处？

项目推荐

迪瓜租机

康老板 · 氧疗堂