35天,成了AI模型的“保质期”
上个月你刚花20美元开通ChatGPT Plus会员,这个月朋友圈就被“Claude秒杀所有模型”的消息刷屏,再过一个月,可能又换成“Gemini才是真神”。
看着每月自动扣钱的账单,你难免疑惑:这些AI会员,到底要开到什么时候才是头?
这并非你的错觉。知名大模型评测平台LMArena.ai分析了2023年年中以来的模型排名数据,揭露了大模型行业最残酷的现实:

排名第一的模型平均只能保持约35天的领先地位,通常5个月内就会跌出前五,7个月内跌出前十。
曾经风光无限的OpenAI o1现在排第56位,Claude 3 Opus更是跌到了第139位。

虽然LMArena.ai的榜单可能存在一定水分,但这种频繁洗牌的现象,还是反映出AI模型“过气”速度之快——35天,正在成为顶级AI模型的“保质期”。
亿级投流,留不住“尝鲜”的用户
过去两年,互联网上流传着一张关于大模型迭代的梗图,生动展现了行业的变化。

去年年初还是ChatGPT一家独大,后来DeepSeek、Claude相继崛起,如今Gemini又异军突起。无论2025还是2026年,性能始终是用户选择AI模型的核心标准。
用户的选择很纯粹:哪款模型好用、顺手,就用哪款。现在的AI用户,确实没什么“忠诚度”可言。
比如Sora 2刚发布时,被称为“短视频的降维打击”,5天内下载量破百万,但a16z合伙人Olivia Moore公布的数据显示,它的30天用户留存率仅1%,60天几乎归零。

把目光转向国内,大模型竞争同样激烈:AI应用每月投流规模动辄千万甚至上亿,但除了初期能吸引一波流量,用户留存率依然很低。
这种“新鲜感一过就走”的现象,和AI热潮催生的“FOMO(错失恐惧)”心理有关——很多用户只是为了跟上潮流、体验新鲜工具,试过之后就转身离开。
更深层的原因是,多数AI产品还没建立起留住用户的闭环。
过去的SaaS行业,“因某功能而来,因生态而留”是经典的增长逻辑。比如有人最初用Canva做社交海报,后来却被品牌素材库、模板和团队协作功能吸引,成为长期用户;有人第一次点开微信视频号,是因为朋友圈的转发,但熟人互动让他们留了下来。
内容本身可能不惊艳,但被熟人关系包裹着——你可能不关心视频内容,但会在意谁转发了、谁留言了,点赞既是支持创作者,也是维持关系。
但这套逻辑在多数AI产品上失灵了。

最典型的就是Sora 2,虽然能生成以假乱真的视频,但没有原生社区让用户分享、互动、获得反馈,它终究只是个孤立工具——除了少数专业人士,普通用户很难有长期使用的需求。
此外,重度用户的使用习惯也在改变。
英伟达CEO黄仁勋曾公开分享自己的用法:不依赖单一模型,而是把同一个问题抛给多个AI,让它们互相验证,提升回答质量。

这背后的逻辑很简单:没有哪个模型能“包打天下”,不同模型各有优势。现在ChatGPT已不是唯一选择,用Claude写长文本、Gemini写代码、多模型协作才是常态。
更关键的是,科技巨头早已拥有成熟的生态,能把AI能力无缝嵌入现有产品。
谷歌有一套验证了二十年的入口体系,能把Gemini嵌入YouTube、Workspace办公套件,还能绑定Chrome、地图等核心流量入口,同时开放API吸引开发者。

这种“润物细无声”的分发方式,让Gemini轻松获得大量普通用户和企业客户,也让ChatGPT用户摇摆不定。
面对用户使用意图弱、迁移成本低的困境,以OpenAI为代表的初创公司开始“筑墙”:和生态厂商合作,推出AI Office、AI浏览器、AI群聊等产品。

用Sam Altman的话说,这是“用AI重构一切,释放最大生产力”,但换个角度看,也是“入口焦虑”下的被动选择。
另一方面,OpenAI在C端押注“个性化记忆”和“情商”:允许模型跨会话记住用户的写作风格、专业术语,还能手动编辑记忆库;针对心理咨询等场景优化语气,本质是通过个性化和“情感绑定”提高用户迁移门槛。
但这些努力短期内很难逆转用户流失的趋势。当产品突破越来越难,一些厂商开始在“捷径”上动脑筋——在衡量性能的榜单上做手脚。
“我随时能换,也该随时换”
前面提到的“35天保质期”,核心参考LMArena反映的行业趋势,但需要说明的是,即使是这份相对权威的榜单,也藏着不少猫腻。
Meta之前被曝出的“刷榜”行为,就揭开了榜单的“遮羞布”。
发布Llama 4前,Meta私下测试了27个变体版本,却只公布分数最高的“特供版”,靠着这种方式,Llama 4一度霸榜。但正式版发布后,排名从第2暴跌到第32位,“滤镜”瞬间破碎。

榜单的评测机制也有问题:理论上是用户输入提示,比较两个AI的回应,选出更好的那个;但实际情况是,随机网民匆匆扫一眼,用两秒钟点击“感觉不错”的选项。
Surge AI在《LMArena is a cancer on AI》一文中指出,平台上52%的对决判定有误,大众投票更偏爱回答冗长、排版华丽甚至带表情包的“显眼包”。
很多时候,AI只要“自信地胡说八道”,就能轻松击败诚实但枯燥的对手。
当“刷榜作弊”成了行业潜规则,用户对模型的信任也在不断被消耗。再加上模型频繁出现的“降智”更新,用户对“榜一大哥”的“祛魅”,只是时间问题。

而开源和低价模型的崛起,进一步冲击了行业格局。
微软内部数据显示,DeepSeek R1极大推动了全球多数地区的AI普及:在白俄罗斯占56%的份额,古巴49%、俄罗斯43%,甚至埃塞俄比亚和津巴布韦也分别达到18%和17%。

图片来自金融时报
原因很简单:价格低。
对大多数人来说,免费模型已经能满足日常需求,用户自然会产生这种心态:我随时能换,也该随时换。对开发者而言,即使OpenAI等巨头多次降价,其每Token的收费依然远高于DeepSeek。
此外,开发者基于Qwen、DeepSeek等开源模型,针对教育、医疗等细分场景做轻量化微调,诞生了一批“小而美”的垂直模型。它们在通用榜单上分数不高,但特定场景的表现远超闭源巨头,进一步削弱了头部模型的话语权。
在这种背景下,卡在中间的AI玩家最尴尬:既不够强,也不够便宜,却还想靠刷榜、讲故事维持存在感。在“35天保质期”面前,他们几乎没有回旋余地。
等待他们的结局,只有被“淘汰”。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com


