GPT-5.1更新,效果不太妙
被吐槽许久没人味的GPT-5终于迎来进化。13日凌晨三点,奥特曼又开始为自家产品宣传,这次不谈竞技场跑分,而是聚焦短板,主打倾听群众心声、优化产品。

看得出,OpenAI有些着急了。GPT-5上线后,本应退役的4o因太受欢迎,被强行留下。新产品口碑不如旧产品,换谁都想证明自己。那么,被当作替身培养的5.1,能取代大家心中的赛博白月光吗?看完官网案例后,我立刻进行了测试。
结果只能用三个字形容:不太妙。

事先说明,所有测试都在临时聊天环境进行,没有AI受到记忆干扰。
我先测试了奥特曼“尤其喜欢”的指令遵循能力,第一个问题就把它难住了。

要求回答六个字,它只憋出了五个。而这个六字游戏还是官方测试案例。我开始怀疑是不是没使用英文,结果用官方一样的英语提示词,5.1还是答错了。

我又换了个问题,让它写一段200字的薯条颂,全文不能出现“的”字。答案乍看符合要求,但字变成了繁体。试了五遍都是如此,去掉后半段强制性指令,回答又正常了。再看Gemini 2.5 pro,轻松给出正确答案,毫无差错。

说实话,测到这里,我已经产生怀疑了。虽是小更新,但三分之一的卖点都不太灵,有点说不过去。
大家吐槽最多的是GPT-5没有感情。官方称,5.1在5的基础上变得“更温暖、更有对话性”,能有意思又保持回答清晰有用。但从官网案例看,效果一般。4o本来就有的能力,被5弄没了,现在靠5.1回到起跑线,实在难以夸赞。

我问了一个经典失恋问题,结果5.1和5都远不如4o。

上GPT-5.1,中GPT-5,下GPT-4o
5和5.1像是在描述对人类情感的刻板印象,作为旁观者分析“失恋”是怎么回事。而4o的回答更像是带入了失恋角色,感同身受,先共情再鼓励,不愧是梦中情AI。我换了个问题再问,新版回答还不如老版,连基本的感情牌都不打了。

上5,下5.1
再看官网更新公告,除了情感语气对比,还有一张自适应耗时对比图。自适应是5.1更新最大的亮点,毕竟前两个都不尽人意。

简单来说,以前的AI在不同难度题目上不会分配思考时长,问杭州美食和宇宙大爆炸花的力气可能一样。我测试后发现,效果明显。在简单逻辑问题上,5.1的思考速度比5快很多。而在复杂编程难题上,5虽更快给出错误结果,但5.1思考更长时间后给出了正确答案。

对普通用户来说,这个优化感觉不明显。但对于调用API的用户是好事,能在简单问题上省钱,难题上少花冤枉钱。
除了5.1的版本变动,ChatGPT还有个整体大更新——在个性化里可设置GPT的回答风格,除默认外有七种人设可选。

这个功能很有意思,同一个问题,不同人设回答不同,风格差异大。比如,吐槽达人说话冲且直接,技术宅有探知欲,天马行空喜欢艺术化表达,专业可靠像纯工具人等。
上吐槽达人,中技术宅,下默认模式

比起默认模式,这些人设回答很尬。但神奇的是,套上人设后,GPT的讨好感消失了。尤其是吐槽达人,爱与人抬杠,有了大部分AI没有的思辨能力,面对PUA话术毫不领情。要是说话方式不那么尬,这模式潜力比默认模式大得多。

总体而言,这次更新虽有亮点,但OpenAI带来的惊喜越来越少。比起最初的惊艳和爆火的4o生图,GPT-5表现欠佳。根据10月报告,GPT在2025年市场份额持续萎缩。尽管抢占先机保住龙头地位,但AI界竞争依旧残酷。

Similarweb 10月的统计数据
我以前常用GPT,现在也开始频繁使用其他家产品,竞品市占率增长比想象中快且顺利。一边是奥特曼到处拉投资,一边是产品核心质量泯然众人。OpenAI,赶紧拿出好产品吧。
本文来自微信公众号“差评X.PIN”,作者:莫莫莫甜甜,编辑:江江 & 面线,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




