GPT-5.1更新，效果不太妙

2025-11-15

被吐槽许久没人味的GPT-5终于迎来进化。13日凌晨三点，奥特曼又开始为自家产品宣传，这次不谈竞技场跑分，而是聚焦短板，主打倾听群众心声、优化产品。

看得出，OpenAI有些着急了。GPT-5上线后，本应退役的4o因太受欢迎，被强行留下。新产品口碑不如旧产品，换谁都想证明自己。那么，被当作替身培养的5.1，能取代大家心中的赛博白月光吗？看完官网案例后，我立刻进行了测试。

结果只能用三个字形容：不太妙。

事先说明，所有测试都在临时聊天环境进行，没有AI受到记忆干扰。

我先测试了奥特曼“尤其喜欢”的指令遵循能力，第一个问题就把它难住了。

要求回答六个字，它只憋出了五个。而这个六字游戏还是官方测试案例。我开始怀疑是不是没使用英文，结果用官方一样的英语提示词，5.1还是答错了。

我又换了个问题，让它写一段200字的薯条颂，全文不能出现“的”字。答案乍看符合要求，但字变成了繁体。试了五遍都是如此，去掉后半段强制性指令，回答又正常了。再看Gemini 2.5 pro，轻松给出正确答案，毫无差错。

说实话，测到这里，我已经产生怀疑了。虽是小更新，但三分之一的卖点都不太灵，有点说不过去。

大家吐槽最多的是GPT-5没有感情。官方称，5.1在5的基础上变得“更温暖、更有对话性”，能有意思又保持回答清晰有用。但从官网案例看，效果一般。4o本来就有的能力，被5弄没了，现在靠5.1回到起跑线，实在难以夸赞。

我问了一个经典失恋问题，结果5.1和5都远不如4o。

上GPT-5.1，中GPT-5，下GPT-4o

5和5.1像是在描述对人类情感的刻板印象，作为旁观者分析“失恋”是怎么回事。而4o的回答更像是带入了失恋角色，感同身受，先共情再鼓励，不愧是梦中情AI。我换了个问题再问，新版回答还不如老版，连基本的感情牌都不打了。

上5，下5.1

再看官网更新公告，除了情感语气对比，还有一张自适应耗时对比图。自适应是5.1更新最大的亮点，毕竟前两个都不尽人意。

简单来说，以前的AI在不同难度题目上不会分配思考时长，问杭州美食和宇宙大爆炸花的力气可能一样。我测试后发现，效果明显。在简单逻辑问题上，5.1的思考速度比5快很多。而在复杂编程难题上，5虽更快给出错误结果，但5.1思考更长时间后给出了正确答案。

对普通用户来说，这个优化感觉不明显。但对于调用API的用户是好事，能在简单问题上省钱，难题上少花冤枉钱。

除了5.1的版本变动，ChatGPT还有个整体大更新——在个性化里可设置GPT的回答风格，除默认外有七种人设可选。

这个功能很有意思，同一个问题，不同人设回答不同，风格差异大。比如，吐槽达人说话冲且直接，技术宅有探知欲，天马行空喜欢艺术化表达，专业可靠像纯工具人等。

上吐槽达人，中技术宅，下默认模式

比起默认模式，这些人设回答很尬。但神奇的是，套上人设后，GPT的讨好感消失了。尤其是吐槽达人，爱与人抬杠，有了大部分AI没有的思辨能力，面对PUA话术毫不领情。要是说话方式不那么尬，这模式潜力比默认模式大得多。

总体而言，这次更新虽有亮点，但OpenAI带来的惊喜越来越少。比起最初的惊艳和爆火的4o生图，GPT-5表现欠佳。根据10月报告，GPT在2025年市场份额持续萎缩。尽管抢占先机保住龙头地位，但AI界竞争依旧残酷。

Similarweb 10月的统计数据

我以前常用GPT，现在也开始频繁使用其他家产品，竞品市占率增长比想象中快且顺利。一边是奥特曼到处拉投资，一边是产品核心质量泯然众人。OpenAI，赶紧拿出好产品吧。

本文来自微信公众号“差评X.PIN”，作者：莫莫莫甜甜，编辑：江江 & 面线，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com