GPT-5.1更新,效果却不尽人意
一直被吐槽没人情味的GPT-5,终于迎来了进化。

今天凌晨三点,奥特曼再次为自家产品宣传。这次他不谈竞技场跑分,而是聚焦产品短板,旨在倾听用户心声,进行产品优化。

看得出,OpenAI有些着急了。GPT-5上线后,本应退役的4o因备受欢迎,被强行留下。新产品口碑不如旧产品,换谁都想证明自己。
那么,被当作替身培养的GPT-5.1,能否取代大家心中的赛博白月光呢?看完官网案例后,世超立即进行了测试。
结果不太妙。

事先说明,所有测试都在临时聊天环境进行,避免AI受记忆干扰。
首先测试奥特曼“尤其喜欢”的指令遵循能力,第一个问题就难住了它。

要求回答六个字,它只给出了五个。而这个六字游戏还是官方测试案例。
世超怀疑是语言问题,改用官方英文提示词,5.1依然答错。

世超又换了个问题,让它写一段200字的薯条颂,且全文不能出现“的”字。答案看似符合要求,可字却变成了繁体。

多次尝试都是繁体,去掉后半段强制性指令,回答才恢复正常。再看Gemini 2.5 pro,轻松给出正确答案。

说实话,此时世超已产生怀疑。虽然只是小更新,但三分之一的卖点都不太靠谱。
接下来看看大家吐槽最多的,GPT-5缺乏情感。官方称,5.1在5的基础上变得“更温暖、更有对话性”。
从官网案例来看,效果一般。4o原本就有的能力,被5弄丢,现在5.1才勉强回到起跑线。

世超问了一个经典失恋问题,对比之下,5.1和5都远不如4o。
上GPT-5.1,中GPT-5,下GPT-4o

5和5.1像是在描述对人类情感的刻板印象,而4o则能感同身受。换个问题测试,新版回答还不如老版。
上5,下5.1

官网更新公告中,自适应耗时对比图是5.1更新的最大亮点。

以前的AI在不同难度题目上不会合理分配思考时长,而5.1在这方面有明显优化。简单逻辑问题上,5.1思考速度更快;复杂编程难题,5.1虽思考时间长,但能给出正确答案。


对于普通用户,这种优化感受不明显,但对于调用API的用户是好事,能节省成本。
除了5.1的版本变动,ChatGPT还有整体大更新——在个性化里可设置GPT的回答风格,除默认外有七种人设可选。

这个功能很有意思,不同人设对同一问题的回答风格差异大。比如吐槽达人说话直接,技术宅有探知欲等。
上吐槽达人,中技术宅,下默认模式

这些人设回答很尬,但套上人设后,GPT的讨好感消失。尤其是吐槽达人,有了思辨能力,不接受PUA话术。
如果说话方式不那么尬,这些模式潜力很大。

总体而言,这次更新虽有亮点,但OpenAI带来的惊喜越来越少。GPT-5的表现不如预期。
根据报告,GPT在2025年市场份额持续萎缩。AI界竞争残酷,竞品市占率增长迅速。
Similarweb 10月的统计数据

世超以前常用GPT,现在也开始使用其他产品。一边是奥特曼四处拉投资,一边是产品核心质量平平。
OpenAI,该拿出点好东西了。
撰文:莫莫莫甜甜



本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




