不要拼“智商”拼“情商”?GPT-4.5 就这?
昨日,Open AI 发大招,GPT-4.5 “历史上规模最大,知识最丰富,价格最贵的” AI 大型“光晕”问世,CEO 山姆 . 奥特曼还在推特上称赞它,说这是他“讨论过的最好的模型,深思熟虑”,还说“这个东西第一次让我觉得”。 AI 像个人!"
不过,这次发布会却充满了戏剧性:奥特曼在网上 GPT-4.5 赞不绝口,本人却缺席了新闻发布会,只是因为他是新父亲,要在医院全力带娃。
从 2 年前 GPT 封神到今天 GPT-4.5 最后出道,这个新款式 AI 大模型究竟能给我们带来什么?
这一卷是“人味”
对于 GPT 期望,相信就不用我多说了。二 年前,GPT-4 第一次世界大战封神,没有一个用过的人不说:卧槽。
可是时间匆匆而过,不经意间,GPT-4.5 又来到了它的新闻发布会上,但是不得不说,似乎再也没有当初那种“秀翻天”的感觉了。
这次的 GPT-我个人认为,4.5在性能上并没有达到每个人的预期。
尽管号称在 GPT-4.5 使用了 GPT-4o 10 两倍的计算能力,但是我们可以看到整体数据,并没有得到很大的提高。
即使是它的名字也非常相映成趣,只有“半代”的上下提升。
网上有个大佬给它做了。 AI 常用的经典物理测试,实际上表现还不错,小球运动速度很快,而且没有超过大球。
但就推理能力而言,GPT-4.5 虽然相比 4o 总的来说,有微弱的改善,但是 GPQA (科学)、AIME'24 ( 数学 ) 、SWE-Bench Verified ( 编程 ) 在能力方面,完全弱于 OpenAl o3-mini。
所以这次 GPT-4.5,更多的优势在于 OpenAI 所说的:人情味。
GPT-4.5 人情味体现在哪里?
在真正展示 GPT-4.5 之前,OpenAI 首先向我们展示了从 GPT-1 到 GPT-4.5 进化过程,看上去很有趣。她们问了一个常识性的问题:为什么海洋是咸的?
GPT-1 答案是这样的,可以看出,它甚至不知道自己在说什么。
GPT-2 和 GPT-3.5 开始知道自己在说什么,而且有点端倪。
GPT-4 这是我们最熟悉的答案节奏,有逻辑,有根据,就是说话太死板,一点也不像人。
而到了 GPT-4.5,你会发现它的答案和答案 GPT-4 差不多,这也说明,其实它的推理和逻辑能力,其实变化不大。
最大的变化在于它的语气。一方面,它会说得更短,用词更日常;另一方面,它含有一个“感叹号”,这也表明它的话是情绪化的。
而最能体现 GPT-4.5 情商能力,关键还要问他一些带情绪的问题,比如:考试不及格后我感到很难过。
能够看见,GPT-4o 答案真的很没脑子,纯粹的逻辑分析,一股死脑筋的味道。
而 GPT-4.5 会对人的情绪产生顾忌,不仅懂得安抚,还会建立自信,告诉你“这不是你能力的问题”。最后,给出一个解决方案,这样你就可以不那么难过地转移注意力。
更有意思的是,有人发现,既然它的情商这么高,在文科领域可能会有更大的行动,然后发现它在音乐推荐上比音乐推荐更大。 GPT-4o 强多了。
或许是因为音乐更需要感性的评价,而不需要直截了当的逻辑判断,而这正是 GPT-4.5 所擅长的。
与过去人们所期望的“聪明大脑”相比,这次的“聪明大脑” GPT-4.5 不再是“解决问题的机器人”,而是智力依然在线,但是情商直接封神的“知心姐姐”,可以随时给你情感价值。
DeepSeek 吊打 GPT-4.5
说起情商,当然是这样 DeepSeek 必须出来迎战。要知道,DeepSeek 刚出来的时候,不仅仅是因为它的价格低廉,更是因为它的“为人处事”。最著名的是当时的聊天截图:
那时许多人都说,DeepSeek 这是" AI “成精”,很多时候,而且还懂得用网络梗来回答。然后对比新出来的。 GPT-4.5,它的表现如何?我问了一下刚才考试不及格的问题:
老狐发觉,DeepSeek 答案也一样好,和 GPT-4.5 几乎一模一样,安慰,建立自信,然后给出解决方案。因此,我们以前使用它。 DeepSeek 感觉它的情商极高,这并非幻觉,而是它的确情商高,而且和 GPT-4.5 还打得有来有回。
但是不谈成本纯粹谈能力,那就是耍流氓(再说也没看出来。 GPT-4.5 多么有能力啊)。许多人第一次看到。 GPT-4.5 在价格上,都怀疑自己是标错价格了,还是自己的眼睛出了问题。
GPT-4.5 的 API 价格的确太贵了,已经不可想象了,每百万 Tokens 输入价格为 75 美元,导出的价格是 150 这个价格已经是美元了 GPT-4o 的 30 倍了。而它的竞对 Claude 百万输入才3.7 3 美元,导出也只需要 15 美元,这在国外的成本已经比别人贵了。 10~25 倍了。
科技界有人测算过,如果问几十个字的问题,再得到一个三四千字的答案,这里的价格就要付出代价了。 60 块钱左右。
或许这就是 OpenAI 这次我最想告诉你的是:当今世界上最有价值的东西是情感价值。情商高的答案可以和“直男”相比。 4o 要贵几十倍。
但是如果我把它拿出来 DeepSeek,那 GPT 将如何应对?现在 DeepSeek V3 价格,输入是 2 块(换算于 0.27 美元),导出是 8 块(换算于 1.1 美金)。
GPT-4.5 整整贵了 277 倍和 150 倍数,能力相当,但是价格却如此昂贵,OpenAI 凭啥呢?
训练有望达到瓶颈?
近期的 Grok 3 和 GPT-4.5 可以算是连续推出,也许这和 DeepSeek 出现有关系,两者的出现,似乎有点被“惹恼”的感觉。
例如像 Grok 马斯克称他为“世界上最聪明的人” AI “大模型”,不过前不久也没有震惊,同样的,现在出来的。 GPT-4.5,在“情商”方面有所提高?但是性能表现同样没有达到大家的预期,要知道,OpenAI 行业一直处于领先地位,但这一次却不尽如人意。
或许,众所周知,通过烧钱买卡,力大砖飞硬抬计算能力。 AI 这条路正式进入瓶颈期。
GPT-4.5 这项工程从很早就开始建立,但是经过了 2 年后才出来,很有可能是中间训练的过程从来没有出现过理想的结果,直到现在才出现。 DeepSeek 直到威胁到自己才匆匆忙忙地走出来。
早在 2 月 19 在这一天,山姆奥特曼已经通知他们已经达到了目标。 4.5 水平,所以这次发布,其实早在计划之内。
但是那时他也说过,以后要达到 GPT-如果是5.5,则需要增加。 100 倍的算率。
那可是 100 倍算率,恐怕显卡会堆积成珠穆拉玛峰,即使有多少张显卡, GPU 先不说,现在的 AI 电力消耗已在美国消耗 4% 那么,如果想再翻一遍 100 倍数,那是要消耗多少美国的电力?4 一个美国?这个有可能吗?
目前 AI 大型模型主要有两种方式,一种是国外烧钱堆算率路线,另一种是国外烧钱堆算率路线, DeepSeek 加强算法学习的路线。或许我们现在要期待的是看看。 DeepSeek R2 能否在性能上取得巨大的突破,如果可以的话,也许我们走的路,才是正确的道路。
参考资料:
知乎、X、facebook、youtube、b 站立,新浪微博
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




