ChatGPT o1满血版上线,实测中它竟输给了文心Kimi?

2024-12-10

OpenAI于当地时间12月5日正式推出ChatGPTo1和o1-Pro2个新的AI模型。事实上,o1模型以前已经被大家使用过了,但当时也被称为o1。-preview,仅仅打开了o1模型的部分功能,现在新版本已经去掉了preview,这也意味着o1模型的满血版终于正式上线。



就简单的测试而言,满血版的o1模型已支持上传图片和文件,而且以前只能进行文字输入,也就是增加了多模态理解,但是网页搜索功能还没有上线,这是一种缺陷。


OpenAICEO奥特曼对o1满血版的改进进行了简单的柱形图对比:可以看出,o1在数学推理和编程领域的表现明显优于o1。-preview,增长率在50%左右,但是在科学研究领域的测试中,o1的表现与o1-preview相比有限。



考虑到o1模型可以在没有额外价格的情况下使用,对于有需求的用户来说还是非常有价值的,但是OpenAI这次并不是醉酒的意思。与免费升级的o1相比,全新的o1-pro是亮点。然而,想要用上o1-pro,需要订阅新的200美元套餐才能优先使用,对于个人用户来说,这也是目前AI领域最昂贵的订阅方案。


从OpenAI给出的性能对比图来看,o1-pro在o1的基础上确实有所提升,但是提升幅度不大。对于普通用户来说,o1模型完全可以满足日常使用,完全没有必要为o1-pro订阅200美元的套餐。


自然,200美元套餐不仅仅是o1-pro,还有使用o1模型和高级语音功能的无限权限(o1-pro不在这里,估计使用次数还是有上限的)。如果你认为o1的问题金额根本不够,那么200美元的套餐就是个人用户的唯一选择。


既然有了新的模型,那就一定要测试一下。雷科技的测试主要针对o1充血版的多模态能力,还邀请了两位国产AI友谊参赛(kimi和文心)。


01 O1满血版的实测感觉并非「无敌」


o1模型的优势在于数学等方面的高级推理,那么首先要从自己擅长的地方开始,一道数学计算题并不难:


假定一家公司生产某种商品,生产成本和生产能力之间的关系是C(x) = 3x^2 - 2x 5(单位:万元),其中X为产量(单位:千件)。市场价格与产量的关系是: P(x) = 50 - 0.5x(单位:万元/千件)。


1. 寻求该公司的生产 x千件商品时的总利润函数 L(x)。


2. 为了实现最大利润,确定该公司应该生产多少千件商品,并计算最大利润。



先看一下国产AI的答案:



kimi



文心一言


国产AI都给出了同样的答案:188.14万元,那么再来看看ChatGPT-o1。



o1


o1模型给出的答案也是188.14万元,与问题本身的正确答案一致,三个AI都通过了测试。但实际上,我们可以从答案的截图中看出差异。o1模型展示了许多计算过程,更方便用户检查推理过程是否正确。


这也与o1模型的主要用途有关。本质上,o1模型是为科学研究和其他用途设计的。因此,在展示答案时,我们会更加注重推理过程和准确性,而不仅仅是导出正确的答案。


接下来,我们试着直接用图片提问,这样我们就可以输入一些抽象的数学题,比如小学四年级的奥林匹克竞赛题:



或者通常先看一下国产AI的答案:



kimi



文心一言


两个国产AI分别给出了A和B的选项,其中kimi的推理过程特别长,所以这个小学的奥数题直接用高数分析。


以下是o1模型的答案:



o1


o1模型给出的答案也是B,那么kimi算错了吗?答案不是。这个问题的正确答案其实是A,换句话说,o1和文心都是错误的。文心一言不能看出哪一步是错的,因为没有给出详细的推理过程,而o1模型在分析图片时显然是错误的判断图形集合的数量,最终导致答案推理的错误。


在这个问题上,我们实际上可以看到AI模型在处理类似的图形问题时有不同的思路。文心的话和o1试图通过直接找到图片的规律来计算答案,这类似于人类回答问题时的思维,而kimi则直接将图形子转换成方程式,然后计算出来。


从效率上来说,o1和文心的推理方法一定要节省更多的计算能力,但是如果分析和拆解能力跟不上,就会得到和这次一样的错误答案。虽然kimi的推理过程会消耗更多的计算率,但也保证了答案的准确性。


从企业的角度来看,选择图形推理方案自然是提高推理效率、降低推理成本的最佳选择。但考虑到OpenAI给出的OpenAI高级模型特性和科研助手定位,如果给出错误的答案来节省计算率,恐怕很难说服用户。


接下来我们再来看一下编程的表现,题目并不难:


我想做一个软件。该软件每小时免费检查一次计算机的网络连接状态。如果网络连接中断,计算机将被重新启动。如果网络连接正常,它将保持现状。



两个国产AI很快就给出了答案:



kimi



文心一言


因为要求很简单,经过简单的测试,虚拟机提醒运行成功。然而,我们可以看到两个国产AI的答案有些不同。kimi在代码中用灰色字体注释,而文心通过额外的注意事项提醒我们,并提醒我们安装操作库,并给出更多的编程建议。


那o1模型呢?回答如下:



o1


从o1模型的答案来看,这是一个分为三部分的答案。首先给出实现思路,然后给出示范代码并注释。最后分析代码的编写过程,提供测试思路和替代方案,可以算是两个AI各自的优势。对于初学者来说,o1模型的感觉可能会更好。


从生产力来看,o1模型在特定领域的表现确实不错,但国产AI的表现并不差,其中kimi是唯一一个答对所有测试问题的AI,令人惊讶。


测试到这里,本来可以告一段落,但我还是想看看在日常生活中,o1模型的表现与一般模型有何不同?


于是,我又出了一个附加问题,从网上搜索了一张草莓馅饼的图片,然后问AI怎么做照片里的甜点。



kimi



文心一言



o1


三个AI很容易识别甜品的类型,并给出类似的公式。然而,o1模型的答案详细到每一步的操作方法和注意事项。相对来说,国产AI的流程要简单得多。如果你是一个有一定烘焙经验的人,国产AI食谱就够了,但是对于一个新手小白来说,o1模型食谱的通过率明显会高很多。


02 下一步就是学会真正的AI。「思考」


总的来说,o1模型在答案的细节上确实有明显的优势,在一些需要查看推理过程或者获得更详细答案的场景中会感觉好很多。但就答案的准确性而言,o1与目前的国产AI相比,实际上并没有太大的优势,表现也不如kimi。


此外,国产AI还可以通过提问等方式获得更详细的答案和推理过程。事实上,o1模型在大多数场景中没有明显的优势。比如我在日常使用ChatGPT的时候,很多时候ChatGPT-4o可以满足需求,只有少数前提下需要o1模型。


作为ChatGPT的长期客户,我认为o1模型实际上更适合研究人员和金融分析师。他们将使用大量的数学工具,并在日常工作中进行多次推理。这时,o1模型经过多步推理流程的针对性训练,在解决这些问题时会表现得比普通AI好很多。


对于o1-pro,事实上,根据我查询的其他用户的测试结果,答案的质量与o1模型没有太大区别。两者的差距主要是o1-pro可以调用更多的计算率,反复计算答案的准确性,并尝试给出更详细的推理过程。


事实上,随着AI模型的发展到现阶段,细分的迹象已经开始出现。在此之前,很多AI公司都想打造一个专门精细的多模式模型,但是发现成本高,效果不好,比如「幻觉」等待问题一直难以解决。


而且ChatGPT-o1无疑给出了另一种解决方案,如果计算率足够的话,可以让AI先对问题进行深入的处理。「思考」,然后根据思考的结果来计算。你可以这样理解。o1应该先尝试分析问题本身,然后根据分析数据解决问题。一般AI会直接拆解问题的关键词,然后根据算法调用相应的数据并组合导出。虽然这种方法反应很快,但答案的准确性无法保证,尤其是面对一些复杂的问题时。


因此,我们可以看到kimi和文心的言论实际上是通过各种方式让AI学会的。「思考」,而非根据算法和数据强制组合答案。kimi的表现给我留下了深刻的印象。作为数学考试中唯一回答全部正确的球员,他们可以不付费使用,他们充满了性价比和感受。


说实话,ChatGPT的20美元订阅,如果不是为了方便查询外文资料和支持AI的前沿,性价比真的不高。免费kimi和提供各种智能身体和官方工具,更通用的文心是更划算的选择。


本文来自微信微信官方账号 “价值研究所”(ID:jiazhiyanjiusuo),作者:TSknight,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com