喷了这么多年，图灵检测到这个老东西还没有冷？

2025-04-23

首先问大家一个问题，仅仅通过聊天，你能推断出对方是个什么样的人吗？

看看这个聊天记录，你可能会得出结论，另一边是一只宇宙无敌的懒狗。

但是如果我告诉你，对面根本不是人，你敢相信吗？

这个问题，与科学史上的典中典、图灵检测有关。

一直以来，大家都把这个测试作为衡量。 AI 智商标准。怎么测量？就是让人跟着。 AI 聊天，如果人类分不清对面是对面。 AI 还是人，那么这个 AI 即使赢了。

但这位图灵老爷子已经去世70多年了，图灵检测似乎仍然是AI圈的一个“指路明灯”。

在 2024 年，GPT-4 对图灵的检测进行了挑战， 54% 胜率成功获胜。

要知道这个图灵测试的及格线是30%，这个结果已经被认为是非常出色的。

那时加州大学圣地亚哥分校的研究 500 有四名参与者 “对话者”(包括真人、古董机器人) ELIZA、GPT-3.5 和 GPT-4）进行 5 分分钟交流，结果将近60%的人被接受 GPT-4 演技忽悠了，其他AI也没有跨过30%的坎儿。

不久前，又有人拿了最新的。 GPT4.5 我做了测试。结果表明，它不仅通过了图灵测试，而且被视为人类的概率也高于真人！好家伙，现在有些人真的活得不如人机。

所以，这么多年了，为什么这个东西还屹立不倒？

要知道，在电脑还在用打孔纸带存放的时代，图灵提出了这个测试。这是因为当时人们还是搞不清人类思维的本质，更别说研究机器是如何思考的了。

所以图灵想，我们不纠结本质，就看它的表现吧？就像一个物体，看起来像西红柿，吃起来像西红柿，所以它是西红柿！如果机器有智慧，它应该看起来像人。

但是没有想到，直到今天，科学家们还没有弄清楚人脑的运转模式。所以这个东西不能退休，也有它的道理。

但是江江实际上一直有一个疑问，这个图灵检测真的有那么神奇吗？和你对话说明AI有思考能力，是不是有点太草率了？

我在网上搜了一下，很多网友也有同样的看法：现在是5202年，图灵检测早已过时。。

事实上，这东西自打提出以来，在业界一直有很多反对。

一位加州伯克利教授于1980年提出，图灵测试一点用都没有。他的例子是把一个以英语为母语的人关进房间，然后把中文写的问题传到房间里，房间里有一本英语和汉语的答案。这样，他只需要每次收到问题，找到答案，抄下来，然后把答案递出去，完全不用去想问题。

它的确是图灵测试的一个大bug。——它只看答案，不需要看过程。

而且，它的bug不止一个。1966 年，MIT 一位教授整个聊天机器人 ELIZA，它可以用简单而模糊的回应，让你觉得它似乎理解你。下面这段对话，乍一看没有问题，仔细琢磨，ELIZA 只是一台纯粹的复读机！但是还是可以欺骗一部分人类。

2014年，一名程序员宣布他的程序成功通过了图灵测试。但是他的方法让人大呼神人。他让程序打扮成一个13岁的乌克兰男孩，提问者是一个英语母语者，这让提问者觉得对方是个孩子，语言不通，胡说八道很正常。

很明显，这类机器人专注于“愚弄人类”，而非“思考答案”，测试者大叫着被耍了。

这个问题也让很多人开始对图灵进行巅峰对决。

IEEEEE2014年著名科技杂志一篇关于Spectrum的文章提出，图灵测试真的不好，威诺格拉德测试才是未来！

这个威诺格拉德检测呢，就是给机器一些常识性的填空，比如：

狮子吃斑马是因为“它们”是捕食者，在这里 “它们” 指的是 “斑马” 还是 “狮子” 呢？

这个问题一眼就能回答出来， AI 必须要犯难。

亚马逊首席科学家2020年 Rohid 还发文称，图灵检测早就应该淘汰了！

加里·马库斯，纽约大学教授，甚至直言：这个东西已经过时了，我希望每个人都能忘记它，但是人们不能忘记它。

如此看来，大家对图灵检测的怨恨已久啊。

但是实际上，也不能怪大家。即使是图灵本人，也没有严格定义图灵检测。因此，图灵测试就像一个框架，任何东西都可以装进去。

就GPT4.5而言，测试数据为1023场对话，平均长度为8条新闻，持续4.2分钟。这么短的对话让很多人直接喷，这也是聊天吗？

虽然图灵在 1950 2008年的文章中提到，开始对话。 5 几分钟后，人类认出来了 AI 机率不超过 70% 就算通过了。但是这也是一个基于当时技术水平的标准，现在 AI 如此猛烈的发展，如此低的标准，确实有点跟不上旅行。

况且现在的大模型演讲者就像人一样，一般人根本分不清。但是它真的会思考吗？不要整天看着它。深入思考” 本质上，它根本不理解自己输出物品，更不用说情绪了。

即使是不同的人，也有不同的辨别不同AI的能力。就像Boss玩了一百遍，远不如第一次杀人的时候杀人。资深AI客户参加图灵检测，认出AI的概率肯定更高。那么问题来了。要不要给AI一个难度分级，从人类部队到最后人类Boss一路走来？

这样看来，图灵检测这个东西的bug还真不少，的确没有什么感染力。

但是说实话，现在大家都纠结于图灵测试不过时，也许并非图灵老爷子想看到的。

就像老人在他的经典论文里一样。《Computing Machinery and Intelligence》里面写着:“我们希望机器能在所有的智商领域与人类竞争，但最好的起点是什么？我不知道。”归根结底，他只是在一个领域提出了一个可行的解决方案。被后来的人视为标准，这也是他没想到的。

如今，ChatGPT可以写出比大多数人更好的文章。Claude可以指挥你的电脑开始工作，但我们仍然在取笑AI无法通过图灵测试。有点盲目吗？

图灵从未说过，通过我的测试，AI才算成功。只有人类的无限进步，他才能真正看到。

本文来自微信微信官方账号“差评前沿”，作者：不咕，编辑：江江，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

昆明有这些强大的专利 | 深蓝色下的“黑科技”

不可食用！别捡！近来大量出现

瞬间爆炸，家烧光！看完想马上回家拔插头...

最近，建议多吃这种花。

暴涨！暴涨！最新解读

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂