喷了这么多年,图灵检测到这个老东西还没有冷?

04-23 06:24

首先问大家一个问题,仅仅通过聊天,你能推断出对方是个什么样的人吗?


看看这个聊天记录,你可能会得出结论,另一边是一只宇宙无敌的懒狗。



但是如果我告诉你,对面根本不是人,你敢相信吗?



这个问题,与科学史上的典中典、图灵检测有关。


一直以来,大家都把这个测试作为衡量。 AI 智商标准。怎么测量?就是让人跟着。 AI 聊天,如果人类分不清对面是对面。 AI 还是人,那么这个 AI 即使赢了。


但这位图灵老爷子已经去世70多年了,图灵检测似乎仍然是AI圈的一个“指路明灯”。


在 2024 年,GPT-4 对图灵的检测进行了挑战, 54% 胜率成功获胜。



要知道这个图灵测试的及格线是30%,这个结果已经被认为是非常出色的。


那时加州大学圣地亚哥分校的研究 500 有四名参与者 “对话者”(包括真人、古董机器人) ELIZA、GPT-3.5 和 GPT-4)进行 5 分分钟交流,结果将近60%的人被接受 GPT-4 演技忽悠了,其他AI也没有跨过30%的坎儿。


不久前,又有人拿了最新的。 GPT4.5 我做了测试。结果表明,它不仅通过了图灵测试,而且被视为人类的概率也高于真人!好家伙,现在有些人真的活得不如人机。



所以,这么多年了,为什么这个东西还屹立不倒?


要知道,在电脑还在用打孔纸带存放的时代,图灵提出了这个测试。这是因为当时人们还是搞不清人类思维的本质,更别说研究机器是如何思考的了。


所以图灵想,我们不纠结本质,就看它的表现吧?就像一个物体,看起来像西红柿,吃起来像西红柿,所以它是西红柿!如果机器有智慧,它应该看起来像人。


但是没有想到,直到今天,科学家们还没有弄清楚人脑的运转模式。所以这个东西不能退休,也有它的道理。


但是江江实际上一直有一个疑问,这个图灵检测真的有那么神奇吗?和你对话说明AI有思考能力,是不是有点太草率了?


我在网上搜了一下,很多网友也有同样的看法:现在是5202年,图灵检测早已过时。



事实上,这东西自打提出以来,在业界一直有很多反对。


一位加州伯克利教授于1980年提出,图灵测试一点用都没有。他的例子是把一个以英语为母语的人关进房间,然后把中文写的问题传到房间里,房间里有一本英语和汉语的答案。这样,他只需要每次收到问题,找到答案,抄下来,然后把答案递出去,完全不用去想问题。



它的确是图灵测试的一个大bug。——它只看答案,不需要看过程。


而且,它的bug不止一个。1966 年,MIT 一位教授整个聊天机器人 ELIZA,它可以用简单而模糊的回应,让你觉得它似乎理解你。下面这段对话,乍一看没有问题,仔细琢磨,ELIZA 只是一台纯粹的复读机!但是还是可以欺骗一部分人类。



2014年,一名程序员宣布他的程序成功通过了图灵测试。但是他的方法让人大呼神人。他让程序打扮成一个13岁的乌克兰男孩,提问者是一个英语母语者,这让提问者觉得对方是个孩子,语言不通,胡说八道很正常。


很明显,这类机器人专注于“愚弄人类”,而非“思考答案”,测试者大叫着被耍了。


这个问题也让很多人开始对图灵进行巅峰对决。


IEEEEE2014年著名科技杂志 一篇关于Spectrum的文章提出,图灵测试真的不好,威诺格拉德测试才是未来!


这个威诺格拉德检测呢,就是给机器一些常识性的填空,比如:


狮子吃斑马是因为“它们”是捕食者,在这里 “它们” 指的是 “斑马” 还是 “狮子” 呢?


这个问题一眼就能回答出来, AI 必须要犯难。


亚马逊首席科学家2020年 Rohid 还发文称,图灵检测早就应该淘汰了!



加里·马库斯,纽约大学教授,甚至直言:这个东西已经过时了,我希望每个人都能忘记它,但是人们不能忘记它。



如此看来,大家对图灵检测的怨恨已久啊。


但是实际上,也不能怪大家。即使是图灵本人,也没有严格定义图灵检测。因此,图灵测试就像一个框架,任何东西都可以装进去。


就GPT4.5而言,测试数据为1023场对话,平均长度为8条新闻,持续4.2分钟。这么短的对话让很多人直接喷,这也是聊天吗?



虽然图灵在 1950 2008年的文章中提到,开始对话。 5 几分钟后,人类认出来了 AI 机率不超过 70% 就算通过了。但是这也是一个基于当时技术水平的标准,现在 AI 如此猛烈的发展,如此低的标准,确实有点跟不上旅行。


况且现在的大模型演讲者就像人一样,一般人根本分不清。但是它真的会思考吗?不要整天看着它。 深入思考” 本质上,它根本不理解自己输出物品,更不用说情绪了。


即使是不同的人,也有不同的辨别不同AI的能力。就像Boss玩了一百遍,远不如第一次杀人的时候杀人。资深AI客户参加图灵检测,认出AI的概率肯定更高。那么问题来了。要不要给AI一个难度分级,从人类部队到最后人类Boss一路走来?


这样看来,图灵检测这个东西的bug还真不少,的确没有什么感染力。


但是说实话,现在大家都纠结于图灵测试不过时,也许并非图灵老爷子想看到的。


就像老人在他的经典论文里一样。《Computing Machinery and Intelligence》里面写着:“我们希望机器能在所有的智商领域与人类竞争,但最好的起点是什么?我不知道。”归根结底,他只是在一个领域提出了一个可行的解决方案。被后来的人视为标准,这也是他没想到的。



如今,ChatGPT可以写出比大多数人更好的文章。Claude可以指挥你的电脑开始工作,但我们仍然在取笑AI无法通过图灵测试。有点盲目吗?


图灵从未说过,通过我的测试,AI才算成功。只有人类的无限进步,他才能真正看到。


本文来自微信微信官方账号“差评前沿”,作者:不咕,编辑:江江,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com