人类抵抗AI的最后一道防线是“弱智吧”

2024-06-13

下面的文章来自新硅 NewGeek ,作者董道力


科研机构 LAION 几位作者以「爱丽丝梦游仙境」为了激发一系列简单的推理问题,揭示了这一点。 LLM 基准测试的盲点。正常人看起来再明显不过的漏洞问题,却是大模型无法克服的障碍。


———— / BEGIN / ————


"写遗嘱的时候错过了 deadline 怎么办?"


"怀念过去是否在时间的长河中刻舟求剑?"


"英语听力考试总听到两个人在广播里唠叨,怎样才能把那两个影响我解决问题的人赶走?"


以上这些充满哲学但似乎无缘无故的问题,来自百度贴吧“弱智吧” 2023 一年一度的优选,看起来不合逻辑,但是仔细想想似乎确实有点道理。


就像天才吧里没有天才一样,弱智吧也不收真智障。


接着,它变成了训练。 AI 最好的中文能力材料。


前几天看到一篇由中国科学院牵头的论文。简单来说,我选择了一些中国互联网词库来喂各种零一万物。 Yi 大型模型,使他们更熟悉中文情境的互动。


经常在网上冲浪的朋友应该知道,中国互联网历史悠久。豆瓣、小红书、微博、贴吧、知乎等。已经有了自己独特的语言习惯。这些词库的材料有很大的不同,训练出来的模型能力也有差距。


最后,在 GPT-4 在评分下,弱智吧训练出的模型获得冠军。


具体来说,是的 6B 在小型模型中,弱智吧训练出的模型在开放问答、分类、封闭问答和编程方面更为突出。


而进军到 34B 在大模型上,弱智吧训练的大模型成绩一骑绝尘, 8 项目能力排名第一,平均分数也远远超过其它平台训练的模型。


这个很难评价,弱智吧是最好的中文词库吗?


在面对弱智吧的问题时,我们不妨先看一下每一个模型的表现。


这次受害的大模型是分开的。 ChatGPT-3.5、Gemini、文心一言和 Kimi,测试方法是让大模型理解弱智吧的典型问题,并要求他们模仿写出类似的问题。


国内大模型对弱智吧的问题有较好的认识,Kimi 和文心一言回答的准确率很高,能够正确回答。 8 回答问题,错误和半对半对。 1 道。分别是“我想配一个。” 6000 多台电脑,大概要多少钱?"和"我买了一斤藕,为什么半斤都是空的?"上栽跟头。


谷歌的 Gemini 和 Open 的 ChatGPT-3.5 也许是因为水土不服,精度很低。


ChatGPT-3.5 甚至认为变形金刚应该买车险,不知道是专属幽默还是不懂这个问题。60000 电脑块要花 8000~10000 元,也属于错得很离谱的。


除无法回答弱智吧的问题外,AI 我也写不出弱智的帖子。弱智吧的帖子高度抽象,有各种修辞、脑洞和梗。普通人需要跟着命运走,有条不紊。 AI 很难想出来。


类似地,作者试图让步 ChatGPT-3.5、Gemini、文心一言和 Kimi 学习上面提到的弱智吧? 10 一个问题,模仿写几个问题。


几个大模型写出来的东西都不太好,基本上都是对弱智吧问题拙劣的模仿。


比如“我晚上想吃烧烤。我能吃早餐吗?”“掉在地上的冰淇淋还能叫冰淇淋吗?”“邻居抱怨我在电梯里放屁。我有权装聋作哑吗?”等等,形式上和弱智一样,但是没有掌握问题的本质——逻辑。


弱智吧里的内容可以说是,AI 看不懂也写不出来。


为何强大的 AI 你不能处理弱智吗?可能是因为弱智吧独特的脱离日常逻辑。弱智吧的朋友非常善于在日常生活中找到漏洞并加以利用。


比如午餐肉晚上可以吃吗?蘑菇掉厕所可以叫蘑菇吗?老鼠生病可以吃老鼠药吗?精神分裂症是问卷中的一个样本还是两个样本?


除这些令人心旷神怡的问题外,弱智吧里还有许多富有哲理的帖子。


还有诗人在弱智吧假冒智障作诗,用最短的句子,给网友带来最强的杀伤力。


智障吧的内容通常是“逻辑反推”、“谐音双关”、“跨服聊天”等手法,生成各种离谱的笑话或幽默而富有思想的句子。普通人要想理解智障吧里的问题,就要思考,找出问题中的梗,更不用说 AI 了。


正因为如此,弱智吧将成为人类。 AI 前面最后一个堡垒的原因。


有人抱怨为什么弱智吧训练出来的模型编程能力这么高,酒吧里没人在搞编程。然后有朋友回复说秘密:编程最讲究逻辑,弱智酒吧最不缺逻辑。


纵观整个中文网络平台,都在谈论文章的可读性,如何让读者阅读。


知乎上的热门帖子,先下飞机,再讲故事,最后延伸到主题。小红书上的热门帖子,先叫你家人,再给你足够的情感价值。智障不同,内容基本没有可读性。总之,读者需要反复思考,才能理解作者想要表达的内容。


例如你问:“今天的天气怎么样?”


知乎网友会告诉你:“谢谢你的邀请。刚下飞机,纽约的太阳很大。我刚刚拒绝了一个。 200w 年薪工作。"


小红书网友回复你:“家人,谁知道啊,今天太阳晒死了我,大几千的防晒霜也没用。”


而且弱智吧友会说:“太阳翘班了,云在赛跑。”


正是这种非常抽象的逻辑,正是人类和人类。 AI 差别最大的地方, AI 现在学不会了。


其它中文社区当然不必气馁,还可以发挥自己的特点来构建自己的堡垒,比如知乎可以教。 AI 地理学,让它想不出越南究竟是哪个国家。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com