全是AI编造内容的网站,反倒成了当下互联网最坦诚的存在
本文来自微信公众号:APPSO,作者:发现明日产品的
我们打开维基百科搜索词条,都希望得到准确真实的内容,至少在AI发展到现在的阶段,总得有一个平台能给我们靠谱的真实信息吧。想找真实内容当然可以,但如果你在Halupedia搜索词条,得到的也是「真相」——只不过是这个网站三秒钟之前才刚刚造出来的真相。
Halupedia是一个外观和维基百科几乎一模一样的网站,但它上面每一篇词条内容,全都是AI生成的幻觉内容。

你输入一个想要查询的词条,如果这个词条之前从来没有人搜索过,大语言模型就会在几秒钟之内给你生成一篇措辞严谨、看着像模像样、还带着参考文献、满是学术氛围的百科文章——内容讲的是一个从来没在这个世界上存在过的东西。如果这个词条已经被人搜过了,你看到的就是之前用户触发生成的那篇幻觉内容,这个网站甚至还做了交叉引用,标注了不存在的学术期刊,连语气都模仿了19世纪学者考证的腔调。所有细节都做得让人信服,可惜所有内容都是假的。
说它是行为艺术也行,说它会成为未来互联网的数据污染源也对,答案可能是:它两者都是。
维护虚构世界的自洽世界观
如果Halupedia只是一个随便瞎编乱造内容的随机生成工具,它早就和网上其他无数AI玩具一样被淹没了。真正让它有意思的是一个设计细节:它一直在维护自己这个小世界的逻辑自洽。
每当AI生成一篇新的词条文章,文章里所有的超链接都会被加上隐藏的元数据,也就是上下文描述,会提前说明这个链接指向的、还没生成的词条,应该包含哪些核心内容。等之后真的有人点击这个链接,系统就会把所有指向这个词条的元数据汇总起来,当作已经确定的「既定事实」放进生成提示词里,让AI按照这个设定生成内容。

很奇妙的一点是,在这里AI可以编,可以瞎扯,但绝对不能前后矛盾,哪怕所有信息都是编出来的,整个世界观也要保持逻辑一致。
这套机制叫做link hints,它让Halupedia从一个随便出幻觉的生成工具,变成了一个内在逻辑自洽的完整虚构宇宙。写过小说、爱玩开放世界游戏的人一眼就能看懂,这就是世界观搭建和管理,只不过管理者不是人类作者,而是数据库加上系统提示词机制。
换句话说,Halupedia本身就是一部没有主作者的集体创作小说,每个点击链接的用户都在不知不觉中参与了创作,但是没有一个人能拿到完整的全本。从某种程度上来说,它其实复刻了维基百科「众人拾柴火焰高」的协作模式,只不过过程更简单,你随便输个词,剩下的交给AI生成就好了。
它是照向互联网未来的一面镜子
但Halupedia不只是一个好玩的玩具,它的存在戳中了一个已经在发生、让人不安的问题:当AI生成的内容反过来去训练下一代AI的时候,最后会变成什么样?
现在的第一代大语言模型,训练数据都来自人类创作的互联网内容——维基百科的词条、论坛用户发帖、新闻报道、学术论文。这些数据虽然良莠不齐,但至少都来自人类真实的经验和知识体系。可随着AI生成内容在互联网上呈爆炸式增长,未来大模型的训练数据肯定会不可避免地包含大量AI自己生成的内容。真实有效的信息会被无用的噪声稀释,每一轮训练都像是在复印一份已经模糊不清的复印件,越复印越模糊。
Halupedia的开发者Bartłomiej Strama显然也意识到了这个问题,当有人给他捐token使用费用的时候,他是这么回复的:

——你为污染大语言模型训练数据做出的贡献,终将造福全社会。
嘲讽感直接拉满,你甚至猜不出来他是在说反话还是认真的,事实上,Halupedia的内容虽然是即时生成的,但不可能百分之百全是幻觉,大语言模型的生成机制就决定了,它只能在已有的知识缝隙里编造内容。

就像图里举的例子,「迦勒底」真实存在,「算术」也是真的,但「迦勒底算术」就是编出来的假东西,幻觉出现在组合的层面,而不是构成内容的单个元素上。就像人不可能凭空梦到一种你从来没见过的颜色,大语言模型也不可能编出一个和训练数据完全没关系的全新概念。
这恰恰是它最危险也最迷人的地方:它的幻觉之所以看起来这么可信,就是因为每篇文章里都藏了大量真实的细节。真实的年代、真实的地名、真实的学术文体、真实的引用格式,可架在这些真实细节之上的核心内容,却是假的。
如果Halupedia的内容被未来的搜索引擎爬虫抓去,被未来的大模型当作训练数据,这些看起来一本正经的幻觉文章,就会变成下一代AI「知识体系」的一部分。
一个故意造幻觉的网站,最后可能会让所有AI都产生一模一样的幻觉。
当编造的幻觉照进真实世界
Halupedia现在遇到的最大问题,恰恰暴露了它作为「开放式虚构创作系统」的弱点。因为谁都可以输入任意词条来生成内容,有些用户开始输入种族主义或者带冒犯性的内容,网站管理方现在也在想办法解决这个问题。
这其实是所有开放式AI系统都会碰到的困境:你给了用户创作的自由,就得承担有人滥用自由的代价。Halupedia的开发者也承认,现在的内容审核「有时候过于严格」,但就算这样还是不够用。
这就形成了一个有意思的悖论:在这个所有东西都是虚构的世界里,唯一真实的伤害,就是用户从现实世界带进来的恶意。
从某种角度来说,Halupedia可能是现在互联网上最诚实的AI项目,不是因为它说的都是真话——恰恰相反,它说的全是假话,但它是唯一一个从一开始就明明白白告诉你「这里没有真东西」的平台。在现在这个越来越多AI生成内容假装成事实的互联网上,Halupedia至少给内容贴了清晰的标签:这就是编造的幻觉,已经加工润色过了,你随便看着玩就好。
可问题是,等你关掉Halupedia,回到谷歌的搜索结果页,你还能分清楚哪些是编造的幻觉,哪些是真实内容吗?
说不定整个互联网,正在一点点变成一个没贴标签的Halupedia。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






