OpenAI自研反AI神器,憋了两年什么都不是?

2024-08-11

ChatGPT刚刚发布的时候,曾经成为学生写论文时的神助。


而且现在,恐怕会成为学生党的噩梦。


根据内部消息,OpenAI已经悄悄开发了一种“反抄袭神器”,可以准确检测是否有人在论文或研究报告中使用了ChatGPT。虽然学生使用AI作弊让教育界陷入困境,但OpenAI始终保持不变,没有公开这项技术。


知情人士和内部文件透露,这个项目已经在OpenAI上演了两年的拉锯战,但事实上,它早在一年前就已经箭在弦上,准备出发。


一位知情人士说:“只需按下那个按钮,”。


OpenAI为什么这么纠结于这个功能?更重要的是,这个所谓的水印真的能100%破解GPT生成的文本吗?


给GPT打 “码”


想象一下,ChatGPT就像一个非常聪明的文字接龙大师。它总能猜到下一个最合适的词,在AI世界里被称为「词元」(Token)。


比如,当你抛出“我最喜欢的水果是__”的开头,ChatGPT的大脑就会开始疯狂运转。根据前后情况,它将是“苹果”、“香蕉”、“草莓”、在“榴莲”等列表中随机抽取一个。这个过程就是大语言模型(LLM)日常工作。


然而,OpenAI正在酝酿的这个反作弊神器,计划在这个选词过程中给出一个黑暗的陈仓。它会悄悄调整选词的概率,「词元」在选择上埋下了一些特定的概率方法。


虽然这种水印对于读者来说没有任何意识,但在OpenAI内部的检查下却没有什么隐藏的。据知情人士透露,只要ChatGPT产生足够多的文本,这种水印的效率就可以高达99.9%。


所以,这个水印到底是怎么工作的呢?


根据现有数据,PConline可以通过改变一个句子中词元出现的频率来实现。


让我们玩一个文字游戏:


或者是那句“我最喜欢的水果是__”。


在上述语境下,所有水果出现的概率可能相同。但是有了水印技术,这个概率分布会稍微改变一下。苹果和橘子出现的概率最高。这种微妙的概率变化是GPT埋下的水印,就像是为整篇文章埋下了一串看不见的暗语。


OpenAI打印简单示意图(图片:高海晏)


这个密码的聪明之处在于,即使不是最好的选词,对于普通读者来说也不会觉得僵硬。然而,在OpenAI的解码器下,这些文字会暴露AI产生的真实外观。


Reddit网友补充说,这是一个从随机到刻意的过程,在限制语境下。想象一下,AI在写作时悄悄地抛出了一枚看不见的硬币。对于我们人类来说,这枚硬币的正反面是完全随机的。但是对于OpenAI来说,这枚硬币的每一次翻转都代表着一个规律,形成了一个只能破解的密码。



网友解读Reddit


然而,我们不得不问这个水印是否可靠。毕竟OpenAI还在隐瞒,具体技术细节没有公开。只是8月7日,官网悄悄发布了一个博客,承认内部团队正在研究给GPT打水印。


OpenAI仍然在为水印是否公开而犹豫不决,事实上,市场上已经出现了各种各样的AI文本检测工具。


“猫鼠游戏”的AI和反AI已悄然开始。


本届福尔摩斯AI文本


谷歌于2024年5月推出了一款名为SynthID的“文字水印”工具,它给Geminini AI生成的每一段都标有一个看不见的标记。


SynthID在Beta版本中的原理与预测OpenAI水印技术完全相同。这给每一个词元带来了神秘的概率结果。SynthID在选词时会悄悄地调整这些结果。这样的行为既不会影响文章的质量,又能留下AI的“数字指纹”。


谷歌 水印效果更复杂的SynthID演示(Src.谷歌官网)


谷歌言而有信地说,SynthID尤其适用于文章、戏剧剧本或电子邮件等长篇幅、多样化的文本。


想象一下,在一篇AI生成的文章中,每个句子可能有十几个这样的标记,而整个页面可能有几百个。这些标记与AI的选词模式交织在一起,形成了独特的水印。 并且,至少要有三个句子,这个水印才能真正发挥作用。 。文字越长,这种水印就越容易被发现。


在欧美学术界和新闻界,AI文本测试已经成为学生、教师和记者的必备技能。其中,最热门的是GPT。 Zero。


GPT 官网Zero截图


这位爱德华的普林斯顿大学学霸。(Edward·Tian)开发的AI模型,就像数字世界的福尔摩斯,专门解决了AI产生的文字谜团。它的破解概念是基于深度学习算法和统计特征,就像对每个单词进行CT扫描一样。


作为市场上成熟且商业化的商品,GPT 从100Zero的付费模式~大约71美元(约人民币)~163元/月收费,提供AI检验筛查、多语言检验、语法建议等多字功能。通过给出的AI检验报告,用户可以逐字逐句地手动修改,从而降低AI感。


GPT Zero资费标准


不过,GPT Zero也不是万能的。 当面临复杂或混合的文本时,它也可能会感到困惑。而且,它对其它语言的检查也不准确。虽然GPT Zero声称准确率高达99%,但是仍然有1%的机会看错。


没有,小红书的一些网友调侃说,他们写的东西被学校判定为AI作品。这位网友无奈地说:“我写的只是不合逻辑。”


小红书网友嘲讽自己的原创被认定为AI。


箭在弦上,为什么没有发?


所以问题来了,为什么OpenAI迟迟不发布这个文字水印功能?


首先,在文本上打上AI水印并不容易。


文字比较分散,图像比较整体。同样的想法可以用无数种方式来表达,就像一个故事可以有成千上万种说法一样。每一个词都是独立而多义的,这大大增加了统计分析的难度。相比之下,照片虽然构成复杂,但是在数字上。(Digital)在这个世界上,它们就像一座由积木建造的城堡,每一个像素都是一块积木,在“积木”上标注更容易被AI和人眼捕捉到。


照片无限放大后可以看到像素(拍摄/绘图:高海晏)


另外,聪明的网友发现,所谓的GPT文字水印可以通过来回翻译不同的语言来破解。。Reddit网友分享教程:将AI产生的文本首先翻译成其它语言,然后翻译回来,就可以巧妙地绕过生成式AI文本的套路感。


OpenAI本身也承认,使用翻译软件很容易避免水印。


Reddit网友发帖回应如何避免AI生成文本的尴尬?


其次,是否有必要给文字打上水印也有争议。


MIT技术评论泼了一盆冷水:很多人用ChatGPT只是为了润色或者拼写电子邮件。如果所有AI生成的文字都被水印,难道不应该给这些无辜的路人一个“作弊”的大锅吗?


OpenAI也是一个争论。如果这个“眼睛”掌握在少数人手中,有什么意义?但是如果每个人都能用,那些心怀不轨的人不是很快就能破解水印技术吗?


更令人头疼的是,一项针对ChatGPT忠实用户的调查显示,近三分之一的人表示,如果他们知道有反作弊技术,他们就会失去兴趣。这就像束缚你的左膀右臂。


然而,市场上层出不穷的AI检测工具的确反映了用户对版权问题日益增长的焦虑。


今年七月,艺术家们甚至开始向Glaze等工具寻求帮助,试图用AI来对抗AI,将人眼难以察觉的数字噪声添加到图像中,以防止图像生成器复制其独特的风格。


官网Glaze截图


现在,创作者们正在寻求各种各样的安全措施来规避AI带来的风险,科技巨头们也在不断地创新他们的产品条款。


去年12月,两件关于版权的大事引起了强烈反响:Meta突然宣布将在10亿Facebook和Instagram用户的照片上训练AI。;《纽约时报》起诉OpenAI和微软,指控他们未经授权使用数百万篇受版权保护的文章来训练生成AI模型。


在AI这个数据饕餮面前,创作者们不得不与时俱进,学会用AI作为自己的武器,玩“以毒攻毒”的把戏。


归根结底,成年人,时代变了。


这一幕不禁让人想起了本雅明在《机械复制时代的艺术作品》中的预言。过去,机械复制技术颠覆了美学的“灵光”(Aura),现在,AI又把创作推向了哪里?


在这个算法和代码主导的新时代,创作的独特性似乎被AI无限复制和生成的能力所取代。但也许,正如本雅明所说,这种变化也带来了新的概率。 ——AI使创作从阳春白雪变成了下里巴人。


所以你认为AI是创作的威胁吗?


参照文章


[1] There’s a Tool to Catch Students Cheating With ChatGPT. OpenAI Hasn’t Released It. ChatGPT


[2] Why detecting AI-generated text is so difficult (and what to do about it). MIT Technology Review.


[3] Tool preventing AI mimicry cracked; artists wonder what’s next. Ars. Technica


[4] OpenAI won’t watermark ChatGPT text because its users could get caught OpenAI. The Verge.


[5] Understanding the source of what we see and hear online. OpenAI


[6] 艺术作品在机械复制时代. 瓦尔特·本雅明.


本文来自微信公众号“PConline太平洋科技”,作者:高海晏,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com