企鹅兰登要避开AI，但是把头埋在沙子里有用吗？

2024-11-01

如果要说目前哪个群体是AI模型的“粉丝”，可能不是学生。是的，与农民工相比，学生现在显然更喜欢AI。根据毕马威最近在加拿大发布的一项研究结果，59%的加拿大学生表示，他们在学习时会使用生成人工智能，这比去年增加了7%。

但是学生的好日子恐怕也很难长久，最近又有一家大型出版集团宣布拒绝人工智能。据海外科技媒体The日前报道。根据Verge发布的消息，书籍出版商企鹅兰登书店正在以印刷方式解释人工智能训练的立场。新书和复制书的标准版权页面将注明“本书的任何部分都不能用于或复制人工智能技术或系统的训练。”

是的，自从ChatGPT点燃了AI模型和生成式人工智能以来，数字版权问题日益激烈。一方面，AI企业对高质量训练语料材料的需求日益增加，另一方面，出版商想尽一切办法维护他们的版权价值。不幸的是，企鹅兰登书店的努力可能是用螳臂当车，最好是效仿康泰纳仕，把自己的内容卖个好价钱。

为何要这么说？因为现在的现实，大部分AI厂商都反对需要版权许可和支付大模型的训练，只有OpenAI等几家大厂商才真正愿意付费。以谷歌为例，该公司在去年回复美国版权局时表示，如果打开看大模型的预训练流程，从抓取信息、复制输入到处理分析，只有最初的复制行为才能落入版权法的范畴，其他行为不会触发相关法律法规。

事实上，从技术原理来看，AI模型记住的是统计关系，而不是文本本身。ChatGPT等产品最终导出的结果是联想而不是复制，版权作品不会通过数据库再次浏览，作品的相关内容也不会直接复制粘贴。因此，大量AI厂商普遍不愿意为语料资源付费的关键因素是他们的行为不违反版权保护。

更重要的是，大模型的练习和内容生成所呈现的“黑箱”特征极难通过技术手段追溯数据，传统的按比例直接划分为这种方法不再适用。事实上，AI制造商不愿意付费并不是一个大问题。真正的问题是，语料数据的耗尽很可能是一个谬论。

现在在AI行业，OpenAI和Anthropic两个独角兽的大模型在性能上一骑绝尘，远远优于Meta的LLama。、谷歌的Gemini。而且OpenAI背后的微软，Anthropic背后的亚马逊，都不是以社交和搜索来称呼的，所以私人语料材料的规模要比谷歌和Meta差得多。

举例来说，OpenAI训练ChatGPT的45TB数据，主要来自Common Crawl、维基百科和美国专利文件数据库都是公共数据。换句话说，如果大模型真的以语料为王，那么谷歌目前最强的Gemini 1.5 Pro的表现不会像GPT-o1那样糟糕。所以一个可能的事实是，语料本身的重要性可能不如数据清洗。

如果越来越多的厂商发现，高水平的数据清理仍然可以从“脏数据”中洗出高质量的数据，而不是高价购买出版商手中的数据。特别是不久前，OpenAI曝光ChatGPT会“看菜”，登录名称可能会影响聊天机器人的响应，反映有害的刻板印象。对OpenAI的猜测是一个刻板印象，很可能来自AI培训使用的数据集。