Anthropic“蒸馏”人类最大知识库背后:书籍扫描销毁与AI版权争议

1天前

本文来自微信公众号:APPSO,作者:发现明日产品的,原文标题:《Anthropic「蒸馏」了人类最大的知识库》



2024年初,美国某仓库内,工人们正进行着看似怪异的操作:将一本本新书送入机器,切除书脊、扫描内容,随后把剩余纸张送去回收。这些书籍刚被购入,甚至还带着新书的气息,却无人翻阅——它们存在的唯一意义,就是被数字化扫描后销毁。



下令执行这一操作的,是AI公司Anthropic。在其内部文件中,该计划被命名为「巴拿马项目」,一份规划文件明确写道:「这是我们以破坏性方式扫描全球所有书籍的计划,我们不希望外界知晓此事。」



然而,秘密最终还是被揭开。上个月,美国联邦法官解封了一批与版权诉讼相关的4000多页文件,让外界得以窥见这家AI公司的隐秘操作,更看清了整个AI行业在数据争夺战中的真实面貌。



被大模型「吞噬」的实体书



为何这些技术前沿的科技巨头,会用如此原始甚至粗暴的方式对待纸质书?答案藏在AI对高质量数据的极度渴求中。Anthropic内部很早就意识到,仅靠网络内容训练AI模型远远不够。



据《华盛顿邮报》报道,Anthropic一位联合创始人在2023年1月的文件中指出,用书籍训练模型能让AI「学会更好地写作」,而非仅模仿质量参差不齐的网络语言。书籍经过严格编辑校对,内容结构清晰,是网络文本难以替代的高质量语料。



这个逻辑不难理解,但问题在于:既然认可书籍的价值,为何不支付授权费用?究其原因,挨个与出版社、作者洽谈授权既耗时费力,成本也高。于是Anthropic启动了「巴拿马项目」,那句「不希望外界知道」,足以说明它清楚此事并不光彩。



甚至在「巴拿马项目」启动前,Anthropic就已尝试通过其他方式获取书籍。法院文件显示,联合创始人Ben Mann曾在2021年6月的11天里,从「影子图书馆」网站LibGen下载大量侵权小说与非小说类书籍。



一年后,2022年7月,公开宣称「在多数国家故意违反版权法」的Pirate Library Mirror网站上线。Mann将该网站链接发给Anthropic其他员工,并留言:「来得正是时候!!!」从感叹号中,不难看出这位高管对公开违法的盗版网站的真实态度。



Anthropic事后称,公司从未将这些数据用于正式发布的商业模型训练。但这种解释略显牵强——下载并存储数据,仅以「未用于正式模型」为界,这条线的划分标准,恐怕连Anthropic自己也难以说清。





为推进「巴拿马项目」,Anthropic专门聘请Tom Turvey主持工作。Turvey曾参与创建Google图书项目,该项目因大规模扫描书籍引发多年版权争议。Anthropic选择此人主导此事,很难说是巧合。



最终,Anthropic主要依赖两家书商批量供货:美国二手书零售商Better World Books和英国的World of Books,每次采购动辄数万册。内部文件还显示,员工曾讨论接洽纽约公共图书馆,甚至提到可联系某家长期资金不足的新图书馆。



采购完成后,扫描过程如同工业流水线。




扫描、数字化并销毁数百万图书的图书仓库。图片来自:华盛顿邮报



供应商用液压切割机整齐切掉书脊,散开的书页随即送入高速工业扫描仪,扫描完成后,剩余纸张交由回收公司处理。一家参与报价的扫描服务商在提案中写道,Anthropic希望在六个月内完成50万至200万册书的数字化工作。



Anthropic副总法律顾问Aparna Sridhar回应称,法院已裁定AI训练「本质上具有转化性」,公司选择和解的问题在于「部分材料的获取方式,而非是否可以使用这些材料」。



这套说辞在法律上或许站得住脚,却也揭示了一个事实:这家公司从未认为自己做错了什么,只是某些手段不够「干净」。



用你的书训练,再抢你的饭碗



类似的事情也发生在其他公司身上,且有些细节更为戏剧性。针对Meta的诉讼文件显示,2023年有员工直接写道:「用公司笔记本进行种子下载感觉不太对劲。」他后来还向法务团队反映,使用种子网站可能意味着分发盗版作品,「这在法律上可能行不通」。



但这些顾虑最终未改变任何结果。





2023年12月的一封内部邮件显示,使用LibGen已在「上报至MZ」后获批,MZ即CEO马克·扎克伯格。邮件还坦率写明了他们清楚的风险:「如果媒体报道暗示我们使用已知为盗版的数据集,可能会削弱我们在监管问题上的谈判立场。」



换句话说,他们并非不知此举不妥,只是在权衡被曝光的代价。为降低风险,员工特意租用亚马逊服务器进行种子下载,而非使用Meta自己的服务器,目的是避免被追踪到Meta公司。



OpenAI和微软同样面临图书作者的版权指控。OpenAI甚至承认曾下载LibGen资源,但称在ChatGPT发布前已删除相关文件。



AI公司与创作者的版权冲突并非始于Anthropic。早在2000年代初,Google就曾大规模扫描图书馆馆藏,引发长达十年的诉讼。





最终法院认定Google的做法属于「合理使用」,因为它仅提供片段摘要,目的是引导读者找到书籍,而非取代书籍本身。这个判决在当时看似合情合理,却在二十年后为整个AI行业提供了「挡箭牌」。



Google图书是索引工具,而生成式AI直接消化书籍内容并输出文字,在某些情况下与作者形成直接竞争。性质已变,但援引的法律逻辑仍是同一套,这本身就值得深思。



去年6月,联邦法官William Alsup裁定,Anthropic用书籍训练AI属于合法行为,他将这一过程比作教师「训练学生写好文章」。这个比喻听起来温和,现实中却有本质区别:老师不会同时训练数百万学生,也不会靠这些学生赚取数十亿美元。



最终,Anthropic支付15亿美元和解金,创下AI版权诉讼史上的纪录。但细算下来,这笔账并不亏:按美国版权法,每件作品法定赔偿上限可达15万美元,此次和解折算后每本书约赔3000美元,仅为上限的2%。



赔偿金由作者和出版商平分,这一安排却在创作者群体中引发争议。不少作者认为,出版商在保护作品不被AI滥用方面未尽全力,却拿走一半赔偿。更关键的是,和解协议不要求Anthropic承认任何违法行为,法院对「AI训练属于合理使用」的认定依然有效。





换句话说,Anthropic用15亿美元买到的不仅是和解,更是一份「背书」:可以继续此类操作。分析人士指出,随着这一先例确立,版权侵权对AI公司而言已不再是红线,而是可提前计入成本的「过路费」。



对许多作家来说,此事远不止一张支票那么简单。美国作家年收入中位数约为2万美元,而市值数千亿的AI公司在未获授权的情况下大量使用其作品,事后赔偿标准远低于法律上限。



更令人忧虑的是,AI正在批量生成文字内容,这些低成本文本涌入市场,让本就艰难的写作谋生变得更难。训练AI用的是人写的书,而AI产出的内容又在挤压人继续写书的空间,形成恶性循环。



支持者有自己的逻辑:AI不储存书籍内容,而是提取语言规律,如同人博览群书后形成自己的表达。这个类比并非毫无道理,却忽略了关键差异:人读一本书,不会同时读一百万本;而AI能在数月内消化人类几十年的写作积累,随后以极低边际成本无限复制输出。规模改变了性质,将两者等同其实是一种精致的诡辩。



数百万册书被切开、扫描、回收,最终换来一份和解协议。那些书早已消失,而AI还在继续写作,且速度越来越快。这大概是最让人不安的地方:对于书籍被销毁、被肆意用于训练AI的事,没有人真正付出代价。



附上参考地址:



https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com