Anthropic“蒸馏”人类最大知识库背后：书籍扫描销毁与AI版权争议

02-25 06:21

本文来自微信公众号：APPSO，作者：发现明日产品的，原文标题：《Anthropic「蒸馏」了人类最大的知识库》

2024年初，美国某仓库内，工人们正进行着看似怪异的操作：将一本本新书送入机器，切除书脊、扫描内容，随后把剩余纸张送去回收。这些书籍刚被购入，甚至还带着新书的气息，却无人翻阅——它们存在的唯一意义，就是被数字化扫描后销毁。

下令执行这一操作的，是AI公司Anthropic。在其内部文件中，该计划被命名为「巴拿马项目」，一份规划文件明确写道：「这是我们以破坏性方式扫描全球所有书籍的计划，我们不希望外界知晓此事。」

然而，秘密最终还是被揭开。上个月，美国联邦法官解封了一批与版权诉讼相关的4000多页文件，让外界得以窥见这家AI公司的隐秘操作，更看清了整个AI行业在数据争夺战中的真实面貌。

被大模型「吞噬」的实体书

为何这些技术前沿的科技巨头，会用如此原始甚至粗暴的方式对待纸质书？答案藏在AI对高质量数据的极度渴求中。Anthropic内部很早就意识到，仅靠网络内容训练AI模型远远不够。

据《华盛顿邮报》报道，Anthropic一位联合创始人在2023年1月的文件中指出，用书籍训练模型能让AI「学会更好地写作」，而非仅模仿质量参差不齐的网络语言。书籍经过严格编辑校对，内容结构清晰，是网络文本难以替代的高质量语料。

这个逻辑不难理解，但问题在于：既然认可书籍的价值，为何不支付授权费用？究其原因，挨个与出版社、作者洽谈授权既耗时费力，成本也高。于是Anthropic启动了「巴拿马项目」，那句「不希望外界知道」，足以说明它清楚此事并不光彩。

甚至在「巴拿马项目」启动前，Anthropic就已尝试通过其他方式获取书籍。法院文件显示，联合创始人Ben Mann曾在2021年6月的11天里，从「影子图书馆」网站LibGen下载大量侵权小说与非小说类书籍。

一年后，2022年7月，公开宣称「在多数国家故意违反版权法」的Pirate Library Mirror网站上线。Mann将该网站链接发给Anthropic其他员工，并留言：「来得正是时候！！！」从感叹号中，不难看出这位高管对公开违法的盗版网站的真实态度。

Anthropic事后称，公司从未将这些数据用于正式发布的商业模型训练。但这种解释略显牵强——下载并存储数据，仅以「未用于正式模型」为界，这条线的划分标准，恐怕连Anthropic自己也难以说清。

为推进「巴拿马项目」，Anthropic专门聘请Tom Turvey主持工作。Turvey曾参与创建Google图书项目，该项目因大规模扫描书籍引发多年版权争议。Anthropic选择此人主导此事，很难说是巧合。

最终，Anthropic主要依赖两家书商批量供货：美国二手书零售商Better World Books和英国的World of Books，每次采购动辄数万册。内部文件还显示，员工曾讨论接洽纽约公共图书馆，甚至提到可联系某家长期资金不足的新图书馆。

采购完成后，扫描过程如同工业流水线。

扫描、数字化并销毁数百万图书的图书仓库。图片来自：华盛顿邮报

供应商用液压切割机整齐切掉书脊，散开的书页随即送入高速工业扫描仪，扫描完成后，剩余纸张交由回收公司处理。一家参与报价的扫描服务商在提案中写道，Anthropic希望在六个月内完成50万至200万册书的数字化工作。

Anthropic副总法律顾问Aparna Sridhar回应称，法院已裁定AI训练「本质上具有转化性」，公司选择和解的问题在于「部分材料的获取方式，而非是否可以使用这些材料」。

这套说辞在法律上或许站得住脚，却也揭示了一个事实：这家公司从未认为自己做错了什么，只是某些手段不够「干净」。

用你的书训练，再抢你的饭碗

类似的事情也发生在其他公司身上，且有些细节更为戏剧性。针对Meta的诉讼文件显示，2023年有员工直接写道：「用公司笔记本进行种子下载感觉不太对劲。」他后来还向法务团队反映，使用种子网站可能意味着分发盗版作品，「这在法律上可能行不通」。

但这些顾虑最终未改变任何结果。

2023年12月的一封内部邮件显示，使用LibGen已在「上报至MZ」后获批，MZ即CEO马克·扎克伯格。邮件还坦率写明了他们清楚的风险：「如果媒体报道暗示我们使用已知为盗版的数据集，可能会削弱我们在监管问题上的谈判立场。」

换句话说，他们并非不知此举不妥，只是在权衡被曝光的代价。为降低风险，员工特意租用亚马逊服务器进行种子下载，而非使用Meta自己的服务器，目的是避免被追踪到Meta公司。

OpenAI和微软同样面临图书作者的版权指控。OpenAI甚至承认曾下载LibGen资源，但称在ChatGPT发布前已删除相关文件。

AI公司与创作者的版权冲突并非始于Anthropic。早在2000年代初，Google就曾大规模扫描图书馆馆藏，引发长达十年的诉讼。

最终法院认定Google的做法属于「合理使用」，因为它仅提供片段摘要，目的是引导读者找到书籍，而非取代书籍本身。这个判决在当时看似合情合理，却在二十年后为整个AI行业提供了「挡箭牌」。

Google图书是索引工具，而生成式AI直接消化书籍内容并输出文字，在某些情况下与作者形成直接竞争。性质已变，但援引的法律逻辑仍是同一套，这本身就值得深思。

去年6月，联邦法官William Alsup裁定，Anthropic用书籍训练AI属于合法行为，他将这一过程比作教师「训练学生写好文章」。这个比喻听起来温和，现实中却有本质区别：老师不会同时训练数百万学生，也不会靠这些学生赚取数十亿美元。

最终，Anthropic支付15亿美元和解金，创下AI版权诉讼史上的纪录。但细算下来，这笔账并不亏：按美国版权法，每件作品法定赔偿上限可达15万美元，此次和解折算后每本书约赔3000美元，仅为上限的2%。

赔偿金由作者和出版商平分，这一安排却在创作者群体中引发争议。不少作者认为，出版商在保护作品不被AI滥用方面未尽全力，却拿走一半赔偿。更关键的是，和解协议不要求Anthropic承认任何违法行为，法院对「AI训练属于合理使用」的认定依然有效。

换句话说，Anthropic用15亿美元买到的不仅是和解，更是一份「背书」：可以继续此类操作。分析人士指出，随着这一先例确立，版权侵权对AI公司而言已不再是红线，而是可提前计入成本的「过路费」。

对许多作家来说，此事远不止一张支票那么简单。美国作家年收入中位数约为2万美元，而市值数千亿的AI公司在未获授权的情况下大量使用其作品，事后赔偿标准远低于法律上限。

更令人忧虑的是，AI正在批量生成文字内容，这些低成本文本涌入市场，让本就艰难的写作谋生变得更难。训练AI用的是人写的书，而AI产出的内容又在挤压人继续写书的空间，形成恶性循环。

支持者有自己的逻辑：AI不储存书籍内容，而是提取语言规律，如同人博览群书后形成自己的表达。这个类比并非毫无道理，却忽略了关键差异：人读一本书，不会同时读一百万本；而AI能在数月内消化人类几十年的写作积累，随后以极低边际成本无限复制输出。规模改变了性质，将两者等同其实是一种精致的诡辩。

数百万册书被切开、扫描、回收，最终换来一份和解协议。那些书早已消失，而AI还在继续写作，且速度越来越快。这大概是最让人不安的地方：对于书籍被销毁、被肆意用于训练AI的事，没有人真正付出代价。

附上参考地址：

https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

马年将至，汽车经销商能否迎来转机？

“大学望境”：中国美院二十年教学成果展启幕

历时144年的巴塞罗那圣家堂主体封顶全面完工尚需至少十年

海南自贸港封关后首个春节：近十万警力护航治安警情降超三成

清北领跑IPO赛道，中南与华南理工成年度黑马

项目推荐

迪瓜租机

康老板 · 氧疗堂