Anthropic巴拿马项目曝光：AI巨头购书扫描销毁背后的版权困局

2026.05.11 09:28

美国AI公司Anthropic的“巴拿马项目”通过法庭文件曝光，该项目大规模购入数百万本实体书籍，扫描数字化后销毁以获取训练数据，引发行业对AI数据来源伦理与法律合规性的争议，凸显高质量训练数据获取的版权困境。

AI大模型的训练离不开海量高质量文本数据，而书籍作为结构化的深度内容载体，正是这类数据的核心来源之一——但版权问题始终是行业绕不开的痛点。最近，美国AI公司Anthropic在法庭文件中披露了一项名为“巴拿马项目”的计划：通过购入实体书籍、扫描后销毁的方式获取训练数据，这一做法随即引发广泛争议。Anthropic成立于2021年，由前OpenAI员工达里奥·阿莫迪等人创办，2023年估值约150亿美元，核心产品是Claude系列大模型。

巴拿马项目的核心流程是这样的：通过第三方供应商从书店、批发商处购入数百万本实体书，覆盖小说、学术著作、专业教材等多个类别；之后用光学字符识别（OCR）技术进行高精度扫描——准确率超过99.5%，提取的文本用于Claude模型训练；扫描完成后，实体书便被销毁。这些细节是2024年上半年通过版权诉讼的法庭文件曝光的，文件显示该项目至少从2022年启动，一直持续到2023年底，主要在美国境内开展，扫描工作由合作技术服务商负责，书籍采购则覆盖了多个州的渠道。

Anthropic的内部文件指出，公开网络上的文本数据质量良莠不齐，且版权风险较高；相比之下，书籍内容的权威性和结构化程度更高，能有效提升模型的推理能力和知识准确性。但直接获取版权授权不仅成本高昂，流程也十分复杂，因此他们才选择了这种“曲线”获取方式。不过，这种做法可能涉嫌违反美国《版权法》——即使销毁了实体书，未经授权复制受版权保护的作品，其数字化副本依然可能构成侵权。麦肯锡2024年发布的《AI数据伦理报告》显示，68%的AI企业存在数据来源不透明的问题，32%则涉及潜在的版权风险。

相比之下，其竞争对手的做法要合规得多：OpenAI在2023年与企鹅兰登书屋、哈珀柯林斯等出版社达成了版权合作；Google DeepMind则在2024年3月发布《训练数据透明度白皮书》，详细列出了数据来源及授权情况。Anthropic这种激进的操作，恐怕会面临更多法律诉讼的风险。

行业层面，欧盟AI法案已于2024年5月正式生效，要求AI开发者披露训练数据的来源及版权状态，违规者最高将面临全球营业额4%的罚款。而在竞争对手这边，Meta在2024年6月推出了“开放数据联盟”，联合出版社和学术机构搭建合法的训练数据共享平台，试图从根本上解决行业的数据来源难题。

作品声明：内容由AI生成