AI大模型的训练离不开海量高质量文本数据,而书籍作为结构化的深度内容载体,正是这类数据的核心来源之一——但版权问题始终是行业绕不开的痛点。最近,美国AI公司Anthropic在法庭文件中披露了一项名为“巴拿马项目”的计划:通过购入实体书籍、扫描后销毁的方式获取训练数据,这一做法随即引发广泛争议。Anthropic成立于2021年,由前OpenAI员工达里奥·阿莫迪等人创办,2023年估值约150亿美元,核心产品是Claude系列大模型。
巴拿马项目的核心流程是这样的:通过第三方供应商从书店、批发商处购入数百万本实体书,覆盖小说、学术著作、专业教材等多个类别;之后用光学字符识别(OCR)技术进行高精度扫描——准确率超过99.5%,提取的文本用于Claude模型训练;扫描完成后,实体书便被销毁。这些细节是2024年上半年通过版权诉讼的法庭文件曝光的,文件显示该项目至少从2022年启动,一直持续到2023年底,主要在美国境内开展,扫描工作由合作技术服务商负责,书籍采购则覆盖了多个州的渠道。
Anthropic的内部文件指出,公开网络上的文本数据质量良莠不齐,且版权风险较高;相比之下,书籍内容的权威性和结构化程度更高,能有效提升模型的推理能力和知识准确性。但直接获取版权授权不仅成本高昂,流程也十分复杂,因此他们才选择了这种“曲线”获取方式。不过,这种做法可能涉嫌违反美国《版权法》——即使销毁了实体书,未经授权复制受版权保护的作品,其数字化副本依然可能构成侵权。麦肯锡2024年发布的《AI数据伦理报告》显示,68%的AI企业存在数据来源不透明的问题,32%则涉及潜在的版权风险。
相比之下,其竞争对手的做法要合规得多:OpenAI在2023年与企鹅兰登书屋、哈珀柯林斯等出版社达成了版权合作;Google DeepMind则在2024年3月发布《训练数据透明度白皮书》,详细列出了数据来源及授权情况。Anthropic这种激进的操作,恐怕会面临更多法律诉讼的风险。
行业层面,欧盟AI法案已于2024年5月正式生效,要求AI开发者披露训练数据的来源及版权状态,违规者最高将面临全球营业额4%的罚款。而在竞争对手这边,Meta在2024年6月推出了“开放数据联盟”,联合出版社和学术机构搭建合法的训练数据共享平台,试图从根本上解决行业的数据来源难题。






快报