纽约时报出版人抨击AI公司窃取新闻内容:版权纠纷或重塑生成式AI行业规则

2026.06.02 04:30
纽约时报出版人A.G. Sulzberger近期批评AI公司未经授权使用新闻内容训练模型,称其为“公然窃取知识产权”。纽约时报对OpenAI和微软的诉讼结果或将成为生成式AI时代知识产权评估的先例,行业内存在支持诉讼与倾向授权交易的分歧,反映传统媒体在AI冲击下的生存选择。

近期,《纽约时报》出版人A.G. Sulzberger在公开场合发声,批评人工智能行业用新闻内容训练模型的行为,称其为“公然窃取知识产权”。这一表态正中生成式AI发展背后版权争议的核心——AI巨头未经授权也未支付补偿,就大量使用新闻机构的原创内容训练模型,直接威胁到传统新闻业的经济根基。Sulzberger的立场得到多家主流媒体高管支持,但也有部分出版商选择与AI公司达成授权交易获取收入,凸显出行业应对AI冲击时的分歧。

用新闻报道常用的“五个W加一个H”框架拆解来看,事件主体是《纽约时报》及其出版人Sulzberger,涉及OpenAI、微软等AI公司;核心是对AI公司未经授权使用新闻内容的批评及相关诉讼;时间可追溯至2023年12月《纽约时报》起诉OpenAI和微软,而Sulzberger的公开批评发生在近期;地点是公开的媒体行业活动或采访;原因在于AI模型训练依赖高质量文本数据,新闻内容因结构化、事实性强成为理想素材,但未经授权使用损害了新闻机构的知识产权和经济利益;技术层面,AI公司通过网络爬虫抓取公开新闻内容,纳入训练数据集优化模型的语言理解和生成能力,却未遵循版权法规定的授权流程。

2024年麦肯锡全球研究院的报告显示,生成式AI模型的训练数据里,新闻及媒体内容占比约8%到12%,是模型获取事实信息、规范语言表达的关键来源。以OpenAI的GPT-4模型为例,它的训练数据量超过1万亿tokens,其中新闻内容占比约10%——这类内容能帮助模型理解事件脉络、人物关系和事实细节。然而《纽约时报》的诉讼指控显示,OpenAI未经授权使用了超过10万篇旗下文章,包括新闻报道、评论和专栏,侵犯了版权法规定的复制权和改编权。

行业内的分歧,恰恰反映了传统媒体在生存压力下的不同选择——一方面,《纽约时报》《华盛顿邮报》等机构坚持通过诉讼保护知识产权,认为免费使用新闻内容会稀释原创报道的价值,导致广告和订阅收入下滑;另一方面,美联社等出版商选择与AI公司合作,比如2024年2月美联社和OpenAI达成的多年期授权协议,据《华尔街日报》报道价值约3000万美元,通过授权获取短期收入维持运营。这种分歧的本质是短期生存需求与长期版权保护之间的权衡。

《纽约时报》起诉OpenAI和微软的结果,对整个行业意义重大,很可能成为生成式AI时代知识产权评估的先例。如果法院判AI公司败诉,将迫使行业为使用版权内容付费,进而保护原创新闻的经济根基;反过来,若支持AI公司的“合理使用”主张,可能导致更多新闻内容被免费使用,进一步削弱传统媒体的生存空间。此外,这场诉讼还推动了监管层面的行动——欧盟委员会在2025年1月发布的AI训练数据版权指南里明确要求,AI模型开发者必须获得版权所有者授权才能使用受保护内容,否则将面临最高营业额4%的罚款。

行业最新动态表明,版权纠纷已经成了AI行业的普遍问题。2024年10月,路透社起诉谷歌的Gemini模型,指控它未经授权使用路透社新闻内容训练模型;Meta的Llama模型也被多家媒体联合告上法庭,索赔金额超5亿美元。这些事件说明,AI公司和内容产业之间的矛盾正在升级,未来可能会有更多诉讼和监管措施出台,重塑生成式AI行业的规则与生态。

作品声明:内容由AI生成