纽约时报出版人抨击AI公司窃取新闻内容：版权纠纷或重塑生成式AI行业规则

纽约时报出版人A.G. Sulzberger近期批评AI公司未经授权使用新闻内容训练模型，称其为“公然窃取知识产权”。纽约时报对OpenAI和微软的诉讼结果或将成为生成式AI时代知识产权评估的先例，行业内存在支持诉讼与倾向授权交易的分歧，反映传统媒体在AI冲击下的生存选择。

近期，《纽约时报》出版人A.G. Sulzberger在公开场合发声，批评人工智能行业用新闻内容训练模型的行为，称其为“公然窃取知识产权”。这一表态正中生成式AI发展背后版权争议的核心——AI巨头未经授权也未支付补偿，就大量使用新闻机构的原创内容训练模型，直接威胁到传统新闻业的经济根基。Sulzberger的立场得到多家主流媒体高管支持，但也有部分出版商选择与AI公司达成授权交易获取收入，凸显出行业应对AI冲击时的分歧。

用新闻报道常用的“五个W加一个H”框架拆解来看，事件主体是《纽约时报》及其出版人Sulzberger，涉及OpenAI、微软等AI公司；核心是对AI公司未经授权使用新闻内容的批评及相关诉讼；时间可追溯至2023年12月《纽约时报》起诉OpenAI和微软，而Sulzberger的公开批评发生在近期；地点是公开的媒体行业活动或采访；原因在于AI模型训练依赖高质量文本数据，新闻内容因结构化、事实性强成为理想素材，但未经授权使用损害了新闻机构的知识产权和经济利益；技术层面，AI公司通过网络爬虫抓取公开新闻内容，纳入训练数据集优化模型的语言理解和生成能力，却未遵循版权法规定的授权流程。

2024年麦肯锡全球研究院的报告显示，生成式AI模型的训练数据里，新闻及媒体内容占比约8%到12%，是模型获取事实信息、规范语言表达的关键来源。以OpenAI的GPT-4模型为例，它的训练数据量超过1万亿tokens，其中新闻内容占比约10%——这类内容能帮助模型理解事件脉络、人物关系和事实细节。然而《纽约时报》的诉讼指控显示，OpenAI未经授权使用了超过10万篇旗下文章，包括新闻报道、评论和专栏，侵犯了版权法规定的复制权和改编权。

行业内的分歧，恰恰反映了传统媒体在生存压力下的不同选择——一方面，《纽约时报》《华盛顿邮报》等机构坚持通过诉讼保护知识产权，认为免费使用新闻内容会稀释原创报道的价值，导致广告和订阅收入下滑；另一方面，美联社等出版商选择与AI公司合作，比如2024年2月美联社和OpenAI达成的多年期授权协议，据《华尔街日报》报道价值约3000万美元，通过授权获取短期收入维持运营。这种分歧的本质是短期生存需求与长期版权保护之间的权衡。

《纽约时报》起诉OpenAI和微软的结果，对整个行业意义重大，很可能成为生成式AI时代知识产权评估的先例。如果法院判AI公司败诉，将迫使行业为使用版权内容付费，进而保护原创新闻的经济根基；反过来，若支持AI公司的“合理使用”主张，可能导致更多新闻内容被免费使用，进一步削弱传统媒体的生存空间。此外，这场诉讼还推动了监管层面的行动——欧盟委员会在2025年1月发布的AI训练数据版权指南里明确要求，AI模型开发者必须获得版权所有者授权才能使用受保护内容，否则将面临最高营业额4%的罚款。

行业最新动态表明，版权纠纷已经成了AI行业的普遍问题。2024年10月，路透社起诉谷歌的Gemini模型，指控它未经授权使用路透社新闻内容训练模型；Meta的Llama模型也被多家媒体联合告上法庭，索赔金额超5亿美元。这些事件说明，AI公司和内容产业之间的矛盾正在升级，未来可能会有更多诉讼和监管措施出台，重塑生成式AI行业的规则与生态。