2200万首歌被喂给AI: 黑箱被一位记者撬开

2026.06.21 04:17
《大西洋月刊》记者Alex Reisner发现四组AI音乐训练数据集并制成公开搜索数据库,总量超过2200万条音轨。这项调查将AI版权争议从"有没有侵权"的定性之争推向了"该付多少钱"的定量清算,Suno、Udio等AI音乐公司面临存亡考验。

2024年6月,当三大唱片公司将Suno和Udio告上法庭时,音乐行业和AI行业之间划下了一道看似不可逾越的红线。但这条线究竟划在哪儿,所有人都只能猜测——因为训练数据是AI公司的黑箱,没人知道里面到底装了什么。

两年后,这个黑箱被撬开了一道缝。

2026年6月14日,《大西洋月刊》记者Alex Reisner发布了一项震撼调查:他发现了四组在AI开发者社区中流传的音乐训练数据集,并将其制成了可公开搜索的数据库——AI Watchdog。任何人都可以上去搜索,Lady Gaga、Radiohead、Bruce Springsteen、Wu-Tang Clan……你喜欢的音乐人的作品是否被喂给了AI。

答案很可能是:是的。

2200万首歌:AI音乐模型的"未授权食堂"

Reisner发现的四组数据集中,两个是巨型规模的。LAION-DISCO-12M包含精确的12,320,916条YouTube音轨,由德国非营利组织LAION汇编,总量相当于91年的音乐。Sleeping-DISCO-9M包含9,713,413条YouTube音轨以及来自Genius.com的对应歌词,由AI研究团体Sleeping AI汇编。仅这两个数据集合计就超过2200万条音轨——比Spotify在2023年报告的全平台曲库规模(约1亿首)的五分之一还多。

另外两个规模小得多,但同样棘手。Free Music Archive(FMA)数据集包含106,574条音轨,2016年由瑞士洛桑联邦理工学院(EPFL)从Free Music Archive下载汇编。这些音乐大部分采用Creative Commons许可——但要求署名并禁止商业用途。用它们训练一个赚钱的AI产品可能本身就是违约。Spotify Tracks数据集包含114,000条音轨,由一位匿名AI开发者在Hugging Face上发布,截至2026年5月已被下载超过70,000次。Spotify与该数据集无任何关联。

据Reisner报道,这些数据集已被下载数千次。虽然无法确切知道谁使用了它们,但Google和Stability AI均已在其研究论文中确认使用过——Google使用了完整的FMA数据集,Stability AI则使用了其中的13,874条子集。

更值得关注的是这些数据的获取方式。Reisner写道:

"我发现的四个数据集中,有三个是以YouTube或Spotify上的歌曲链接列表形式分发的。AI开发者使用自动化工具下载实际音频,其中一些工具允许开发者绕过登录、广告以及可能为创作者赚取收入或订阅者的机制。这些工具违反了相关平台的服务条款。"

这不仅仅是"用了未经授权的数据"的问题。整个获取链条可能涉嫌违反平台服务条款甚至规避技术保护措施。2025年9月,环球音乐、索尼音乐和华纳音乐在针对Suno的修正诉状中追加了指控——指责Suno通过"stream ripping"手段,从YouTube非法下载受版权保护的音乐用于训练,绕过了YouTube的"滚动密码"(rolling cipher)加密措施。唱片公司的诉状引用了一个先例:Anthropic因书籍盗版案支付了15亿美元和解金。

从"有没有侵权"到"该付多少钱"

这场版权大战的背景已经足够热烈。2024年6月24日,在RIAA协调下,三大唱片公司分别在波士顿和纽约联邦法院对Suno和Udio提起版权侵权诉讼,指控它们"大规模复制并摄入了数十年来全球最受欢迎录音作品"。RIAA首席执行官Mitch Glazier声明:"像Suno和Udio这样未经许可的服务,声称复制艺术家的毕生心血并利用其谋取私利是'公平'的,这抹杀了真正创新AI的前景。"

Suno的回应是一贯的AI行业话术:训练属于"合理使用"(fair use),生成的音乐是全新的创作,并非简单复制。

但Reisner的调查让这场辩论的底层逻辑发生了根本性变化。在此之前,关于AI训练数据版权的争论焦点是定性——"AI公司到底有没有用我的作品?"唱片公司说有,AI公司说没有。双方各执一词,法官和公众都无法确认真相,因为训练数据是AI公司的知识产权密核。

现在,AI Watchdog把"有没有"变成了一个可查询的事实。Lady Gaga在吗?在。Radiohead呢?也在。Taylor Swift、Bad Bunny、Billie Eilish、Nirvana——据《大西洋月刊》报道,这些艺术家的录音全都在已识别的数据集中。

当"有"不再是争议,问题就转向了"该付多少钱"和"怎么付"。

这恰恰是让整个AI音乐行业最为棘手的转向。定性争议可以让诉讼拖上数年——合理使用的界定在法学界本就充满分歧,美国版权局2025年5月发布的108页报告也未能给出明确结论,仅指出"明知使用盗版或非法获取的作品作为训练数据,会对合理使用抗辩产生不利影响"(Skadden法律事务所分析),但同时表示"目前不需要政府干预,自愿许可市场应继续发展"。

但定量问题意味着具体的赔偿金额。美国《版权法》规定的法定赔偿最高可达每部作品15万美元——2200万首乘以15万美元,是一条足以让任何AI初创公司灰飞烟灭的数学公式。即使法庭将赔偿压低到每首1,000美元,总额也高达220亿美元。没有任何一家AI音乐公司扛得住。

AI音乐的"原罪":数据获取的三重困境

Reisner的调查揭示出的不仅仅是"用了多少歌"这个数字,更是AI音乐训练数据获取方式的三个结构性困境——它们比一个数据量数字更值得深思。

困境一:合规数据根本不够用

目前AI音乐领域最"干净"的数据源是FMA数据集——106,574首CC许可的音乐。但这对训练一个能生成流行音乐的AI来说远远不够。Stability AI的Stable Audio Open使用了部分FMA数据训练,其能力局限在生成"逼真的音效和现场录音"的层面,远无法与Suno生成近似"Thriller"风格曲目的能力相提并论。

好数据和合规数据之间存在根本性矛盾。最好的训练数据——能教会模型什么是旋律、什么是Hook、什么是让一首歌成为热门金曲的结构——正是那些受版权保护的商业录音。而合规的数据要么规模太小,要么质量太低。这不是态度问题,是数学问题。

困境二:自动下载工具生态已经成熟

Reisner指出,三个最大的数据集并非以音频文件形式分发,而是以YouTube或Spotify的链接列表形式存在。AI开发者使用专门的自动化工具下载实际音频,"其中一些工具允许开发者绕过登录、广告以及可能为创作者赚取收入或订阅者的机制"。

这意味着存在一个完整的工具链生态。数据集创建者不需要承担直接下载和分发的法律风险——他们只提供"链接列表";下载工具交给下游开发者。这种"分步违法"的模式让人想起早期文件共享时代的P2P网络架构:每个环节都声称自己只是管道,但合在一起就构成了一条完整的侵权链条。唱片公司在2025年9月修正诉状中指控Suno"使用臭名昭著的音乐盗版方法——stream ripping——从YouTube非法获取受版权保护的录音"。

如果这一指控在法庭上成立,它将从版权侵权升级到违反《数字千年版权法案》(DMCA)反规避条款——一个性质完全不同、法律后果更重的指控类别。

困境三:黑箱已经打开,无法关回去

这些数据集已被下载数千次。即使现在版权方要求删除,已经扩散的数据也几乎不可能完全收回。AI模型一旦用这些数据完成训练,知识就已经嵌入模型权重之中——你无法像从图书馆下架一本书那样从神经网络中"移除"一首歌。

这正是AI版权问题最棘手的地方:即使法庭最终裁定Suno和Udio侵权,责令它们删除训练数据并重新训练,已经使用过这些数据集的其他开发者——包括Google和Stability AI这样的巨头——是否也需要承担责任?如果不需要,法律的威慑力何在?如果需要,合规成本将是一个天文数字。LAION-DISCO-12M由LAION汇编——这家德国非营利组织此前已因Stable Diffusion训练数据诉讼成为焦点,其资金来源包括Hugging Face和Stability AI联合创始人兼前CEO Emad Mostaque。

行业地震:三个"谁"的重新洗牌

AI Watchdog数据库的发布正在重塑AI音乐行业的竞争格局与法律版图。

谁在危险中?

首当其冲的是Suno和Udio这类AI音乐创业公司。它们正处于诉讼中心,而Reisner的调查直接成为案件的证据来源。Suno和Udio的辩护一直依赖于"训练数据不可知"的模糊地带,AI Watchdog直接撕掉了这层遮羞布。如果stream ripping绕过YouTube技术保护措施的指控在法庭上成立,Suno将同时面临版权侵权和DMCA反规避的双重打击。

谁在观望?

Google。作为FMA数据集的使用者,Google在AI音乐领域的动作一直相对克制——其MusicLM模型从未正式公开发布。但Reisner的调查将Google也卷入了透明度漩涡。同样在观望的还有Stability AI——其Stable Audio Open论文确认使用了FMA子集,目前尚未被列为诉讼被告。

谁会赢?

短期来看,唱片公司正在赢得舆论战和证据战。AI Watchdog将公众情绪和事实基础同时推向了有利于版权方的一侧。但长期来看,真正的赢家可能是一套全新的音乐授权基础设施——如果AI公司不得不为训练数据付费,一个"AI音乐训练数据集授权市场"将会诞生。美国版权局2025年的报告明确表示"自愿许可市场应继续发展"。谁先建立这个市场并制定定价标准,谁就将成为AI音乐时代的"卖水人"。

与此同时,有一个角色正在这场博弈中快速失去筹码:那些坚持"黑箱训练、先跑再说"的AI公司。当透明度成为不可逆转的趋势,每一个拒绝公开数据来源的公司都在为自己积累法律火药。

阳光是最好的消毒剂

《大西洋月刊》的AI Watchdog项目所做的,不是解决AI版权问题,而是将这个问题从一个"可争议的模糊命题"变成了一个"可查询的事实"。

在AI行业中,训练数据的透明度一直是最大的禁忌之一。公司将其视为核心商业机密,研究者将其视为不可触碰的雷区,甚至连开源社区也默认"训练数据不需要公开"——只要模型权重开源就够了。AI Watchdog将这个禁忌打破了。

从OpenAI的书籍数据集争议,到Stability AI的图像训练数据诉讼,再到今天FMA、LAION-DISCO、Sleeping-DISCO和Spotify数据集的全面曝光,一条清晰的趋势线正在形成:AI训练的"黑箱"正在被一个个撬开。每一次撬开,公众对AI行业的信任就多一分动摇——但行业走向成熟的步伐也多了一分确定性。

Reisner所建数据库的价值不在于它提供了答案,而在于它把问题摆在了所有人都能看到的地方。2200万首歌暴露在阳光之下,而阳光才是最好的消毒剂。

作品声明:内容由AI生成