2200万首歌被喂给AI: 黑箱被一位记者撬开

《大西洋月刊》记者Alex Reisner发现四组AI音乐训练数据集并制成公开搜索数据库，总量超过2200万条音轨。这项调查将AI版权争议从"有没有侵权"的定性之争推向了"该付多少钱"的定量清算，Suno、Udio等AI音乐公司面临存亡考验。

2024年6月，当三大唱片公司将Suno和Udio告上法庭时，音乐行业和AI行业之间划下了一道看似不可逾越的红线。但这条线究竟划在哪儿，所有人都只能猜测——因为训练数据是AI公司的黑箱，没人知道里面到底装了什么。

两年后，这个黑箱被撬开了一道缝。

2026年6月14日，《大西洋月刊》记者Alex Reisner发布了一项震撼调查：他发现了四组在AI开发者社区中流传的音乐训练数据集，并将其制成了可公开搜索的数据库——AI Watchdog。任何人都可以上去搜索，Lady Gaga、Radiohead、Bruce Springsteen、Wu-Tang Clan……你喜欢的音乐人的作品是否被喂给了AI。

答案很可能是：是的。

2200万首歌：AI音乐模型的"未授权食堂"

Reisner发现的四组数据集中，两个是巨型规模的。LAION-DISCO-12M包含精确的12,320,916条YouTube音轨，由德国非营利组织LAION汇编，总量相当于91年的音乐。Sleeping-DISCO-9M包含9,713,413条YouTube音轨以及来自Genius.com的对应歌词，由AI研究团体Sleeping AI汇编。仅这两个数据集合计就超过2200万条音轨——比Spotify在2023年报告的全平台曲库规模（约1亿首）的五分之一还多。

另外两个规模小得多，但同样棘手。Free Music Archive（FMA）数据集包含106,574条音轨，2016年由瑞士洛桑联邦理工学院（EPFL）从Free Music Archive下载汇编。这些音乐大部分采用Creative Commons许可——但要求署名并禁止商业用途。用它们训练一个赚钱的AI产品可能本身就是违约。Spotify Tracks数据集包含114,000条音轨，由一位匿名AI开发者在Hugging Face上发布，截至2026年5月已被下载超过70,000次。Spotify与该数据集无任何关联。

据Reisner报道，这些数据集已被下载数千次。虽然无法确切知道谁使用了它们，但Google和Stability AI均已在其研究论文中确认使用过——Google使用了完整的FMA数据集，Stability AI则使用了其中的13,874条子集。

更值得关注的是这些数据的获取方式。Reisner写道：

"我发现的四个数据集中，有三个是以YouTube或Spotify上的歌曲链接列表形式分发的。AI开发者使用自动化工具下载实际音频，其中一些工具允许开发者绕过登录、广告以及可能为创作者赚取收入或订阅者的机制。这些工具违反了相关平台的服务条款。"

这不仅仅是"用了未经授权的数据"的问题。整个获取链条可能涉嫌违反平台服务条款甚至规避技术保护措施。2025年9月，环球音乐、索尼音乐和华纳音乐在针对Suno的修正诉状中追加了指控——指责Suno通过"stream ripping"手段，从YouTube非法下载受版权保护的音乐用于训练，绕过了YouTube的"滚动密码"（rolling cipher）加密措施。唱片公司的诉状引用了一个先例：Anthropic因书籍盗版案支付了15亿美元和解金。

从"有没有侵权"到"该付多少钱"

这场版权大战的背景已经足够热烈。2024年6月24日，在RIAA协调下，三大唱片公司分别在波士顿和纽约联邦法院对Suno和Udio提起版权侵权诉讼，指控它们"大规模复制并摄入了数十年来全球最受欢迎录音作品"。RIAA首席执行官Mitch Glazier声明："像Suno和Udio这样未经许可的服务，声称复制艺术家的毕生心血并利用其谋取私利是'公平'的，这抹杀了真正创新AI的前景。"

Suno的回应是一贯的AI行业话术：训练属于"合理使用"（fair use），生成的音乐是全新的创作，并非简单复制。

但Reisner的调查让这场辩论的底层逻辑发生了根本性变化。在此之前，关于AI训练数据版权的争论焦点是定性——"AI公司到底有没有用我的作品？"唱片公司说有，AI公司说没有。双方各执一词，法官和公众都无法确认真相，因为训练数据是AI公司的知识产权密核。

现在，AI Watchdog把"有没有"变成了一个可查询的事实。Lady Gaga在吗？在。Radiohead呢？也在。Taylor Swift、Bad Bunny、Billie Eilish、Nirvana——据《大西洋月刊》报道，这些艺术家的录音全都在已识别的数据集中。

当"有"不再是争议，问题就转向了"该付多少钱"和"怎么付"。

这恰恰是让整个AI音乐行业最为棘手的转向。定性争议可以让诉讼拖上数年——合理使用的界定在法学界本就充满分歧，美国版权局2025年5月发布的108页报告也未能给出明确结论，仅指出"明知使用盗版或非法获取的作品作为训练数据，会对合理使用抗辩产生不利影响"（Skadden法律事务所分析），但同时表示"目前不需要政府干预，自愿许可市场应继续发展"。

但定量问题意味着具体的赔偿金额。美国《版权法》规定的法定赔偿最高可达每部作品15万美元——2200万首乘以15万美元，是一条足以让任何AI初创公司灰飞烟灭的数学公式。即使法庭将赔偿压低到每首1,000美元，总额也高达220亿美元。没有任何一家AI音乐公司扛得住。

AI音乐的"原罪"：数据获取的三重困境

Reisner的调查揭示出的不仅仅是"用了多少歌"这个数字，更是AI音乐训练数据获取方式的三个结构性困境——它们比一个数据量数字更值得深思。

困境一：合规数据根本不够用

目前AI音乐领域最"干净"的数据源是FMA数据集——106,574首CC许可的音乐。但这对训练一个能生成流行音乐的AI来说远远不够。Stability AI的Stable Audio Open使用了部分FMA数据训练，其能力局限在生成"逼真的音效和现场录音"的层面，远无法与Suno生成近似"Thriller"风格曲目的能力相提并论。

好数据和合规数据之间存在根本性矛盾。最好的训练数据——能教会模型什么是旋律、什么是Hook、什么是让一首歌成为热门金曲的结构——正是那些受版权保护的商业录音。而合规的数据要么规模太小，要么质量太低。这不是态度问题，是数学问题。

困境二：自动下载工具生态已经成熟

Reisner指出，三个最大的数据集并非以音频文件形式分发，而是以YouTube或Spotify的链接列表形式存在。AI开发者使用专门的自动化工具下载实际音频，"其中一些工具允许开发者绕过登录、广告以及可能为创作者赚取收入或订阅者的机制"。

这意味着存在一个完整的工具链生态。数据集创建者不需要承担直接下载和分发的法律风险——他们只提供"链接列表"；下载工具交给下游开发者。这种"分步违法"的模式让人想起早期文件共享时代的P2P网络架构：每个环节都声称自己只是管道，但合在一起就构成了一条完整的侵权链条。唱片公司在2025年9月修正诉状中指控Suno"使用臭名昭著的音乐盗版方法——stream ripping——从YouTube非法获取受版权保护的录音"。

如果这一指控在法庭上成立，它将从版权侵权升级到违反《数字千年版权法案》（DMCA）反规避条款——一个性质完全不同、法律后果更重的指控类别。

困境三：黑箱已经打开，无法关回去

这些数据集已被下载数千次。即使现在版权方要求删除，已经扩散的数据也几乎不可能完全收回。AI模型一旦用这些数据完成训练，知识就已经嵌入模型权重之中——你无法像从图书馆下架一本书那样从神经网络中"移除"一首歌。

这正是AI版权问题最棘手的地方：即使法庭最终裁定Suno和Udio侵权，责令它们删除训练数据并重新训练，已经使用过这些数据集的其他开发者——包括Google和Stability AI这样的巨头——是否也需要承担责任？如果不需要，法律的威慑力何在？如果需要，合规成本将是一个天文数字。LAION-DISCO-12M由LAION汇编——这家德国非营利组织此前已因Stable Diffusion训练数据诉讼成为焦点，其资金来源包括Hugging Face和Stability AI联合创始人兼前CEO Emad Mostaque。

行业地震：三个"谁"的重新洗牌

AI Watchdog数据库的发布正在重塑AI音乐行业的竞争格局与法律版图。

谁在危险中？

首当其冲的是Suno和Udio这类AI音乐创业公司。它们正处于诉讼中心，而Reisner的调查直接成为案件的证据来源。Suno和Udio的辩护一直依赖于"训练数据不可知"的模糊地带，AI Watchdog直接撕掉了这层遮羞布。如果stream ripping绕过YouTube技术保护措施的指控在法庭上成立，Suno将同时面临版权侵权和DMCA反规避的双重打击。

谁在观望？

Google。作为FMA数据集的使用者，Google在AI音乐领域的动作一直相对克制——其MusicLM模型从未正式公开发布。但Reisner的调查将Google也卷入了透明度漩涡。同样在观望的还有Stability AI——其Stable Audio Open论文确认使用了FMA子集，目前尚未被列为诉讼被告。

谁会赢？

短期来看，唱片公司正在赢得舆论战和证据战。AI Watchdog将公众情绪和事实基础同时推向了有利于版权方的一侧。但长期来看，真正的赢家可能是一套全新的音乐授权基础设施——如果AI公司不得不为训练数据付费，一个"AI音乐训练数据集授权市场"将会诞生。美国版权局2025年的报告明确表示"自愿许可市场应继续发展"。谁先建立这个市场并制定定价标准，谁就将成为AI音乐时代的"卖水人"。

与此同时，有一个角色正在这场博弈中快速失去筹码：那些坚持"黑箱训练、先跑再说"的AI公司。当透明度成为不可逆转的趋势，每一个拒绝公开数据来源的公司都在为自己积累法律火药。

阳光是最好的消毒剂

《大西洋月刊》的AI Watchdog项目所做的，不是解决AI版权问题，而是将这个问题从一个"可争议的模糊命题"变成了一个"可查询的事实"。

在AI行业中，训练数据的透明度一直是最大的禁忌之一。公司将其视为核心商业机密，研究者将其视为不可触碰的雷区，甚至连开源社区也默认"训练数据不需要公开"——只要模型权重开源就够了。AI Watchdog将这个禁忌打破了。

从OpenAI的书籍数据集争议，到Stability AI的图像训练数据诉讼，再到今天FMA、LAION-DISCO、Sleeping-DISCO和Spotify数据集的全面曝光，一条清晰的趋势线正在形成：AI训练的"黑箱"正在被一个个撬开。每一次撬开，公众对AI行业的信任就多一分动摇——但行业走向成熟的步伐也多了一分确定性。

Reisner所建数据库的价值不在于它提供了答案，而在于它把问题摆在了所有人都能看到的地方。2200万首歌暴露在阳光之下，而阳光才是最好的消毒剂。