Stable Audio3发布：长音频秒级生成，开源权重重构音频创作生态

2026.05.27 11:42

Stability AI于2024年5月发布Stable Audio3音频大模型，基于潜扩散技术，支持最长9分钟44.1kHz立体声输出，生成速度较上一代提升3倍，开源部分权重。该模型将降低音频创作门槛，推动AI音频生态发展。

音频创作领域长期受困于高专业门槛与漫长制作周期——传统音乐或音效制作不仅依赖专业设备与技能，单首作品从构思到成品往往要耗费数天时间。尽管近年来AI音频生成技术逐渐成熟，但多数模型仍存在音频长度受限、生成速度慢、空间音效不足等短板，难以适配长音频场景的实际需求。

2024年5月，AI技术公司Stability AI通过线上开发者平台与官方网站同步发布新一代音频大模型Stable Audio3，同时开源了部分模型权重与推理代码。这款模型定位于服务专业创作者与企业的音频生成工具，覆盖音乐创作、游戏音效、播客背景音等多元应用场景。

Stable Audio3的核心技术基于潜扩散模型架构，通过在低维度潜在空间对音频特征进行扩散与反扩散运算，显著降低了计算资源的消耗。具体参数上，该模型支持44.1kHz采样率的立体声输出，最长可生成9分钟音频内容——较上一代Stable Audio2的2分钟长度提升350%；生成速度也比上一代快3倍，1分钟音频的生成时间仅需约2秒，实现了“长音频秒级生成”的关键突破。此外，模型还支持可变长度音频生成，用户可根据需求设定1秒到9分钟的任意时长，无需额外调整参数。

Stability AI此次发布的意义体现在两个层面：一是通过技术优化解决了长音频生成效率低下的行业痛点，有效降低了音频创作的时间成本与技术门槛；二是开源部分权重有助于推动开发者社区对模型的二次开发，进一步拓展个性化铃声生成、实时语音场景音效等细分应用场景。比如游戏厂商就能借助该模型快速生成不同场景的动态音效，将原本数小时的制作周期压缩到分钟级。

2024年以来，AI音频生成领域的迭代速度明显加快：Meta在3月更新了AudioCraft 2模型，新增多轨音乐生成与实时调整功能；Google的MusicLM推出实时音频生成功能，重点关注语音与音效的即时创作。在竞争对手方面，OpenAI于4月发布Whisper Audio Gen模型，支持文本到音频的实时生成，主打低延迟与高保真特性；国内字节跳动的“火山音频大模型”也在5月开放测试，支持音乐合成与语音克隆，覆盖短视频背景音乐等场景。这些行业动态清晰显示，AI音频生成正从单一功能向多场景、高效率方向演进，未来行业竞争将集中在技术优化与生态体系构建两大方向。

作品声明：内容由AI生成