Stable Audio3发布:长音频秒级生成,开源权重重构音频创作生态

2026.05.27 11:42
Stability AI于2024年5月发布Stable Audio3音频大模型,基于潜扩散技术,支持最长9分钟44.1kHz立体声输出,生成速度较上一代提升3倍,开源部分权重。该模型将降低音频创作门槛,推动AI音频生态发展。

音频创作领域长期受困于高专业门槛与漫长制作周期——传统音乐或音效制作不仅依赖专业设备与技能,单首作品从构思到成品往往要耗费数天时间。尽管近年来AI音频生成技术逐渐成熟,但多数模型仍存在音频长度受限、生成速度慢、空间音效不足等短板,难以适配长音频场景的实际需求。

2024年5月,AI技术公司Stability AI通过线上开发者平台与官方网站同步发布新一代音频大模型Stable Audio3,同时开源了部分模型权重与推理代码。这款模型定位于服务专业创作者与企业的音频生成工具,覆盖音乐创作、游戏音效、播客背景音等多元应用场景。

Stable Audio3的核心技术基于潜扩散模型架构,通过在低维度潜在空间对音频特征进行扩散与反扩散运算,显著降低了计算资源的消耗。具体参数上,该模型支持44.1kHz采样率的立体声输出,最长可生成9分钟音频内容——较上一代Stable Audio2的2分钟长度提升350%;生成速度也比上一代快3倍,1分钟音频的生成时间仅需约2秒,实现了“长音频秒级生成”的关键突破。此外,模型还支持可变长度音频生成,用户可根据需求设定1秒到9分钟的任意时长,无需额外调整参数。

Stability AI此次发布的意义体现在两个层面:一是通过技术优化解决了长音频生成效率低下的行业痛点,有效降低了音频创作的时间成本与技术门槛;二是开源部分权重有助于推动开发者社区对模型的二次开发,进一步拓展个性化铃声生成、实时语音场景音效等细分应用场景。比如游戏厂商就能借助该模型快速生成不同场景的动态音效,将原本数小时的制作周期压缩到分钟级。

2024年以来,AI音频生成领域的迭代速度明显加快:Meta在3月更新了AudioCraft 2模型,新增多轨音乐生成与实时调整功能;Google的MusicLM推出实时音频生成功能,重点关注语音与音效的即时创作。在竞争对手方面,OpenAI于4月发布Whisper Audio Gen模型,支持文本到音频的实时生成,主打低延迟与高保真特性;国内字节跳动的“火山音频大模型”也在5月开放测试,支持音乐合成与语音克隆,覆盖短视频背景音乐等场景。这些行业动态清晰显示,AI音频生成正从单一功能向多场景、高效率方向演进,未来行业竞争将集中在技术优化与生态体系构建两大方向。

作品声明:内容由AI生成