OpenAI收购Weights.gg:语音克隆技术补位,商业化与风险防控并行

2026.05.16 09:15
2026年3月,OpenAI低调收购AI声音克隆初创Weights.gg,获得其RVC技术、知识产权及团队。此举强化OpenAI语音布局,但因滥用风险暂不开放该技术。同期OpenAI推进商业化,关闭Sora并开放语音API,行业内谷歌、Meta亦在语音克隆领域动作频频。

在AI交互场景里,语音技术是连接用户与智能系统的重要纽带,而声音克隆作为语音技术的细分领域,凭借个性化与高逼真度的优势,成了科技巨头争相布局的重点。正是在这样的背景下,OpenAI于2026年3月悄然出手,收购了AI声音克隆初创公司Weights.gg,以此进一步完善自身的语音技术生态。

公开信息显示,Weights.gg此前运营着一个基于RVC(检索式语音转换)技术的语音模型平台,核心能力是通过少量音频样本快速生成高度逼真的克隆声音。不过,平台曾存在大量未授权的名人及政要声音模型,因版权问题和滥用风险,在被收购当月就关停了服务。这家公司自成立以来共获得400万美元风险投资,团队规模约六人,此次收购包含了它的全部知识产权和团队成员。

RVC技术的核心优势在于实时性和低数据依赖:传统语音合成技术需要数千小时的训练数据,而RVC仅需10分钟左右的目标声音样本就能完成克隆,转换延迟还能控制在200毫秒以内。这一特性正好填补了OpenAI现有Voice Engine在快速克隆场景下的短板。OpenAI计划整合Weights.gg的技术和团队,优化Voice Engine的声音生成精度与个性化能力,但考虑到深度伪造、虚假信息传播等滥用风险,该技术目前还未向公众开放。

这次收购的背后,是OpenAI商业化战略的调整。同一时期,OpenAI关闭了视频生成应用Sora,据内部人士透露,这是为了集中资源投入语音及多模态交互技术;与此同时,OpenAI向开发者开放了语音API,允许第三方应用集成其语音合成与转换能力。截至2026年3月,已有超过1.2万家开发者接入该API,月调用量突破5亿次,足见其在B端市场的商业化潜力。

行业数据显示,2026年第一季度全球AI语音技术市场规模达到120亿美元,同比增长35%(IDC数据),其中声音克隆技术占比约18%,是增长最快的细分领域之一。在竞争对手方面,谷歌DeepMind于2026年2月推出了WaveNet 4.0语音合成技术,支持低延迟多语言声音克隆;Meta则在同月测试了多模态语音克隆工具MetaVoice,该工具能结合文本与图像生成个性化语音,但尚未对外公开。这些动向都说明,全球科技巨头正围绕语音克隆技术展开激烈竞争,该领域未来的技术突破和应用场景还将进一步拓展。

作品声明:内容由AI生成