影史最出名的反派之一，未来都「不说人话」-钛媒体官方网站

钛媒体注：本文来源于微信公众号爱范儿（ID：ifanr），作者｜张成晨，钛媒体经授权发布。

李安的动作科幻电影《双子杀手》里，政府特工亨利正准备退休，却发现被一个比自己年轻 23 岁的克隆体追杀。

为了达到这个效果，李安用动作捕捉特效精致还原人脸，让威尔·史密斯「返老还童」。某位拥有「完美的 23 岁皮肤」的年轻男子，也为克隆体贡献了自己的数据。

没有人永远年轻，永远有人正年轻。

但「数字替身」完全可以更贪心，除了有不老的皮囊，还可以有不老的声音。

召唤时光机

《星球大战》的达斯·维德（Darth Vader），因身心俱毁而堕入原力的黑暗面，在正传三部曲里为头号反派，也是星球大战系列中最具矛盾与悲剧色彩的人物。

2003 年，美国电影学会将达斯·维德列为百年来第三伟大的电影反派，仅次于《沉默的羔羊》的汉尼拔和《惊魂记》的诺曼·贝茨。

从 1977 年卢卡斯出品第一部《星球大战》以来，詹姆斯·厄尔·琼斯一直为达斯·维德配音，算到如今差不多贯穿了一个人的半生，他的声音也就成了角色的声音。

达斯·维德有力却略为低沉的嗓音，配上深重的呼吸声，令人脊背发凉。

但人类终将老去，琼斯今年已经 91 岁，该考虑结束配音生涯了，他决定将声音授权给乌克兰初创公司 Respeecher。

通过从前的录音和专有的 AI 算法，Respeecher 可以用旧的声音创建新的台词。

最新的成果，便是今年 6 月完结的星球大战衍生剧《欧比旺·克诺比》。

剧中，Respeecher 重现了琼斯几十年前的音色，而不是他在 2019 年《星球大战：天行者崛起》中因岁月而苍老的真实声线。

和 Respeecher 合作的卢卡斯影业声音监督编辑 Matthew Wood 表示，像达斯·维德这样的角色，50 条台词可能需要近 1 万多个文件来回切换，大部分工作都耗在对话的变化和微调上。

一个有趣的细节是，在达斯·维德出场的《欧比旺·克诺比》第 3 集，Respeecher 也被列入了演职员表。

这并不是 Respeecher 第一次和卢卡斯影业合作，它还为星球大战衍生剧《曼达洛人》和《波巴·费特之书》中年轻版的卢克·天行者「配音」。

星球大战三部曲在 1977 年至 1983 年上映，当时饰演卢克·天行者的马克·哈米尔，今年也已经 70 岁了。
《曼达洛人》第二季最后一集，不到 20 岁的卢克·天行者出场，形象是视觉效果公司 Lola VFX 用 Deepfake 和替身制作的，声音则由 Respeecher 负责「克隆」。

Respeecher 所做的是，输入数小时的高质量录音，用 AI 语音合成软件和音频超分辨率算法分析语音，直到系统具备「克隆」能力。

就像克隆羊需要 DNA，克隆声音也是有输入才有输出，录音的说话风格、起伏跌宕等细节都非常重要。

所以，这项工作仍然与人高度相关。「技术还不会创造表演」，没有过往的真人表演，那么 Respeecher 就束手无策。

从这个角度看，Respeecher 的 AI 如同搭乘时光机的发声装置——它重现了某人过去的某个特定时刻。

为了让年轻的天行者重现，Respeecher 收集了马克·哈米尔 1983 年前后的配音、采访、对白补录、无线电广播等资源。

这里还有一处难点：让近 40 年历史的数据听起来像是昨天刚录制好的。

最终，卢克·天行者只在两部衍生剧说了几行话。不过，无需以数量论短长，确保合成语音无法与原始语音区分，观众完全意识不到真实与否，才是 Respeecher 想要的结果。

这家成立于 2018 年的初创公司目标很简单：克隆不让人起疑的人类语音。

跨越病痛和生死

人类生来受限，逃不过老病死，但技术可以扩充肉身的边界。

克隆名人声音，并不是第一次，也不会是最后一次。

2022 年上映的《壮志凌云：独行侠》是 1986 年《壮志凌云》的续集，片中「冰人」卡赞斯基再次被 62 岁的瓦尔·基尔默（Val Kilmer）搬上银幕。

但回归没有那么容易，从 2014 年接受喉癌治疗开始，基尔默永远失去了他的声音。

所以，《壮志凌云：独行侠》的剧本从基尔默的现实生活取材，「冰人」也患有癌症并通过打字交流，在片中只说了一句简短的台词。

而在现实生活中，基尔默的声音已经通过 AI「恢复」。2020 年，基尔默开始与 AI 语音公司 Sonantic 合作。

收到数小时的旧录像后，Sonantic 首先在不破坏语音内容的前提下去除背景噪音，再从音频中生成脚本，并将音频和文本一块块地配对，然后语音引擎用这些数据训练语音模型。

难点在于，基尔默提供的数据比他们以往的项目少了大约 10 倍。为此，Sonantic 研究了新的算法，最终生成了 40 多种不同的语音模型，把其中最好的一个交给基尔默。

有了自定义语音模型，基尔默和他的团队输入文本，选择合适的模式，调整音调、节奏等参数，就能实现逼真的交流。

这不仅仅是一项技术成果，还关乎人与人的沟通和联系。基尔默本人在一份声明中提到：

作为人类，沟通能力是我们生存的核心，喉癌的影响让其他人很难理解我。有机会以一种真实而熟悉的声音讲述我的故事，这是一份非常特别的礼物。

国内也有这样的例子。2021 年，喜马拉雅以语音合成技术让已故大师单田芳「再说」评书；2018 年，《创新中国》纪录片用 AI 复原配音大师李易的声音。

所以当你曾经在世界留下过痕迹，就无法轻易「事了拂衣去、深藏功与名」。

对于仍要谋生的名人，克隆语音倒可能是条「通天大道」。如果说 AI 换脸模型 Deepfake 让明星「出租」脸就可能赚得盆满钵满，语音模型也不相上下。

为基尔默「恢复」声音的 Sonantic 还有一项业务：为嗓子正常的演员创建声音模型。

平台先提供设置脚本，演员录制好这些脚本的表演，然后再将录制的音频输入语音引擎，用引擎训练 AI 模型。最终，当合成声音被商用，演员们躺着就能获得利润分成，无需亲力亲为，也不必担心分身乏术。

2021 年 5 月，美国 AI 技术公司 Veritone 也推出了类似的平台 Marvel.AI。这家公司认为，「对于运动员、演员和 KOL，声音是他们个人品牌的巨大资产」。

但这不免有偷懒之嫌，如果明星都不愿自己代言，消费者又凭什么为他们买单？Veritone 建议创建行业标准，比如提前告知听众是合成语音，那就是「一个愿打一个愿挨」了。

有技术和平台，名人克隆和出租声音完全可以是产业链，这也是技术跨越肉体与时空限制的一种体现。

人人拥有「语音替身」的未来还远吗

诚然，语音克隆不是新鲜事，但它仍然需要一个越来越真实、简易的过程，远远没有抵达终点。

在我们看得到或看不到的角落，语音克隆的普及度越来越高，不只是名人、明星等少数人的游戏。

2017 年，加拿大 AI 初创公司 Lyrebird 开发了一种语音合成技术，声称他们的算法能用 1 分钟的样本音频克隆任何人的声音。

Lyrebird.

1 分钟是个了不起的数字。当年 Adobe 的 Project VoCo，至少需要 20 分钟的样本音频。

在 Lyrebird 给出的例子里，希拉里、克林顿、特朗普言笑晏晏，共同祝福 Lyrebird 有美好未来。他们的声音、语调还是和真人有些区别，机械感略重，但足够让人眼前一亮了。

Lyrebird 表示，生成声纹需要相当多的计算能力，但一旦完成这一步，制作语音很容易，创建一千个句子不到半秒。

这像是一则预言：越过真实和机械的门槛，之后便一马平川。

除了所需的样本音频更少，语音克隆也已经被内置在随手可及的创作工具中。

Descript.

美国音视频编辑公司 Descript 开发了播客编辑功能「Overdu」，它可以克隆创作者的声音，创作者输入需要的单词，就能用原有声音生成新的音频，方便快速修改播客。

但它也远非完美。The Verge 记者体验后发现，一方面，为了训练 AI，需要预先录制很多音频；另一方面，生成的音频缺乏情感和抑扬顿挫，偏偏听起来确实是自己，令人心生怪异又莫名熟悉。

当初创公司遍地开花，大型科技公司厚积薄发。

今年 6 月的 Amazon re:MARS 大会上，亚马逊首席科学家 Rohit Prasad 表示，亚马逊正在开发一种技术，允许智能助手 Alexa 通过不到 1 分钟的音频模仿任何人的声音。

任何人当然也包括已故亲人。亚马逊还做了一次相关演示：一个孩子对 Alexa 说要听睡前故事《绿野仙踪》，扬声器传出的声音不是常见的机械音，而是已故祖母的声音。

亚马逊没有透露 Alexa 新功能的更多细节，但底层技术已经存在了好几年。

可以预见，虽然语音克隆还无法真正代替人声，但运用将相当广泛，比如有声读物、语音助手、视频游戏等。

Sonantic 曾说：「CGI（计算机生成图像）为视觉所做的，就是 Sonantic 为音频所做的。」人人拥有自己的「语音替身」，或许已经近在眼前。

而翻到硬币的另一面，我们对「语音替身」态度谨慎。

毕竟，Deepfake 的政治谎言、色情内容造成了不少负面影响，也就不难想象，语音模型会被用来做些什么。如果不加防范，我们将有一个照片可以伪造、录音也并不可靠的未来。

几个月前，微软发布了新的 AI 道德规则，将严格限制谁可以创建合成声音，如何使用合成声音，并为人造声音覆盖防止滥用的「水印」。

为《星球大战》兢兢业业的 Respeecher，曾发布过一部「1969 年」的短片，片中总统宣布月球上发生大规模灾难，听起来十分「真实」，但一切都是假的。

短片在最后提醒道：「这个项目使用了一系列的技术，包括视频对话替换、语音转换系统以及更传统的视频编辑，展示了错误信息可能的样子。请核实你的信源。」

所以，Respeecher 并不是想证明新闻和历史都能被操纵。

恰恰相反，他们希望让人们意识到技术的存在和用处，以及技术的局限和恶意。既然车轮已经滚滚向前，被更多地看见，才能被更好地规范和使用。

发表评论

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

拥堵西京
对于仍要谋生的名人，克隆语音倒可能是条「通天大道」
回复 2022.10.10 · via android
入我心
用 AI 语音合成软件和音频超分辨率算法分析语音，直到系统具备「克隆」能力
回复 2022.10.09 · via pc
时光孤独者
作为人类，沟通能力是我们生存的核心
回复 2022.10.09 · via h5
深知自己不讨喜
语音克隆的普及度越来越高
回复 2022.10.09 · via pc
请叫我
希望让人们意识到技术的存在和用处，以及技术的局限和恶意
回复 2022.10.09 · via pc