郭德纲用英语说相声，AI会变坏吗？-钛媒体官方网站

图片来源@视觉中国

钛媒体注：本文来源于微信公众号IT时报（ID:vittimes），作者 | 沈毅斌，编辑 | 钱立富、孙妍，钛媒体经授权发布。

“Let's be happy and that's it，don't overthink, overthinking is pointless, it's part of being human.”郭德纲面对镜头，用流畅的英文回答采访问题，从音色到口型、动作都看不出瑕疵。这就是自AI孙燕姿后，AIGC带来的“新玩法”。

近日，郭德纲英文说相声、泰勒中文采访、马保国日语配音等大量AI制作的明星语言翻译视频在抖音、B站等平台爆火。与之前AI孙燕姿不同的是，这次使用的是公开视频，不仅做到了声音克隆，连口型、字幕、动作的配合都达到一致。

在很多人对这一“新玩法”兴致盎然的同时，一些播音行业从业者却感受到危机。“虽然不至于很快被取代，但随着AI语音技术的发展，类似AI读书这样的工作可能就不需要真人了。”播音从业者小尧（化名）表示。

01 “我们可能被取代”

如今，AI语音技术已经在各大App上广泛使用，除了喜马拉雅、蜻蜓FM等之外，很多读书软件也都具备听书功能。

《IT时报》记者打开微信读书App，大部分书籍已具备听书功能，用户可以选择AI男声、AI女声、AI中年男声等多种音色。若听一些历史类、经济类等不需要太多感情色彩的书籍，AI声音和真人声音听起来基本没有差别。

这也是小尧最担忧的地方。他告诉记者，除了日常体育解说工作外，自己平时还会接一些兼职，例如广告配音、有声书平台读书等。如在广告配音中，经验丰富的播音员每个字能拿到0.5~1元的报酬，而新人播音员每个字只能拿到0.1元，小尧录一分钟200字的广告能拿到50元左右。

有声自媒体平台则按照小时计算报酬，新人播音员每小时能拿到80元左右，资深播音员或与平台达成合作的播音员，每小时可以拿到200元左右报酬。此外，平台还会根据播音员节目的收听率、订阅量、推广度等进行奖励。

针对AI郭德纲背后运用的HeyGen工具，UP主“赛博法师”接受媒体采访时透露，HeyGen分为年付和月付，月付最低29美元，折合人民币200元左右，其中包含15分钟生成时间，生成时间越长，价格越高。另一家制作AI换声的公司的客服人员介绍，AI换声视频价格为每秒3元，最少30秒。若以30秒说60个字来计算，那么一个字的价格需要1.5元。

对比之下，同样的价格人力能配音更长时间，成本也相对较低。但小尧认为，“当AI技术成本比人力成本低时，我们很可能被取代，尤其对于新人播音员。”

蜻蜓FM相关负责人接受媒体采访时也表示，AI语音是整个行业都须顺应的技术潮流，大规模应用只是时间问题。目前，业内在开发更加成熟的AI语音技术，配合其深度学习能力，加入情绪、语气、音色等参数，更加细腻的声音表现将会带到演播中。

因此，解说工作成为小尧今后重点发展方向。相比配音、读书等照着稿子读的播音工作，解说需要根据现场情况及时做出反应。尤其是在体育解说中，赛场形势瞬息万变，解说员不仅要有独家风格体现专业性，还需要调动观众的情绪。“这样以情绪情感为主的播音工作是AI永远无法取代的。”小尧说道。

“AI语音一直是我们的反面教材，我也不鼓励学生去使用。”上海体育大学体育解说讲师李人杰表示，在任何行业，AI都可能替代简单重复的工作。在他看来，播音工作是播音员通过理解将文字稿以声音形式呈现给听众，对每个字的重音、情感等细节处理就是二次创造的过程。因此，想要不被取代，就需要在配音或读书工作中注入解说员更多的情感，体现出创造性和艺术性。

02 能检测出70%“AI郭德纲”

除了声音克隆外，让网友们最为震惊的还是视频中郭德纲说英语时，口型与字幕的完美契合。

“这是口型驱动AI合成技术，属于AI合成技术下的一条分支，底层逻辑是一样的。”北京瑞莱智慧科技有限公司高级产品经理张天奕告诉《IT时报》记者，口型驱动AI技术一般会用到两种方案，一种方案相对传统，即AI寻找语句发音中的元音字母，将口型与元音发音进行映射，最终接起来实现平滑转换；另一种则是从深度学习角度出发，AI会通过对语音和文本来计算出各个音节所对应口型特征的关键点，生成每一帧的图像后再合成视频。

其实，口型驱动技术并不是今年的“新品”，许多外国影片引入国内时，会让角色对应中文口型。如2015年上映的《功夫熊猫》，主创团队就透露，影片按照中文台词为每个角色都制作了相应的口型。2019年，国外多个研究团队还推出了一套算法，能捕捉人物讲话时嘴部动作，并生成新视频。

随着AI技术越来越成熟，合成视频越来越难辨真假，“对抗AI”的检测工具就变得十分重要。张天奕介绍，从此前的AI换脸来看，瑞莱Deep Real检测平台在检测过程中主要是对比脸部五官、发型、背景等较为直观的特征，其中对戴眼镜替换成不戴眼镜的人脸检测较为明显。而对于口型驱动AI技术，注重的是牙齿、嘴唇运动等局部检测，更多细节也意味着检测面临新挑战。

“我们测试了一下，目前瑞莱Deep Real检测平台对口型驱动AI的检测成功率大概在70%。”张天奕表示，想要攻破最后的30%还需要通过大量样本测试，针对性地去寻找“AI郭德纲”独特的轨道特征。

03 全球需要共治AI

11月7日，《IT时报》记者登入HeyGen时发现，网页已经打不开了。据其他使用者介绍，免费试用的用户可以上传一段不超过1GB大小的视频，但上传视频时已有3万多人在排队，想要跳过排队就只能付费。

上海大邦律师事务所高级合伙人、知识产权律师游云庭曾发文表示，Heygen提供的是面向用户的一对一视频翻译转换服务，网站并不会向公众发布转换后的内容，所以Heygen的知识产权侵权风险较小。但用户用Heygen将他人的讲话视频生成了翻译后的内容发布到网上，就需要获得授权。比如某人上传了郭德纲的相声视频，就需要取得郭德纲的肖像权、声音权的授权，相声视频的录像制作者权和相声文字内容版权授权，缺少任何一个都可能涉嫌侵权。

不只是侵权风险，生成式人工智能的快速发展也让人们产生“危机感”。11月1日，在英国召开的全球首届人工智能安全峰会更是体现出世界各国对AI治理的重视。在峰会上，全球28个国家和欧盟一致认为，AI对人类构成潜在的灾难性风险，并发布全球第一份针对人工智能新兴技术的国际性声明《布莱切利宣言》，旨在关注对未来强大人工智能模型构成人类生存威胁的担忧，以及对人工智能当前增强有害或偏见信息的担忧。

马斯克在这次峰会上表示：“人工智能很可能成为一股向善的力量，但它变坏的可能性并不是零。”

中国科技部副部长吴朝晖表示，发展人工智能应当积极倡导以人为本，加强技术风险管控，在相互尊重、平等互利的原则基础上，鼓励各方协同共治。