不会跳舞的歌姬不是好AI？腾讯AI Lab推出唱作人“艾灵”-钛媒体官方网站

有人曾吐槽“虚拟歌姬洛天依很难调教”，而现在基于腾讯AI Lab的算法，AI可以取代人工调教，让AI直接学会唱作。

图片来源@B站AI艾灵形象

六一儿童节这天，腾讯AI“艾灵”正式宣布出道。

AI“艾灵”诞生自腾讯AI Lab的实验探索性技术项目——AI 数字人。钛媒体曾在报道《“复活”马丁·路德·金，数字人时代已经被点亮》中介绍过该项目，该项目的目标是计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态AI能力融合，生成可交互内容，并打造出拟人度较高的智能数字人。在应用上，该项目主要为了推进AI在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

此前，该实验室还推出过电竞解说“天鹅静”等虚拟人，相比起“天鹅静”，艾灵更“擅长”感情充沛的歌唱、跳舞。AI艾灵与她的“师傅”龟娘合唱曲目《下山》、唱跳《你最最最重要》等视频也正在陆续登陆B站。

六一这天，艾灵与王俊凯与雄安孩子共同推出的新歌《点亮》。新歌与众不同的地方是，在H5界面，用户仅需选取几个关键词，艾灵就能基于此创作歌词并完成演唱。本次艾灵能与王俊凯一同创造歌曲，则主要依托了AI Lab两项最新研究成果：DurIAN个性化歌声合成和歌词创作模型SongNet。

艾灵可依据选取关键词作词演唱

DurIAN声学模型，让AI学会人类歌唱技巧

早期的自动合成语音听书软件，使用的是最原始的机器合成语音，即直接将各个字词的发音生硬地拼接到一起，没有人类在自然说话和唱歌时自然起伏的韵律。

但现在随着机器学习技术的发展，合成语音的拟真度也取得了进展，通过机器学习过程，AI也逐渐学会了人类唱歌的技巧，比如唱腔的时长、发音的停顿以及何时该有高音等等。基于DurIAN声学模型，艾灵的歌声合成要经过以下三个步骤：

首先，研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列；
然后通过分析歌谱，从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征；
最后使用由真人（中国网络声优龟娘）演唱的歌声训练得到的深度神经网络声学模型和声码器模型，合成出与真人声线高度相似歌声音频。

艾灵的歌谱分析过程

在机器合成歌声方面，初音未来等虚拟偶像实质上并不是人工智能的产物。而是通过“机器合成+人工调教”的模式，如果缺乏了人工调教的过程，虚拟歌姬的演唱只是一堆电子音的集合，而不会有富有感情的歌唱技巧。

在贴吧中，有网友曾吐槽“洛天依很难调教，因为需要一个音一个音去修改”，现在基于DurIAN声学模型，AI可以取代人工调教的艰难过程，让AI直接学会人类的歌唱技巧。

腾讯AI Lab在端到端语音合成模型DurIAN基础上进行修改，加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型，还可以实现跨语种歌声合成，比如用英文说话人的声音合成中文歌声。

对于应用与前景，腾讯AI Lab表示，"这项技术可以用于降低歌曲制作过程中录音环节的成本，更可以用于打造虚拟偶像，成为广大专业和社区音乐人的制作工具。"

除了 AI 歌声合成技术之外，腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

歌词创作模型SongNet：为你写歌

在H5中，艾灵可以根据命题创作歌词，这是基于腾讯AI Lab最新研发的歌词创作模型SongNet。该深度学习模型最大的特点是可以给定任意格式和模板来生成相契合的文本。

不过，当前艾灵只能根据系统提供的关键词生成基础歌词并合成歌曲，还未能实现自由创作。

腾讯AI Lab表示，这是因为艾灵使用了基于数据依赖型的深度学习方法，腾讯将继续探索自动化音乐合成及基于全新乐曲自动生成歌词模板再自动填词的新方法。

腾讯AI Lab以陈奕迅的《十年》做了次改词实验，设定这首歌词的格式，通过SongNet重新配词，可以保证格式不变，并根据原来的曲谱进行演唱：

原歌词：十年之前/我不认识你/你不属于我/我们还是一样/陪在一个陌生人左右/走过渐渐熟悉的街头
新配词：夜深人静/思念你模样/多少次孤单/想伴在你身旁/是什么让我如此幻想/为何会对你那般痴狂

该任务的挑战在于既要生成跟格式一致的文本，又要保证句子的整体性，还要有歌词的韵律以及美感。

SongNet模型的基本骨架是一个基于Transformer的自回归语言模型，腾讯AI lab表示，他们针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。通过局部和全局两种注意力机制达到了对上下文语义和格式同时建模的目的。

SongNet 模型框架

此外，SongNet 也采用了类似于 BERT 和 GPT 的预训练和微调范式，通过在大规模文本语料的预训练和歌词语料的微调过程，可以进一步提升模型生成歌词的质量。

SongNet 根据给定格式填词(宋词和十四行诗)

SongNet 根据给定内容局部补全精修

生成好的歌词会提交给歌声合成模块，再与对应乐曲进行融合，就能完成唱作的过程。

腾讯AI Lab表示，由于此次同时设置了上下文约束和蕴含特定关键词的限制，所以会在一定程度上降低模型生成歌词的逻辑性和连贯性。未来一方面会持续增强模型对歌曲主题和情感的感知度，另一方面也会设计模型策略来进一步提升生成的歌词的逻辑性、连贯性以及优美度。

谈及应用，除了本次六一献唱，未来艾灵还能借助腾讯AI Lab研发的王者荣耀游戏解说生成模型来生成游戏解说词，再通过语音合成实时生成生动活泼的解说。

(本文首发钛媒体App，作者/芦依，编辑/宇航)

不会跳舞的歌姬不是好AI？腾讯AI Lab推出唱作人“艾灵”

DurIAN声学模型，让AI学会人类歌唱技巧

歌词创作模型SongNet：为你写歌

敬原创，有钛度，得赞赏