AI歌手是如何打造的？“冷门歌手”孙燕姿的新困扰

近日，“AI孙燕姿”翻唱歌曲在各大网络平台上走红。5月22日晚，歌手孙燕姿在社交平台发文回应称，人类无法超越AI技术已指日可待，凡事皆有可能，凡事皆无所谓，“我认为思想纯净、做自己，已然足够”。AI歌手是指通过计算机程序模拟出来的声音，可以进行唱歌表演的虚拟歌手。四月份开始，“AI孙燕姿”成为了网络上最热门的歌手，其翻唱的《发如雪》《爱在西元前》《半岛铁盒》等作品广受好评。现在，除了AI孙燕姿，还有AI周杰伦、AI王菲，甚至出现了AI特朗普、AI孙笑川。这一次AI的表现惊艳了许多听众，比如“AI孙燕姿”的音色与孙燕姿原声几乎一样、高产、唱歌着调、唱功优秀、情感表现上稍有不足。随着人工智能技术的不断发展，AI歌手已经具备了相当高的音乐表现力和艺术性。

一、AI歌手的技术原理

AI孙燕姿是利用名为 SoVitsSvc (SoftVC VITS Singing Voice Conversion) 的开源项目(目前更新到4.1版本)，生成了孙燕姿音色的歌曲。SoVitsSvc是一个歌声音色转换模型，通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入达到歌声转换的效果。同时，更换声码器为 NSF HiFiGAN解决断音问题。

具体来说，生成一个“AI歌手”主要分为四个步骤：

数据收集：收集大量的音频数据和歌词数据，用于训练模型。
特征提取：从收集到的音频数据中提取特征，例如频率、振幅、时域特征等。
模型训练：使用深度学习算法，对收集到的数据进行训练，从而生成新的音乐作品或者模拟人类歌唱的声音和表现力。
歌曲生成：根据训练好的模型，生成新的音乐作品或者模拟人类歌唱的声音和表现力。

Kim[1]提出了一种新的端到端文本到语音（TTS）模型，这个模型采用了变分推断（variational inference）和对抗训练（adversarial training）等技术，以提高生成建模的表现力。此外，它还引入了随机持续时间预测器（stochastic duration predictor），以从输入文本中合成具有不同节奏的语音。下图分别展示了该模型的培训程序及推理过程。

2021年，西北工业大学的Zhang Yongmao教授[2]提出了一种名为VISinger的高质量歌声合成系统，该系统可以直接从歌词和乐谱中生成音频波形。VISinger的技术架构主要由三个部分组成：后验编码器、先验编码器和解码器。其中，后验编码器采用了变分自编码器（VAE）的结构，先验编码器采用了基于正则化流（NF）的结构，解码器采用了对抗生成网络（GAN）的结构。这三个部分共同协作，实现了从歌词和乐谱到音频波形的端到端歌声合成。VISinger的技术架构如下图所示：