【深度学习】【语音TTS】vits 论文，Variational Inference Text-to-Speech（1）

作者

筋斗云

首页»
业界新闻»
新闻资讯»
【深度学习】【语音TTS】vits 论文，Variational Inference Text-to-Speech（1）

发布时间:2024-08-03 06:13

阅读量:0

代码：https://github.com/jaywalnut310/vits
论文：https://arxiv.org/abs/2106.06103

文章目录

摘要

最近提出了几种支持单阶段训练和并行采样的端到端文本到语音（TTS）模型，但其样本质量不如两阶段TTS系统。在这项工作中，我们提出了一种并行端到端TTS方法，其生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推理，并结合了正规化流和对抗训练过程，提高了生成模型的表达能力。我们还提出了一个随机时长预测器，用于从输入文本中合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机时长预测器，我们的方法能够表达文本输入可以以多种方式、不同音高和节奏发音的自然一对多关系。在LJ Speech（单一说话人数据集）上的主观人类评估（平均意见得分，MOS）显示，我们的方法优于当前最好的公开TTS系统，并且达到了与真实音频相当的MOS。

1. 引言

文本到语音（TTS）系统通过若干组件从给定文本合成原始语音波形。随着深度神经网络的快速发展，TTS系统流水线已简化为两个阶段的生成建模，除了文本预处理如文本规范化和音素化。第一阶段是从预处理的文本生成中间语音表示，如mel-spectrogram（Shen et al., 2018）或语言特征（Oord et al., 2016），第二阶段是生成以中间表示为条件的原始波形（Oord et al., 2016；Kalchbrenner et al., 2018）。每个两阶段流水线的模型是独立开发的。

基于神经网络的自回归TTS系统已经展示了合成逼