摘要
为了提升合成韵律的自然度和稳定性,提出了基于音素级韵律建模的自回归语音合成模型.该模型从词级别停顿和音素时长两方面改进韵律建模.为了提升词级别停顿的多样性和准确性,在文本前端提出了停顿预测模块.该模块基于原始文本来预测多类停顿标签,从而为语音合成提供停顿时长建模的准确参考.为了提升音素时长的自然度,提出了时长预测模块.该模块预测每个音素的混合高斯分布,并通过随机采样来获得多样化的音素时长.为了提升自回归模型中的音素时长建模的稳定性,提出了注意力判别模块.该模块应用于自回归的每个时间步中,并通过注意力和判断机制来避免对齐紊乱现象.实验结果表明,所提三种模块可有效提升韵律建模的自然度和稳定性,从而提升语音合成的效果.
语音合成通过模拟人类的语音生成过程,将文本信息转化为语音信息.传统的多人语音合成需要大量的语音进行微调训练,限制了其应用范围;而零样本语音合成旨在给定少数参考语音的情况下,合成未见过的目标语
主流的基于深度学习的语音合成方法可以分为自回归方法和非自回归方法.两种方法各有优缺点:自回归方法合成质量优秀,但合成速度慢,且存在对齐紊乱(错误累计)现
近年来,许多研究在韵律建模方面有了显著成果.Shen等
在零样本语音合成中,由于参考语音较短,所提供的信息量较少,因此韵律建模更加困难.为了提升零样本场景下韵律建模的自然度和稳定性,本文提出了基于音素级韵律建模的自回归零样本语音合成.对于停顿,本文提出使用词级别的停顿预测模块来实现自然的停顿插入.对于音素时长,本文提出使用基于混合高斯分布的时长预测模块来提升音素时长的自然度.对于自回归模型的韵律稳定性,本文提出使用基于注意
1 模型结构和原理
1.1 模型整体结构
零样本语音合成的目标是测试时只需输入一小段从未见过的说话人的参考语音(通常为3~15 s),模型即可由输入文本合成该说话人的语音,无需额外的样本进行微调训练,该过程可表示为:
(1) |
其中,的语义内容与输入文本不同.
本文所提模型的整体结构如

图1 模型整体结构
Fig.1 Architecture of the proposed model
对于,首先使用停顿预测模块来预测词间停顿,并将输出的停顿标签插入,然后使用预训练的词转音素模型将插入停顿后的文本转换为音素序列,随后将其输入基于Transformer的文本编码
1.2 停顿预测模块
在语音合成中,模型通常会按照输入文本序列中的标点符号来建模停顿,即符号停顿(punctuation-indicated pauses, PIPs).然而,这种方法一方面忽略了非符号停顿(respiratory pauses, RPs);另一方面缺乏对停顿时长的分
本文提出的停顿预测模块如

图2 停顿预测模块
Fig.2 Pause prediction module
在训练过程中,与真实停顿标签之间会计算损失函数.本文使用蒙特利尔强制对齐模型(Montreal forced aligner, MFA
(2) |
式中:是真实标签向量;是预测的概率向量;是权重向量;是向量维度.
1.3 时长预测模块
1.3.1 模型结构
时长预测通常是语音合成的子任务,其目标是根据输入的音素序列,预测每个音素的持续时长.传统的时长预测模
本文所提的时长预测模块如
(3) |
式中:和分别代表当前特征的均值和标准差.

图3 时长预测模块
Fig.3 Duration prediction module
(a) 整体结构 (b)条件层归一化
为了更好地处理序列的上下文依赖关系,使用双向GRU对先前网络的输出进一步处理,得到向量组.由于混合高斯分布的各分量权重之和需为1,且各分量方差需为正值,因此需要对进行非线性变换,基于Softmax函数和指数函数的特性,非线性变换表示如下:
(4) |
(5) |
(6) |
式中:、和分别为第个高斯分量对应的权重、均值和方差;为高斯分量的数目.
在推理阶段,如
1.3.2 训练
在训练阶段,时长预测模块会与外部的对齐信息进行有监督训练,如

图4 时长预测训练示意图
Fig.4 Training schematic of duration prediction
本文使用负对数似然损失函数来约束时长预测模块的训练,表示如下:
(7) |
式中:、和代表第个音素的第个高斯分量所对应的权重、均值和方差;表示第i个随机变量.
1.4 注意力判别模块
自回归语音合成模型依靠每个时间步的输入表征与文本(音素)向量之间的关联来进行韵律对齐,这种方法能使自回归模型更好地关注序列的上下文内容依赖关系.然而,实际上训练很难让模型达到完美的泛化能力,这意味着在推理过程中可能出现对齐紊乱问题,即某个时间步对齐模块未能获取正确的加权音素向量,导致给到合成模块的内容信息错误,从而出现跳词、复读、模糊发音的现象.基于以上观察,本文通过使用注意力判别模块来解决对齐紊乱问题.
本文所提的注意力判别模块如

图5 自回归Transformer解码器
Fig.5 Autoregressive Transformer decoder
首先,使用线性变换将和转换到三个不同的特征域:
(8) |
(9) |
(10) |
然后计算相似度,得到对的注意力权重:
(11) |
其中,为特征维度.
再次,注意力判别模块会进行时长判断.由混合高斯时长分布采样得来的时长向量经过量
通过以上方式,时长判断控制每个时间步最相似音素的选择,即控制每个时间步最应该合成的内容信息,避免跳词和复读现象.
相似判断只有在时长判断通过的前提下才会执行.本文设置了最大相似度的最低阈值来约束自回归生成,而相似判断标准是:判断中的最大相似度是否大于.若,判断通过,会成为当前时间步的音素向量权重:
(12) |
若相似判断不通过,将会进行相似度调整.相似度调整依赖于,表示如下:
(13) |
(14) |
通过引入阈值和相似度调整,相似判断将最相似音素的权重控制在较高数值,避免出现发音模糊的现象.此外还保留了其他音素的相对权重关系,保持上下文依赖关系.
在得到后,与加权,得到当前时间步的加权音素向量,该向量作为自回归生成的内容信息参考,与拼接,作为Transformer解码模块的输入,最终生成当前时间步的输出表征.
1.5 语音合成基本结构
本文的主要工作为韵律建模,语音合成部分采用了现有的方法.为了便于理解,本节简要介绍语音合成部分的基本结构.
1.5.1 文本编码器
本文采用了文献[

图6 文本编码器
Fig.6 Text encoder
1.5.2 Transformer解码模块
自回归解码器单个时间步的结构由注意力判别模块和Transformer解码模块组成(

图7 Transformer解码模块
Fig.7 Transformer decoder module
1.5.3 声学解码器
本文采用了文献[

图8 声学解码器
Fig.8 Vocoder
1.6 损失函数
在训练阶段,除了
对于合成语音和真实语音,使用相同参数设置将其分别转换为和,重建损失计算二者之间的距离,表示为:
(15) |
对于对抗训练的损失,本文参照Kong等
(16) |
(17) |
2 数据集、实验设置与评估指标
2.1 数据集
本文使用多个数据集,包括:VCT
VCTK,LibriTTS以及MLS的训练集共同用于网络训练.测试阶段,使用VCTK与LibriTTS的测试集共20位说话人进行混合测试,其中9位来自VCTK,11位来自LibriTTS.
2.2 实验设置
实验所使用的音频均被重采样至24 kHz.计算梅尔谱图需要用到短时傅里叶变换(short time Fourier transform, STFT),实验使用Hann窗口来计算STFT,FFT点数设置为1 024,窗口长度为1 024个采样点,帧移为256个采样点.对于梅尔频谱,采用80通道的梅尔滤波器组将STFT频谱映射到梅尔频谱.
在训练过程中,批次大小被设置为32,采用 AdamW优化器,初始学习率被设置为,指数衰减率被设置为0.999.实验基于PyTorch深度学习框架,采用DeepSpeed加速框架,在NVIDIA A100上训练60个周期.
2.3 评估指标
本文采用多种指标综合评估模型性能,包括平均主观意见
MOS用于评估语音整体的质量,评测者聆听多组数据,根据主观意见打分,评分范围为1到5,评分越高,语音质量越好.最后,按照一定的置信水平计算均值,得到MOS分数.Sim-MOS是MOS的扩展,其评分标准与MOS基本一致,不同在于,Sim-MOS侧重于合成音频与真实音频整体的相似程度.MUSHRA与MOS都属于国际电信联盟(ITU)制定的音频主观评价指标,用于评价音频整体或者某个特定属性的表现.与MOS不同的是,MUSHRA可以对更细微的差异进行评级.MUSHRA打分范围为0~100,分数越高越好.
在本文实验中,MUSHRA被定义为专注于韵律自然度的评分.所有的主观评估均在20位评测者20组音频的条件下进行,并在95%置信水平下得到最终的主观分数.
MCD是一种客观评价指标,用于衡量两个梅尔倒谱系数(Mel frequency cepstral coefficients, MFCC)序列之间的距离.在本文实验中,MCD被应用于真实音频和合成音频之间,MCD越低,代表合成音频越接近人类发音的自然度.
WER是语音识别领域常用的客观评价指标,基于编辑距离算法计算错词率,用于衡量识别文本的正确程度,WER越低,识别文本越准确.在本文实验中,WER主要用于衡量韵律对齐的稳定性,通过人工转录合成音频来得到对应的文本,然后与真实文本计算WER.在计算WER的人工转录步骤中,若单词中出现部分读音明显缺读或无法听清读音的情况,均视为错词.
F1分数是一种用于评估分类模型性能的指标,结合了精确率和召回率两个指标,通过一个调和平均数来计算,以综合考虑分类器的精度和召回能力,F1越高代表分类性能越好.
3 实验结果与分析
3.1 对比实验
本文与其他三种零样本语音合成方法在五种指标上进行了对比实验.Attentron是一种利用基于循环神经网络的自回归模型,使用粗、细粒度两个编码器分别提取基本声纹信息和韵律等细致风格信息,并作为自回归生成的指导信息.YourTTS是一种基于条件变分自编码器的非自回归模型,使用内部动态规划算法与随机时长预测器联合建模韵律,并联合生成对抗训练实现端到端生成.Pause-based TTS是一种基于语言模型的自回归模型,使用预训练的语言模型来建模韵律停顿,并基于Transformer结构实现端到端生成.对比实验的结果如
模型 | MOS | Sim-MOS | MUSHRA | MCD | WER/% |
---|---|---|---|---|---|
真实语音 | 4.36±0.06 | 4.32±0.06 | 91.7±1.3 | 0 | 0 |
Attentro | 3.87±0.07 | 3.74±0.08 | 64.3±3.6 | 6.83 | 5.5 |
YourTT | 4.08±0.06 | 4.04±0.07 | 74.9±2.9 | 4.60 | 1.1 |
Pause-based TT | 4.20±0.06 | 4.11±0.06 | 81.7±2.5 | 3.45 | 2.3 |
本文完整模型 | 4.23±0.06 | 4.18±0.06 | 85.8±2.2 | 3.19 | 0.7 |
对于MOS,本文方法相较于其他三种方法分别提升了0.36、0.15、0.03,与Pause-based TTS较为相近,并领先其他两种方法较多.本文方法与Pause-based TTS均采用了基于Transformer语言模型的语音合成架构,而Attentron和YourTTS分别采用基于循环神经网络和基于条件变分自编码器的语音合成架构.此外,本文方法与Pause-based TTS均采用了BERT语言模型作为停顿预测的主要结构.实验结果表明语言模型的自回归生成与注意力机制对于提升序列数据的上下文理解能力有很大作用,能够提升合成音频序列的发音连贯性以及停顿预测的准确度,进而提升合成语音的整体自然度.
对于Sim-MOS,本文方法相较于其他三种方法分别提升了0.44、0.14、0.07;对于MCD,则分别降低了3.64、1.41、0.26;对于MUSHRA,本文方法相较于其他三种方法分别提升了21.5、10.9、4.1.Attentron的表现与本文方法差距最大,这是因为其对韵律的建模完全依赖于先前时间步序列的信息,一方面无法实现自然的停顿插入;另一方面未对自回归生成进行约束,导致出现错误累计现象的概率相对较高,严重影响了模型的平均表现.YourTTS与本文方法的差距也相对较大,这是因为非自回归生成虽然不会产生错误累计现象,但YourTTS的随机持续时长预测器是并行预测,没有上文信息的引导,导致其预测结果存在过平滑现象,无法模拟更加自然的音素时长(例如自然状态下存在的很长或很短的音素时长);同时,YourTTS没有单独的停顿建模,导致其无法模拟自然的发音停顿习惯.Pause-based TTS与本文方法均采用了基于BERT的停顿建模,能够更好地模拟真实人声的发音停顿习惯,因此Pause-based TTS的表现与本文方法差距最小.三种指标的实验结果共同表明本文的韵律建模能够增强对目标说话人韵律信息的捕捉能力,进而提升合成音频与人声的相似度.
对于WER,本文方法的实验结果为0.7%,低于非自回归YourTTS的1.1%,而其他两种自回归方法分别为5.5%和2.3%,这表明本文所提的注意力判别模块能够有效解决自回归生成中的对齐紊乱问题,进而提升韵律建模的稳定性.
3.2 消融实验
为了验证所提韵律建模方法的有效性,本文对基于音素级韵律建模的自回归零样本语音合成模型进行了消融实验,分别对停顿预测模块、时长预测模块、注意力判别模块进行了消融.对于时长预测模块,本文选择静态时长预测模
模型配置 | MOS | Sim-MOS | MUSHRA | MCD | WER/% |
---|---|---|---|---|---|
真实语音 | 4.34±0.06 | 4.28±0.06 | 91.1±1.3 | 0 | 0 |
停顿预测 | 4.02±0.07 | 3.99±0.07 | 72.1±3.8 | 4.38 | 0.8 |
时长预测 | 4.15±0.06 | 4.10±0.06 | 80.7±2.6 | 3.31 | 0.8 |
注意力判别 | 4.10±0.06 | 4.03±0.07 | 79.3±2.9 | 3.95 | 2.6 |
本文完整模型 | 4.20±0.06 | 4.18±0.06 | 86.1±1.9 | 3.19 | 0.7 |
消融停顿预测模块后,模型的MOS、Sim-MOS、MUSHRA指标分别下降了0.18、0.19、14.0,MCD上涨了1.19,模型性能下降较大幅度,这说明预测的多类停顿对于引导模型合成自然的韵律十分重要.此外,WER仅上升了0.1个百分点,说明停顿预测模块与韵律稳定性无关.
消融时长预测模块后,模型的MOS、Sim-MOS、MUSHRA指标分别下降了0.05、0.08、5.4,MCD上涨了0.12,模型性能下降,但幅度相对较小,说明预测的混合高斯时长分布能够提升韵律模式的多样性,从而提升模型性能,但总体上影响力不如停顿预测模块.WER同样仅上升了0.1个百分点,表明更换时长预测模块不会对韵律稳定性产生影响.
消融注意力判别模块后,模型的MOS、Sim-MOS、MUSHRA指标分别下降了0.10、0.15、6.8,MCD上涨了0.76,WER上升了1.9个百分点,表明注意力判别模块能够有效解决自回归生成中的对齐紊乱问题,提升韵律稳定性.
3.3 停顿预测对比实验
为了评估停顿预测模块的性能,本文与其他两种停顿预测模型在F1分数上进行了对比实验.BLSTM-CRF基于长短时记忆网络(long short-term memory, LSTM)预测停顿;Pause-based TTS基于BERT-base预测停顿.
实验结果如
模型 | F1/% |
---|---|
BLSTM-CR | 80.24 |
Pause-based TT | 87.54 |
本文模型 | 89.11 |
3.4 时长预测对比实验
为了评估时长预测模块的性能,本文在维持语音合成总体框架不变的前提下,对使用不同的时长预测的模型所合成的音频进行了MUSHRA评估.Fastspeech2的时长预测器基于卷积结构,实现静态时长预测;VITS的时长预测器基于变分推理,实现随机时长预测.
实验结果如
模型 | MUSHRA |
---|---|
Fastspeech | 80.5±2.7 |
VIT | 82.8±2.2 |
本文模型 | 86.2±1.9 |
3.5 阈值实验
在注意力判别模块中,本文设置了最大相似度阈值来约束注意力机制. 的数值决定了当前时间步的最大相似音素的最低权重占比,以及其他音素的权重调整比例.
为了评估的数值设置对韵律稳定性的影响,本文在WER指标上对0.4、0.6、0.8三种不同的进行了对比实验.实验结果如
WER/% | |
---|---|
0.4 | 2.3 |
0.6 | 1.1 |
0.8 | 0.7 |
3.6 与相关工作的对比分析
目前已有多种基于注意力机制的自回归语音合成工作,其中与本文工作最相关的是Vall
4 结 论
本文基于零样本语音合成的韵律建模不理想以及自回归生成存在韵律对齐紊乱的情况,提出了一种基于音素级韵律建模的自回归零样本语音合成方法,以提升韵律的自然度和稳定性.首先在文本前端预测多类停顿,为韵律建模提供参考;然后预测混合高斯时长分布,并通过采样得到参考时长;最后在自回归生成的每个时间步引入注意力判别模块,通过控制文本向量权重,避免出现对齐紊乱现象.与其他零样本合成方法的对比实验表明了本文方法的优越性;消融实验和各模块自身的对比实验进一步证明了本文所提各模块的有效性.此外,本文所提的韵律建模方法相对于原始语音合成模型属于新增模块,增加了模型复杂度,降低了应用时的推理速度,未来拟在维持合成质量的前提下,进一步探索更加轻量化的韵律建模方式,提升合成的速度.具体将从两方面入手,一是尝试对模型进行流式处理,即将整段音频分块输出,目的是实现推理与输出并行;二是尝试使用深度可分离卷积等操作降低模型复杂度,直接提升推理速度.
参考文献
CASANOVA E, WEBER J, SHULBY C, et al. YourTTS: towards zero-shot multi-speaker TTS and zero-shot voice conversion for everyone[C]//International Conference on Machine Learning. PMLR, 2022: 2709-2720. [百度学术]
WANG Y X,SKERRY-RYAN R,STANTON D,et al.Tacotron:towards end-to-end speech synthesis[EB/OL]. 2017:1703.10135.https://arxiv.org/abs/1703.10135v2. [百度学术]
REN Y, RUAN Y J, TAN X, et al. FastSpeech:fast,robust and controllable text to speech[EB/OL]. 2019:1905.09263.https://arxiv.org/abs/1905.09263v5. [百度学术]
SHEN J,PANG R M,WEISS R J,et al.Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions[C]//2018 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Calgary, AB, Canada.IEEE, 2018: 4779-4783. [百度学术]
KIM J, KONG J, SON J. Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech[C]//International Conference on Machine Learning. PMLR, 2021: 5530-5540. [百度学术]
YANG D, KORIYAMA T, SAITO Y, et al.Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech[C]//ICASSP 2023 - 2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Rhodes Island,Greece.IEEE,2023:1-5. [百度学术]
DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:1810.04805.https://arxiv.org/abs/1810.04805v2. [百度学术]
岳焕景,多文昕,杨敬钰.基于邻域自适应注意力的跨域融合语音增强[J].湖南大学学报(自然科学版),2023,50(12):59-68. [百度学术]
YUE H J, DUO W X, YANG J Y. Neighborhood adaptive attention based cross-domain fusion network for speech enhancement[J]. Journal of Hunan University (Natural Sciences), 2023, 50(12): 59-68.(in Chinese) [百度学术]
BORSOS Z,MARINIER R,VINCENT D,et al. AudioLM:a language modeling approach to audio generation[J]. IEEE/ACM Transactions on Audio,Speech and Language Processing,2023,31:2523-2533. [百度学术]
MARY N J M S,UMESH S,KATTA S V. S-vectors and TESA:speaker embeddings and a speaker authenticator based on transformer encoder[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021,30:404-413. [百度学术]
RADFORD A, WU J, CHILD R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9. [百度学术]
BETKER J.Better speech synthesis through scaling[EB/OL].2023:2305.07243.https://arxiv.org/abs/2305.07243v2. [百度学术]
PAMISETTY G,SRI RAMA MURTY K.Prosody-TTS:an end-to-end speech synthesis system with prosody control[J].Circuits,Systems,and Signal Processing,2023,42(1):361-384. [百度学术]
MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[EB/OL]. 2013: 1301.3781.https://arxiv.org/abs/1301.3781v3. [百度学术]
CHUNG J,GULCEHRE C,CHO K,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].2014:1412.3555.https://arxiv.org/abs/1412.3555v1. [百度学术]
MCAULIFFE M, SOCOLOF M, MIHUC S, et al. Montreal forced aligner:trainable text-speech alignment using kaldi[C]//Interspeech 2017. ISCA, 2017: 498-502. [百度学术]
LANCUCKI A.Fastpitch:parallel text-to-speech with pitch prediction[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Toronto, ON, Canada. IEEE, 2021: 6588-6592. [百度学术]
VAN DEN OORD A,DIELEMAN S,ZEN H G,et al.WaveNet:a generative model for raw audio[EB/OL].2016:1609.03499.https://arxiv.org/abs/1609.03499v2. [百度学术]
WANG X,TAKAKI S,YAMAGISHI J,et al.A vector quantized variational autoencoder (VQ-VAE) autoregressive neural $F0$ model for statistical parametric speech synthesis[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2019,28:157-170. [百度学术]
VEAUX C,YAMAGISHI J,MACDONALD K.SUPERSEDED-CSTR VCTK corpus:English multi-speaker corpus for CSTR voice cloning toolkit[J]. 2016. [百度学术]
ZEN H G,DANG V,CLARK R,et al. LibriTTS: a corpus derived from LibriSpeech for text-to-speech[EB/OL]. 2019: 1904. 02882.https://arxiv.org/abs/1904.02882v1. [百度学术]
PRATAP V,XU Q T,SRIRAM A,et al.MLS:a large-scale multilingual dataset for speech research[EB/OL].2020:2012.03411.https://arxiv.org/abs/2012.03411v2. [百度学术]
PANAYOTOV V,CHEN G G,POVEY D,et al.Librispeech:an ASR corpus based on public domain audio books[C]//2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). South Brisbane,QLD, Australia.IEEE,2015:5206-5210. [百度学术]
KONG J, KIM J, BAE J. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis[J]. Advances in Neural Information Processing Systems, 2020, 33: 17022-17033. [百度学术]
DU C P,YU K.Phone-level prosody modelling with GMM-based MDN for diverse and controllable speech synthesis[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2021, 30: 190-201. [百度学术]
MIAO C F, LIANG S, CHEN M C, et al. Flow-TTS: a non-autoregressive network for text to speech based on flow[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Barcelona,Spain.IEEE, 2020: 7209-7213. [百度学术]
LI B,GULATI A,YU J H,et al.A better and faster end-to-end model for streaming ASR[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Toronto,ON,Canada.IEEE,2021:5634-5638. [百度学术]
CHOI S, HAN S, KIM D, et al. Attentron: few-shot text- to-speech utilizing attention-based variable-length embedding[EB/OL]. 2020: 2005.08484.https://arxiv.org/abs/2005.08484v2. [百度学术]
REN Y,HU C X, TAN X, et al.FastSpeech 2:fast and high-quality end-to-end text to speech[EB/OL]. 2020: 2006.04558.https://arxiv.org/abs/2006.04558v8. [百度学术]
ZHENG Y B,TAO J H,WEN Z Q,et al. BLSTM-CRF based end-to-end prosodic boundary prediction with context sensitive embeddings in a text-to-speech front-end[C]//Interspeech 2018.ISCA, 2018: 47-51. [百度学术]
WANG C Y,CHEN S Y,WU Y,et al. Neural codec language models are zero-shot text to speech synthesizers[EB/OL]. 2023:2301.02111.https://arxiv.org/abs/2301.02111v1. [百度学术]