Please enable JavaScript.
Coggle requires JavaScript to display documents.
Tacotron2(2017) - Coggle Diagram
-
背景
Tacotron使用Griffin-Lim算法生成语音只是一种临时方案,需要一个更强大声码器生成语音
结构
Encoder
3层Conv
3层5x1的卷积网络,然后加上BatchNormalization和ReLU
-
-
Decoder
Pre-net
作为bottleneck lyaer增加泛化能力和加速收敛
-
-
-
5层5x1的一维卷积
其中包括tanh和BatchNormalization
相比Tacotron1
- 不使用CBHG,而是使用普通的LSTM和Convolution layer
- decoder每一步只生成一个frame
- 增加post-net,即一个5层CNN来精调mel-spectrogram
WaveNet
修改过的WaveNet用于从 mel spectrogram到音频的生成