Please enable JavaScript.
Coggle requires JavaScript to display documents.
Tacotron(2017) - Coggle Diagram
Tacotron(2017)
背景
需要专业领域知识以及费力的设计
- 提取文本语义特征的模型
- 持续时间模型
- 声学特征预测模型
- 复杂信号处理的声码器
模型单独训练
- 来自每个组件的错误可能会加剧
- 设计的复杂性导致在构建新系统时需要大量的工程工作
组件
CBHG Module
组件
卷积集
步骤
- 用1-K大小的卷积核进行一维卷积
- 将上一步的卷积结果concat起来
- stride为1的最大池化
- 2层3个跨度的一维卷积
作用
- 提取模型局部和上下文信息(类似unigrams到k-grams)
- 最大池化增加局部不变性,使stride为1保持step的不变
- 经过两层固定长度的仿射变换
-
-
pre-net
两层带0.5的dropout的全连接以学习特征
结构
Encoder
步骤
- 输入字节Embedding
- pre-net
- CBHG
- 双向GRU+Attention
-
-
端到端TTS系统的优点
- 减少了对特征工程的需求
- 更容易控制如说话者、语言和感情等属性
- 单一模型相比多组件会有更好的鲁棒性
难点
- 文本相对语音是高度压缩,相同的文本能对应不同的发音和说话风格
- 输出的长序列也会导致错误的迅速积累