Coggle requires JavaScript to display documents.
确保模型不会违反数据顺序建模,就是不会用x_t+1预测x_t
需要多个层或大卷积核去增加感受野
因为没有使用递归网络,可以并行训练提高效率
在没有大幅增加计算花费的情况下增加感受野,类似在粗粒度上进行卷积
类似卷积中的stride,只不过stride是一个卷积操作一个跳跃,dilation是一组卷积操作后跳跃
将序列分成dilation个batch,然后在每个batch上进行卷积,如果不能完整分就补零
因为不对波形进行假设,分类分布更灵活,更容易建模任意分布
因为原始16bit音频有65536种可能,所以先对他进行mu-law压缩成255种分类
卷积操作中加入门激活单元,门单元也是卷积的
卷积核操作包换tanh内的和sigma内的
增加收敛速度和模型深度
每一层卷积后得出的结果step是一样的,但是每个step的特征数不一样,这时就使用1x1的卷积来让每层输出维度相等,但是skip和residual的参数分开
没看懂,应该是建立多层的dilation卷积,而且每层的卷积核大小和dilation不一样?
引导WaveNet生成符合要求的音频
通过一个单一参照表征h影响每一步卷积
一个speaker的Embedding
有别的时间序列ht,通过转换成新和音频有相同时间序列
文本时间序列合并到音频时间序列
WAVENET: A GENERATIVE MODEL FOR RAW AUDIO