Coggle requires JavaScript to display documents.
Character-Level Language Modeling with Deeper Self-Attention
每层中的每个step有一个512维度的positional embedding,所以总共的参数是L*N*512
每个位置的输入对应的输出预测下一个位置的输入,例如输入t0位置的输出预测下一步的输入t1,即使t0位置可供参考的信息只有t0
当超过10层时,更深的网络会到导致收敛慢和准确性低的问题
除了最后一层,中间层每一个step也会对下一step的输入进行预测,然后以第l层除以2*总层数的权重(l/2n)加权求和得出最终的loss
每个会进行预测的位置不单止预测下一个step的输入,而且预测再下一个step的输入,该预测计算的loss会乘以0.5,因为主要目标是预测下一个step的输入,而不是下下一个step的
64层、512个step的transformer layer
由于这论文研究的是已知序列前提下对未知序列的预测问题,所以相比Transformer丢弃掉所有decoder层