Please enable JavaScript.
Coggle requires JavaScript to display documents.
Seq2Seq (Transformer (多头自注意力 (当前位置的qi与序列每一个位置的ki都做注意力, 使用缩放点积,除以q和k维度之和的平方…
Seq2Seq
Transformer
多头自注意力
当前位置的qi与序列每一个位置的ki都做注意力
使用缩放点积,除以q和k维度之和的平方根
Q作查询,K作匹配,V作待提取的信息
用不同的权重参数做多次不同的自注意力,确保每个head能捕捉到不同的依赖
可向量化并行化计算
输入与位置信息向量相加
残差结构与Layer Norm
Encode-decode结构,decode生成的输入要用masked多头自注意力
若在深度上用同样的参数,RNN结构,就是Universial Transformer
背景
encode-decode,句子输入双向LSTM编码得到通用语义向量context vector,再由另一个双向LSTM解码为目标序列
RNN限制,难以并行计算,长依赖信息捕获有限
CNN限制,窗口大小有限
注意力机制
计算流程
每个信息都对查询Query进行注意力打分,再用softmax进行归一化。
若加权平均为软注意力,若取最高α或采样方式取信息则为硬注意力。
原理
自下而上地对信息进行寻址的过程
评分机制
加性
点积
缩放点积
双线性