Please enable JavaScript.

Coggle requires JavaScript to display documents.

Transformer-XL(2019) (组件 (Segment-Level Recurrence with State Reuse (公式及说明…

- - - - 上一层的隐藏状态
        
        说明
        
        n代表第几层，r代表第几个分段
        
        SG函数代表隔断梯度
        
        中间空白的圆圈代表连接两个向量
        
        $$\tilde{h}_\tau^{n-1} =[SG(h_{\tau-1}^{n-1}) \circ h_\tau^{n-1}]$$
      - 本层的自注意力计算
        
        $$q_{\tau}^n=h_{\tau}^{n-1}W_q^\intercal$$
        
        说明
        
        q是上一层对应分段的状态学习而来，k和v是结合上一层上一个分段计算的隐藏状态学习而来，所以计算本层输出时会考虑之前的上下文，而这些信息怎样则取决于下层和下层之前的上下文
        
        $$k_{\tau}^n=\tilde{h}_{\tau}^{n-1}W_k^\intercal$$
        
        $$v_{\tau}^n=\tilde{h}_{\tau}^{n-1}W_v^\intercal$$
  - - - 新公式
        
        $$a=(E_{x_i}^\intercal*W_q^\intercal)(W_{k,E}*E_{x_j})$$
        
        $$b=(E_{x_i}^\intercal*W_q^\intercal)(W_{k,R}*R_{i-j})$$
        
        $$c=u^\intercal(W_{k,E}*E_{x_j})$$
        
        $$d=v^\intercal(W_{k,R}*R_{i-j})$$
        
        $$A_{i,j}^{rel}=a+b+c+d$$
        
        $$A_{i,j}=q_i ^\intercal k_j$$
        
        $$E=[E\circ U]$$
      - 新公式说明
        
        原先Uj用Ri-j代替，R是最原始的Transformer位置Embedding的正弦编码矩阵
        
        由于UiWq即使是对应不同的词也是相同的，所以分别用可训练参数u和v来代替c和d中的UiWq
        
        把Wk分成Wk,R和Wk,E从而得出基于文本的key向量和基于位置的k向量
        
        a表示基于内容的寻址，b捕捉与内容有关的位置信息，c学习一个全局的内容信息，d编码一个全局的位置信息
      - Vanilla Transformer公式
        
        $$a=E_{x_i}^\intercal W_q^\intercal W_kE_{x_j}$$
        
        $$b=E_{x_i}^\intercal W_q^\intercal W_kU_j$$
        
        $$c=U_i^\intercal W_q^\intercal W_kE_{x_j}$$
        
        $$d=U_i^\intercal W_q^\intercal W_kU_j$$
        
        $$A_{i,j}^{abs}=a+b+c+d$$
        
        $$E=[E\circ U]$$
        
        $$A_{i,j}=q_i ^\intercal k_j$$
      - Vanilla Transformer公式说明
        
        因为Embedding由Word Embedding和Position Embedding拼接而成，所以分别成以W的时候就出来abcd四个因子
        
        其中Exi表示分段中第i个step的字节Embedding，Ui表示分段中第i个step的位置Embedding，Exj，Uj类似
        
        所以Ui乘以的都是Wq，Uj乘以的都是Wk