Please enable JavaScript.

Coggle requires JavaScript to display documents.

XLNet(2019) (相关工作 (自回归语言模型（Autoregressive LM） (概述通过上(下)文预测下(上)一个可能跟随的单…

- - - - $$\max \limits_{\theta} \mathbb{E}_{z\sim \mathcal{Z}_T}\;[\sum_{t=1}^Tlogp_\theta(x_{\mathcal{z}_t} | X_{z_{\lt t}}\,)]$$
      - 详细说明
        
        将长为T的序列随机排列有T！中可能，随机抽出其中Z_T种，顺序是打乱的，所以就能看到不同的“上下文”
        
        由于parameters是共享的是，所以不同排列能学习到各种上下文信息
        
        在求和Z_T排列下Xz<t条件下x_z_t最大的似然概率
  - - - 双流自注意力
        
        $$g_{z_t}^l=Attention(Q \leftarrow g_{z_t}^{l-1},KV \leftarrow h_{z_{\lt t}}^{l-1} )$$
        
        $$h_{z_t}^l=Attention(Q \leftarrow h_{z_t}^{l-1},KV \leftarrow h_{z_{\lt t}}^{l-1})$$
        
        说明
        
        h就是普通的Transformer的计算过程，前面排序计算的结果只需计算一次就能缓存在h中使用
        
        g只参考当前step之前前的h和当前step的位置信息，就能计算出结果
        
        总的来说，g会被上层复用，h会被上层和后面的step复用
      - 标准Transformer-XL
        
        $$p_{\theta}(X_{z_t}=x | x_{z_{\lt t}})= \frac{\exp(e(x)^{\intercal}h_{\theta}(x_{z_{\lt t}}))} {\sum_{x^{'}}\exp(e(x^{'})^{\intercal}h_{\theta}(x_{z_{\lt t}}))}$$
        
        说明
        
        传统Transformer-XL因为使用顺序预测的关系，知道了z<t位置的x时自然也就知道了z=t位置的位置信息，但由于XLNet是随机排列的，所以知道z<t并不能推出z=t的位置，也就是说排列3214和3241中当预测第三个顺序的1和4时因为没有当前step位置信息，预测1和4的概率是一样的
      - Re-parameterize Transformer-XL
        
        $$p_{\theta}(X_{z_t}=x | x_{z_{\lt t}})= \frac{\exp(e(x)^{\intercal}g_{\theta}(x_{z_{\lt t}}\ ,z_t))} {\sum_{x^{'}}\exp(e(x^{'})^{\intercal}g_{\theta}(x_{z_{\lt t}}\ ,z_t))}$$
        
        说明
        
        就上述标准Transformer-XL，在hθ加入需要预测的step的位置信息得到新的gθ，这样就能在预测是参考位置信息
        
        一个新的问题又出现了，因为位置为t时g需要h在t之前的结果，但位置大于t是g需要h在t的结果，如果只有g的话那就需要每一个step算一次，那就浪费和很多计算资源，因为计算很多是重复的
      - Attention Mask
        
        问题
        
        下游任务不会随机排列step，所以需要在保持输入序列不变的情况下实现不同的排列
        
        双流自注意力只解决了一个序列计算的浪费问题，但不同序列的计算浪费问题怎么解决？
        
        实现
        
        不使用Mask而是使用参数w代表step的未知词向量
        
        每层参考一个自注意力矩阵屏蔽到关注不到的h，不同的排列套用不同的自注意力矩阵，这样就能尽可能复用计算结果
      - 部分预测
        Partial Prediction
        
        $$\max \limits_{\theta} \mathbb{E}_{z\sim \mathcal{Z}_T}[\sum_{t=c+1}^{|z|}logp_\theta(x_{\mathcal{z}_t} | X_{z_{\lt t}})]$$
        
        说明
        
        因为不同排列会出现一开始只能参考几个上下文的情况，这种情况是很那作出判断的，自然也就导致收敛慢的问题
        
        为了解决上述问题，把排列分成≤c的非目标序列和＞c的目标序列，c之前的step不需要计算Query流
        
        因此目标是计算在非目标序列下目标序列的最大似然估计