Please enable JavaScript.
Coggle requires JavaScript to display documents.
XLNet(2019) (相关工作 (自回归语言模型
(Autoregressive LM) (概述
通过上(下)文预测下(上)一个可能跟随的单…
XLNet(2019)
自回归语言模型
(Autoregressive LM)
概述
通过上(下)文预测下(上)一个可能跟随的单词
缺点
只能利用上文或者下文的信息,不能同时利用上文和下文的信息,就算用bi-rnn拼接起来,因为融合模式过于简单,效果并不是太好
优点
自回归语言模型天然匹配下游NLP任务,在实际生成内容的时候,就是从左向右的
自编码语言模型
(Autoencoder LM)
优点
比较自然地融入双向语言模型,同时看到被预测单词的上文和下文
概述
在输入侧引入噪声,通过模型去除杂音,预测原本的单词
缺点
输入侧引入[Mask]标记,导致预训练阶段和Fine-tuning阶段不一致的问题,因为Fine-tuning阶段是看不到[Mask]标记的
Bert
-
缺点
- 第一个预训练阶段因为采取引入[Mask]标记来Mask掉部分单词的训练模式,而Fine-tuning阶段是看不到这种被强行加入的Mask标记的,所以两个阶段存在使用模式不一致的情形,这可能会带来一定的性能损失
- Bert在第一个预训练阶段,假设句子中多个单词被Mask掉,这些被Mask掉的单词之间没有任何关系,是条件独立的,而有时候这些单词之间是有关系的
GPT 2.0
如果想改善预训练语言模型,走这条扩充预序列模型训练数据的路子,是个多快好但是不省钱的方向
-
-
融合Transformer-XL
$$h_{\tau\ ;\ z_t}^n \leftarrow
Attention(Q=h_{\tau\ ;\ z_t}^{n-1},
KV=[\tilde{h}_{\tau-1}^{n-1}, h_{\tau;z_{\leq t}}^{n-1}\ ];\theta)$$
说明
- 把排列加入到Transformer-XL时,只排列segment内部的step,而不会跨segment
- 当前segment应用之前segment的h作为稳定缓存,不会知道前面segment的排列
步骤
预训练
- 随机选择两个分段,就像Bert一样
- 将两个分段加入[A, SEP, B, SEP, CLS]
- 在分段内应用排列语言模型,分段间只有同样的上下文才重用
- 以预测当前step输入为目标训练模型
-