Please enable JavaScript.
Coggle requires JavaScript to display documents.
PB-BERT(2019) - Coggle Diagram
PB-BERT(2019)
组件
教师网络
不符合资源约束的高精度针对终端任务的大型网络,这里使用BERT base和BERT large
学生网络
符合资源的限制的压缩模型,这里是从L=2,H=128到BERT base的模型
Labeled Data(D_L)
已标注数据,通常因为难标注而数量有限
Unlabeled Transfer Data(D_T)
与标注数据一样的分布但没有标注的数据,经过教师网络得到的Soft Target
Unlabeled Language model data(D_LM)
用于非监督预训练的masked的数据,因为标签和强域相似性要求,所以数据一般比较多
步骤
Pre-trained Distillation(PD)
- 使用D_LM预训练学生模型
- 使用教师网络的D_T训练学生网络
- 用D_LFine-tune学生网络
-
背景
现在的语言模型越来越准确的同时也越来越大,但是同时也让他们无法在有限的资源小训练及预测,本文就是想要探索有限资源下,怎么让模型更准确