Please enable JavaScript.
Coggle requires JavaScript to display documents.
GPT-2(Generative Pre-Training) 代表圖案:獨角獸 - Coggle Diagram
GPT-2(Generative Pre-Training)
代表圖案:獨角獸
WHAT?
從 WebText(開源版) 訓練的transformer的模型
用來預測下一個字
比BERT大近5倍
基本上是transformer的Decoder的小改版
有特色的點:訓練資料及參數量超多
訓練資料: 800 萬個網頁爬來的 40 GB
模型參數:15億個參數
transformer blocks:48層
BERT-LARGE:3.4億個參數
transformer blocks:24層
OpenAI不開放全部的GPT-2
現在找得到的GPT-2
GPT-2 small(大小124M):
1.2億個參數
GPT-2 medium:355M
GPT-2 large:779M
7.74億個參數
現在的應用
TabNine
https://tabnine.com/
Talk to Transformer
https://talktotransformer.com/
功能
前身GPT
用爬來的文本預測下一個字
都使用兩階段遷移學習訓練
1.用大量文本訓練通用模型
2.fine-tuning
訓練目標:一般語言模型,預測下一個字
關注當前字彙以前的序列
GPT-2
Masked Self-Attention
傳統、單向的語言模型在處理新詞彙時只會、也只能關注前面已經被生成的其他詞彙,而不該去看「未來」的詞彙。