Please enable JavaScript.
Coggle requires JavaScript to display documents.
transformer - Coggle Diagram
transformer
Bert
encoder 12 层
训练任务
mask 让模型猜
GPT
几十次 decoder
bert 应用
word embedding
onehot
vector
分类
wordNet
qkv
位置信息,position encoding
gpu 并行加速
自注意力机制
多头
norm
FC, p -> 4p ->p
encoder 的输出也要做w
输入到decoder 的qk
Google T5
自监督学习,微调是监督学习