Coggle requires JavaScript to display documents.
q是上一层对应分段的状态学习而来,k和v是结合上一层上一个分段计算的隐藏状态学习而来,所以计算本层输出时会考虑之前的上下文,而这些信息怎样则取决于下层和下层之前的上下文
Attentive Language Models Beyond a Fixed-Length Context