Coggle requires JavaScript to display documents.
Efficient Attention: Attention with Linear Complexities
计算上层生成的Key和本层生成的Query计算上层各个step对于本层各个step的相关程度,生成的权重cv乘以上层的Value加权求和得到最后的相关结果
增强重要的特征,压缩不重要的特征,例如SEnet就使用全局平均池化和线性映射去计算每一个channel的重要性因子然后缩放
尽管每个位置的注意力匹配是独立生成的,但它们是先关。注意力匹配一个位置主要关注语言相关的区域。