lstm 加多头注意力MultiHeadAttention_lstm和多头attention结合

作者：爱喝兽奶帝天荒 | 2024-07-31 04:41:20

踩

lstm和多头attention结合

qxk的转置，结果和v进行矩阵相乘，给v做个线性变换

包括旋转，平移，缩放

2023.1210 MultiHeadAttention放在后面效果更好。

2023.1211： MultiHeadAttention头和尾各加一个，效果又有改善

分类的激活函数relu6比gelu效果更好。


import os
import time
from typing import Dict, Iterable, Optional
from torch import nn, Tensor
from torch.nn import Linear
 
import torch.nn.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/907058