深度学习之Reformer_reformer模型

作者：weixin_40725706 | 2024-04-14 18:09:55

踩

reformer模型

文章目录

1. 局部敏感哈希
2. 可逆层
3. Chunk

Transformer无法处理比较长的序列数据（通常是500左右的长度），而且十分消耗GPU资源。
Reformer可以处理的序列长度可以高达64k，GPU资源消耗也降低了很多。
Reformer的重点部分在于：

Locality sensitive hash attention（局部敏感哈希注意力）：空间换时间
Reversible layers（可逆层）：时间换空间
Chunking FFN layer

1. 局部敏感哈希

普通哈希映射是直接进行映射，没有考虑元素之间的联系，无法预知相似元素的位置信息，而局部敏感哈希则将元素相似性考虑进去，在进行映射时相似的元素位置接近或者会被分进同一个bucket中，这样就方便进行检索和数据提取，大大减少了时间的消耗。
在这里插入图片描述
Reformer局部敏感哈希采用的方法是球投影点随机旋转，三种不同的旋转投影作为三种哈希映射，每个点经过映射后会得到3个不同的哈希映射值，当三种映射结果一致时（下中的点x和y）则会被分到同一个bucket中。
在Transformer中，核心就在于Attention： $Attention(Q,K,V)=softmax(\frac {QK^T}{\sqrt d_k})·V$
$Q$ : L Queries of size d, to attend for
$K$ : K Keys of size d, to attend to
$V$ : L Values of size d
$L$ : length of sequence
$d$ : depth of attention
$QK^T$ 的复杂度为 $O(L^2)$ ，当序列长度过长时就会难以处理。
在Reformer中，进行运算时不是对所有的 $Q 、 K$ 进行直接运算，而是考虑同 $Q$ 比较接近的 $K$ 来进行运算。
LSH在运算过程中，选择Q=K，有如下设置： $k_j=\frac {mean(q_j)}{||q_j||}$ 做一个映射，这个映射被称为 $Q K - a t t e n t i o n$ ，即在一个小范围内进行权重注意力计算。
采用旋转投影映射划分成多个bucket，但是每个bucket中的元素可能会不均衡，因此选择连续并行查询运算的方式，运算chunk的长度为每个bucket平均长度的两倍，并且在运算时考虑当前chunk和前一个chunk所包含的内容，如下图左所示。
LSH哈希映射是通过多轮哈希映射取并集结果：
$o_i=\sum_{j \in P'_i} exp(q_i·k_j-m(j,P_i)-z(i,P_i))v_j$
$w h e r e$ $m(j,P_i)=$

{\begin{cases} \infty, & i f j \notin P_{i} \\ 0, & j \in P_{i} \end{cases}

$\begin{cases} \infty, & if j\notin P_i \\ 0, & j \in P_i \end{cases}$

m (j, P_{i}) = {\infty, 0, i f j \in / P_{i} j \in P_{i}

其中

P_i

是和i接近的元素的集合。
在这里插入图片描述

局部敏感哈希

2. 可逆层

在这里插入图片描述
在正常的编解码过程中，由于要进行反向传播，因此每一层中间结果需要进行保留存储，如(a)，因此就有了如图（b）、（c）所示的思想，利用这种流程，中间结果都可以计算出来，不需要进行存储，用运算来代替空间存储。

3. Chunk

比较厚的层仍会占用大量内存，前馈层的计算在序列中是完全独立的，所以可以分块处理，分chunk分开进行运算。
在这里插入图片描述

参考视频：
reformer 一个改进的transformer模型
参考博客：
解读Reformer

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/423462