当前位置:   article > 正文

P-Tunning V2简单理解_p-tuning v2

p-tuning v2

之前看过P-tunning V2, 知道他的思想,最近突然想到了这件事,仔细看了一下他的代码实现,重新看了一遍,记录一下。
图片源于:https://zhuanlan.zhihu.com/p/423902902
在这里插入图片描述
P-Tunning V2的思路,仅仅通过微调连续的一些虚拟Token进行训练,固定模型的其它参数,从而实现低成本微调。但是P-Tunning V2采用一种模型内部继续微调,上图(b)所示,是一种深层的微调方式,而不是像P-Tunning v1,仅仅微调embeding 层的一些嵌入的虚拟Token,直观上理解,这种是一种比较浅层的方式。而P-tunning V2具体是怎么实现呢?可以参考,以下内容大量参考:P-tuning V2论文和代码实现解析

简单表述一下思路:

就是利用KVCache的方式进行深入微调

  • 确定微调参数数量
self.embedding = torch.nn.Embedding(
                config.pre_seq_len,
                config.num_hidden_layers * 2 * config.hidden_size)
  • 1
  • 2
  • 3

pre_seq_len虚拟token数量
config.num_hidden_layers * 2 * config.hidden_size因为是深层的,和你模型层数是一致的,所以config.num_hidden_layers,2 其实表示深层微调,类似于KV的方式,所以是2,最后是隐藏层维度。

  • 将维度进行拆解,拆成KVCache的方式,利用past_key_values进行传参,从而是实现深度调参的方式,所谓深度调参即不仅仅局限于embedding 层的参数,我理解本质上就是嵌入层的参数,不过,他把虚拟token参与注意力的计算。

简单模拟一下:
原来的Q, K, V维度为:batch seq dim
通过past_key_values,则使K, V维度变为,batch new_seq(pre_seq_len+seq) dim
Q K T QK^T QKT维度为batch seq new_seq
Q K T V QK^TV QKTV batch seq dim
就是以上原理,从而实现深度调参。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/835721
推荐阅读
相关标签
  

闽ICP备14008679号