赞
踩
之前看过P-tunning V2, 知道他的思想,最近突然想到了这件事,仔细看了一下他的代码实现,重新看了一遍,记录一下。
图片源于:https://zhuanlan.zhihu.com/p/423902902
P-Tunning V2的思路,仅仅通过微调连续的一些虚拟Token进行训练,固定模型的其它参数,从而实现低成本微调。但是P-Tunning V2采用一种模型内部继续微调,上图(b)所示,是一种深层的微调方式,而不是像P-Tunning v1,仅仅微调embeding 层的一些嵌入的虚拟Token,直观上理解,这种是一种比较浅层的方式。而P-tunning V2具体是怎么实现呢?可以参考,以下内容大量参考:P-tuning V2论文和代码实现解析
就是利用KVCache的方式进行深入微调
self.embedding = torch.nn.Embedding(
config.pre_seq_len,
config.num_hidden_layers * 2 * config.hidden_size)
pre_seq_len虚拟token数量
config.num_hidden_layers * 2 * config.hidden_size因为是深层的,和你模型层数是一致的,所以config.num_hidden_layers,2 其实表示深层微调,类似于KV的方式,所以是2,最后是隐藏层维度。
简单模拟一下:
原来的Q, K, V维度为:batch seq dim
通过past_key_values,则使K, V维度变为,batch new_seq(pre_seq_len+seq) dim
Q
K
T
QK^T
QKT维度为batch seq new_seq
Q
K
T
V
QK^TV
QKTV batch seq dim
就是以上原理,从而实现深度调参。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。