prefix-tuning: optimizing continuous prompt for generation_prefix tuning optimizing continus pdf

作者：羊村懒王 | 2024-04-05 03:05:48

踩

prefix tuning optimizing continus pdf

保持LLM不变，调整一小部分参数continuous task-specific vector，即prefix。

现有的方法fine-tune，参数量太大，GPT2 774M，GPT3 175B。

有一类方法是使用了adapter tuning，freeze大多数的ptm的参数，嵌入额外的task-specific的参数，只调整部分参数。

Related work：fine-tuning，lightweight fine-tuning，prompting。

prompt learning是优化discrete tokens，prefix tuneing是优化continuous 我认定 embedding。

题外话：Roberta相对于bert的区别。本质上还是一个mask language model。训练方式和数据集做了一定的改动。

更大的batch size，更多的训练数据，更长的训练时间。

去掉了bert的next sentence prediction任务。

在更长的句子上训练。

根据训练数据动态进行mask。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】