赞
踩
GitHub链接:https://github.com/THUDM/P-tuning-v2
源代码和数据
优化的提示调整策略实现了与微调小型/中型模型和序列标记挑战相当的性能。
找到我们以前的版本P-tuning v1用于知识探索和少镜头 SuperGLUE。您亲切地为我们的 repo 加注星标可以极大地鼓励我们更加努力地工作 :)
您可能也对我们最近的工作GLM-130B:一个开放的双语预训练模型 (2022-10-06)感兴趣。它是一个开源的 LLM,在各种基准测试中表现优于 GPT-3 175B。仅使用4 * RTX 3090 或 8 * RTX 2080 Ti 免费获取模型权重、进行推理和 P-Tuning v2 !
P-tuning v2 利用deep prompt tuning,即对预训练变压器的每一层输入应用连续提示。Deep prompt tuning 增加了连续提示的能力,并缩小了跨各种设置进行微调的差距,特别是对于小型模型和艰巨的任务。
感谢@rainatam为发布重新组织代码的共同努力!
由于我们论文中报告的实验都是在 NVIDIA DGX-A100 服务器(可能很难获得)上进行的,因此我们在 BERT-large/RoBERTa-large 上重新实现 P-tuning v2 的结果:
我们注意到最佳超参数可能对您的服务器环境和包版本敏感。如果您没有完全相同的环境,我们强烈建议您根据我们在search_script和结果收集脚本search.py 中的示例超参数搜索脚本在您的环境中运行超参数搜索。
我们用 Anaconda3 进行实验。如果你已经安装了Anaconda3,那么创建P-tuning v2的环境:
conda create -n pt2 python=3.8.5
conda activate pt2
在我们设置基本的conda环境之后,通过以下方式安装pytorch相关包:
conda install -n pt2 pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch
最后,安装我们需要的其他python包:
pip install -r requirements.txt
对于 SuperGLUE 和 SQuAD 数据集,我们从 Huggingface 数据集 API(嵌入在我们的代码中)下载它们。
对于序列标记(NER,SRL)数据集,我们在这里准备了一个非官方的打包。下载后,将压缩包解压到项目根目录。请您自己承担风险使用。
在run_script中运行训练脚本(例如,用于 RTE 的 RoBERTa):
bash run_script/run_rte_roberta.sh
目前,我们已经发布了对以下任务和数据集的重新实现。更多实施将很快发布。
在 BERT-large 上发布结果
布尔Q | 美洲杯 | 即食即食 | 无线网络 | 世界超级杯 | CoNLL04 | OntoNotes 5.0 | CoNLL12 | |
---|---|---|---|---|---|---|---|---|
结果 | 74.3 | 77.0 | 80.1 | 75.1 | 68.3 | 84.5 | 86.4 | 85.3 |
总纪元 | 100 | 80 | 60 | 80 | 80 | 40 | 30 | 45 |
最佳纪元 | 58 | 12 | 30 | 56 | 17 | 33 | 24 | 43 |
在 RoBERTa-large 上发布结果
布尔Q | 美洲杯 | 即食即食 | 无线网络 | 世界超级杯 | CoNLL03 | CoNLL04 | OntoNotes 5.0 | CoNLL12 | CoNLL05 华尔街日报 | CoNLL05 棕色 | 小队 1.1 | 小队 2.0 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
结果 | 84.0 | 92.0 | 86.6 | 73.7 | 64.4 | 91.8 | 88.4 | 90.1 | 84.7 | 89.4 | 83.9 | 88.1/94.2 | 81.3/84.7 |
总纪元 | 100 | 120 | 100 | 50 | 10 | 30 | 80 | 60 | 45 | 15 | - | 30 | 10 |
最佳纪元 | 86 | 78 | 65 | 31 | 3个 | 28 | 45 | 59 | 37 | 13 | - | 24 | 9 |
其他超参数请参考训练脚本。如果你不能在最好的 epoch 达到报告的结果,可能是环境不匹配,需要超参数搜索。
如果您觉得我们的工作有用,请引用我们的论文:
<span style="color:#1f2328"><span style="background-color:#ffffff"><span style="color:var(--color-fg-default)"><span style="background-color:var(--color-canvas-subtle)"><code>@article{DBLP:journals/corr/abs-2110-07602, author = {Xiao Liu and Kaixuan Ji and Yicheng Fu and Zhengxiao Du and Zhilin Yang and Jie Tang}, title = {P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks}, journal = {CoRR}, volume = {abs/2110.07602}, year = {2021}, url = {https://arxiv.org/abs/2110.07602}, eprinttype = {arXiv}, eprint = {2110.07602}, timestamp = {Fri, 22 Oct 2021 13:33:09 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-2110-07602.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }</code></span></span></span></span>
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。