赞
踩
《Language Models are Few-Shot Learners,2020》
前文提到GPT-2进一步提升了模型的zero shot能力,但是在一些任务中仍可能会“胡说”,GTP-3基于此提出了few shot,即预测时给出少量精确案例,提升模型的准确性,同时进一步增大模型。
ps:
sparse attention 与传统 self-attention(称为 dense attention) 的区别在于:
- dense attention:每个 token 之间两两计算 attention,复杂度 O(n²)
- sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)
具体来说,sparse attention 除了相对距离不超过 k 以及相对距离为 k,2k,3k,… 的 token,其他所有 token 的注意力都设为 0,k=2的稀疏注意力如下图所示:
使用 sparse attention 的好处主要有以下两点:
- 减少注意力层的计算复杂度,节约显存和耗时,从而能够处理更长的输入序列;
- 具有“局部紧密相关和远程稀疏相关”的特性,对于距离较近的上下文关注更多,对于距离较远的上下文关注较少;
完形填空任务和完成任务:
问答(QA)任务:
问答(QA)任务和阅读理解(RC)任务:
翻译任务:
虽然 GPT-3 取得了非常亮眼的效果,但仍存在一些问题:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。