赞
踩
首发地址: https://zhuanlan.zhihu.com/p/451144980
读了复旦大学发的文章《Template-free Prompt Tuning for Few-shot NER》,是用小样本思路prompt做ner的新方法,就是没开源代码很遗憾,导致有的小问题就是不明白,通过给作者发邮件弄明白了。
目录:
1、原有的prompt做ner的方式,及弊端;
2、该文章的思路;
3、该文章的思路的主要问题的解决思路;
4、我对该文章的思考。
经典的prompt方式,将原文本是新文本模板中的一个槽位,用语言模型去预测另一个槽位,该槽位的取值是事先定好的很能代表label的词,多为一个英文词或比较少(如2个字)的中文。由于是用语言模型预测,依赖预训练的数据,所以理论上可以完全不训练,或者用少样本训练。故而成为小样本学习,或零样本学习。
本文之前的prompt做ner的思路也是如此,如图。
与prompt做分类的区别是:
所以改进方式就需要摆脱“把候选的槽位组合也当做一个槽位放入模板”的思路,即“候选的槽位组合不能是模板的一个槽位”。
经典prompt有2个问题:模板如何构建,和label word怎么设置。该文章没用模板,所以只涉及label word怎么设置。
需要注意的是,由于是小样本,所以任务数据集的样本量很小,为了找到更合适的label word,所以从“开放数据”中选择“相应类型”的词和文本。这就导致如果开放数据中没有这种类型,则无法用下述方式找label word。比如,“地点”、“人名”等通用类型的数据好找;但如果是垂类下特有的实体类型,甚至是业务上自己定义的实体类型,则没有相关的开放数据对应,则下述方法无效。
开放数据是指:
文章采用“数据集分布”+“语言模型预测”两种相结合的方式选取label word。
大致思路是:
优点:
缺点:
不确定的点:
欢迎评论,欢迎指出我的错误,感谢!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。