当前位置:   article > 正文

【NLP】(task7)Transformers完成序列标注任务_bert 序列标注

bert 序列标注

学习总结

(1)回顾 fine tune BERT 解决新的下游任务的5个步骤:
1)准备原始文本数据
2)将原始文本转换成BERT相容的输入格式(重点,如下图所示)
3)在BERT之上加入新layer成下游任务模型(重点)
4)训练该下游任务模型
5)对新样本做推论
而利用HuggingFace后,我们是在BERT上加入dropout和linear classsifier,最后输出用来预测类别的logits(即用了迁移学习的思想)。
在这里插入图片描述
(2)本次学习围绕序列标注(有NER、POS、Chunk等具体任务)中命名实体识别(Name Entity Recognition,NER):传统神经网络模型的命名实体识别方法是以词为粒度建模的;而在本次的BERT预训练语言模型用作序列标注时,通常使用切分粒度更小的分词器(如WordPiece)处理输入文本——破坏词与序列标签的一一对应关系

(3)用BERT模型解决序列标注任务(即为文本的每个token预测一个标签):

  • 在加载数据阶段中,使用CONLL 2003 dataset数据集,并观察实体类别及表示形式;
  • 在数据预处理阶段中,对tokenizer分词器的建模,将subtokens、words和标注的labels对齐,并完成数据集中所有样本的预处理;
  • 在微调预训练模型阶段,通过对模型参数进行设置,设置seqeval评估方法(计算命名实体识别的相关指标),并构建Trainner训练器,进行模型训练,对precision(精确率)、recall(召回率)和f1值进行评估比较。

本文涉及的jupter notebook在篇章4代码库中。如果您正在google的colab中打开这个notebook,您可能需要安装Transformers和

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/827143
推荐阅读
相关标签