当前位置:   article > 正文

Doccano工具使用教程:创建Doccano项目、数据导入、添加指引、创建标签、文本标注(Doccano工具/NLP实战/命名实体识别/关键信息抽取/Token分类/文本分类/序列标注)_doccano使用教程

doccano使用教程

这篇文章是专门使用Doccano进行标注的教程,安装教程看这篇:

Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具_会害羞的杨卓越的博客-CSDN博客

NER项目实战看这篇(对代码进行了逐行解读):

NER实战:(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读/文本BIO处理/文本分类/序列标注)_会害羞的杨卓越的博客-CSDN博客

1 项目创建

网址右上角,有中文选项

点击创建后:


文本分类是整个文本对应一个标签,我们选择序列标注这个选项。

取个名字,写个描述就行,下面那些先都不用管: 

这个时候你们发现了一个小问题,你每进一个界面都需要重新切一下中文(没关系,使用熟练后你会记住这些英文,就当学习了)

点击创建就行了。

然后这里每一步都需要你看一个视频,太墨迹了,自己看吧,还需要翻墙哦。

2 导入数据集

直接点左边的数据集--->-操作-->导入数据集:

选择本篇文章对应提供的资源中,依次路径为ner--->ner-label--->train.txt

  在网址页面中,选择TestLine(因为我们是一行一个文本),编码选择默认的utf-8,然后选择数据集:

 点个导入就ok了,一共有个20条:

3 创建标签

然后再点一下左侧的labels标签--->创建标签:

 这里有标签名,快捷键key,选择一下标签颜色。

比如我们文本里面有很多时间,我选择一个year,选择快捷键为y,第二个色块作为颜色,点击保存添加下一个:

根据我们的文本,我就选择了这3个标签,年、考试、地点:

这只是一个简单的实例,你在掌握之后可以根据自己的项目情况来处理。

4 添加指引

 这就是我们的标签,我们可以再加上一个指导,在guideline处:

随便写一些: 

 这是markdown的语法,左边输入,右边markdown输出,写完指引后,就可以去标注了。

这里只是一个简单实例,你可以根据实际的项目进行调整。

这个指引的目的就是,标注的时候会给你一些提示,在Doccano中一共有三种角色来使用。分别是项目管理人员的角色、标注人员的角色、审核人员的角色。

所以如果是标注人员在进行标注的时候,可以看到项目管理人员写的标注规则,这样可以指引和约束标注人员了。

在标注的时候,点击一下标注规则的页面:

5 标注文本

标注的简单流程

  • 点击数据集
  • 选中一条文本,右边点击标注
  • 进入标注页面,选择一个词就会弹出标签
  • 选择标签

看左上角的×或者√,这是审核人员的审核通过和不通过,Doccano可以一个项目多人操作,可以分配三种角色,分别为审核人员、标注人员、管理人员,点击show guideline可以出现刚刚写的标注指导。

点击右上角的类似于小于号的按钮对下一个词进行标注,对于没有可以标注的词,就直接删除它。全部标完,我们可以将数据集导出,默认选择json格式,后续有文本分类的任务可以选CSV格式:

导出后,下载下来,解压到自己项目的路径就行了。

最后下载出来的文件解压出来,格式就是:你的用户名.jsonl

 这就是最后的数据了,你的NER任务在标注环节就全部结束了,你可以把数据放到 你的项目进行处理训练了。

在我的博客中还有很多有价值的内容

到了这里就可以开始创建自己的项目了,你已经完成了doccano文本标注工具的构建。

陆续更新中,有用的话拜托点赞收藏哦。

后续的项目创建,以及如何进行分词,中文分词,请参考这篇文章:

NER实战:(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客

我的主页还有许多其他非常有价值的NLP内容

Transformer提出文章论文精读:

Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)_会害羞的杨卓越的博客-CSDN博客

Transformer解读:

Transformer算法解读(self-Attention/位置编码/多头注意力/掩码机制/QKV/Transformer堆叠/encoder/decoder)_会害羞的杨卓越的博客-CSDN博客

Hugging Face实战:

Hugging Face实战(NLP实战/Transformer实战/预训练模型/分词器/模型微调/模型自动选择/PyTorch版本/代码逐行解析)上篇之模型调用_会害羞的杨卓越的博客-CSDN博客

bert系列算法

BERT系列算法解读:(RoBERTa/ALBERT/DistilBERT/Transformer/Hugging Face/NLP/预训练模型/模型蒸馏)_会害羞的杨卓越的博客-CSDN博客

包括一些大方向的内容:

深度学习五大基本网络_常用深度学习网络_会害羞的杨卓越的博客-CSDN博客

机器学习算法(全教程/全解析/源码全解/实战教程)_会害羞的杨卓越的博客-CSDN博客

人工智能的分类:机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别_会害羞的杨卓越的博客-CSDN博客

计算机视觉:

openCV基础教程_会害羞的杨卓越的博客-CSDN博客

陆续更新中,有用的话拜托点赞收藏哦。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/376369
推荐阅读
相关标签
  

闽ICP备14008679号