当前位置:   article > 正文

【doccano】文本标注工具doccano使用_开源标注工具

开源标注工具

文本标注工具doccano安装与使用

doccano简介

Doccano 是一个开源的协作式注释工具,用于标注文本数据以进行自然语言处理 (NLP) 任务,例如命名实体识别、文本分类、序列标注等。它提供了一个简单易用的用户界面,允许团队协同工作,共同标注数据集。
博主使用doccano导入的数据集格式为TextLine(按行读取,每一行为一条数据,文件为.txt格式),如下图
在这里插入图片描述
导出格式为jsonl格式,每一行是一条数据的标注,每一行对应数据集的一行
导出格式如下:text里应该是数据集文本里的每一条文本
在这里插入图片描述

安装

1)安装anaconda
省略
2)打开anaconda prompt,创建虚拟环境,安装doccano

conda create -n label_text python=3.11
conda activate label_text
pip install doccano
  • 1
  • 2
  • 3

使用

使用必须在虚拟环境内部使用

conda activate label_text
doccano init
doccano createuser --username jyf --password 123321
doccano webserver --port 8000
  • 1
  • 2
  • 3
  • 4

在这里执行最后一条命令的时候可能会报错8000端口被占用,使用命令行检查8000端口使用情况并kill进程(这个进程暂时用不到的话),博主之前就是酷狗音乐占用了,如下图,最后一列是进程的pid. windows也可在任务管理器中结束进程,在任务管理器的详细信息中,找到进程的pid,右键结束进程
当然也可以选择换一个端口,但也可能被占用

netstat -ano | find "8000" //windows
netstat -ano | grep 8000//linux
kill PID
  • 1
  • 2
  • 3

在这里插入图片描述
在这里插入图片描述
8000端口打开成功后
打开另一个anaconda prompt

conda activate label_text
doccano task
  • 1
  • 2

不要关闭两个anaconda窗口
在浏览器输入:http://127.0.0.1:8000
进入界面:
在这里插入图片描述
点击:
get start=》登录(账号密码就是在doccano init时输入的)=>create 创建项目
开始标注
首先创建标签
在这里插入图片描述
点击labels,actions=》create label
创建好标签之后,导入数据集
点击dataset=》actions=》import datasets 选择之前准备好的训练集txt文件即可(一行一行的),导入好后点击每个表项的annotate开始标注
全部标注完后
点击actions=》export datasets可导出标注好的数据集

后续使用

在之后再次使用时,不需要再doccano init和创建用户了(数据库和用户已经被创建好了),只需要在之前创建好的虚拟环境下doccano webserver,但我使用的是8000端口,经常被占用,可以另起一个端口doccano webserver --port 8080,之后另起一个窗口doccano task即可。端口被占用报错如下。
在这里插入图片描述
在这里插入图片描述

参考

【1】https://blog.csdn.net/wincky3/article/details/123627508

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/758645
推荐阅读
相关标签
  

闽ICP备14008679号