赞
踩
Doccano 是一个开源的协作式注释工具,用于标注文本数据以进行自然语言处理 (NLP) 任务,例如命名实体识别、文本分类、序列标注等。它提供了一个简单易用的用户界面,允许团队协同工作,共同标注数据集。
博主使用doccano导入的数据集格式为TextLine(按行读取,每一行为一条数据,文件为.txt格式),如下图
导出格式为jsonl格式,每一行是一条数据的标注,每一行对应数据集的一行
导出格式如下:text里应该是数据集文本里的每一条文本
1)安装anaconda
省略
2)打开anaconda prompt,创建虚拟环境,安装doccano
conda create -n label_text python=3.11
conda activate label_text
pip install doccano
使用必须在虚拟环境内部使用
conda activate label_text
doccano init
doccano createuser --username jyf --password 123321
doccano webserver --port 8000
在这里执行最后一条命令的时候可能会报错8000端口被占用,使用命令行检查8000端口使用情况并kill进程(这个进程暂时用不到的话),博主之前就是酷狗音乐占用了,如下图,最后一列是进程的pid. windows也可在任务管理器中结束进程,在任务管理器的详细信息中,找到进程的pid,右键结束进程
当然也可以选择换一个端口,但也可能被占用
netstat -ano | find "8000" //windows
netstat -ano | grep 8000//linux
kill PID
8000端口打开成功后
打开另一个anaconda prompt
conda activate label_text
doccano task
不要关闭两个anaconda窗口
在浏览器输入:http://127.0.0.1:8000
进入界面:
点击:
get start=》登录(账号密码就是在doccano init时输入的)=>create 创建项目
开始标注
首先创建标签
点击labels,actions=》create label
创建好标签之后,导入数据集
点击dataset=》actions=》import datasets 选择之前准备好的训练集txt文件即可(一行一行的),导入好后点击每个表项的annotate开始标注
全部标注完后
点击actions=》export datasets可导出标注好的数据集
在之后再次使用时,不需要再doccano init和创建用户了(数据库和用户已经被创建好了),只需要在之前创建好的虚拟环境下doccano webserver,但我使用的是8000端口,经常被占用,可以另起一个端口doccano webserver --port 8080,之后另起一个窗口doccano task即可。端口被占用报错如下。
【1】https://blog.csdn.net/wincky3/article/details/123627508
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。