当前位置:   article > 正文

doccano标注工具|为机器学习建模做数据标注

doccano标注工具|为机器学习建模做数据标注

目录

一、标记流程
二、配置环境
        2.1 安装
        2.2 运行doccano
三、案例
        3.1 创建项目
        3.2 上传数据
        3.3 定义标签
        3.4 添加成员
        3.5 开始标注
        3.6 导出数据
        3.7 导出数据

doccano

doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。

您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。 doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。

一、标记流程

通过以下步骤开始和完成使用 doccano 的标签项目:

  • 安装doccano。
  • 运行doccano。
  • 设置标签项目。 选择标签项目的类型, 配置项目设置。
  • 导入数据集。 您还可以导入带标签的数据集。
  • 给项目添加标注人员
  • 给标志者定义标注工作文档说明
  • 开始标记数据。
  • 导出标记的数据集。


二、配置环境

2.1 安装
打开命令行(cmd、terminal)执行安装命令

pip3 install doccano


2.2 运行doccano
在命令行(cmd、terminal)内依次执行

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
 

doccano init

#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
 

  1. doccano createuser --username admin --password pass
  2. doccano createuser --username tom --password pass
  3. doccano createuser --username jack --password pass

#开启doccano服务
 

doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

doccano task


三、案例

下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。

3.1 创建项目

先登录用户名和密码,这里的admin是超级用户(权限最大)


为创建项目,如图点击Create按钮。 根据需要选择合适的项目类别,这里选择的Text Classification,

填写项目信息,例如项目名情感标注,简介、标注类型

根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注

3.2 上传数据

创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。

3.3 定义标签

点击左侧菜单中的“Labels”按钮来定义我们的标签。 我们应该看到标签编辑器页面。 在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。 

3.4 添加成员

点击左侧目录中的 Members 按钮,

然后,选择“Add”按钮以显示表单。 使用您要添加到项目中的用户名和角色填写此表单。 然后,选择“Save”按钮。 

如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass

3.5 开始标注

接下来,我们准备标注文本数据。 只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。

3.6 导出数据

在注释步骤之后,我们可以下载标注后的数据。 转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。 选择导出格式后,单击“Export”。 您应该看到以下屏幕:

到出的结果如下

3.7 导出数据

对了,当标注过程不同阶段,还看查看标注工作量等可视化信息

四、安装过程命令

  1. #虚拟环境
  2. conda create --name doccano python=3.9
  3. conda info --envs
  4. source activate doccano
  5. #pip安装方式
  6. pip install doccano (默认doccano==1.8.4版本)
  7. doccano init
  8. doccano createuser --username admin --password pass
  9. doccano createuser --username tom --password pass
  10. doccano webserver
  11. #卸载
  12. pip uninstall doccano
  13. pip install doccano==1.8.2
  14. #pip源更换,提高安装速度
  15. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano
  16. pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano==1.8.2
  17. #Docker安装方式
  18. docker pull doccano/doccano
  19. sing default tag: latest
  20. latest: Pulling from doccano/doccano
  21. 7a6db449b51b: Pull complete
  22. e238bceb2957: Pull complete
  23. 9c37eda4ff12: Pull complete
  24. 120078faa760: Pull complete
  25. 2d3523ccd6f4: Pull complete
  26. c62e2504b88c: Pull complete
  27. 933dc7a3d368: Pull complete
  28. f5ecd3a845d0: Pull complete
  29. dfb494ed37e3: Downloading [==========> ] 33.45MB/159.6MB
  30. 548b03d8e5e3: Download complete
  31. 4fb76ac8dbcd: Download complete
  32. 51219b6ada00: Download complete
  33. 4f4fb700ef54: Download complete
  34. e3407eb63e03: Downloading [============================> ] 4.324MB/7.477MB
  35. 47f7c73cd77f: Downloading [===========================> ] 19.13MB/35.4MB
  36. 完成状态:
  37. Using default tag: latest
  38. latest: Pulling from doccano/doccano
  39. 7a6db449b51b: Pull complete
  40. e238bceb2957: Pull complete
  41. 9c37eda4ff12: Pull complete
  42. 120078faa760: Pull complete
  43. 2d3523ccd6f4: Pull complete
  44. c62e2504b88c: Pull complete
  45. 933dc7a3d368: Pull complete
  46. f5ecd3a845d0: Pull complete
  47. dfb494ed37e3: Pull complete
  48. 548b03d8e5e3: Pull complete
  49. 4fb76ac8dbcd: Pull complete
  50. 51219b6ada00: Pull complete
  51. 4f4fb700ef54: Pull complete
  52. e3407eb63e03: Pull complete
  53. 47f7c73cd77f: Pull complete
  54. Digest: sha256:165e8a1ba2fe3c3c92d4927d74b6badc9985d295c90de28674a5511a62bcdf5c
  55. Status: Downloaded newer image for doccano/doccano:latest
  56. docker.io/doccano/doccano:latest
  57. docker container create --name doccano \
  58. -e "ADMIN_USERNAME=admin" \
  59. -e "ADMIN_EMAIL=admin@example.com" \
  60. -e "ADMIN_PASSWORD=password" \
  61. -v doccano-db:/data \
  62. -p 8000:8000 doccano/doccano
  63. #创建中,稍等1分钟,显示
  64. 1dd2951d71970abb16199177e1fd8f9006508757f96d239669f23c1e7c09c7d5
  65. #运行
  66. docker container start doccano
  67. 运行完成显示doccano

五、已知问题

1、安装最新版本的1.8.4后,导入csv和excel文件一直无法成功,不清楚是源代码问题还是某个软件包版本问题,最后使用txt文件或json文件方式导入数据;

2、标注人员和审核人员,貌似权限没有什么区别,正常理解标注人员可以标注不能点击"对勾and叉叉"确定此条标注完成,审核人员审核后可以标注完成,目前安装完成后标注人员和审核人员都可以确认完成操作;

参考:
https://textdata.cn/blog/doccano_text_anotation/#32-%e4%b8%8a%e4%bc%a0%e6%95%b0%e6%8d%ae
https://blog.csdn.net/u013010473/article/details/125447063
https://zhuanlan.zhihu.com/p/371752234
https://blog.csdn.net/weixin_42475060/article/details/131540351
https://blog.csdn.net/weixin_37763484/article/details/132813982 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/359145
推荐阅读
相关标签
  

闽ICP备14008679号