当前位置:   article > 正文

【doccano】文本标注工具——属性级情感分析标注自己的业务数据_文本标柱工具

文本标柱工具

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~

【doccano】文本标注工具——属性级情感分析标注自己的业务数据

1.说明

在这里插入图片描述

2.前提条件

确保doccano已经安装完成
可以参考文章:
【doccano】文本标注工具——安装运行教程

3.doccano创建项目

在这里插入图片描述
选择序列标注
在这里插入图片描述

在这里插入图片描述
在标注文本时允许标注的区间出现重叠
勾选allow overlapping spans

在文本中标注实体之间的关系
勾选use relation labeling
在这里插入图片描述

4.添加数据集

数据集格式为txt文本
每行一条评论
在这里插入图片描述
选择textline,导入
在这里插入图片描述
导入完成
在这里插入图片描述

5.添加标签

在这里插入图片描述
或者导入自定义标签

[
    {
        "text": "体验:1",
        "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "体验:-1",
       "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "设计:1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "设计:-1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "电池:1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "电池:-1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "性能:1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "性能:-1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "摄像:1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "摄像:-1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "通信:1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
    {
        "text": "通信:-1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
]

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63

在这里插入图片描述

6.标注数据

在这里插入图片描述

7.导出数据转换格式

导出标注数据为jsonl格式,改后缀名为json格式
在这里插入图片描述

转为txt格式

import json

# 读取JSON文件并处理每条数据
with open('admin.json', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    for line in lines:
        data = json.loads(line)

        # 处理每条数据并写入txt文件
        id = data['id']
        text = data['text']
        label = data['label']

        with open('output.txt', 'a', encoding='utf-8') as output_file:
            for lbl in label:
                start = lbl[0]
                end = lbl[1]
                category = lbl[2].split(":")[0]   # 获取类别名称
                tag = lbl[2].split(":")[1]    # 获取类别标签
                output_file.write(f"{tag}\t{category}#{text[start:end]}\t{text}\n")

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

输出格式:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/545925
推荐阅读
相关标签
  

闽ICP备14008679号