赞
踩
说明:本文章为博主的读书笔记,书名为《数据标注工程——概念、方法、工具与案例》,作者为聂明教授、齐红威博士(数据堂公司董事长)。
应用领域 | 数据内容 |
---|---|
机器翻译 | 平行语料 |
自然语言理解 | 实网文本、NLP标注、知识库 |
智能交通 | 车辆位置数据、用户行为数据 |
语音识别 | 说话人信息、语料文本、波形文件标注文件 |
功能 | 描述 |
---|---|
实体标注 | 实体:如人名、地名、组织、职位 |
实体关系标注 | 实体的逻辑关系 |
文档属性标注 | 属性:如文档类型、文档情感 |
阅读理解 | 根据文本回答相应的问题 |
交互意图 | 识别文本的领域、意图、槽位、槽值 |
数据标注工程,也称为工程化数据标注,是指数据产品制造(数据集)的系统化、工程化、流程化的组织与实施过程。
不同的标注任务需要不同的客户端,一般图片类和语音类的标注可以通过浏览器实现,这种实现方式的好处在于代码更新可以在服务器端实现,并能对客户端有较强的管控能力;其他如视频标注,因为涉及大量数据的高带宽交互,则需要通过本地客户端的形式对数据进行缓存,并提供更强大的客户端处理和标注能力。
在进行标注前应完成五项准备工作。
(2)整理数据。明确数据与标签文件存放的目录结构,在任务分配与回收时,应按指定的目录进行数据组织。
(3)明确命名规则。应明确数据与标签文件的命名方式,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,且数据文件名与标签文件名应保持一致。
(5)明确标注数据的定义。
标注说明规则
(2)标注说明规则定义。标注说明规则明确项目背景、意义及数据应用场景,包含项目标注工具、任务描述、标注方法、正确实例、常见错误等内容。标注说明规则应有可变更性,该变更由相关方评审同意后再更新文档。
(5)建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性。
标注人力供给方式(标注人力模式):内部自营标注、第三方标注、众包标注。
选择的标注工具应满足以下条件:易操作性(提供交互方式的自有标注)、规范性、高效性。
标注平台包含各种标注工具、团队管理、任务分发、质量审核等环节的模块,且将所有标注环节工具化。当数据量相对较小、数据类型相对单一、标注周期较短时,宜选择标注工具进行标注。
标注任务创建、分发、开展和回收
标注数据上传成功后,当仅靠标注数据完成标注时,在创建任务的过程中,任务责任人要事先明确标注任务的目的以及标注规范等。
(1)创建任务包括以下内容:
①明确任务基本信息:包含任务目的、任务需求(任务优先级、标准人员的能力要求级别等)、任务描述等。
②任务配置:根据不同的任务需求,匹配不同的标注工具,添加与标注任务相关的标注标签。
③将数据路径上传至平台。
④进行版本控制。
(2)标注任务分发。分发者在发布数据时,应明确与标注任务相关的参数:
①参与标注人数
②任务中子任务数量
③数据标注员每人每天工作量
④回收子任务时间点
⑤任务结束时间点
标注任务的分发对象包含标注人员和审核人员。分发给前者时,也应分发给后者。在标注过程中,同时进行审核工作。
如同一个子任务分发给多人参与,则需对每个子任务的回收结果进行比对。
(3)标注任务开展。标注任务中的数据标注方法分两种:全人工标注和半自动标注。
(4)标注任务回收。如果未按时交付,则由候补成员继续完成任务。
(2)文本类型的数据验收。文本类标注任务的数据结果应包含文本标签的位置和标签的具体内容。输出格式推荐使用JSON、XML、TXT。
从本质上看,文本数据标注就是一个监督学习的过程,而标注问题又是更复杂的结构预测问题的简单形式。标注问题的目的在于学习模型,使该模型能够对观测序列给出标记序列作为预测。这也决定了标注问题的工作流程,即输入是一个观测序列,之后输出是一个标记序列或者状态序列。
序列标注
序列标注是一个比较简单的自然语言处理任务,也是最基础的任务。其涵盖范围非常广泛,可用于解决一系列对字符进行分类的问题。
实体标注用于命名实体识别,其目的是识别出文本里的专有名词(实体)且属于哪个类(实体类别)。
词性标注可标注文本内容的实体名称、实体属性和实体关系。
意图理解数据就是搜集各种用户的问法,然后按领域分类,标记每句话所属的意图以及槽位、槽值。领域是一个大分类。意图代表客户明确要问的事情。每个意图会定义一组槽位,就是用户问句里会出现的关键词类别。一个槽位在不同句子里会有不同的槽值。
关系标注
关系标注是对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。关系标注涉及到知识图谱。知识图谱,也叫知识库,客户用来做查询和推理用。知识图谱的结构包括实体、属性和关系。
属性标注
属性标注就是对文本数据中的对象属性进行标签。情感标注是文本标注的重点内容。
(1)预处理
(2)标注。线下标注可通过线下小工具或线下文本等进行操作。
(3)质检。
(4)验收。
(5)数据处理。
(6)数据交付:数据加密后交付客户。
数据产品生产企业以项目的方式来组织和实施每一项数据标注业务,数据标注业务以项目的方式存在于企业内部。数据标注项目的管理目标和实施过程是基于现代化项目管理知识体系和理论的。
(1)项目售前:销售引导跟客户沟通其业务需求,售前及数据产品经理会对需求可实施性及价格做评估。
(2)项目准备:组建项目团队,协调内外部资源,制订项目管理和实施计划,准备项目所需软硬件环境,进行相关培训,召开项目启动会。
(3)项目建设:详细业务需求调研和确认,部署测试环境,制定和分发项目实施操作规范,按照项目实施计划进行项目实施,以及变更管理和实施等。
(4)项目交付:对项目成果物按照验收需求进行整体验收确认,之后交由客户进行确认。
(5)项目售后(支持):根据客户反馈对项目进行总结评估,对客户使用及操作上的问题进行支持等。
(1)启动阶段
汇总现阶段所有问题;制订项目具体实施计划;准备项目所需环境和资源,包括软硬件环境,以及所需人力资源;进行相关培训;召开项目启动会
(2)试做阶段
在前阶段准备的基础上,测试一遍小批量的数据的生产-验收-交付流程,确认项目整理流程后,总结其中遇到的问题并给出解决方案
(3)量产阶段
按照项目实施计划,有计划有步骤地开展数据的生产和验收工作
(4)验收阶段
分阶段验收及最终验收
(5)交付阶段
数据交付后等待客户验收和确认。根据客户验收和确认的结果,如发现不合格,都会返回到量产阶段,严重时恢复到试做阶段
(6)总结和售后阶段
针对项目的实施过程进行经验和教训总结,解散项目团队,项目结束
定制化精细化发展、智能化流程化发展(管理和执行一体化,任务拆分和工序制定)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。