赞
踩
现在网络上关于深度学校算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。
因此,本文主要讲解数据标注。文章共两个部分:(1)数据标注综述(2)数据标注实践要点
本文是第一部分:数据标注综述
数据标注是大部分人工智能算法得以有效运行的关键环节。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。
数据标注的过程是通过人工贴标的方式,为机器系统可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。
数据的高质量体现在两个方面:一个标注的数量多,二是标注的质量高。
图像标注的质量标准:图像标注的质量好坏取决于像素点的判定准确性。标注像素点越接近被标注物的边缘像素,标注的质量就越高,标注的难度也越大。如果图像标注要求的准确率为100%,标注像素点与被标注物的边缘像素点的误差应该在1个像素以内。
语音标注的质量标准:语音标注时,语音数据发音的时间轴与标注区域的音标需保持同步。标注于发音时间轴的误差要控制在1个语音帧以内。若误差大于1个语音帧,很容易标注到下一个发音,造成噪声数据。
文本标注的质量标准:文本标注涉及到的任务较多,不同任务的质量标准不同。例如:分词标注的质量标准是标注好的分词与词典的词语一致,不存在歧义;情感标注的标注质量标准是对标注句子的情感分类级别正确。
多数投票算法(majority voting,MV)是常用的标注质量评估算法。MV 算法是由约翰逊提出的一种通用性强的质量控制算法。它将绝大多数用户选择的结果视为最终结果。其基本思想为:假设有个图像标注任务,每个任务对应一个二元分类。为提高标注质量和标注可靠性,将需要标注的对象分配给个员工(一共个员工,)。每个工人的标注结果为,再根据推断出的最终标签,其计算公式为:
图像数据的标注流程为:
(1)数据清洗:排除数据存在缺失值、噪声数据、重复数据等质量问题。
(2)数据标注:划分标注任务、制定标注规范、执行标注任务。
(3)标注检验:由标注审核员或机器质检机制,审核标注质量。
点击标注工具的名称,即可获取下载地址。每个链接我都试了,如果连接不上可能是需要挂梯子。
名称 | 简介 | 运行平台 | 标注形式 | 标注格式 |
LabelImg | 著名的图像标注工具 | Windows,Linux,Mac | 矩形框 | VOC和YOLO格式 |
LabelMe | 著名的图形界面标注工具,能够标注图像和视频 | Windows,Linux,Mac | 多边形、矩形、圆形、多段线、线段、点 | VOC 和 COCO 格式 |
图像标注 | Mac | 多边形、矩形、多段线线段、点 | YOLO、KITTI、 COCO1、CSV | |
VOTT | 基于 Web 方式本地部署的标注工具,能够标注图像和视频 | Windows,Linux,Mac | 多边形、矩形、点 | TFRecord、CSV、VoTT |
LabelBox | 适用于大型项目的标注工具,基于Web,能够标注图像、视频和文本 | - | 多边形、矩形、线、 点、嵌套分类 | JSON 格式 |
VIA | VGG的图像标注工具,也支持视频和音频标注 | - | 矩形、圆、椭圆、多边形、点和线 | JSON 格式 |
COCO UI | 用于标注 COCO 数据集的工具,基于 Web 方式 | - | 矩形、多边形、 点和线 | COCO格式 |
Vatic | Vatic 是一个带有目标跟踪的视频标注工具,适合目标检测任务 | Linux | - | VOC 格式 |
BRAT | 基于 Web 的文本标注工具,主要用于对文本的结构化标注 | Linux | - | ANN 格式 |
DeepDive | 处理非结构化文本的标注工具 | Linux | - | NLP 格式 |
Praat | 语音标注工具 | Windows,Unix,Linux,Mac | - | JSON 格式 |
精灵标注助手 | 多功能标注工具 | Windows,Linux,Mac | 矩形、多边形和曲线 | XML 格式 |
转自:https://www.cnblogs.com/lky-learning/p/12572554.html
一、什么是数据标注?
1、数据标注定义
数据标注是对未经处理的语音、图片、文本、视频等数据进行加工处理,并转换为机器可识别信息的过程。原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。
2、为什么要做数据标注?
目前主流的机器学习方式是以有监督的深度学习方式为主,此种机器学习方式下对于标注数据有着强依赖性需求,未经过标注处理的原始数据多以非结构化数据为主,这些数据是不能被机器识别与学习的。只有经过标注处理后的数据,成为结构化数据才能被算法训练所使用的。
3、数据标注的主要类型
计算机视觉
包括矩形框标注、关键点标注、线段标注、语义分割、实例分割标注、ocr标注、图片分类、视频标注等。
语音工程
包括ASR语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等。
自然语言理解
包括ocr转写、词性标注、命名实体标注、语句泛化、情感分析、句子编写、槽位提取、意图匹配、文本判断、文本匹配、文本信息抽取、文本清洗、机器翻译等。
自动驾驶点云
包括3D点云目标检测标注、3D点云语义分割标注、2D3D融合标注、点云连续帧标注等。
四.数据标注可以应用到哪些业务场景?
1、智能驾驶
智能驾驶汽车需要使用算法处理大量复杂场景,需要有海量准确高质量的数据对算法模型进行训练,车辆、行人、障碍物、天气、车道线、路标等车外环境识别算法,驾乘人员的疲劳监测、违规行为识别算法,智能座舱的语音交互、多模态交互技术都需要标注数据。
2、智能安防
智能安防是人工智能与信息技术结合的关键领域,需要高质准确的数据对技术进行训练升级。门禁生物识别、城市道路监控、车辆人流监测、违规行为监测、高空抛物监测、行人重识别等AI技术都需数据标注过程。
3、智能家居
以AI驱动智能家居,两者同向发展的AIoT是目前主流趋势。人脸识别、指纹识别门禁系统、非法闯入检测、扫地机器人、智能语音助手、智能终端控制等场景的AI技术都需要度数据进行标注。
4、智慧金融
AI为传统金融行业、零售行业赋能,简化商业购买流程。身份认证、智能客服、智能营销、智能风控、虚拟购物场景的商品图像、票据单据、人脸识别、指定语料等AI技术都需要数据标注支持。
5、智能互联网
智能互联网包括智能应用、文娱互动、智能搜索、内容审核等主要场景,聊天机器人、图文检索、多模态意图判断、情感分析、违法违规内容审核、智能美颜等AI技术需要数据标注支持。
6、智慧工业
智慧工业视觉的4大应用场景分别是测量、识别、引导、检测。包括复杂缺陷检测,安全帽反光衣识别、缺陷检测,烟火检测、违法施工检测、睡岗检测等算法都需要数据标注服务。
二、数据标注公司主要做什么?
1、定义
数据标注公司是协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题,标注业务版块主要可以分为图像标注、语音标注、文本标注、3D点云标注四大类,涵盖计算机视觉、语音工程、自然语言处理等AI应用领域。
2、数据标注公司的团队构建
数据标注公司的团队构建包括标注员、质检员、项目经理、运营总监等。
标注员
数据标注员是数据标注公司最核心的岗位,主要工作是借助标注工具,对人工智能学习数据进行加工,数据一般为图片、视频、文本等,通过不断地拉框、标点等操作,为人工智能提供足够的数据集。标注员的入职门槛较低,在工作过程中需要耐心和仔细。
质检员
质检员是从标注员里面挑选优秀人员对标注好的数据进行审核检查的人员,质检员一般标的项目种类多,遇到的场景多,能更容易精准判断出被标注的元素是否正确,更具专业性。
项目经理
项目经理主要是对公司的各个项目做整体项目管理,项目经理必须要对计算机视觉、语音工程及自然语言处理等算法训练需求有深刻的理解能力,有足够的项目经验,在和需求方对接的时候可以轻松进入项目,需要在沟通需求、协调资源、管理项目、把控进度等流程上有丰富的经验。
商务
商务需要去各大AI企业或者实验室寻求合作,不断开发新客户,维护老客户,让自己公司尽可能成为各大甲方公司的供应商。
3、数据标注公司类型
数据标注公司类型按模式分为自建团队模式和众包模式两类。
自建团队模式
自建标注工厂是指供应商直接组建全职标注团队,在接到任务后公司内部会派出合适的专业标注团队和项目经理执行。
众包模式
众包模式是指需求方直接在众包平台上发布任务,由个人或者标注团队接下执行。
4、选择一家好的数据标注公司要看中哪些因素
判别数据标注公司是否优质可以依据其公司资质、业务能力、团队建设、技术壁垒、数据安全合规等方面。
公司资质即供应商资质
是否有ISO9001质量体系、ISO27001信息安全管理体系、ISO27701隐私信息管理体系,通过相关质量安全管理审查的标注公司一般拥有成熟的运维体系。
业务能力
是否支持多数据类型、多算法领域、高门槛、高量级的数据标注业务。
团队建设
是否有成熟的项目经理以及成熟的标注员、质检员;是否建立完善的培训体系和团队管理体系。
技术壁垒
是否有专什么是数据标注? 数据标注公司主要做什么?业的标注平台以及研发技术团队;是否能用技术保证标注效率。
数据安全合规
数据安全是否合法合规,即是否签署供应商保密协议,制定完善信息隐私保护方案等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。