赞
踩
人工智能(AI)的质量取决于对其予以训练所使用的数据。由于训练数据的质量和数量直接决定AI算法的成败,因此,对于一个AI项目,平均80%的时间均耗费于训练数据的争论(包括数据标注)上也就不足为奇。
AI模型的构建将从大量未标注数据开始。标注数据是构建AI模型的数据准备和预处理工作不可或缺的一环。但是,在机器学习(ML)背景下,究竟什么是数据标注?数据标注即对数据样本进行检测和标记的过程,对于在ML中进行监督式学习尤为重要。标注数据输入和输出,以丰富AI模型的未来学习时,即出现监督式学习。
整个数据标注工作流程通常包括数据标注、打标签、分类、调整和处理。此外,您还需要建立一套综合的流程来将未标注的数据转换为训练所需的数据,让AI模型学习识别方式并产生预期的结果。
例如,面部识别模型的训练数据可能需要用特定的特征(如眼睛、鼻子和嘴巴)对人脸图像进行标注。另外,如果模型需要执行情绪分析(在需要检测某人的语气是否具有讽刺性的情况下),则需要为音频文件添加各种语气变化的标签。
数据标签必须高度准确,以便教授模型做出正确的预测。数据标注过程需要若干步骤确保质量和准确性。
为组织选择适当的数据标注方法非常重要,因为这一环节所需的时间和资源最多。数据标注可以使用许多方法(或方法的组合),其中包括:
组织要采取的方法将取决于所需解决问题的复杂性、员工的技能水平和预算。
质量保证(QA)是数据标注过程中经常被忽视但至关重要的组成部分。如果数据准备工作由内部管理,就一定要进行质量检查。如果与数据合作伙伴一起合作,则他们已具备QA流程。
QA为何如此重要?数据标签必须满足许多特性;它们必须信息丰富、独特并且独立。标签还应反映准确性的真实水平。例如,在为自动驾驶汽车标记图像时,必须在图像中正确标注所有行人、路标和其他车辆,以便让模型成功运作。
数据经标注用于训练数据并通过QA后,就可以使用其训练AI模型了。然后,在一组新的未标注数据上对其进行测试,看看所做预测是否准确。
根据模型的需要,您对准确性会有不同的期望。如果模型用于处理放射学图像以识别感染,其准确性要求就可能需要高于用于识别在线购物体验中产品的模型,因为这可能生死攸关。相应地设置信任阈值。
数据测试过程中,应让人员参与其中,以提供地面实况监控。利用人机协同,您能够:检查模型是否做出正确预测、确定训练数据差距、向模型提供反馈,以及在模型做出不太可信或不正确预测时按需对其进行再训练。
创建可扩展的灵活的数据标注流程。随着需求和用例的发展,您会期望迭代这些过程。
澳鹏依靠我们的专家团队来帮助提供最好的数据标注平台。Meeta Dash是我们的产品管理总监、福布斯技术委员会撰稿人,最近获得VentureBeat的AI导师奖,她帮助确保澳鹏数据标注平台在提供准确的数据标注服务方面超乎行业标准。她对数据标注的三大见解包括;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。