赞
踩
ModelArts 是面向开发者的一站式 AI 平台,为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。
网址: https://www.huaweicloud.com/product/modelarts.html
下面教程将教你使用使用ModelArts完成一个数据处理的demo
数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本
数据处理的步骤主要是以下几步:收集,效验,转换,清洗,筛选,增强
数据收集
数据收集是指根据系统自身的需求和用户的需要收集相关的数据。
例如我们想要实现基于图像的狗种类的识别,那么我们必要去找狗的图片,对于数据的收集,往往需要做大量的工作其一般过程为:明确调查的目的,确定调查对象。选择合适的的调查方式。展开调查活动,收集数据。
数据效验
采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。
ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范
数据转换
数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用。例如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理。
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据进行去噪,纠错或补全的过程。一般分为离散化(针对连续的场景特征取值),无量纲化(保持特征之间的公平性,提高模型精准度) ,缺失值补全 ,分布变换(对数变换,指数变换等) ,变量解码(文字,字母,频率等)
数据筛选
数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。主要是特征提取,聚类排序,选择最优子集
数据增强
数据集增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的网络,更好的适应应用场景。数据增强可以分为,离线数据增强和在线数据增强,数据增强的常见方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。