当前位置:   article > 正文

华为云ModelArts的简单使用

modelarts

华为云ModelArts使用

1. 简介

ModelArts 是面向开发者的一站式 AI 平台,为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。

网址: https://www.huaweicloud.com/product/modelarts.html

下面教程将教你使用使用ModelArts完成一个数据处理的demo

2.数据处理

数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本

数据处理的步骤主要是以下几步:收集,效验,转换,清洗,筛选,增强

数据收集

数据收集是指根据系统自身的需求和用户的需要收集相关的数据。

例如我们想要实现基于图像的狗种类的识别,那么我们必要去找狗的图片,对于数据的收集,往往需要做大量的工作其一般过程为:明确调查的目的,确定调查对象。选择合适的的调查方式。展开调查活动,收集数据。

数据效验

采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。

ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范

数据转换

数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用。例如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理。

数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据进行去噪,纠错或补全的过程。一般分为离散化(针对连续的场景特征取值),无量纲化(保持特征之间的公平性,提高模型精准度) ,缺失值补全 ,分布变换(对数变换,指数变换等) ,变量解码(文字,字母,频率等)

数据筛选

数据筛选的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。主要是特征提取,聚类排序,选择最优子集

数据增强

数据集增强主要是为了减少网络的过拟合现象,通过对训练图片进行变换可以得到泛化能力更强的网络,更好的适应应用场景。数据增强可以分为,离线数据增强和在线数据增强,数据增强的常见方法

  • 旋转 | 反射变换(Rotation/reflection): 随机旋转图像一定角度; 改变图像内容的朝向;
  • 翻转变换(flip): 沿着水平或者垂直方向翻转图像;
  • 缩放变换(zoom): 按照一定的比例放大或者缩小图像;
  • 平移变换(shift): 在图像平面上对图像以一定方式进行平移;
  • 可以采用随机或人为定义的方式指定平移范围和平移步长, 沿水平或竖直方向进行平移. 改变图像内容的位置;
  • 尺度变换(scale): 对图像按照指定的尺度因子, 进行放大或缩小; 或者参照SIFT特征提取思想, 利用指定的尺度因子对图像滤波构造尺度空间. 改变图像内容的大小或模糊程度;
  • 对比度变换(contrast): 在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调H不变. 对每个像素的S和V分量进行指数运算(
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/345690
推荐阅读
相关标签
  

闽ICP备14008679号