赞
踩
EasyDL产业应用系列【安全生产及数据处理】公开课,课程中不仅介绍了EasyDL在安全生产领域的落地案例与实战演示,还有新上线的EasyData智能数据服务平台功能与介绍。没有参加课程的小伙伴也不用担心,可通过实录完整解析 AI 巡检业务场景和定制 AI 解决方案,小时级成功变身 AI 应用专家!
同时,5月27日至5月29日为EasyDL-NVIDIA专场公开课,全面解析如何提升端/边/云高效协同,有效满足业务需求。开发者们可通过扫描下方二维码进行报名
【安全生产专场】直播回放:
EasyData助力智能云称一站式数据管理:https://www.bilibili.com/video/BV1qv411z7uT
电力AI巡检应用分析:https://www.bilibili.com/video/BV1Bg4y1B79N
基于EasyDL+AR实现地下资产管理:https://www.bilibili.com/video/BV1GV411C7eM
【安全生产专场】课程笔记:
课程笔记——EasyData助力智能云称一站式数据管理
讲师:百度AI开发平台部高级研发工程师 林克
课程时间:2020年5月21日
本次课程的内容是由百度 AI 开发平台部高级研发工程师林克,带来 EasyData 助力智能云秤一站式数据管理的课程,同时会为我们演示智能云秤水果采集、训练及识别的操作,主要面向对深度学习感兴趣,以及关注行业场景一站式解决方案的人群。
今天主题分为两部分,首先我介绍一下 EasyData 智能数据服务平台,之后会结合智能云秤的案例演示一下接入数据的训练到部署的流程。EasyData 智能数据服务平台是一个提供数据采集、标注、清洗、加工等一站式数据服务,助力开发者高效获取 AI 开发所需高质量数据的平台,4 月份刚刚上线。
关于EasyData的结构,首先解释推出EasyData 这款产品的原因。主要有三点,大家可能都知道,AI=数据+算法+算力,百度 EasyDL零门槛开发平台在算法、算力、部署上做了很多工作,有 EasyDL 经典版和专业版,虽然支持了部分数据的功能,如数据上传、标注,但不是很系统,所以我们针对数据管理所需的功能进行了梳理,推出了EasyData智能数据服务平台。
其次,在实际 AI 开发过程中,用户反映了各种各样的问题,如数据采集硬件如何使用的问题,数据如何同步,数据如何导出。根据我们统计大概96%的用户在数据生产环节都会遇到这样那样的问题,所以需要 EasyData 来帮助用户尽量低成本一站式完成数据的生产。
这是 EasyData 的整体业务架构图,在数据采集、数据扩充、数据清洗、数据标注、数据管理分析等数据生产过程中做了比较专业规范的工作,而且会在这些方向上持续提供能够给用户解决实际问题的功能。
比如数据采集的设备,例如电脑接入 USB 摄像头,就可以使用 EasyData 提供的采集管理软件,快速将摄像头采集的数据接入到 EasyData,整个过程中不需要任何的处理代码,而数据标注侧EasyData提供了智能标注以及即将推出的多人标注,提升用户标注的效率,降低标注成本。
传统的数据生产方式,如果涉及到数据采集的话,在硬件选型和硬件调试上会花很长时间,有些甚至到了模型迭代环节发现精度不够,再重新进行硬件的替换。数据获取和数据清洗环节需要写代码从硬件设备上进行数据获取,如视频流抽帧,不同的硬件码流可能会不同,RTSP 协议地址可能不一样,不同的操作系统可能会有兼容性问题需要解决等等。
清洗环节也需要手动完成数据清洗,如一些简单的数据清洗还好一点,如果图片模糊相似,需要更大的力气花一番时间调研和开发,而在EasyData上我们首先向用户灌输在数据生产环节需要进行专业规范的操作,专业化的数据生产,加上科学的深度学习算法以及可接受的算力成本,才可以训练出实际解决场景的模型。
在实际生产数据环节,EasyData 帮用户做了线下很多琐碎的工作,如硬件选型和调试,EasyData 推出软硬一体方案,在 EasyData 下载软件,安装即可使用,数据清洗环节,后续会推出对应的功能。智能标注,目前已经提供了单人在线标注和多人标注,后续会上线多人智能标注,EasyData 让 AI 更简单,更专业。
刚才说到了 EasyData 的智能化的特点,体现在采集、清洗、标注、扩充和闭环等环节,如在数据采集环节 EasyData提供了软硬一体方案,目前设计是提供单路直连和直路间接连接,可以在 EasyData 下载对应的软件进行使用,针对多路摄像头进行控制,通过视频流抽帧方式,将数据同步到 EasyData,单路也会在近期推出。当硬件准备好以后,可以持续采集数小时将数据采集到云端,然后进行存储的管理。
数据清洗和扩充环节,这边有两个实例说明了数据清理和效率的提升。第一,上面的图片是我们做的智能生猪盘点的实例,初级功能是对猪的识别和数量的检测,猪厂数据接入EasyData后,由于场景的特殊性,睡觉的猪很久不移动,所以以一个固定频率采集数据,相似度非常高,得出的训练数据效率较低。
这里就可以用到EasyData去相似的功能,将相似的图片去掉,留下确实有价值的数据,同时用户的需求是以猪栏为维度统计猪的数量,可以看到原始图片上,猪栏两侧还有其他猪栏的猪,EasyData 提供了对图片裁剪的功能,自动将图片进行处理,清洗和裁剪可以将人力减少80%。
下面是一个数据扩充的示例,商品 SKU 数据采集成本比较高,当 SKU 数据不足情况下,可以将少量的 SKU 数据通过排列组合方式进行扩充,然后参加训练,经过测试对比,大概只需要提供10%的数据,就可以完成和全量数据参与训练的效果数据,需求下降了90%。
智能化还体现在标注环节,EasyData 提供了智能标注的功能,针对图像数据只需要标注约30%,就可以使模型效果和全量数据效果模型一致。大概原理就是先标注少量数据,然后智能标注再进行模型的预训练,训练完以后会有一些不确定的示例再次确定,需要用户参与确认,经过几轮迭代,模型的准确率就会变高,智能标注就会完成标注,整体可以减少70%的标注量。
最后讲一下大家都比较关心的数据安全,数据安全在 EasyData 设计之初就已经考虑到了,全流程环节中保证了数据的安全,如采集端的数据鉴权,加密输出,后续 EasyData 会考虑引入联邦学习的方式,做到数据不出安全区而用于深度学习的模型训练。
下面我们结合EasyData进行果蔬识别模型训练和部署实战的演示。这是中科立业智能云秤结合 AI 的 EasyData 快速落地的案例,使用EasyData进行数据生产,使用EasyDL进行模型训练,然后将模型功能用到智能云秤上,目前已识别50种水果,识别率达到95%以上,随着对模型继续迭代,准确率还可以继续提升。
首先我们需要一个创意,受到新冠肺炎的影响,为了减少人员接触,能否在购买水果蔬菜时候避免人员接触,考虑到人们购买水果蔬菜种类不一样,不能像超市一样扫码结算,针对图像和称重识别出哪种水果,然后计算出水果的单价,最后生成支付的二维码。
这几幅图是场景上经常用的图,有一些问题,首先样本不均匀,因为我们买的水果种类比较多,有一些少见的水果数据量不多,可能造成数据训练时候有一些标签准确率较低,数据量多的水果训练效果好一些,这里可以用到数据增强的功能。
第二个问题,可以看到图片上有一些水果是被塑料袋包裹的,因为结算时候可能把塑料袋直接去秤,我们需要对包裹水果的识别率。还有一个问题,有些水果它是一个拉类,比如橙子、橘子、葡萄,可能彼此之间非常相似,这也需要一些数据增强,以及对数据的调整,达到训练的效果。
还有一些光线的问题,这里对规范化数据的建议,像这种场景,我们总结出来数据输入方,就是单图单标签,单类单个结算,另外两种场景就是提供的数据训练一个是带包装盒的,另外一个是带塑料袋的,这就是数据生产的规范化。
这个图展示了从硬件到准备部署的全流程。首先准备一个秤和摄像头,访问EasyData入口,一直到最后的模型部署的训练。
首先可以看到现场有一个摄像头,大家可以看到,现场有一个摄像头,前面放了一个水果,这就是云秤的原型,前面放了一袋樱桃。连接到这个摄像头,在EasyData下载SDK采集数据。首先打开页面,输入网址,在上面找到开发平台,最右侧的EasyData智能数据服务平台,点击进入,也可以直接输入链接来到它的地址,点击立即使用。
现在可以看到,这是EasyData的管理平台,左侧是功能,几大块数据总览,下面是标注,有在线标注,智能标注,还有标注的支持,如果你是标注的新手,可以提交给我们寻求一些支持。这块是摄像头采集图片
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。