当前位置:   article > 正文

“AI鉴黄师”数据采集标注方案上线

“AI鉴黄师”数据采集标注方案上线

人工智能技术除了在自动驾驶,智能安防,智慧金融等领域得到广泛应用,在互联网内容审核领域也发挥着巨大价值,AI鉴黄就是应用之一。对AI内容审核技术来说,高质量的训练数据集必不可少,景联文为相关技术服务厂商提供数据解决方案,包括敏感色情数据库,定制化数据采集,定制化数据标注等服务。

社交网络平台的信息传播具有迅速、碎片化的特点,软色情、打擦边球的低俗内容更容易获取流量,污染平台内容环境,是全球内容平台治理的共同难题。这几年随着直播和短视频的爆发,加剧了网络低俗内容的泛滥,在此背景下,国家对内容审核的要求越来越严,监管政策不断收紧,要求各大网络平台增强网上涉低俗色情信息内容的鉴别过滤能力。

面对爆发的网络数据,靠人力去完成审核无疑是痴人说梦。

图片

通过研究人工智能技术,很多科技算法厂商使AI在互联网内容审核领域得到落地,为电商、直播、社区、新闻等第三方平台提供内容审核服务,行业领先的企业主要有百度智能云,阿里绿网,网易易盾,图普科技等。

以百度智能云为例,主要提供图像审核,视频审核,语音审核,文本审核等人工智能审核方案。

图像审核:

基于深度学习技术,准确过滤图像中的色情、暴恐、政治敏感、广告、恶心、不良场景等违规内容。

可以应用于社交应用图像审核,对实时聊天中的敏感图像进行高效过滤审核;可以应用于社区论坛图像审核,对社区、论坛、贴吧等平台中的图像进行审核,过滤色情、暴恐、政治敏感、恶意推广等内容;可以应用于用户头像审核,对图像中人脸的角度、遮挡、占比、清晰度等进行审核,确保图像中包含清晰人物正脸、非明星/卡通人脸,并且无色情、暴恐、政治敏感、微商广告、各类联系方式内容。

视频和语音审核:

对视频文件或直播视频流进行图像和音频两大维度的审核,有效过滤图像中的色情、暴恐、政治敏感、广告、恶心、不良场景等违规内容。可以应用于视频直播,对视频、直播的截帧图像进行实时自动审核,实时检测UGC短视频社区用户自主上传视频的违规内容,对涉黄语音,娇喘,广告语音进行精准识别,快速高效,过滤违规内容。

文本审核:

基于自然语言理解、深度学习等技术,有效识别色情、暴恐涉政、恶意推广、辱骂、违反广告法、涉及违禁品等文本内容。具体的应用场景比如视频直播中的弹幕和社区论坛的留言,对用户评论信息进行检测,一旦发现用户提交违规内容,进行自动审核与实时过。适用于各种内容生产和分发平台,能够准确识别出文本中的色情、低俗、涉政、违禁等内容,避免用户上传违规内容到平台。

AI鉴黄使用的人工智能技术主要有深度学习目标检测、图像分类、特征检索、语音识别、声纹识别小语种识别、OCR技术、NLP技术、上下文语义识别等,对图像,视频,语音,文本中的局部和全局信息进行分析,捕获不同类型的色情和其他违禁内容,并对其进行处理。

简单来说,鉴定一张图片是否是色情图片,需要通过深度学习和海量数据库得到一个鉴黄模型,该模型通过分析数据的特征对其进行分类,最终给出该数据是否属于色情数据的结果。在这其中,存在两个难点和重点。

第一是标准。判断标准是人为界定,涉黄内容也分很多种,色情、性感、低俗等信息分类在人类不同文化里尚有不同解读标准,而且针对不同场景,根据实时的法规政策和舆论动向,审核标准可能存在变化,因此需要根据实际情况不断清晰化和细分化分类标准。目前对绝大多数算法厂商来说,使用AI技术先把大部分违规内容辨别出来,对剩余少量难判断、打擦边球、隐晦的内容,仍然需要人工审查介入,来做到双重保险。

第二,既然使用到人工智能技术,训练数据的质量好坏对算法调试的影响是非常重要的,优质数据支撑高质量的算法模型。在确定了违禁数据的定义后,需要收集大量样本数据,去进行样本模型调优和数据集再训练,目的是让计算机拥有更高智慧,理解人类的情感、价值观、潜意识,以及联想能力,以减轻审核员的压力。这个工作会耗费大量的时间和人力成本,并且需要一直进行。与之对应的是,AI鉴黄的优化进程也永远没有尽头,因为总有网络不法分子用各种方式试图突破和对抗科技厂商的安全策略。

图片

景联文科技是AI基础数据服务行业领先的数据采集标注供应商,为AI鉴黄和其他智能内容审核算法提供一站式数据解决方案,帮助相关科技算法厂商降低算法模型训练成本,节省研发时间。

用来训练的数据集数量是否匮乏、场景是否丰富、类别特征是否明显,以及是否存在干扰检测因素(如人为遮挡,画中画),都将影响模型鉴定的准确率。

景联文科技推出相关图像和文本标注数据集,在标注方面,标注类型主要有文本标注,图像拉框和人像语义分割。文本标注标注行级文本的四边框,检测框精度不低于95%,文本转写精度不低于95%,图像标注四边形框顶点偏差不超过五个像素,人像语义分割,可以用来训练图像分类器,鉴黄模型,目标检测,人体实例分割,人体行为识别等任务。

自有标注平台,涵盖了绝大多数主流标注工具,支持语义分割、拉框标注、多边形标注、关键点标注、3D点云、2D3D融合标注、图片分类、声纹识别、ASR转写、韵律标注、NLP、文本分类、OCR转写、情绪判断等多种标注业务;提供企业私有化部署、跨地区作业等定制服务。

除了AI智能内容审核领域,在AI数据服务这条赛道上,景联文将提供智能驾驶,智能安防能多场景的定制化数据解决方案。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/595762
推荐阅读
相关标签
  

闽ICP备14008679号