当前位置:   article > 正文

《2021人工智能与机器学习现状》发布,揭示AI领先一步的秘诀

《2021人工智能与机器学习现状》发布,揭示AI领先一步的秘诀

上海2021年7月13日 /美通社/ -- 一份最新的全球《2021人工智能与机器学习现状》调研报告显示:2021年,53%的AI团队报告预算在50万美元到500万美元之间(而2020年约为三分之一),这个强烈的信号表明AI对于各行各业各种规模企业的成功变得越来越重要。这份由全球领先的AI数据服务平台公司澳鹏(Appen)连续第7年发布的AI现状年度报告还强调,在2020年由于新冠疫情,各规模的企业都加速推进了AI战略,并且在2021年还将继续保持这种势头。

在中国,AI技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展。由中国信通院与中国人工智能产业发展联盟推出的《2021人工智能核心产业白皮书》指出,工程技术正在引领AI产业 -- 技术成本快速下降,同等算法水平所需计算量每8个月降低一倍、成本降低百倍,涌现了多样化的研发和技术服务平台,这些说明AI正从技术理论突破过渡到工程化落地应用的阶段。

深度神经网络是当前AI的主要模型,而监督学习则是构建(训练)深度神经网络的主要方法,监督学习所需要的大规模、高质量的人工标注数据集是AI产业发展的刚需,也是AI工业化的主要瓶颈之一。在中国,正在大量涌现AI数据标注产业基地,但当前的AI数据标注产业仍处于初级阶段。澳鹏公司产品研发总监张童皓表示,用户对于数据规模、质量和多样性等要求越来越高,专业化数据服务平台是AI工业化的突破口。

AI领先一步的秘诀

获得大规模、高质量的人工标注数据,这不仅是中国企业AI实践成功和AI工业化的关键,在全球也是类似的刚需。无论从全球还是中国市场来说,专业的数据标注服务商都是AI工业化领先一步的关键。澳鹏《2021人工智能与机器学习现状》调研报告指出,获取足够的优质训练数据来部署AI是各种规模企业成功的重大障碍,而全球绝大多数企业都在某种程度上采用了专业数据供应商 -- 这反映了数据采集、准备和管理是AI面临的首要挑战。

人工智能项目部署和投资回报 ,来源:《2021人工智能与机器学习现状》,澳鹏

根据澳鹏的调研,使用专业数据供应商的企业表示他们在AI部署方面领先于其他企业的可能性要高1.5倍,而落后的可能性要低4倍,也就是说使用专业数据供应商的企业部署了更多的AI项目,而且实现了更大的投资回报率。特别是,澳鹏发现使用专业数据供应商的企业更有可能将AI部署到生产环境。

此外,AI部署是一个持续的过程,而不是一劳永逸。去年,80%的被调研企业至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受访者表示至少每月更新一次模型,高于 2020年的45%。而与较小的企业相比,大型企业更有可能更新AI模型,至少每季度更新一次的比例为91%。其中,使用专业数据供应商的企业最有可能每月更新其模型。

就中国市场来说,以数据标注为代表的专业数据服务行业才刚刚起步,相关技术发展程度低,属于劳动力密集型行业,而且该行业缺乏大型专业数据供应商和服务商,行业以中小企业为主,呈现高度的竞争状态。在另一方面,数据标注正从简单、重复的拉框标注向精细化方向发展,也就是说数据标注行业正从简单的劳动力密集型向专业型数据服务过渡。

AI数据服务专业化

当前,中国的AI行业和AI应用正在高速发展,相应带动了AI数据标注行业的快速成长。特别是AI用户对于AI数据标注质量的要求越来越高、越来越精细化和专业化,诸如自动驾驶、工业制造等智能应用场景越来越复杂,高质量、精细化的标注数据将直接影响算法模型的效果。

文本数据标注示例

张童皓在加入澳鹏之前供职于人工智能视觉公司,再之前在携程和e-Bay都从事过大数据和数据智能相关产品的研发工作。张童皓介绍,自2015年国内AI行业掀起新一轮热潮以来,用户对于AI训练数据的要求越来越高。以图像类项目为例,由于支持高清图像设备的大量出现、流媒体的普及等,相应对训练数据质量要求水涨船高,例如对图像分割任务就要求标注打点的位置与实际像素之间的偏离不超过1到3个像素,对语音的切分要在毫秒级且前后两段不能有重叠或空隙。

除了要求更高质量的训练数据外,由于深度神经网络的模型效果与训练数据的规模呈正相关性,当前很多客户不仅需要海量的高质量训练数据,而且还要覆盖更多的场景,也就是对同一个场景提出不同的数据标注要求。再加上很多AI场景都仍属于探索阶段、场景需求多变,例如智能驾驶从早期的目标跟踪到后来的遮挡、连续性等出现了不同的诉求,因此不同团队需要标注不同的数据属性,很容易出现一个图像数据集却有多种不同标注要求的情况。当然,在AI模型生命周期的不同研发阶段,也可能提出完全不同的数据标注要求。这是由于AI模型在迭代的过程中,需要用数据进行模型训练和效果验证,如果模型效果不理想就需要调整方向,这就意味着新一轮的数据标注处理。

此外,由于数据合规性和隐私保护的要求越来越高,纯云端的数据标注平台和服务就无法全部满足企业用户要求,这就要求私有化部署的数据标注平台和众包管理平台。不过,私有化部署固然能够更好的保障数据安全,但其部署和维护成本较高,这也带来了相应的挑战。

更多内容,请阅读原文。

消息来源:澳鹏数据科技(上海)有限公司

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号