当前位置:   article > 正文

AI时代的文本智能化利器:百度语义理解技术与平台文心ERNIE_百度在线和本地语义

百度在线和本地语义

阅读原文:https://mp.weixin.qq.com/s/Efs1929lxXEv7C3Up72EVg

语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域。

9月15日,百度世界2020召开,作为“AI新型基础设施”百度大脑6.0的重要组成部分,百度语义理解技术与平台文心(ERNIE)在大会上的发布吸引了大量NLP开发者的目光,尤其基于多流机制的预训练语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等,均达到了世界领先水平。

在这里插入图片描述

文心(ERNIE)是百度在语言与知识领域深耕多年的技术大成,同时登顶国际权威榜单GLUE也代表着中国语义理解技术在世界舞台的地位。

随着企业智能化转型的深入,智能文本处理得需求广泛存在,通用API/SDK已无法充分满足需求,而传统的NLP定制方法在实际的产业应用中面临着不少问题,包括:需要较多高质量的人工标注数据、缺少NLP技术选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

对此,在今年8月25日的百度大脑语言与知识技术峰会上,百度集团副总裁吴甜重磅发布语义理解技术与平台文心(ERNIE),为企业提供了一种革新性的应用范式,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让企业用户更简单、高效地定制企业级文本模型。

百度通过将世界领先的NLP技术成果开放给业界,降低了NLP技术的准入门槛,让各大产业都能快速拥有构建和应用文本智能的能力,为产业智能化提供了全新的加速度。在今年7月的世界人工智能大会(WAIC)上,文心(ERNIE)更是摘得了大会最高荣誉SAIL奖(Super AI Leader,卓越人工智能引领者),在人工智能领域技术创新和应用探索等方面获得权威肯定。
在这里插入图片描述

目前,文心(ERNIE)累计支持2万余名开发者,覆盖金融、通信、教育、电商等行业,并在多个公开权威语义评测中获得了近十项世界冠军。

破局NLP建模难题,为企业NLP应用按下加速键

从数据到应用,文心提供一整套文本建模能力

在这里插入图片描述

文心(ERNIE)基于领先的语义理解核心技术,内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集,将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装,为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务。

文心官网:wenxin.baidu.com

丰富的文本数据处理能力,摆脱繁琐数据处理流程

不论是互联网领域还是传统行业,大量的企业核心信息都分布在非结构化的文本数据中。在IDC的报告中也提及:“最近几年全球新增的数据中,有80%来自非结构化数据。”一方面,这些文本数据蕴含着的高价值信息,对企业的良性发展至关重要;另一方面,对这些信息的处理往往要耗费大量的人力,也是一笔不小的成本。

数据是模型训练的起点。而在实际业务应用中,文本数据在数据处理的环节就要面临数据标注成本高、数据样本不均衡、数据质量不高、格式处理繁琐等一系列问题。

数据标注成本高?交给文心“智能标注”能力

一般来说,高质量的标注数据越多,模型的效果就会越好。但数据标注本身就是件耗时耗力又耗钱的事情,如何能够低成本获取大量高质量标注数据对企业来说至关重要。文心(ERNIE)提供了全新的“智能标注”能力,开发者只需要标注少量数据,文心就可以基于这部分数据学习、优化,结合人工校正,快速完成大量无标注数据的高质量标注。

体验文心智能标注功能,可登录EasyDL:
https://ai.baidu.com/easydl/pro/app/annotate/interactive

在这里插入图片描述

数据样本分布不均?“数据增强”功能试一试

在实际的应用场景中,往往会面临文本数据的样本分布不均的情况。比如NLP领域常见的文本审核任务,需精准分类出正常文本和敏感文本,是一个典型的文本分类问题。但在实际的数据收集中,正常样本与敏感样本的数量很容易失衡,经常会遇到9:1(90%的正常样本),甚至差异更大的情况,但又要求训练出的模型能够更全召回敏感文本。这种情况就需要文本“数据增强”的功能,来丰富和扩展敏感样本的数量,让数据更丰富、比例更适合。

此外,还有数据噪声多、格式处理繁琐等问题,文心也一一提供了解决方案:文本“数据降噪”帮助开发者快速定位高噪声数据,支持丰富数据格式和配套的预处理能力。

超强实力的预训练模型和算法集,快速get高质量模型

文心(ERNIE)内置百度自研业界效果领先的中文预训练模型和NLP优质算法集。其中ERNIE预训练模型开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。这些硬核实力也让它在去年12月,斩获自然语言理解权威榜单GLUE榜首。

在这里插入图片描述

文心(ERNIE)模型集包括通用模型、任务模型、领域模型、轻量级模型等预训练模型,为业界提供最完备的预训练模型能力。

在这里插入图片描述

全面的评估工具和部署能力,模型落地无忧

为了满足各行业模型应用的需求,文心(ERNIE)还配套了完整的模型评估与部署能力。文心提供了10余套常用NLP评估工具,包括多标签分类评估、准召率、宏/微平均、正逆序比、BLEU值、ROUGE值、马修斯相关系数等,同时也支持用户灵活自定义评估指标。

在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署两种方式,方便用户根据不同的业务需求来选择合适的部署方式。

从世界级技术突破到产业级NLP应用能力

聚焦企业业务价值,面向不同业务需求提供丰富产品形态

为了让文心(ERNIE)的世界级技术突破转化为企业发展的动能,在产业应用中发挥更大价值,文心还提供了多种使用方式,让不同需求、不同开发层次的企业开发者都能快速掌握。

零门槛、无代码的云端开发体验:EasyDL-NLP

百度EasyDL是一个零门槛的AI开发平台,支持开发者一站式定制高精度AI模型。文心通过EasyDL提供了一整套简单高效的NLP开发能力,提供零代码、少代码的模型训练方式,同时也支持高阶用户进行灵活组网调参。开发者无须了解算法细节,最快5分钟即可上手,快速定制NLP模型。目前EasyDL已支持了单标签和多标签的文本分类、短文本匹配、情感倾向分析等NLP常用任务类型。

在这里插入图片描述

可深度定制的企业级全功能开发能力:BML-智能文本

百度BML平台是全功能的百度机器学习平台,为企业用户提供一站式人工智能模型建设功能服务。文心(ERNIE)通过百度BML平台建设BML-智能文本产品能力,基于各类文本处理场景提供丰富的自动化产线,实现一站式文本建模开发与应用。

在这里插入图片描述

真实业务实践淬炼,丰富场景化落地经验

文心已在金融、媒体、电商等业务场景中崭露头角

目前,文心(ERNIE)已广泛应用于搜索引擎、信息流、智能音箱等互联网产品中,同时也在金融、电商、媒体、教育等行业中落地,成为推动产业智能化转型的利器。

在这里插入图片描述

某互联网金融企业,携手文心,基于用户数据快速建模,实现高效评估借贷用户风险的能力。结合文心的预训练模型,对用户行为信息进行语义层面深度建模,用户风控少量训练数据进行精细Fine-tuning,在较短时间内完成模型收敛取得准确率显著提升。金融风控领域模型准确率背后关乎着企业的收入,模型的效果提升,带来的是真实的价值收益!

某综合性电商平台使用EasyDL中的文心(ERNIE)搭建起了完整的智能评分系统平台架构。AI赋能后的服务考核监督机制得以升级,用户的差评反馈都会被自动分析处理,大大提升了服务效率与服务质量。该系统将负面问题处理率由先前的60%提升到100%,客服运营人力由5人/日降至3人/日。

文心与企业开发者共同成长

全流程技术服务支持,真正做到“授之以渔”

在这里插入图片描述

除了基于预训练技术提供完善的开发工具外,文心(ERNIE)还面向企业用户提供全流程技术服务配套。包括业务问题分析、技术选型指导、模型优化指导、开发者使用培训等服务,真正做到"授之以渔"。

百度大脑推出文心(ERNIE),正是为了帮助企业在NLP赛道上跨过技术、工具、算力、人才等门槛,开发者和企业进行开放赋能,让语义理解等技术在产业内“遍地开花”,真正帮助企业降本增效,并发展出智能化的新业态。百度大脑正在通过语义理解研究新思路,在推动人工智能技术的发展的同时,进一步推动产业智能化发展,让文心(ERNIE)成为AI时代的文本智能化利器。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/553068
推荐阅读
相关标签
  

闽ICP备14008679号