赞
踩
简介
自然语言处理(NLP)是机器语言和人类语言之间的翻译官,用来实现人机交流的目的。简单地归纳下深度学习中的NLP流程,如下图所示:
本次要和大家分享的是Step1语料预处理部分,语料还有中文和英文等多种语言,本次分享的是中文语料的预处理,基本的步骤如下图所示:
分词
常用的分词器都是使用机器学习算法和词典相结合,找到一个平衡点,一方面能够提高分词准确率,另一方面能够改善适应性。
词性标注
基于规则的词性标注方法是提出较早的一种词性标注方法,其基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。早期的词类标注规则一般由人工构建。随着标注语料库规模的增大,可利用的资源也变得越来越多,这时候以人工提取规则的方法显然变得不现实,于是还提出了基于机器学习的规则自动提出方法。
基于统计模型的词性标注方法将词性标注看作是一个序列标注问题。其基本思想是:给定带有各自标注的词的序列,我们可以确定下一个词最可能的词性。现在已经有隐马尔可夫模型(HMM)、条件随机域(CRF)等统计模型了,这些模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指其中每一个词都分配了正确的词性标注的文本。
基于统计方法与规则方法相结合的词性标注方法,这类方法的主要特点在于对统计标注结果的筛选,只对那些被认为可疑的标注结果,才采用规则方法进行歧义消解,而不是对所有情况都既使用统计方法又使用规则方法。
基于深度学习的词性标注方法,可以当作序列标注的任务来做,目前深度学习解决序列标注任务常用方法包括LSTM+CRF、BiLSTM+CRF等。
命名体识别
监督学习方法:和机器学习中的监督学习概念相似,需要利用大规模的已标注语料对模型进行参数训练。
半监督的学习方法:减少了对已标注语料的依赖,利用标注的小数据集(种子数据)自举学习。
无监督的学习方法:主要利用词汇资源(如WordNet)等进行上下文聚类。
混合方法:几种模型相结合或利用统计方法和人工总结的知识库。
去除停用词
总结
本篇分享简单梳理了中文文本数据集的预处理顺序,按照顺序是:分词、词性标注、命名体识别和去除停用词。同时也分析了每个步骤的现状、用处和实现方法。这就是深度学习中NLP的中文文本数据处理内容,谢谢浏览~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。