当前位置:   article > 正文

(一)关于NLP的概念和处理过程_nlp的基本概念和实现步骤

nlp的基本概念和实现步骤

关于NLP的概念和处理过程

一、自然语言处理(Natural Language Processing)

(1)自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
(2)自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
(3)自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

二、自然语言处理的难点

(1)自然语言处理的难点单词的边界界定:

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

(2)词义的消歧:

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。句法的模糊性:自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),而我们必须要仰赖语意及前后文的信息才能在其中选择一棵最为适合的剖析树。

(3)有瑕疵的或不规范的输入:

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。

(4)语言行为与计划:

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程上一年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。

三、自然语言处理的现状

(1)研究的基本问题:

1.语音学
2.形态学
3.语法学
4.语义学
5.语用学

(2)研究的主要内容:

1.机器翻译
2.信息检索
3.自动文摘
4.文档分类
5.问答系统
6.文字识别
7.语音识别
8.语音生成

(3)面临的困难:

1.语义歧义
2.情境多样
3.存在未知的语言现象

四、NLP处理过程

1.获取语料语料,即语言材料

语料是语言学研究的内容。
语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。
按语料来源,我们将语料分为以下两种:
1.1、已有语料
很多业务部门、公司等组织随着业务发展都会积累有大量的纸质或者电子文本资料。那么,对于这些资料,在允许的条件下我们稍加整合,把纸质的文本全部电子化就可以作为我们的语料库。
1.2 、网上下载、抓取语料
如果现在个人手里没有数据怎么办呢?这个时候,我们可以选择获取国内外标准开放数据集,比如国内的中文汉语有搜狗语料、人民日报语料。国外的大都是英文或者外文。也可以选择通过爬虫自己去抓取一些数据,然后来进行后续内容。

2. 语料预处理

3通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作:
2.1. 数据清洗
数据清洗,顾名思义就是在语料中找到我们感兴趣的东西,把不感兴趣的、视为噪音的内容清洗删除,包括对于原始文本提取标题、摘要、正文等信息,对于爬取的网页内容,去除广告、标签、HTML、JS 等代码和注释等。常见的数据清洗方式有:人工去重、对齐、删除和标注等,或按规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。
2.2. 分词
中文语料数据为一批短文本或者长文本,比如:句子,文章摘要,段落或者整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的,有一定含义。而进行文本挖掘分析时,我们希望文本处理的最小单位粒度是词或者词语,所以这个时候就需要分词来将文本全部进行分词。
当前中文分词算法的主要难点有歧义识别和新词识别,比如:“羽毛球拍卖完了”,这个可以切分成“羽毛球拍卖完了”,也可切分成“羽毛球拍卖完了”,如果不依赖上下文其他的句子,恐怕很难知道如何去理解。
2.3.词性标注
词性标注,就是给每个词或者词语打词类标签,如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。词性标注是一个经典的序列标注问题,不过对于有些中文自然语言处理来说,词性标注不是必需的。比如,常见的文本分类就不用关心词性问题,但是类似情感分析、知识推理却是需要的。
常见的中文词性
在这里插入图片描述2.4.去停用词停用词
一般指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。所以在一般性的文本处理中,分词之后,接下来一步就是去停用词。但是对于中文来说,去停用词操作不是一成不变的,停用词词典是根据具体场景来决定的,比如在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。

3. 特征工程

做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。显然,如果要计算我们至少需要把中文分词的字符串转换成数字,确切的说应该是向量化。有两种常用的表示模型分别是词袋模型和词向量。
3.1.词袋模型(Bag of Word, BOW),
即不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如list),然后按照计数的方式对出现的次数进行统计。
3.2.词向量
词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是One-hot,这种方法把每个词表示为一个很长的向量。

4. 模型训练

在特征向量选择好之后,接下来要做的事情当然就是训练模型,对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型。如K-means 等模型;深度学习模型比如CNN、RNN、LSTM等。

五、NLP研究任务

NLP可以被应用于很多领城,几种通用的应用:
(1)机器翻译:计算机具备将一种语音翻译成另一种语言的能力。
(2)情感分析:计算机能够判断用户评论是否积极。
(3)智能问答:计算机能够正确回答输入的问题。
(4)文摘生成:计算机能够准确归纳、总结井产生文本摘要。
(5)文本分类:计算机能够采集各种文章,进行主题分析,从而进行自动分类。
(6)舆论分析:计算机能够判断目前舆论的导向。
(7)知识图谱: 知识点相互连接而成的语义网络。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/344799
推荐阅读
相关标签
  

闽ICP备14008679号