赞
踩
NLP 的基本术语
1、分词( segment )
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记;因此,中文词语分析是中文分词的基础与关键。 中文和英文都存在分词的需求,不过相较而言,英文单词本来就有空格进行分割,所以处理起来相对方便。但是,由于中文是没有分隔符的,所以分词的问题就比较重要。分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。
2、词性标注( part-of-speech tagging )
基于机器学习的方法里,往往需要对词的词性进行标注。词性一般是指动词、名词、形容词等。标注的目的是表征词的—种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。
3、命名实体识别( NER, Named Entity Recognition )
命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。
4、句法分析( syntax parsing )
句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建,不过最初的时候,还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以,往往最终生成的结果是一棵句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。
5、指代消解( anaphora resolution )
中文中代词出现的频率很高,它的作用是用来表征前文出现过的人名、地名等。
6、情感识别( emotion recognition )
所谓情感识别,本质上是分类问题,经常被应用在舆情分析等领域。情感一般可以分为两类,即正面、负面,也可以是三类,在前面的基础上,再加上中性类别。一般来说,在电商企业,情感识别可以分析商品评价的好坏,以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器,或者现在流行的词量模型+ RNN 。经过测试发现,后者比前者准确率略有提升。
7、纠错( correction )
自动纠错在搜索技术以及输入法中利用得很多。由于用户的输入出错的可能性比较大,出错的场景也比较多。所以,我们需要一个纠错系统。具体做法有很多,可以基于 N-Gram 进行纠错,也可以通过字典树、有限状态机等方法进行纠错。
8、问答系统( QA system )
这是一种类似机器人的人工智能系统。比较著名的有:苹果 Siri 、 IBM Watson 、微软小冰等。问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术的配合才会实现得比较好。
NLP 的知识体系
作为一门综合学科,NLP 是研究人与机器之间用自然语言进行有效通信的理论和方法。这需要很多跨学科的知识,如图1所示,需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础。
1、句法语义分析
针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。
2、关键词抽取
抽取目标文本中的主要信息,比如从一条新闻中抽取关键信息。主要是了解是谁、于何时、为何、对谁、做了何事、产生了有什结果。涉及实体识别、时间抽取、因果关系抽取等多项关键技术。
3、文本挖掘
主要包含了对文本的聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面。
4、机器翻译
将输入的源语言文本通过自动翻译转化为另一种语言的文本根据输入数据类型的不同,可细分为文本翻译、语音翻译、手语翻译、图形翻译等。
5、信息检索
对大规模的文档进行索引。可简单对文档中的词汇,赋以不同的权重来建立索引,也可使用算法模型来建立更加深层的索引。查询时,首先对输入进行分析,然后在索引里面査找匹配的候选文档,再根据排序机制把候选文档排序,最后输岀排序得分最高的文档。
6、问答系统
针对某个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
7、对话系统
系统通过多回合对话,跟用户进行聊天、回答、完成某项任务。主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,对话系统还需要基于用户画像做个性化回复。
常用语料库
语料库是我们在进行 NLP 实践开发必不可少的工具,常见的语料库有:
1、维基百科 维基百科是最常用且权威的开放网络数据集之一,作为极少数的人工编辑、内容丰富、格式规范的文本语料,各类语言的维基百科在 NLP 等诸多领域应用广泛。维基百科提供了开放的词条文本整合下载,可以找到你需要的指定时间、指定语言、指定类型、指定内容的维基百科数据。
2、IMDB 情感分析语料库 互联网电影资料库( Internet Movie Database,简称 IMDB )是一个关于演员、电影、电视节目、电视明星和电影制作的在线数据库。 IMDB 的资料中包括了影片的众多信息、演员片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是 IMDB 评分。
还有豆瓣读书相关语料(爬虫获取)、邮件相关语料等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。