赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
大三上选修人工智能中的自然语言处理这门课,感兴趣便记录下来
自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
——语音分析
由于人类发音时有同音字的存在,需要研究词语发音的特点,提出了语音描述、分类和转写方法的科学
——词法分析
研究词的词素构成和词性等(关键是实词);
基于词典的方法:正向最大匹配
——句法分析
研究句子结构成分之间的相互关系和组成句子序列的规则;
常用方法:短语结构语法、依存语法
——语义分析
研究语句中词的意义及词在语句中的句法结构中的作用来推导出该语句的意义
关键在于:词义消歧、一词多义
——语用分析
研究在不同上下文中的语句的应用,及上下文对语句理解所产生的影响
处理自然语言的关键在于要让计算机“理解”自然语言,自然语言处理的目标就是让计算机理解人类的语言,从而弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距
NLP=NLU + NLG
自然语言理解——NLU、NLI
就是希望机器人可以像人一样具备正常人的语言理解能力
自然语言生成——NLG
即将非语言格式的数据转换成人类可以理解的语言格式:文章、报告等
对自然语言中的基本元素进行表示和分析,比如词汇,短语,句子。
我去北京大学玩
对于给定的句子进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义
词消歧。
NLP的核心技术是建立在基础技术之上的的技术产出,核心技术主要包括以下几个方面:
从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。涉及到实体识别、时间抽取、因果关系抽取等关键技术。
(或者文本数据挖掘)包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都是基于统计机器学习的。
把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到二十年前的基于统计的方法,再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法系。
对大规模的文档进行索引。可简单对文档中的词汇,赋之以不同的权重来建立索引,也可利用(句法分析,信息抽取,文本发掘)来建立更加深层的索引。在查询的时候,对输入的查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
能够真正影响我们生活的黑科技,能够通过图灵测试的机器问答系统,我们可以称之为NLP+
对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。
相信NLP技术会使我们处于一个智能化的时代
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。