赞
踩
NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。所谓“自然”乃是寓意自然进化形成,为了区分一些人造语言(如:c++、java等人为设计的语言)这些年, NLP 研究取得了长足的进步,逐渐发展成独立的学科,从自然语言的角度出发,NLP 基本可以分为两个部分 自然语言处理以及自然语言生成,演化为理解和生成文本的任务。
NLP 基本可以分为两个部分 自然语言处理以及自然语言生成,演化为理解和生成文本的任务。
自然语言的理解是个综合的系统工程,它又包含了很多细分学科,有代表声音的音系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语用学。
语言理解涉及语言、语境和各种语言形式的学科 而自然语言生成( Naturnguage Generation, NLG )恰恰相反,从结构化数据中以读取的方式自动生成文本,该过程主要三个阶段:
NLP 可以被应用于很多领域,这里大概总结出以下几种通用的应用:
命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。
中文中代词出现的频率很高,它的作用的是用来表征前文出现过的人名、地名等例如,清华大学坐落于北京,这家大学是目前中国最好的大学之一 在这句话中,其实“清华大学”这个词出现了两次,“这家大学”指代的就是清华大学 但是出于中文的习惯,我们不会把“清华大学”再重复一遍。
这是一种类似机器人的人工智能系统 比较著名的有:苹果 Siri, IBM Watson 、微软小冰等 问答系统往往需要语音识别 合成,自然语言理解、知识图谱等多项技术的配合才会实现得比较好。
作为一门综合学科, NLP 是研究人与机器之间用自然语言进行有效通信的理论和方法这需要很多跨学科的知识,需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础 作为一门杂学, NLP 可谓是包罗万象,体系化与特殊化并存,这里简单罗列其知识体系:
针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及链接、句法分析、语义角色识别和多义词消歧等。
抽取目标文本中的主要信息,比如从一条新闻中抽取关键信息主要是了解是谁、于何时、为何、对谁、做了何事 、产生了有什么结果 涉及实体识别、时间抽取 、因果关系抽取等多项关键技术。
针对某个自然语言表达的问题,由问答系统给出个精准的答案。需要对自然语言查询语句进行语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
系统通过多回合对话 ,跟用户进行聊天、回答、完成某项任务 主要涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮到话能力 同时,为了体现个性化,对话系统还需要 基于用户画像做个性化回复。知识结构结构图如图1-3所示。
上述几种句法分析,依存句法分析属于浅层句法分析,其实现过程相对来说比较简单而且适合在多语言环境下应用,但是其所能提供的信息也相对较少。深层文法句法分析可以提供丰富的句法和语义信息,但是采用的文法相对比较复杂,分析器的运行复杂度也比较高,这使得深层句法分析不太适合处理大规模的数据。短语结构句法分析介于依存句法分析和深层文法句法分析之间。
近年来,随 研究工作的深入,研究者们提出了很多有效的联合模型,将多个任务联合学习和解码,如分词词性联合、词性句法联合、分词词性句法联合、句法语义联合等。联合模型通常都可以显著提高分析质量,原因在于联合模型可以让相互关联的多个任务互相帮助,同时对于任何单任务而言,人工标注的信息也更多了 然而,联合模型的复杂度更高,速度也更慢。
来自若干新闻站点 2012年6月~7月期间国内、国际 体育、社会、娱乐等 18个频道的新闻数据,提供 URL 和正文信息。
互联网电影资料库( Internet Movie Database ,简称 IMDb )是 个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库 IMDb 的资料中包括了影片的众多信息、演员、片长、内容介绍 分级、评论等 对于电影的评分目前使用最多的就是 IMDb评分。
还有豆瓣读书相关语料(爬虫获取) 邮件相关语料等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。