赞
踩
让计算机学会处理人类语言、乃至理解并运用人类语言或人工智能
当然人工智能不止是自然语言处理, 还有计算机视觉和语音识别。***这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言***。完美的语言理解等价于实现人工智能。
拿自然语言和人工语言来做一番比较。看计算机理解我们的语言是多么的困难。
他说:“她这个人挺有意思。”她说:“他这人挺有意思。”于是有人传言:他和她有了意思,要赶快意思意思。他发火了,说:“你们这样瞎说是什么意思。”传言者有点不好意思,便解释说:仅仅是开开玩笑而矣,绝对没有别的意思。“事后,有人说:”真有意思。“也有人说:”真没意思。”
在编程语言中 此问题则不会出现不存在歧义性,若程序员编写了有歧义的代码则会编译失败。
语音、图像和文本:
自然语言处理的输入源有三个 :语音、图像和文本。 前两种形式经过识别后转换为文本。
中文分词、词性标注和命名实体识别:
这3个任务都是围绕词语进行的分析,统称为词法分析。
分割有意义的词语(中文分词)、确定词语类别并进行浅层次的歧义消除(词性标注)、识别一些较长的专有名词(命名实体识别)。词法分析是后续高级任务的基础。基本已达到工业使用的水准
信息抽取:
词法分析之后,文本已经呈现出部分结构化的趋势,至少,计算机看到的不再是一个超长的字符串,而是有意义的单词列表。每个单词还附有自己的词性以及其他的标签。根据这些单词和标签 我们可以抽取出一部分有用的信息,抽取出关键的句子以及文本,更大颗粒度对用户更加友好。
文本分类与文本聚类:
将文本拆分为一系列词语后,可以在文章级别做一系列分析。
分门类别整理 分类
不关心具体的类别 聚类
看似相同其实是两种截然不同的流派
句法分析:
词法分析只能分析零散的词汇信息,不知道词语之间的关系。
在一些问答系统中,需要得到主谓宾的关系,不仅是问答系统和搜索引擎 还常用于基于短语的机器翻译。
语义分析和篇章分析:
相较于句法分析 ,语义分析更侧重于语义而非语法。包括词意消歧(确定一个词在特定语境下的含义) 语义角色标注 乃至语义依存关系(分析句子中词语之间的语义关系
属于较为高级的课程,即便最前沿的研究,尚未达到能够实用的精确程度。
了解自然语言处理的整个宏观图景有助于开拓视野,找准定位和方向
模型 + 特征 + 数据集(在NLP中成为语料库)
**在第一章 HanLP在java中配置上遇到许多问题 **
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。