nlp自然语言处理_人工智能科普｜自然语言处理（NLP）

作者：煮酒与君饮 | 2024-07-21 22:32:47

踩

上下文管理为什么是自然语言处理

今天晚上咱们要学习的课程比之前的难度要稍微大点，也是目前人工智能领域最难的研究方向之一——自然语言处理(NLP)。

自然语言处理——AI领域“第一团宠”

NLP作为AI领域的认知智能，其动态一直都是业内专家学者关注的重点，尤其是随着深度学习的不断进步，通过深度学习技术让NLP得到长足发展，让机器早日理解人类丰富多变的语言，成为了众多AI爱好者和开发者的期待。

接下来童鞋们就跟着班主任一起来认识下被称为AI领域“第一团宠”的NLP，它能在日常中解决哪些问题，以及实操中会遇到的困难等。

为了让大家更直观地理解自然语言处理，班主任画了一幅图：

上图表明，计算机理解用户输入的各种语言的“谢谢”的过程。

由用户输入不同语言中“谢谢”的不同文本，计算机根据不同文本处理出不同语言的“谢谢”，最后再将这些结果反馈给用户。

其中这个过程包含了句法分析、自然语言处理和自然语言生成等相关技术。

自然语言处理实际应用有如下几点：

A、检验和提取不同类别的反馈

通俗来讲，就是重点文本分析。例如通过一条微博、一篇新闻、一条朋友圈，研究不同的人对某件事的看法，通过研究对象正面或者负面的评论，采取进一步的决策。

B、精准识别指代内容

不同的目标群体在交流过程中会有不同的表达以及指代的方式，适当使用指代会使文本更加简练而且并不影响本意的阐述。

例如，遇到生僻字“燚”不知道拼音的时候，大多会求助一些搜索引擎：“四个火是什么？”，搜索引擎一定会告诉你“燚”念什么，而不是告诉我们这几个词表面的匹配结果。由此可见，计算机能够“理解”这些指代内容。

C、对给定文本进行分类

对给定的文本，给出预定义的一个或多个分类标签，再进行高效、准确的分类。其实这就是一个简单的特征提取过程，通过不同的特征进行不同的分类。

A、自然语言的二义性引起的歧义

自然语言的二义性，其实说的就是自然语言中广泛存在的歧义现象。

比如：“兵乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。对于这两种切分都是正确的。也就是说，就算是人工分词也会产生歧义。

通过这两个例子我们可以看出，由于自然语言的二义性，句子存在着多种可能的组合方式或者句意，计算机在处理这些句子的时候就会费很大的劲。

B、上下文理解引起的歧义

所谓上下文，就是当前这句话所处的语言环境，这句话指代的主语、省略的部分、前后联系等等，都非常重要以及影响着这句话，因此上下文的理解是自然语言处理复杂性的一大体现。

即使是同一概念，不同的人也有不同的解读，所以人们在日常对话中也会有语句理解歧义。例如看下面一段对话：

A：今天一起吃饭吗？B：我妈今天从老家回来。

如果仅仅按照字面理解，B的语句是无法回答A的。实际上，B是告诉A，今天我妈来了，不能和A一起吃饭了，这是人际交往中的一种间接拒绝。

这就表明，相互之间的语言理解要借助语境推理，上下文理解不正确就会产生歧义。那么在计算机的自然语言处理中，要让计算机尽可能多的模拟人的智能，让机器具备人的上下文理解的功能。

由以上自然语言处理的歧义可以看出，NLP的关键在于消除歧义问题。而正确的消除歧义需要大量的知识，包括训练集的标注与添加、词典资源的建立。

下面班主任来介绍三种消除歧义的方法：

A、基于词典的消歧

拿词典中的定义和歧义词出现的上下文环境进行对比，选择覆盖度最大的作为该词的词义。

这种消歧方法思想很简单，但是消歧的准确率不是很高。

B、有监督消歧

让机器学习使用人工标记的数据，并与字典中的词语所代表的典型含义匹配。

例如，在「I often play with my friends near the bank」一句中，「bank」一词需要机器判断是银行还是河边。我们希望机器能够匹配句中单词最有可能表达的含义，让机器更深刻地理解自然语言。

C、无监督消歧

不管是基于词典的消歧还是有监督消歧，都需要训练集，而无监督消歧不需要这些预先知道的资源。

最简单的理解方式，就是把它比作考试。一般情况，每道题都有一个固定答案，对错代表分数的高低。那像作文只有题目没有固定答案，打分情况就要酌情而定。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/862430