赞
踩
自然语言处理的研究内容可以分为词法学、句法学、语义学、语用学等。
词法学:研究词的词素(构成单词的最小单位)构成和词性等。
句法学:研究句子结构成分之间的相互关系和组成句子序列的规则。
语义学:研究如何从句子中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。语义分析又可以分为词汇级的语义分析和句子级的语义分析。
语用学:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。也就是说,不同的上下文中,同一个句子的含义也不相同,需要使语用学分析。
文本分类与聚类:
情感分析:
信息抽取:信息抽取是指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。其主要研究内容包括实体识别、实体消歧、关系抽取、事件抽取等。
(实体1,关系类别,实体2)
,表示实体1 和实体2之间存在特定类别的语义关系。自动文摘:
信息推荐:根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。
自动问答:讨论如何从大规模真实文本中对指定的提问找出正确回答的技术,是集知识表示、信息检索、自然语言处理和智能推理等技术于一身的搜索引擎、Web形式的问答网站、聊天机器人等。
机器翻译(MT):使用计算机将一种语言翻译成另一种语言的计算机技术。
词向量的产生:
词嵌入:
语言模型:语言模型可以用来计算句子的概率,并且可以用来评估句子是否通顺、自然,从而在自然语言处理中有广泛的应用。
CNN适用于文本分类的原理:利用word2vec可以实现词向量的表示,则句子表示为矩阵,两个句子的二维矩阵可以作为CNN的输入,类似于用CNN做图像识别一样,用卷积层和池化层来进行特征提取和分类,从而得到文本分类的结果。
CNN文本分类模型与图像分类模型的区别:在机器视觉中,卷积核在图像的局部区域上滑动,但在NLP中,通常使用的过滤器会滑过整个矩阵(单词)。因此,过滤器的“宽度”通常与输入矩阵的宽度相同。
传统前馈神经网络的不足:
循环神经网络和递归神经网络的区别:
循环神经网络(RNN)概述:
循环神经网络存在的问题:循环神经网络存在短期记忆的问题,这是由于梯度消失引起的,在其他类型的神经网络架构中也很常见(梯度消失是反向传播的性质导致的)。具体体现上,RNN在处理多个步骤后难以保留之前步骤中的信息。
备注:RNN中的梯度消失与CNN中的梯度消失不同,这里的梯度消失指的是在时间轴上,梯度被近距离的梯度主导。
长短时记忆神经网络LSTM概述:
LSTM记忆细胞的三个门:
门限循环单元GRU概述:
堆叠循环神经网络:堆叠循环神经网络是一种深度循环神经网络,它由多个循环神经网络层组成,每个层都接收来自上一层的输出作为输入。与传统的循环神经网络相比,堆叠循环神经网络具有更强的建模能力和更高的灵活性,能够处理更加复杂的序列数据。
双向循环神经网络:
序列到类别:输入为序列,输出为类别。例如文本分类中,输入数据为单词的序列,输出为这一段文本的类别。
同步序列到系列:每个时刻的输入都需要对应一个输出,输入序列和输出序列的长度完全相同。
异步序列到序列:输入和输出并不需要严格的对应关系。比如进行机器翻译时,输入和输出序列并不需要保持相同的长度。此外,自动摘要问题也不需要输入和输出长度的对应。
Seq2Seq问题:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。