赞
踩
本文为2022秋网安学院的自然语言处理课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正。
文章的第二部分内容参考了学校学姐的文章,文章写的很好,大家可以关注她:(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*:考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-CSDN博客
目录
激活函数有哪些,对应的作用
tanh
sigmoid
Relu
作用:增加网络的表达能力,给网络增加非线性因素
神经网络的参数学习方法,各自特点、区别,能解决什么样的问题
梯度下降:每次更新时使用所有样本,每次都朝着全局最优方向迭代,适用于样本不多的情况
随机梯度下降:每次更新只用1各样本,每次迭代不一定朝着全局最优,但最终结果往往是在全局最优解附近
mini-batch梯度下降:每次更新时用b个样本(前两者的折中)
卷积神经网络的组成部分?各部分的作用
卷积层:减少模型参数,进行卷积运算
池化层:减少模型规模
全连接层:将池化层的单元平化
递归神经网络
网络结构包括哪些部分
输入层、隐藏层、输出层
参数包括:输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b
典型的参数学习方法
BPTT
BPTT算法的原理
基本思想和BP算法类似,都是将输出误差以某种形式反传给各层所有单元,各层按照本层误差修正个单元的连接权重
但BPTT的参数是共享的,每个时刻训练的都是相同的参数W和b。
且BPTT损失函数定义为每一个时刻的损失函数之和,它会在每一个时间步长内叠加所有对应权重的梯度
RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进?以及做了哪些改进?
LSTM是用来解决RNN的长距离依赖问题,它通过在循环单元内添加门结构来控制单元细胞状态来实现的
GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题,可理解为LSTM的简化,它把LSTM的输入门和遗忘门合并为更新门,删除输出门新增了重置门。
LSTM只能根据之前时刻的时序信息预测下一时刻的输出,但有些问题当前时刻的输出不仅与之前的状态有关,与未来的状态也有关系,Bi-LSTM就是为了解决这一问题,做到基于上下文判断。Bi-LSTM可看作两层神经网络,第一层第一层从句子的开头开始输入,第二层则从句子的最后一个词语输入,两层进行相同处理,并对得到的结果共同分析。
统计语言模型建模方法(怎么用统计学习的方法构建语言模型)
统计语言模型的基本思想:用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性
使用最大似然估计进行参数学习
用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题
用数据平滑解决样本少引起的零概率问题
几种神经网络语言模型(DNN-NNLM、RNN-RNNLM)
模型架构
相比的优势和不足
RNNLM的优势
RNNLM 模型可以保留每个词的全部历史信息,不需简化为n-gram
引入词向量作为输入后不需要数据平滑
神经网络一般用RNN语言模型
输入、输出、要预测哪些参数、参数学习方法要掌握
NNLM
输入:上文词向量拼接
输出:目标词概率
参数学习方法:BP
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
RNNLM
直接输入:目标词的前一个词的词向量
间接输入:网络中的前文信息
输出:目标词概率
参数学习方法:BPTT
在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量
词向量
典型的词向量:CBOW、skip-gram、C&W要掌握学习方法和区别(输入、输出、学习方法)
CBOW
输入:上下文词向量平均值
输出:目标词概率
参数学习方法:梯度下降法
skip-gram
输入:目标词词向量
输出:上下文词概率
参数学习方法:梯度下降法
C&W
输入:上下文及目标词词向量拼接
输出:上下文及目标词联合打分(正样本打高分、负样本打低分(负样本是将正样本序列中的中间词替换成其它词))
参数学习方法:采用pairwise的方式对文本片段进行优化
传统注意力机制
结构包括哪些模块
输入:K(集合)、Q
输出:V
三个阶段:
注意力打分函数
softmax
加权求和
有哪些计算方法(有哪些注意力计算模式)
键值对模式 K!=V 是用V去加权求和计算输出值的
普通模式 K=V
不同类型的注意力机制是如何计算的?
软注意力 对输入句子的任意单词都计算概率,输出的是概率分布
硬注意力 直接从输入句子中找到某个单词,将其他单词硬性地认为对齐概率为0
全局注意力 计算attention时考虑encoding端序列中所有的词
局部注意力 软注意力和硬注意力的折中,在一个大小为D的窗口输出概率分布,窗口外的认为对齐概率为0
注意力机制在nlp领域的应用场景
在任何有“求和”的地方都能使用
宏观如机器翻译、图卷积的邻接节点聚集
注意力编码机制
对不同序列的不同编码方式
单一向量编码:将输入序列编码成单一向量表示(句表示、篇章表示、词的上下文表示)
不同序列间编码:将2个序列编码成二者融合的向量表示(匹配任务、阅读理解的混合层表示)
同一序列自编码:使用多头注意力编码对一个句子编码,起到句法分析器的作用
不同编码方式的计算方式
单一向量编码:句子各元素K序列与Q的关联关系
不同序列间编码:对K序列和Q序列编码
同一序列自编码:采用多头注意力机制,每头的Q=K=V且参数不共享,最后把各头的结果拼接
文本分类和匹配了解基本技术思路即可
序列标注
马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制
马尔可夫模型
组成M =( S, π ,A) (三元组)
S:模型中状态的集合
A:与时间无关的状态转移概率矩阵
p:初始状态空间的概率分布
隐马尔可夫模型
组成λ =( S, O, π ,A,B)或简写为 λ = (π ,A,B) (五元组)
状态序列Q:表示起决定作用的后台本质(天气)
观察序列O:表示观察到的前台现象(潮湿。。)
B:给定状态下,观察值概率分布
隐马尔可夫的重要问题
评估问题的向前、向后算法的计算题
解码问题的维特比算法的计算题
隐马尔可夫+CRF
做序列标注的基本原理
CRF的作用、和隐马尔可夫之间的关系
隐马尔可夫模型因为输出独立性假设,无法考虑上下文特征,故需要最大熵模型来解决该问题,但最大熵模型又有输出元素之间独立的问题,故使用CRF来使输出元素相关联,避免不合理输出
序列生成
3种序列生成网络的典型网络 方法、网络设计、特点、解决的问题、网络的结构
生成式-序列生成模型
特点:输出词表大小固定,且不会随输入变化
典型模型
基于RNN结构生成模型
存在曝光偏差问题
RNN+Attention架构生成模型
使用attention来使RNN在机器翻译时,找到中英文对应词的关联关系
典型网络设计:BiLSTM + Attention 模型结构
Encoding端采用双向RNN,Decoding端采用单向RNN
输入:X(源语句子)
输出:Y(目标语句子)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。