当前位置:   article > 正文

[知识点整理]中科院/国科大 自然语言处理nlp 期末考试知识点整理_国科大自然语言处理

国科大自然语言处理

本文为2022秋网安学院的自然语言处理课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正。

文章的第二部分内容参考了学校学姐的文章,文章写的很好,大家可以关注她:(133条消息) 【一起入门NLP】中科院自然语言处理期末考试*总复习*:考前押题+考后题目回忆_国科大自然语言处理期末胡玥_vector<>的博客-CSDN博客

目录

第一部分 2022秋季课程期末知识点复习

第一章第二章 不考

第三章 神经网络

第四章 语言模型 词向量

第五章 注意力机制

第六章 基础任务

第七章 预训练语言模型

第八章 情感分析(不考)

第九章 信息抽取 *

第十章 问答系统

第十一章 阅读理解

第十二章 对话系统(不考)

第二部分 2021秋期末考中考察的知识点

填空题(20题)

简答题(6题)

综合题(计算题+模型结构分析题+模型设计题,3题)


第一部分 2022秋季课程期末知识点复习

第一章第二章 不考

第三章 神经网络

  1. 激活函数有哪些,对应的作用

    1. tanh

    2. sigmoid

    3. Relu

    4. 作用:增加网络的表达能力,给网络增加非线性因素

  2. 神经网络的参数学习方法,各自特点、区别,能解决什么样的问题

    1. 梯度下降:每次更新时使用所有样本,每次都朝着全局最优方向迭代,适用于样本不多的情况

    2. 随机梯度下降:每次更新只用1各样本,每次迭代不一定朝着全局最优,但最终结果往往是在全局最优解附近

    3. mini-batch梯度下降:每次更新时用b个样本(前两者的折中)

  3. 卷积神经网络的组成部分?各部分的作用

    1. 卷积层:减少模型参数,进行卷积运算

    2. 池化层:减少模型规模

    3. 全连接层:将池化层的单元平化

  4. 递归神经网络

    1. 网络结构包括哪些部分

      1. 输入层、隐藏层、输出层

      2. 参数包括:输入权重Wi、上一时刻权重Wh、输出权重Wo、偏置b

    2. 典型的参数学习方法

      1. BPTT

    3. BPTT算法的原理

      1. 基本思想和BP算法类似,都是将输出误差以某种形式反传给各层所有单元,各层按照本层误差修正个单元的连接权重

      2. 但BPTT的参数是共享的,每个时刻训练的都是相同的参数W和b。

      3. 且BPTT损失函数定义为每一个时刻的损失函数之和,它会在每一个时间步长内叠加所有对应权重的梯度

  5. RNN改进模型LSTM、GRU、Bi-LSTM各自是对之前算法什么问题做出的改进?以及做了哪些改进?

    1. LSTM是用来解决RNN的长距离依赖问题,它通过在循环单元内添加门结构来控制单元细胞状态来实现的

    2. GRU是用来解决RNN的长距离依赖问题和反向传播的梯度问题,可理解为LSTM的简化,它把LSTM的输入门和遗忘门合并为更新门,删除输出门新增了重置门。

    3. LSTM只能根据之前时刻的时序信息预测下一时刻的输出,但有些问题当前时刻的输出不仅与之前的状态有关,与未来的状态也有关系,Bi-LSTM就是为了解决这一问题,做到基于上下文判断。Bi-LSTM可看作两层神经网络,第一层第一层从句子的开头开始输入,第二层则从句子的最后一个词语输入,两层进行相同处理,并对得到的结果共同分析。

第四章 语言模型 词向量

  1. 统计语言模型建模方法(怎么用统计学习的方法构建语言模型)

    1. 统计语言模型的基本思想:用句子S=w1,w2,…,wn 的概率 p(S) 刻画句子的合理性

    2. 使用最大似然估计进行参数学习

    3. 用马尔可夫假设和n-gram模型来解决统计语言模型参数过多的问题

    4. 用数据平滑解决样本少引起的零概率问题

  2. 几种神经网络语言模型(DNN-NNLM、RNN-RNNLM)

    1. 模型架构

    2. 相比的优势和不足

      1. RNNLM的优势

        1. RNNLM 模型可以保留每个词的全部历史信息,不需简化为n-gram

        2. 引入词向量作为输入后不需要数据平滑

        3. 神经网络一般用RNN语言模型

    3. 输入、输出、要预测哪些参数、参数学习方法要掌握

      1. NNLM

        1. 输入:上文词向量拼接

        2. 输出:目标词概率

        3. 参数学习方法:BP

        4. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量

      2. RNNLM

        1. 直接输入:目标词的前一个词的词向量

        2. 间接输入:网络中的前文信息

        3. 输出:目标词概率

        4. 参数学习方法:BPTT

        5. 在训练语言模型同时也训练了词向量——预测的参数包括各模型参数和词向量

  3. 词向量

    1. 典型的词向量:CBOW、skip-gram、C&W要掌握学习方法和区别(输入、输出、学习方法)

      1. CBOW

        1. 输入:上下文词向量平均值

        2. 输出:目标词概率

        3. 参数学习方法:梯度下降法

      2. skip-gram

        1. 输入:目标词词向量

        2. 输出:上下文词概率

        3. 参数学习方法:梯度下降法

      3. C&W

        1. 输入:上下文及目标词词向量拼接

        2. 输出:上下文及目标词联合打分(正样本打高分、负样本打低分(负样本是将正样本序列中的中间词替换成其它词))

        3. 参数学习方法:采用pairwise的方式对文本片段进行优化

第五章 注意力机制

  1. 传统注意力机制

    1. 结构包括哪些模块

      1. 输入:K(集合)、Q

      2. 输出:V

      3. 三个阶段:

        1. 注意力打分函数

        2. softmax

        3. 加权求和

    2. 有哪些计算方法(有哪些注意力计算模式)

      1. 键值对模式 K!=V 是用V去加权求和计算输出值的

      2. 普通模式 K=V

    3. 不同类型的注意力机制是如何计算的?

      1. 软注意力 对输入句子的任意单词都计算概率,输出的是概率分布

      2. 硬注意力 直接从输入句子中找到某个单词,将其他单词硬性地认为对齐概率为0

      3. 全局注意力 计算attention时考虑encoding端序列中所有的词

      4. 局部注意力 软注意力和硬注意力的折中,在一个大小为D的窗口输出概率分布,窗口外的认为对齐概率为0

    4. 注意力机制在nlp领域的应用场景

      1. 在任何有“求和”的地方都能使用

      2. 宏观如机器翻译、图卷积的邻接节点聚集

  2. 注意力编码机制

    1. 对不同序列的不同编码方式

      1. 单一向量编码:将输入序列编码成单一向量表示(句表示、篇章表示、词的上下文表示)

      2. 不同序列间编码:将2个序列编码成二者融合的向量表示(匹配任务、阅读理解的混合层表示)

      3. 同一序列自编码:使用多头注意力编码对一个句子编码,起到句法分析器的作用

    2. 不同编码方式的计算方式

      1. 单一向量编码:句子各元素K序列与Q的关联关系

      2. 不同序列间编码:对K序列和Q序列编码

      3. 同一序列自编码:采用多头注意力机制,每头的Q=K=V且参数不共享,最后把各头的结果拼接

第六章 基础任务

  1. 文本分类和匹配了解基本技术思路即可

  2. 序列标注

    1. 马尔可夫、隐马尔可夫、隐马尔可夫+CRF 模型结构、组成部分有哪些、各组成部分的工作机制

      1. 马尔可夫模型

        1. 组成M =( S, π ,A) (三元组)

          1. S:模型中状态的集合

          2. A:与时间无关的状态转移概率矩阵

          3. p:初始状态空间的概率分布

      2. 隐马尔可夫模型

        1. 组成λ =( S, O, π ,A,B)或简写为 λ = (π ,A,B) (五元组)

          1. 状态序列Q:表示起决定作用的后台本质(天气)

          2. 观察序列O:表示观察到的前台现象(潮湿。。)

          3. B:给定状态下,观察值概率分布

    2. 隐马尔可夫的重要问题

      1. 评估问题的向前、向后算法的计算题

      2. 解码问题的维特比算法的计算题

    3. 隐马尔可夫+CRF

      1. 做序列标注的基本原理

      2. CRF的作用、和隐马尔可夫之间的关系

        1. 隐马尔可夫模型因为输出独立性假设,无法考虑上下文特征,故需要最大熵模型来解决该问题,但最大熵模型又有输出元素之间独立的问题,故使用CRF来使输出元素相关联,避免不合理输出

  3. 序列生成

    1. 3种序列生成网络的典型网络 方法、网络设计、特点、解决的问题、网络的结构

      1. 生成式-序列生成模型

        1. 特点:输出词表大小固定,且不会随输入变化

        2. 典型模型

          1. 基于RNN结构生成模型

            1. 存在曝光偏差问题

          2. RNN+Attention架构生成模型

            1. 使用attention来使RNN在机器翻译时,找到中英文对应词的关联关系

            2. 典型网络设计:BiLSTM + Attention 模型结构

              1. Encoding端采用双向RNN,Decoding端采用单向RNN

              2. 输入:X(源语句子)

              3. 输出:Y(目标语句子)

          3. 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/359620
推荐阅读
相关标签