当前位置:   article > 正文

【山东大学】NLP自然语言处理——复习笔记

【山东大学】NLP自然语言处理——复习笔记

写在前面

  1. 若有图片加载失败,请科学上网
  2. 本文为对软件学院孙老师语义计算实验室提供的教学录屏总结所得的复习笔记,仅供参考。以下为老师实验室的官网链接:
    http://splab.sdu.edu.cn/zryycl1.htm
  3. 写的比较匆忙,有遗漏、错误之处敬请指正。
  4. 考到第八章。

文章目录

自然语言处理

第一章

1、自然语言处理简介

​ 语言是人类描绘世界和思维的工具,语言是物质的,也是意识的。语言是自然科学,也是社会科学。而文本是语言的一种形式——本课程内容。

a.定义

​ 自然语言处理是人工智能和语言学领域的分支学科它研究能实现人与计算机之间用自然语言进行有效通信的各种理论、方法和系统,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

  • 比如文本理解就是指将输入的文本进行数字化计算后,根据任务目的处理有意思的符号结果。
b. 发展史
c. 微观语言学

image-20230609114548551

d. 宏观主题

image-20230609114744039

e. 主要的难点

词义消歧:制服歹徒 vs 身穿制服

直观感受:一把把把把住了

句法模糊性:我们两人一组

情感分析任务:你行你来啊!

f. 语言和技术的关系

认知:是个体认识客观世界的信息加工的活动。包括感觉、知觉、抽象、记忆、思维、想象等认知功能,协作系统,从而实现对个体认识活动的调节作用。

科学:是真实反映客观事物固有规律的系统知识,一般独立于个体,具有结构化和系统化的特点。

技术:是创造符合主观认识的客观实际(实现预期目标)的方法、措施、手段。

计算:是数字化信息,并以交互的形式将对数据进行加工处理、返回推理结果的技术。

2、词汇和词汇向量化

a. 词汇单位

语素:与语言中不可分割的音形义结合体,是组词的基本结构单位。

词:是音义结合的定型结构,是句中最小的可以独立运用的语言单位。

字:是记录词和语素的书写单位。

  • 语素和词属于语言符号系统,字则属于书写系统。
  • 大多数情况下,单音节汉字与单音节语素形成对应关系。
b. 词的意义
  • 概念意义

    • 对客观对象认知的基本内涵,用于区分不同对象,是词的核心。比如:“妇女”是指成年的、女性群体。
  • 联想意义

    • 一个词在长期的运用中,由词的基本意义而联想出来的其他特征。例如“妇女”可以联想到“家庭”,“贤惠”等。
  • 社会意义

    • 社会环境、时代背景、职业阶层、思想观念等差异带来的意义。
  • 色彩意义

    • 带有个人感情色彩和风格色彩的一种附加意义。

      例如“暴君”,除了代表施以暴政的君主,还代表了人们对他的恐惧,厌恶心里。

c. 词的向量化

语言是符号序列,词的向量化是将词从语言空间映射到数值空间。向量在映射过程中保留自然语言本身蕴含的信息,如语义和句法特征,比起单一的实数,向量能够包含更多信息。

(1) one-hot 独热编码

老生常谈了。

特点:简单、向量维度等于词汇表的大小,当类别数量多的时候,特征空间会巨大;向量之间正交,无法计算相似度。

(2) 基于词汇统计量的向量方法
Ⅰ. 直接计数

将文本看作词汇的统计量集合,该模型不考虑文本的语法和语序等信息,单独进行词频统计。

image-20230610110736367

统计出来之后如图,取列向量作为每个词的向量表示。

Ⅱ. 词频-逆文档序词频统计向量

​ TF-IDF。

  • TF:指的是词语在该文档中出现的次数。

    TF = 某词在文档x中出现的次数 / 文档 x 的总词数

  • IDF:逆文档频率。

    IDF = log (语料库文档数 / (包含该词的文档数 + 1) )

  • TF-IDF = TF * IDF

优点:一定程度上可以比较词汇的相似度。

缺点:

  • 词汇的相似度比较是基于在文档中的共现情况,不是很准确。

  • 获得的词汇向量维度为文档数,在大规模语料库上获得的向量维度高,且比较稀疏。(高维稀疏矩阵)

(3) 词的分布式表示

把词汇信息分布式存储在向量的各个维度中,这种分布式表示方法具有紧密、低维句法和语音信息容易获取的特点。

Ⅰ. 基于矩阵分布表示

“词-词”共现矩阵:针对文档中的句子,设定滑动窗口,统计共现词汇出现的次数。矩阵的行列均代表特定词,矩阵元素代表词汇在同一个窗口中出现的次数。

image-20230610113630939

“词-文档”共现矩阵:行代表词,列代表文档,矩阵为词在个文档中出现次数统计。

image-20230610113652363

到此还没有结束,需要对稀疏矩阵进行矩阵分解降维,获取稠密矩阵。

奇异值分解(SVD)为常用方法:

  • A = U ∑ V T A = U \sum V ^T A=UVT

U 的列向量是 方阵 A A T A A^T AAT 的特征向量,V的列向量是方阵 A T A A^T A ATA 的特征向量。对角矩阵 ∑ \sum 的元素 σ i = λ i \sigma _i = \sqrt{\lambda_i} σi=λi .

该算法性质:奇异值 σ \sigma σ 均 ≥ 0,且下降的特别快。可以用最大的 k 个的奇异值值和对应的左右奇异向量来保存原矩阵重要信息,达到降维的目的。

文档数为 N,词表大小为 M 的语料库上统计得到的 M*N 维矩阵奇异值分解后,左奇异矩阵由 M 个词的词向量组成,每行为一个 k 维词向量,右奇异矩阵由 N 个文档的文档向量组成,每列为一个 k 维文档向量。

Ⅱ. 基于聚类分布式
Ⅲ. 基于神经网络的分布表示

3、WordNet

a. 定义

语义网,收录了大约 117000 词汇。与传统词典相比不同:它将词汇分成四个大类,名词、动词、形容词、副词,根据词义而非词形来组织词汇。

  • 每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。多义词将出现在多个同义词集合中。
    • 同义关系
    • 反义关系
    • 上下位关系
    • 整体部分关系

​ 如果同义词集合(即概念)没有上位同义词集合(即上位概念),即为独立起始概念。在 WordNet 名词体系中,共有 25 个独立起始概念。其他名词通过上位/下位关系与这些独立起始概念构成各自的独立层次结构。

​ 名词网络是第一个发展起来的,名词网络的主干是蕴含关系的层次(上下位关系),最顶层的是25个抽象概念,称为基本类别始点。例如:实体,心理特征等。

b. 优点
  • 采用同义词集合作为基本的构建单位,无需描述性定义
  • 借助同义词集合,用户可以根据自己熟悉词去理解概念和其他词汇
  • 概念之间借助关联关系建立联系,从而扩充概念集合,方便用户理解,如同义关系、反义关系、上下位关系、整体和部分关系和继承关系等
  • 同义词集合只包含一个注释,相比传统词典中的多义词条形式的词汇解释,更方便保持在跨语言使用中的一致性
c.缺点
  • 缺少细微差别,例如“熟练”被列为“良好”的同义词
  • 无法高效推断词汇之间的关联关系,无法计算单词的相似度
  • 难以及时更新,不方便添加单词的新义
  • 由于是人工构建,存在主观意识影响。

4、词嵌入

a. 思想
  • 一个单词包含多个含义,其细微差别取决于其上下文内容

  • 出现在相似的上下文中的词汇,其语义也相似

b. 形式与做法
(1) 形式

​ d 维实数向量,如200,300,也称作稠密向量。

(2) 做法
  • 建模中心词汇和上下文词汇关系来获取嵌入
  • 选择一种方法描述该词的上下文
  • 选择一种模式刻画目标词与其上下文的关系
(3) Word2Vec
Ⅰ. 定义

选择==窗口作为上下文,选择**语义相似度**评价词汇和上下文的语义关系,选择向量内积==计算相关性。

Ⅱ. 建模方式

CBOW 和 Skip-gram 模型。

image-20230610193743508

c. CBOW
(1) 设定

​ 词汇表为 V V V,上下文窗口的单词个数为 C C C,词嵌入矩阵为 W W W,另外设定 W ’ W’ W 存放中心词汇的语义向量,方便计算。

(2) 输入

​ 长串文本语料,滑动窗口在其上选取上下文词汇和中心词汇,上下文词汇以独热形式输入。

(3) 处理
  1. 将上下文词汇独热向量乘以矩阵 W W W,获得上下文词汇各自的嵌入表示
  2. 通过求和平均,将之降维到与词向量相同维度 N ,用该 N 维隐层向量表示上下文的语义
  3. 内积计算相关性,将隐藏层向量乘以第二权重矩阵 W ’ W’ W计算上下文语义与可能的中心词的语义相关性,得到由 V V V个相似度值组成的向量
(4) 输出

​ 通过激活函数(softmax)在词汇表 V V V 上,计算选择词汇的概率分布,概率最大的为预测单词。

(5) 例子
image-20230610194451301 image-20230610194516244 image-20230610194606461 image-20230610194643444 image-20230610194703011
(6) 模型优化
Ⅰ. 为什么需要优化
  • 词汇表的大小直接影响词向量的计算和存储
  • 从隐藏层到输出的softmax层的计算量很大,其配分函数即概率归一化因子需要在整个词表上计算
Ⅱ. 优化方法
  • 层次化softmax方法
  • 负采样
(7) 层次化 softmax
Ⅰ. 基本思想
  • 采用哈夫曼树代替激活神经网络,叶节点对应表中的词汇,内部节点为概率选择神经网络的隐藏层神经元。

  • 在内部节点和根节点中,采用二元逻辑回归(sigmoid函数)的方法进行路径选择,规定:沿着右子树走,即为正类(哈夫曼树编码为0);沿着左子树走,即为负类(哈夫曼树编码为1)。

    image-20230610200139025
    • 其中, X w X_w Xw 是当前内部节点的向量,而 θ \theta θ 是我们需要从训练样本求出的逻辑回归的模型参数。
  • 路径选择最终到达某个叶节点,该叶节点对应词汇的预测概率即为由根到该叶节点的路径上的选择概率之积

  • 这些还是比较好理解的,就是从树的根走到叶节点(某个预测词),每走一步就乘一个P,最后乘得的结果就是该词的预测概率。

  • 举个例子:

image-20230610200527095

Ⅱ. 公式化
image-20230610200655076

image-20230610200736613

Ⅲ. 优缺点

优点:

  • 将一次多分类激活函数转变为多个二分类函数的组合,解决了归一化概率计算过程中,配分函数计算量大的问题
  • 根据单词在语料中出现概率不同,根据词频构建哈夫曼树,到达高频词汇叶节点路径较短,预测该词的概率时所需计算量较小

缺点:

  • 对于生僻的词,哈夫曼树路径较长,获取预测概率所需计算量相对较大。
(8) 负采样
Ⅰ. 基本思想
  • 采用二分类,将在词表上的预测任务转变为识别正负样例的任务。
  • 对于一个训练样本,目标词是 w w w ,它的上下文为 C C C .由于目标词 w w w C C C 真实存在,所以 ( C , w ) (C,w) (C,w) 是一个正例。通过负采样,得到 n e g neg neg 个和 w w w 不同的目标词 w i w_i wi , i i i = 1,2,… , n e g neg neg, ( C , w i ) (C,w_i) (C,wi) n e g neg neg并不真实存在的负例
  • 利用 ( C , w ) (C,w) (C,w) ( C , w i ) (C,w_i) (C,wi) , i i i = 1,2,… , n e g neg neg 。将 C C C 输入 CBOW模型,选择二分类激活函数,用 w w w w i w_i wi , i i i = 1,2,… , n e g neg neg 对应的位置的输出判断相应的目标词是正例词还是负例词。
Ⅱ. 公式化
image-20230610202125549 image-20230610202359806 image-20230610202534868
(9) Skip-gream
(10) Glove

基于全局矩阵分解的方法(如LSA),基于上下文窗口的方法(如CBOW, Skip-gram)都有不足。glove方法综合了两类训练分布式词向量的方法。

image-20230610203851610 image-20230610203753898

5、词向量评估

语言中,词汇承载着词性、语音、语义、语用四层信息。那么词向量对这些信息的承载情况如何?

image-20230610204123769

a. 词嵌入评估的动机

希望词向量能够反映词汇之间的语义相关性。

b. 做法

使用词向量,测试单词之间的句法或语义关系,通常使用一组预先选定的查询词和语义相关的目标词。使用人工标注的相关性分数作为衡量嵌入质量的标准。

  • 优点:在特定任务上直接进行向量计算,能够快速评估
  • 缺点:不清楚其是否真的有助于下游任务的性能
c. 评估任务
内部评估方法
  1. 词汇语义相关性

    计算余弦相似度:
    c o s ( u i , u j ) = u i ⋅ u j ∣ ∣ u u ∣ ∣ 2 × ∣ ∣ u j ∣ ∣ 2 cos(u_i,u_j) = \frac{u_i \cdot u_j }{||u_u||_2 \times ||u_j||_2} cos(ui,uj)=∣∣uu2×∣∣uj2uiuj
    指标:spearman相关系数

  2. 词类比

    image-20230610204851549 image-20230610204912304 image-20230610205015960
外部评估方法

词嵌入的结果通常作为下游任务的输入特征,测量该任务的性能指标的变化,比如:文本分类、词性标注等。

优点:反映了词向量对词汇语用的影响。

缺点:花费时间长,复杂性高。

d. 动态词向量

词汇存在着一词多义的现象:比如东西(指某物品、或者方向)。而静态的词向量无法承载此类语用信息。

动态词向量做法:事先建模获得的词嵌入,在具体使用时,根据单词所在具体上下文的语境去调整单词的词嵌入,调整后的嵌入向量更能表达这个语境中词汇具体的含义。可较好地获取语用信息。

  • 动态词向量模型:ELMO、BERT等。

第二章 语言模型和循环神经网络

1、语言模型是什么

  • 语言模型是建模“预测一个语言样本/实例的能力”
  • 基本语言模型
    • 通过可见的词序列,预测下一个单词是什么。
    • 给定词序列,计算下一个词的概率分布。
  • 也可以将语言模型视为一个计算文本概率的系统

2、n-gram 语言模型

a. 定义

对于场景: 学生打开他们的()

n-gram是一组连续的n个词,选择不同的 n-gram 语言模型,可以进行不同级别的预测。

image-20230611093907341

想法:使用不同的 n-gram 的统计量,计算下一个词的出现概率。

b.马尔可夫模型

image-20230611131954595

c. 计算

image-20230611132018451

d. n-gram的问题

稀疏问题

  • 如果“学生打开他们的”出现的次数为0,则分母为0,无法计算。
  • 如果“学生打开他们的w”未出现过,则w的概率为0,没有结果。
c. 概率为0的解决方法

依据:大数定律(Law of large numbers)描述当试验次数很大时,所出现的概率性质的定律,自然规律,即随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛。

解放方法:平滑。

Ⅰ. 加法

对每个统计添加一个很小值,是概率统计变得平滑

image-20230611132845697

Ⅱ. 回退

从n-gram,降低到n-1-gram,如前面“学生打开他们的”中未出现,则转去计算“打开他们的”

Ⅲ. 折扣

将概率值从观测到的n-gram上移一部分到未观测到的n-gram:使用不同粒度的n-gram组合。

Ⅳ. 插值

使用不同粒度的 n-gram 组合

image-20230611132902531
d. n-gram 生成文本
image-20230611133123322 image-20230611133136729 image-20230611133151153

3、语言模型评价指标

如何评价语言模型:外部评估、内部评估。

a. 模型的外部评估
image-20230611133640407
b. 模型的内部评估

困惑度:
P P ( W ) = P ( w 1 w 2 . . . w N ) − 1 N = 1 P ( w 1 w 2 . . . w N ) N PP(W) = P(w_1w_2...w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1w_2...w_N)}} PP(W)=P(w1w2...wN)N1=NP(w1w2...wN)1
其中,T为句子中的词数。

image-20230611134532490
c. 困惑度评价的特点

缺点

  • 近似评估,不能完全反映语言的本质,和文本质量
  • 测试数据与训练数据存在差距的情况下,不能很好的评估,如相同领域或是相同作者的文本
  • 通常用于预训练或辅助测试生成文本的质量

优点

  • 对思考语言的本质或文本的质量很有帮助

4、神经网络语言模型

a. 引入

回顾 n-gram 语言模型的任务:

image-20230611134857603

它存在的问题:

  • 需要存储数据集中所有 n-gram 的统计结果
  • 增加 n 或者增大数据集的大小,都增加了模型计算的复杂度。

那么构建一个基于窗口的神经网络。

b. 神经网络结构

image-20230611135446060

c. 特点

优点:

  • 改善了 n-gram LM,不需要存储 n-grams,消除了稀疏概率问题。

缺点:

  • 窗口太小,增大窗口会增加参数 W ,合适的窗口大小不好定。
  • x ( 1 ) , x ( 2 ) x^{(1)}, x^{(2)} x(1),x(2) 和 W 中完全不同的部分相乘,对于输出的处理不对称。我们需要神经网络能处理任意长度的输入,同时能对称处理输入。

5、循环神经网络语言模型

a. 核心思想

​ 重复使用相同的权重 W。

b. 结构图
image-20230611141542049
c. 计算

隐藏状态计算:

h ( t ) = σ ( W h h ( t − 1 ) + W x x ( t ) + b 1 ) h^{(t)}=\sigma(W_h h^{(t-1)}+W_x x^{(t)}+b_1) h(t)=σ(Whh(t1)+Wxx(t)+b1)

输出概率分布:

​ $\hat y=softmax(Uh^{t} + b_2)\in \mathbb{R} $

One-hot 向量转词嵌入

e t = E x ( t ) e^{t} = Ex^{(t)} et=Ex(t)

d. 示例
image-20230611142037487
e. 模型训练
image-20230611142156687

可视化:

image-20230611142406559
f. 应用

语言模型、序列标注、文本分类、生成文本

g. 特点

优点:

  • 不增加模型复杂度的情况下,处理任意长度输入
  • 第t个时间步的计算使用了前面时间步的信息
  • 每个时间步使用了相同的权重,保证了对输入序列处理的对称性

缺点:

  • 循环计算很慢
  • 长距离依赖的建模能力不强

第三章

1、句子结构和句法分析

a. 上下文无关文法

编译原理学过,概念不再过多介绍了。

image-20230611143151576
Ⅰ. CYK算法
image-20230611151602933

文字不太好表述,有一个比较好的学习视频,讲的挺清楚的:

学习视频_点我跳转

特点:

  • 本质上是一种自底向上分析法采用广度优先的搜索策略;
  • 采用并行算法,不需要回溯,没有冗余的操作;
  • 时间复杂度O(n3);
  • 由于采用广度优先搜索,在歧义较多时,必须分析到最后才知道结果,无法采用启发式策略进行改进
b. 概率上下文无关文法

PCFG:为CFG中每条规则增加一个概率值。

image-20230611155241555

如果可以生成多棵树,就把每棵树的P(S)加起来。

image-20230611164457737

向内算法、向外算法(待补充)

c. 概率上下文无关文法优缺点

优点

  • 对句法分析的歧义结果进行概率排序
  • 提高文法的容错能力(robustness)

缺点

  • 没有考虑词对结构分析的影响
  • 没有考虑上下文对结构分析的影响

2、依存句法分析

a. 依存句法介绍
Ⅰ. 依存句法任务
  • 输入句子 S = w 0 w 1 . . . w n S = w_0w_1...w_n S=w0w1...wn

  • 输出是一棵依存句法树,包含词之间的依存关系。

  • 例如:句子中的“主谓宾”、“定状补”这些语法和各成分之间的关系。

  • image-20230611165149259
Ⅱ. 重要概念
  • 依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。
    依存句法理论中,“依存”指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系具有方向。支配者和从属者。
Ⅲ. 公理

1、一个句子中只有一个成分是独立的,即核心成分;

2、其它成分直接依存于某一成分,即除了核心成分外的部分;

3、任何一个成分都不能依存于两个或两个以上的成分;

4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;

image-20230611165836597
b. 标注数据集

树库:依据语言学家制定的标签说明和标注规范,人工标注了大量的句子,形成句法分析语料库,称为树库(treebank )。

树库作为包含语言结构信息的语言资源,具有重要作用:

  • 为基于统计的句法分析器提供必要的训练数据和测评平台;
  • 为汉语句法学研究提供真实文本标注素材,便于语言学家从中总系语言规则和规律;
  • 句子内部的词语义项和语义关系标注的基础。
c. 评价指标
image-20230611170144854

image-20230611170340883

d. 基于转移的依存句法分析器
Ⅰ. 字符说明
image-20230611171814904
Ⅱ. 算法操作

有三种操作。

image-20230611171822471

来个示例,先别管怎么判断什么时候执行什么操作,先看看示例。

image-20230611172032914 image-20230611172040873

Ⅲ. 存在的问题

  • 该算法需要根据一张表(特征集合)来判断下一步怎么操作,而该表量大稀疏。
  • 特征都是人工提取的模板,需要专业知识的情况下还常常不全面。
  • 特征函数的计算量大,耗费时间。
Ⅳ. 使用神经网络表示

通过现有的信息,预测出下一步的转移操作。三层网络:输入、隐藏、softmax输出。

  • 输入层:从配置中提取特征,分别将单词、词性和已经产生的依存标签三种输入的嵌入连接起来。
e. 基于堆栈网络的依存句法分析器
image-20230611172603464
  • 字符级别的嵌入:先给字母随机初始化指定维度的向量,用CNN卷积后经过池化层得到单词的字符表示。将字符级嵌入和词嵌入拼接送入到Bi-LSTM。
  • 解码器接受堆栈信息和编码器的信息。
  • 注意力机制
  • image-20230611173355998
f. 基于图神经网络的依存句法分析器
Ⅰ. 思想:
  • 为句子生成一个有向图,节点是单词,边是单词之间的依存关系
  • 每条可能的边分配一个权重或概率,然后构造此图的最大生成树(Maximum Spaning Tree,MST)
  • 对应于依存句法中的句子核心成分,加入了虚根节点。
  • 每个词必须依存于其他词,依存图中边的个数和单词的个数相等。

第四章 词性标注

1、词性标注

是序列标注任务的一种。能够辅助其他NLP任务。如句法分析、命名实体识别等。

image-20230611174512514

image-20230611174654002

2、关键技术

a. HMM,隐马尔科夫模型。
image-20230611174821307

HMM两个假设:

  • 其次马尔可夫假设:当前状态只与前一个状态有关。
  • 观测独立假设:当前观测只与当前状态有关。

词性标注任务:

image-20230611175105582

image-20230611175159802
Ⅰ. 概率计算问题:
  • 直接计算法

    image-20230611202120800
  • 前向算法

    image-20230611202153228

  • 后向算法

    image-20230611202207058

Ⅱ. 学习问题
image-20230611202452272

维特比算法:

image-20230611202529654
Ⅲ. 基于HMM的词性标注
image-20230611202624223

3、条件随机场(CRF)

image-20230611205605071

概率无向图模型,又称马尔科夫随机场,表示联合概率分布。

image-20230611205731494 image-20230611205830864 image-20230612084703403 image-20230612090347261 image-20230612090433303 image-20230612090533155 image-20230612090631319

简化形式

image-20230612090730845

矩阵表示

image-20230612091221379

image-20230612091229619

前向后向算法

image-20230612091301934

image-20230612091334387

image-20230612091342444

学习和预测

image-20230612091356973

image-20230612091406508

第五章 命名实体识别

1、背景介绍

a. 定义
image-20230612091626496 image-20230612091701223
b. 标注方法

image-20230612091814428

c. 评估指标

NER属于分类任务

image-20230612091956774

2、问题挑战

image-20230612092045348

image-20230612092139835

3、关键技术

a. 基于规则的命名实体识别

正则表达式匹配

image-20230612092227287
b. 基于特征的监督学习方法
image-20230612092350497
c. 基于深度学习的方法

image-20230612092431640

文本输入形式
Ⅰ. 静态词向量:Word2Vec,Glove
Ⅱ. 字符嵌入:CNN、RNN
image-20230612092633635
Ⅲ. 增加额外的信息进行特征表示
image-20230612092712762
文本上下文编码

神经网络:CNN、RNN、BERT

卷积
image-20230612092854875
使用卷积的动机

image-20230612092922256

image-20230612092953328
图像卷积

用张量存储图像,然后用平均矩阵对数据进行平滑处理。

image-20230612093143418

卷积核
image-20230612093301777
填充

image-20230612093335068

步幅
image-20230612093349569
池化层
image-20230612093408301 image-20230612093630914 image-20230612093749727

K-max池化

image-20230612094259960

空洞卷积(空洞率或扩张率为2)

image-20230612094503980

标签解码层

对标签输出进行预测

image-20230612094631473

BiLSTM-CRF网络模型

image-20230612095210957

Bi-LSTM进行打分,然后 CRF 进行一些约束限制:

比如句子开头应该是 B- 或者 O,而不是 I;

模式应该是“B-Person、I-Person,…” 而不是“B-Person、I-Organization”

等等。

优缺点

image-20230612095237310

4、关系抽取(继命名实体识别)

a. 定义
image-20230612095531179
b. 流程

两个方法:流水线式抽取、联合抽取。

  • 流水线:首先做实体识别,再抽取出两个实体的关系。
  • 联合抽取:一步到位,同时做好实体和关系的抽取。
c. 挑战

image-20230612095731309

远程监督的引入主要解决关系抽取数据集难以获得的问题。

d. 作用
image-20230612100037236
e. 老师的实验室工作

image-20230612100232318

image-20230612100335972 image-20230612100352714

image-20230612100423276

f. 基于多任务学习的NER模型
Ⅰ. 核心要点
image-20230612100504286
Ⅱ. 基于静态词向量的NER模型
image-20230612100611279
Ⅲ. 基于动态词向量的
image-20230612100620765
Ⅳ. 整个学习过程
image-20230612100655461 image-20230612100758256 image-20230612100812549

第六章 文本编码方法和文本分类

CNN(上章内容)

1、RNN

image-20230612103503060

特点

image-20230612103730968

2、LSTM

image-20230612103813724 image-20230612103837433

W和U是权重矩阵。W是用来连接x和门之间的神经元,根据x的特征来调节门层的输出,控制信息流动。U用于连接上一层隐藏神经状态和门层的神经元,控制信息流动。

3、基于BiLSTM的文本编码

image-20230612104555544

4、注意力

image-20230612104620218 image-20230612104728761 image-20230612104738475

5、评价

image-20230612104758884

6、文本分类问题

a. 定义
image-20230612104940290
b. 应用
image-20230612105121621
c. 评价指标
image-20230612105141903
Ⅰ. 准确率和错误率
image-20230612105220736
Ⅱ. 查准率、召回率、F1值

image-20230612105323742

适用范围:

image-20230612105351422

Ⅲ. 平均折扣排名(MRR)

image-20230612105453653

Ⅳ. 精准匹配(EM)

多标签评价指标

Ⅴ. Micro-F1

image-20230612105729763

Ⅵ. Macro-F1

image-20230612105749842

Ⅶ.

image-20230612105922916 image-20230612105936986
d. 基于CNN的文本编码

TextCNN

image-20230612110046232

第七章 机器翻译

1、机器翻译简介

翻译是指把一个食物转化为另一个事务的过程。

a. 机器翻译任务评估

重要性:

  • 给模型反馈信息,指导模型的生成。

  • 对生成结果判定,判定模型优劣。

问题描述:

image-20230612110525015
Ⅰ. BLEU-n
image-20230612113845582 image-20230612113902199 image-20230612114036479
Ⅱ. NIST

基于准确率,引入信息量表示元组重要程度。

image-20230612114202053
Ⅲ. ROUGE-n

基于召回率,评估生成文本相对参考文本的n元组覆盖程度

image-20230612114309367
Ⅳ. METEOR

基于准确率和召回率,考虑元组匹配数量和邻接关系

image-20230612114359174
Ⅴ. ROUGE-L
image-20230612114435458

Ⅵ. 编辑距离

image-20230612114526164 image-20230612114538877
b. 文本序列语义的评估
Ⅰ. 动机
  • 语言的丰富性体现在使用不同的词汇和形式的文本可以表达相同的语义。
Ⅱ. 方法
image-20230612114808833 image-20230612114820387 image-20230612114847429 image-20230612114856892

人工评估:

image-20230612115113304

神经方法:

image-20230612115137184

2、基于统计的机器翻译

核心想法:从数据中学习概率模型。

image-20230612115449780 image-20230612115526256

IBM模型

image-20230612115614582

Alignment:

SMT解码过程:

image-20230612115809972

3、基于神经网络的机器翻译

神经机器翻译,NMT。端到端建模,或者称seq2seq mdoel。通常是由编码器和解码器构成的。

a. 网络结构
image-20230612120220715 image-20230612120248755
b. 与统计机器翻译对比
image-20230612120341921

神经机器翻译优点:

  • 更加流畅,能够更好地运用上下文信息,整体的翻译效果更好。
  • 能够端到端地训练
  • 不需要特征工程,消耗更少的人力物力
  • 一种模型可以运用到多种语言上

缺点:

  • 一些常识、成语较难翻译
image-20230612120541141

4、基于注意力机制的机器翻译

在 Encoder 的最后一个时间步的隐藏层难以涵盖整个源语言信息,通过注意力机制,解码器在生成一个目标语单词时可以选择性地关注源句子中不同单词。

image-20230612120824781 image-20230612120837205 image-20230612120853621

应用

  • 现代文与文言文互译
  • 不同作家写作风格迁移
  • 对联翻译

前沿问题

  • 多语言翻译
  • 同声传译
  • 篇章翻译

第八章 问答系统

1、问答系统的概念的要素

a. 问答任务
Ⅰ. 动机
image-20230612121254497
Ⅱ. 任务描述和结构
image-20230612121311368
Ⅲ. 包含的要点

image-20230612121345712

image-20230612121411851

Ⅳ. 任务评价
image-20230612144337454

2、基于文档的问答系统

a. 简介

核心特征:知识源通常是一篇文档或者段落

问题和答案的形式:

  • 片段选择∶自然语言问题,从知识源的文段中选取短语或句子作为答案
  • 选择题/完形填空:给定问题的候选答案从中选择,或填充不完整的句子
  • 文本生成:自由生成自然语言形式的答案

传统的问答系统:

image-20230612144934185
b. 神经网络问答系统方法
  • 基本架构
    • 分别对文档核问题进行编码
    • 文档和问题进行交互
    • 进行答案预测
  • 难点
    • 对文档全文的理解能力
    • 获取问题对文档的关注点的能力

代表性方法:

  • SAR
image-20230612145102593 image-20230612145150928
  • SAR++

    • 在SAR的基础上引入了更多的特征,变换了问题编码的方式
      • 词性标注、NER标注、是否在问题中出现、使用注意力机制引入问题编码
  • BiDAF

    • 在SAR中,注意力由问题向文档单向流动
    • BiDAF的核心思想:注意力流动层。即也应注意文档对问题的注意力,注意力应该双向流动
  • DCN

    • 使用多次交互的注意力来增强文档与问题的交互。
  • 基于BERT等预训练语言模型的方法

等等。

3、基于知识库的问答系统

a. 简介
image-20230612150639844
b. 具体方法

Ⅰ. 语义解析式方法

image-20230612150721977

Ⅱ. 信息抽取式方法

image-20230612150826025

4、视觉问答系统

image-20230612150849069

5、应用

  • IBM Watson
  • Siri
  • 谷歌等搜索引擎

第九章 自动摘要

1、什么是文本摘要

a. 概念
image-20230612151109970
  • 在论文的摘要

    image-20230612151144364
b. 特点
image-20230612151400578

2、文本摘要任务类型和应用场景

  • 新闻摘要
  • 文章压缩
  • 文献检索:关键词检索、主题检索、摘要检索
  • 生成报告总结
  • 评论精选

3、文本摘要重要性

  • Web上大量快速增长的问嗯信息使用户很难阅读所有可能感兴趣的材料。自动摘要通过自动创建一个或多个文本文档的简明摘要来缓解这种信息过载问题。
  • 为满足大众阅读在时间上的跳跃性和阅读的愉悦性,需要高效处理信息。

4、摘要任务的困难和挑战

image-20230612151737336

5、摘要任务的评价指标

a. 评估要素
  • 冗余度
  • 相关性
  • 信息量
  • 重要性
    • 人工评价和自动评价两种方式
b. 自动评估
Ⅰ. 内部评价

提供参考摘要,以此为基准评价生成摘要的质量,越吻合质量越高。

  • ROUGE-N,ROUGE-L
Ⅱ. 外部评价

不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等,能够提高应用性能的摘要被认为是质量好的摘要。

6、抽取式摘要

a. 简介
image-20230612152307593
b. 算法
Ⅰ. TextRank
  • 无监督方法,也可以用于关键词提取

  • 文本句子作为节点,句子之间的相似度作为边的权重

  • 通过循环迭代计算句子的重要性,进行句子排序

  • 抽取排名高的句子组合成文本摘要

    image-20230612152459185

​ 句子相似度评估

  • 基于文本序列编辑距离: 通过编辑操作将句子 S i S_i Si 转换为 S j S_j Sj 的最小编辑次数或者最小编辑代价,两句子平均长度为 r ˉ \bar r rˉ .

    image-20230612152725436
  • BERTScore

    image-20230612152750576
  • 基于词汇集合的评估

    image-20230612152858666
  • 基于语义向量的评估

    image-20230612152907845

基于随机游走的句子排序

TextRank

image-20230612153050269

PageRank(页面排序)

image-20230612153147731
Ⅱ. SummaRuNNer
image-20230612153405900

image-20230612153443989

image-20230612153459210

image-20230612153520727

  • 该模型的训练需要监督数据,现有数据集往往没有对应的句子级别的标签,因此需要通过启发式规则进行获取。
  • 首先选取原文中与标准摘要计算ROUGE得分最高的一句话加入候选集合,接着继续从原文中进行选择,保证选出的摘要集合ROUGE得分增加,直至无法满足该条件。
  • 得到的候选摘要集合对应的句子设为1标签,其余为О标签。
    • 总结就是一直往集合里面添加句子,使ROUGE得分增加(最快)。

第十章 文本生成

1、基本概念

给定一段文本,面向特定目标自动生成一段满足语法规则和语义的文本,依据输入形式的不同,文本生成划分以下几类:

  • 文本到文本的生成
    • 给定文本进行变换和处理从而得到新的文本的过程
    • 生成答案、摘要、对话、生成代码,等等
  • 数据到文本的生成
    • 根据给定的结构化数据生成相关文本的过程
    • 根据数据生成天气预报、体育新闻、医疗报告等等
  • 图像到文本的生成
    • 根据给定图像生成描述图像内容的文本的过程

2、评估

image-20230612155109150
  • ADEM

    image-20230612155322329
  • BLEURT

    image-20230612155351262
  • 对比

    image-20230612155422792

3、文本生成方法

4、挑战问题

5、未来发展方向

第十一章 文本推荐

1、概念和要素

​ 给定一个用户需求和文本库,依据文本与用户需求的语义相关性以及文本新颖性、权威性等任务依赖的特征,从库中筛选出用户感兴趣的文本并排序推荐给用户

分为以下几类:

  • 基于用户行为的文本推荐
    • 从用户的发布文本、浏览文本等历史行为中分析需求
  • 基于检索词的文本推荐
    • 用户提出一组关键词作为需求
  • 基于当前浏览内容的文本推荐
    • 向用户推荐与当前网页展示的文本相关的其他文本

2、应用领域

  • 面向注册用户的个性化文本推荐
    • 文本表示方法:语义向量、属性嵌入……
  • 文本检索、用户查询
    • 文本表示方法:预训练的词嵌入、话题模型
  • 当前阅读内容的相关推荐

3、文本推荐评估

image-20230612160307493 image-20230612160343935

4、学术论文推荐

a. 动机

image-20230612160452486

5、总结

image-20230612160843941
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/747279
推荐阅读
相关标签
  

闽ICP备14008679号