赞
踩
写在前面
- 若有图片加载失败,请科学上网 。
- 本文为对软件学院孙老师语义计算实验室提供的教学录屏总结所得的复习笔记,仅供参考。以下为老师实验室的官网链接:
http://splab.sdu.edu.cn/zryycl1.htm- 写的比较匆忙,有遗漏、错误之处敬请指正。
- 考到第八章。
语言是人类描绘世界和思维的工具,语言是物质的,也是意识的。语言是自然科学,也是社会科学。而文本是语言的一种形式——本课程内容。
自然语言处理是人工智能和语言学领域的分支学科它研究能实现人与计算机之间用自然语言进行有效通信的各种理论、方法和系统,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
词义消歧:制服歹徒 vs 身穿制服
直观感受:一把把把把住了
句法模糊性:我们两人一组
情感分析任务:你行你来啊!
认知:是个体认识客观世界的信息加工的活动。包括感觉、知觉、抽象、记忆、思维、想象等认知功能,协作系统,从而实现对个体认识活动的调节作用。
科学:是真实反映客观事物固有规律的系统知识,一般独立于个体,具有结构化和系统化的特点。
技术:是创造符合主观认识的客观实际(实现预期目标)的方法、措施、手段。
计算:是数字化信息,并以交互的形式将对数据进行加工处理、返回推理结果的技术。
语素:与语言中不可分割的音形义结合体,是组词的基本结构单位。
词:是音义结合的定型结构,是句中最小的可以独立运用的语言单位。
字:是记录词和语素的书写单位。
概念意义
联想意义
社会意义
色彩意义
带有个人感情色彩和风格色彩的一种附加意义。
例如“暴君”,除了代表施以暴政的君主,还代表了人们对他的恐惧,厌恶心里。
语言是符号序列,词的向量化是将词从语言空间映射到数值空间。向量在映射过程中保留自然语言本身蕴含的信息,如语义和句法特征,比起单一的实数,向量能够包含更多信息。
老生常谈了。
特点:简单、向量维度等于词汇表的大小,当类别数量多的时候,特征空间会巨大;向量之间正交,无法计算相似度。
将文本看作词汇的统计量集合,该模型不考虑文本的语法和语序等信息,单独进行词频统计。
统计出来之后如图,取列向量作为每个词的向量表示。
TF-IDF。
TF:指的是词语在该文档中出现的次数。
TF = 某词在文档x中出现的次数 / 文档 x 的总词数
IDF:逆文档频率。
IDF = log (语料库文档数 / (包含该词的文档数 + 1) )
TF-IDF = TF * IDF
优点:一定程度上可以比较词汇的相似度。
缺点:
词汇的相似度比较是基于在文档中的共现情况,不是很准确。
获得的词汇向量维度为文档数,在大规模语料库上获得的向量维度高,且比较稀疏。(高维稀疏矩阵)
把词汇信息分布式存储在向量的各个维度中,这种分布式表示方法具有紧密、低维句法和语音信息容易获取的特点。
“词-词”共现矩阵:针对文档中的句子,设定滑动窗口,统计共现词汇出现的次数。矩阵的行列均代表特定词,矩阵元素代表词汇在同一个窗口中出现的次数。
“词-文档”共现矩阵:行代表词,列代表文档,矩阵为词在个文档中出现次数统计。
到此还没有结束,需要对稀疏矩阵进行矩阵分解降维,获取稠密矩阵。
奇异值分解(SVD)为常用方法:
U 的列向量是 方阵 A A T A A^T AAT 的特征向量,V的列向量是方阵 A T A A^T A ATA 的特征向量。对角矩阵 ∑ \sum ∑ 的元素 σ i = λ i \sigma _i = \sqrt{\lambda_i} σi=λi .
该算法性质:奇异值 σ \sigma σ 均 ≥ 0,且下降的特别快。可以用最大的 k 个的奇异值值和对应的左右奇异向量来保存原矩阵重要信息,达到降维的目的。
文档数为 N,词表大小为 M 的语料库上统计得到的 M*N 维矩阵奇异值分解后,左奇异矩阵由 M 个词的词向量组成,每行为一个 k 维词向量,右奇异矩阵由 N 个文档的文档向量组成,每列为一个 k 维文档向量。
语义网,收录了大约 117000 词汇。与传统词典相比不同:它将词汇分成四个大类,名词、动词、形容词、副词,根据词义而非词形来组织词汇。
如果同义词集合(即概念)没有上位同义词集合(即上位概念),即为独立起始概念。在 WordNet 名词体系中,共有 25 个独立起始概念。其他名词通过上位/下位关系与这些独立起始概念构成各自的独立层次结构。
名词网络是第一个发展起来的,名词网络的主干是蕴含关系的层次(上下位关系),最顶层的是25个抽象概念,称为基本类别始点。例如:实体,心理特征等。
一个单词包含多个含义,其细微差别取决于其上下文内容
出现在相似的上下文中的词汇,其语义也相似
d 维实数向量,如200,300,也称作稠密向量。
选择==窗口作为上下文,选择**语义相似度**评价词汇和上下文的语义关系,选择向量内积==计算相关性。
CBOW 和 Skip-gram 模型。
词汇表为 V V V,上下文窗口的单词个数为 C C C,词嵌入矩阵为 W W W,另外设定 W ’ W’ W’ 存放中心词汇的语义向量,方便计算。
长串文本语料,滑动窗口在其上选取上下文词汇和中心词汇,上下文词汇以独热形式输入。
通过激活函数(softmax)在词汇表 V V V 上,计算选择词汇的概率分布,概率最大的为预测单词。
采用哈夫曼树代替激活神经网络,叶节点对应表中的词汇,内部节点为概率选择神经网络的隐藏层神经元。
在内部节点和根节点中,采用二元逻辑回归(sigmoid函数)的方法进行路径选择,规定:沿着右子树走,即为正类(哈夫曼树编码为0);沿着左子树走,即为负类(哈夫曼树编码为1)。
路径选择最终到达某个叶节点,该叶节点对应词汇的预测概率即为由根到该叶节点的路径上的选择概率之积。
这些还是比较好理解的,就是从树的根走到叶节点(某个预测词),每走一步就乘一个P,最后乘得的结果就是该词的预测概率。
举个例子:
优点:
缺点:
基于全局矩阵分解的方法(如LSA),基于上下文窗口的方法(如CBOW, Skip-gram)都有不足。glove方法综合了两类训练分布式词向量的方法。
语言中,词汇承载着词性、语音、语义、语用四层信息。那么词向量对这些信息的承载情况如何?
希望词向量能够反映词汇之间的语义相关性。
使用词向量,测试单词之间的句法或语义关系,通常使用一组预先选定的查询词和语义相关的目标词。使用人工标注的相关性分数作为衡量嵌入质量的标准。
词汇语义相关性
计算余弦相似度:
c
o
s
(
u
i
,
u
j
)
=
u
i
⋅
u
j
∣
∣
u
u
∣
∣
2
×
∣
∣
u
j
∣
∣
2
cos(u_i,u_j) = \frac{u_i \cdot u_j }{||u_u||_2 \times ||u_j||_2}
cos(ui,uj)=∣∣uu∣∣2×∣∣uj∣∣2ui⋅uj
指标:spearman相关系数
词类比
词嵌入的结果通常作为下游任务的输入特征,测量该任务的性能指标的变化,比如:文本分类、词性标注等。
优点:反映了词向量对词汇语用的影响。
缺点:花费时间长,复杂性高。
词汇存在着一词多义的现象:比如东西(指某物品、或者方向)。而静态的词向量无法承载此类语用信息。
动态词向量做法:事先建模获得的词嵌入,在具体使用时,根据单词所在具体上下文的语境去调整单词的词嵌入,调整后的嵌入向量更能表达这个语境中词汇具体的含义。可较好地获取语用信息。
对于场景: 学生打开他们的()
n-gram是一组连续的n个词,选择不同的 n-gram 语言模型,可以进行不同级别的预测。
想法:使用不同的 n-gram 的统计量,计算下一个词的出现概率。
稀疏问题
依据:大数定律(Law of large numbers)描述当试验次数很大时,所出现的概率性质的定律,自然规律,即随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛。
解放方法:平滑。
对每个统计添加一个很小值,是概率统计变得平滑
从n-gram,降低到n-1-gram,如前面“学生打开他们的”中未出现,则转去计算“打开他们的”
将概率值从观测到的n-gram上移一部分到未观测到的n-gram:使用不同粒度的n-gram组合。
使用不同粒度的 n-gram 组合
如何评价语言模型:外部评估、内部评估。
困惑度:
P
P
(
W
)
=
P
(
w
1
w
2
.
.
.
w
N
)
−
1
N
=
1
P
(
w
1
w
2
.
.
.
w
N
)
N
PP(W) = P(w_1w_2...w_N)^{-\frac{1}{N}} = \sqrt[N]{\frac{1}{P(w_1w_2...w_N)}}
PP(W)=P(w1w2...wN)−N1=NP(w1w2...wN)1
其中,T为句子中的词数。
缺点
优点
回顾 n-gram 语言模型的任务:
它存在的问题:
那么构建一个基于窗口的神经网络。
优点:
缺点:
重复使用相同的权重 W。
隐藏状态计算:
h ( t ) = σ ( W h h ( t − 1 ) + W x x ( t ) + b 1 ) h^{(t)}=\sigma(W_h h^{(t-1)}+W_x x^{(t)}+b_1) h(t)=σ(Whh(t−1)+Wxx(t)+b1)
输出概率分布:
$\hat y=softmax(Uh^{t} + b_2)\in \mathbb{R} $
One-hot 向量转词嵌入
e t = E x ( t ) e^{t} = Ex^{(t)} et=Ex(t)
可视化:
语言模型、序列标注、文本分类、生成文本
优点:
缺点:
编译原理学过,概念不再过多介绍了。
文字不太好表述,有一个比较好的学习视频,讲的挺清楚的:
特点:
PCFG:为CFG中每条规则增加一个概率值。
如果可以生成多棵树,就把每棵树的P(S)加起来。
向内算法、向外算法(待补充)
优点
缺点
输入句子 S = w 0 w 1 . . . w n S = w_0w_1...w_n S=w0w1...wn
输出是一棵依存句法树,包含词之间的依存关系。
例如:句子中的“主谓宾”、“定状补”这些语法和各成分之间的关系。
1、一个句子中只有一个成分是独立的,即核心成分;
2、其它成分直接依存于某一成分,即除了核心成分外的部分;
3、任何一个成分都不能依存于两个或两个以上的成分;
4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
树库:依据语言学家制定的标签说明和标注规范,人工标注了大量的句子,形成句法分析语料库,称为树库(treebank )。
树库作为包含语言结构信息的语言资源,具有重要作用:
有三种操作。
来个示例,先别管怎么判断什么时候执行什么操作,先看看示例。
Ⅲ. 存在的问题
通过现有的信息,预测出下一步的转移操作。三层网络:输入、隐藏、softmax输出。
是序列标注任务的一种。能够辅助其他NLP任务。如句法分析、命名实体识别等。
HMM两个假设:
词性标注任务:
直接计算法
前向算法
后向算法
维特比算法:
概率无向图模型,又称马尔科夫随机场,表示联合概率分布。
简化形式
矩阵表示
前向后向算法
学习和预测
c. 评估指标
NER属于分类任务
正则表达式匹配
神经网络:CNN、RNN、BERT
用张量存储图像,然后用平均矩阵对数据进行平滑处理。
K-max池化
空洞卷积(空洞率或扩张率为2)
对标签输出进行预测
BiLSTM-CRF网络模型
Bi-LSTM进行打分,然后 CRF 进行一些约束限制:
比如句子开头应该是 B- 或者 O,而不是 I;
模式应该是“B-Person、I-Person,…” 而不是“B-Person、I-Organization”
等等。
两个方法:流水线式抽取、联合抽取。
远程监督的引入主要解决关系抽取数据集难以获得的问题。
CNN(上章内容)
特点
W和U是权重矩阵。W是用来连接x和门之间的神经元,根据x的特征来调节门层的输出,控制信息流动。U用于连接上一层隐藏神经状态和门层的神经元,控制信息流动。
适用范围:
Ⅲ. 平均折扣排名(MRR)
Ⅳ. 精准匹配(EM)
多标签评价指标
Ⅴ. Micro-F1
Ⅵ. Macro-F1
Ⅶ.
TextCNN
翻译是指把一个食物转化为另一个事务的过程。
重要性:
给模型反馈信息,指导模型的生成。
对生成结果判定,判定模型优劣。
问题描述:
基于准确率,引入信息量表示元组重要程度。
基于召回率,评估生成文本相对参考文本的n元组覆盖程度
基于准确率和召回率,考虑元组匹配数量和邻接关系
Ⅵ. 编辑距离
人工评估:
神经方法:
核心想法:从数据中学习概率模型。
IBM模型
Alignment:
SMT解码过程:
神经机器翻译,NMT。端到端建模,或者称seq2seq mdoel。通常是由编码器和解码器构成的。
神经机器翻译优点:
缺点:
在 Encoder 的最后一个时间步的隐藏层难以涵盖整个源语言信息,通过注意力机制,解码器在生成一个目标语单词时可以选择性地关注源句子中不同单词。
应用:
前沿问题:
核心特征:知识源通常是一篇文档或者段落
问题和答案的形式:
传统的问答系统:
代表性方法:
SAR++
BiDAF
DCN
基于BERT等预训练语言模型的方法
等等。
Ⅰ. 语义解析式方法
Ⅱ. 信息抽取式方法
在论文的摘要
提供参考摘要,以此为基准评价生成摘要的质量,越吻合质量越高。
不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等,能够提高应用性能的摘要被认为是质量好的摘要。
无监督方法,也可以用于关键词提取
文本句子作为节点,句子之间的相似度作为边的权重
通过循环迭代计算句子的重要性,进行句子排序
抽取排名高的句子组合成文本摘要
句子相似度评估
基于文本序列编辑距离: 通过编辑操作将句子 S i S_i Si 转换为 S j S_j Sj 的最小编辑次数或者最小编辑代价,两句子平均长度为 r ˉ \bar r rˉ .
BERTScore
基于词汇集合的评估
基于语义向量的评估
基于随机游走的句子排序
TextRank
PageRank(页面排序)
1、基本概念
给定一段文本,面向特定目标自动生成一段满足语法规则和语义的文本,依据输入形式的不同,文本生成划分以下几类:
2、评估
ADEM
BLEURT
对比
3、文本生成方法
4、挑战问题
5、未来发展方向
给定一个用户需求和文本库,依据文本与用户需求的语义相关性以及文本新颖性、权威性等任务依赖的特征,从库中筛选出用户感兴趣的文本并排序推荐给用户
分为以下几类:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。