赞
踩
基本学习机制(有监督学习、多层感知器、基于梯度的训练以及用于实现和训练神经网络的计算图抽象)。
1、
2、hinge损失=合页损失=间隔损失=支持向量机损失=01损失
3、损失函数
合页损失(二分类、多分类)
二元交叉熵(逻辑斯蒂损失)——被用于输出为条件概率分布的二元分类中。
分类交叉熵损失——得分为概率
等级损失——给正确项打比不正确项高的分
4、弹性网络正则器:L1正则和L2正则的组合。
5、凸函数是二阶导数总是非负的函数。
6、训练方法
随机梯度下降法(SGD)
批量随机梯度下降Minibatch
SGD+Momentum
Nesterov Momentum
AdaGrad
AdaDelta
Adam
7、常见的非线性函数:sigmoid、tanh、ReLU。
8、xavier初始化:基于tanh激活函数的性质提出;高斯分布采样权值初始化:针对ReLU非线性激活函数。
9、随机初始化=随机重启。
10、饱和神经元——输出接近1,输入层值太大,解决方法:归一化饱和值;死神经元——输出接近0,输入层的负值引起,减少学习率可缓解。
- 文本特征构造
- NLP特征案例分析
- 从文本特征到输入
- 语言模型
- 预训练的词表示
- 使用词嵌入
- 案例分析:一种用于句子意义推理的前馈结构
文本特征构造
1、NLP分类问题中的拓扑结构
(1)词。对大部分词来说,它们的解释依赖于其出现的上下文。
(2)文本:短语、句子、段落、文章。
(3)成对文本。给定一对词或文本,需要了解成对的信息。如:句子A能否通过句子B推断?A是B的一个有效翻译吗?
(4)上下文中的词。对文本上下文的词进行分类。
(5)词之间的关系。
2、分词:以空格和标点符号为基准来分割文本为符号的过程。
#英文因为词都是分开的所以好分割,但是类似中文和希伯来语等不以空格分割的语言则不好分割。
3、分词器的输出称为“token”,将带语义的单元称为“word”。一个token可能由多个word组成,多个token也可能是一个word。
4、NLP问题中的特征
特征通常表现为标量和可数形式。标量特征常取0/1值,可数特征的取值取决于给定一个事件出现的频率。
(1)直接可观测特征
单独词特征(独立与上下文的词):组成词的字符及其次序和属性。如:单词的长度、字形(第一个字母是否大写?是否包含连字符?是否包含数字?词的前缀后缀等…)、词与外部信息资源的联系(词频、词是否为常用词等)等。
词元(词典条目)和词干。将词语的不同形式映射到它们的通用词元上,映射由词元集或形态分析器完成。词干处理是以特定语言的启发式规则将词序列映射为更短的序列,可以将不同的影响序列映射为相同的序列。
(1)词元举例:book是booking、booked、books等词的通用词元;
(2)词的词元是歧义的,融合上下文信息可以消歧。
(3)词干提取的结果不需要是一个有效的词,不同策略下会产生多种提取结果。
词典资源。常用词典资源:
WordNet:人工构建。尝试捕捉关于词的概念语义知识。每一个同义词描述一个概念,每个词均属于一个或多个同义词集。包含与名词、动词、形容词和副词有关的信息。
FrameNet:人工构建。重点围绕动词,列举了持有同一论元的动词以及非核心论元。
VerbNet:人工构建。同FrameNet。
PPDB:自动构建的有关复述的数据集。列举了词和短语及其近义词。
分布信息。
文本特征:词袋BOW、权重(结合外部信息的统计结果为词添加权重,如TF-IDF权重)。
上下文特征:窗口(聚焦于词的直接上下文,用特征代替出现在窗口中的词)、绝对位置(如,目标词是句子中的第5个词))
词关系特征:词间距离。
(2)可推断的语言学特征:词性标签、语法树、语义角色、篇章关系、回指(指代消解)和其他语言学属性。
#语法标注:成分树、依存树
(3)核心特征和组合特征。
(4)n元组特征:在给定的长度下由连续的词序列组成。
(5)分布特征:通过词出现的上下文去学习词的归一化。聚类、词嵌入。
NLP 特征的案例分析
1、文本分类——语言识别。
#字母级二元文法词袋:每个可能的二阶字母对是一个核心特征,对于给定的文档,其核心特征的值是该特征在文档中的计数。 一个类似的任务是编码检测。
2、文本分类——主题分类:对于给定的文档,需要将它归类为一组预定义的主题。
#将词作为基本单位。
#缺乏训练样本——把词替换成词元/用分布特征替换补充单词;
#使用线性分类器——考虑单词对作为特征。
3、文本分类——作者归属
#特征的选择应该侧重文体属性。参考特征集合:功能词与代词词袋,词性词袋,词性的二元文法、 三元文法、四元文法词袋 ,能词的密度(即功能词与文本窗口中的内容词数量之间的比值)、删除内容词后的功能词二元文法词袋与连贯功能词之间的距离分布 。
4、上下文中的单词——词性标注
17个词性标签:形容词 , 介词,副词,助动词,并列连词,限定词 , 感叹词,名词,数字 ,小品词,代词 ,专有名词 , 标点,从属连词,符号 ,动t司等 。
信息来源:内部线索(词本身)和外部线索(上下文)。
(1)内部线索包括词的识别(例如,有些词比其他词更有可能是名词)、前缀、后缀、正字词的形状,以及单词在大语料库中的频率。
(2)外部线索包括单词的标识、前缀和当前单词周围单词的后缀,以及前面单词的词性预测结果 。
5、上下文中的单词——命名实体识别(NER)
序列分割任务。使用标注来解决分割任务一般都是用 BIO 标签,如下图所示。
6、上下文中单词的语言特征——介词词义消歧
介词消歧任务处理是从有限的语义集合中选择正确的意义分配给上下文中的介词 。
一个消歧的办法:使用依存分析器从语法树中后去调控器和对象信息,同时参考解析器和和启发式规则提取出的调控器和对象信息,并将它们作为特征源,通过学习特征源来进一步提取特征。若允许使用外部资源并不介意扩大特征空间,则可以使用Hovy et al.2010基于WordNet的特征。
7、上下文中单词的关系——弧分解分析
依存分析建模的一种方法——弧分解:每个可能的d 个词词关系( arc)被分配一个独立的分数,然后我们搜索得到一个最大化总体分数的有效的树。分数通过训练好的打分函数ARCSCORE分配,接收给定的句子以及句子中分配的候选词对 h 和 m(h 是候选头词的索引, m 是候选修饰词的索引)。
从文本特征到输入
1、编码特征分类
4、向量共享。
语言模型
1、语言模型就是给任何词序列分配一个概率的任务。
2、语言模型评估:困惑度
#困惑度是一种信息论测度,用来测量一个概率模型预测样本的好坏,困惑度越低越好。
3、传统方法:假设K阶马尔科夫性质,并求下式的最大似然估计。
传统方法的缺点在于:若序列从未在语料中被观察都,则模型分配的概率为0,从而导致整个语料的0-概率分配,造成非常大的困惑度。
解决方法——使用平滑技术(添加平滑——add a平滑,退避),确保每个可能的情况都分配到一个概率。
5、神经语言模型
预训练的词表示(词嵌入的生成)
1、随机初始化(在一定范围内均匀采样)
#将词嵌入向量初始化为随机值,以下d表示维度数。
Word2Vec的采样区间:
xavier初始化的采样区间:
2、预训练
(1)有监督的特定任务的预训练
(2)无监督的预训练——相似的词的词嵌入向量应该也是相似的。
#出现相似的上下文中的词是相似的。
3、词嵌入算法
(1)分布式假设和词表示:相同上下文中出现的词倾向于具有相似的含义。
(2) 神经语言模型
(4)其他算法
NCE(噪声对比估计):相当于将矩阵项为对数条件概率的词上下文矩阵进行因式分解。
#与word2vec的变体SGNS相似。
Glove:参数是学习不是固定的。优化目标是加权最小二乘法损失函数,给频繁词条正确地赋予更多权重。
4、上下文的选择
(1)窗口法
#滑动窗口法。
焦点词:中间词
上下文:焦点词两侧的词
(2) 句子、段落或文档:将词及其上下文代替整个句子、段落或文档。
(3)句法窗口:相当于用缩写的句子代替整个句子。能产生高度相似性。
(4)多语种。例如双语对齐模型IBM,使用生成的对齐来推出词的上下文。
(5)基于字符级别和字词的表示
5、处理多字单元和字变形。
多字单元处理方法:符号串词条列表,并用文本替换单个实体。
字变形:语料预处理。(词性标注)
6、分布式方法的限制
使用词嵌入
1、词向量的获取:从语料库训练或网络下载已经预训练好的词向量。
2、词的相似度计算:余弦相似度。
3、词聚类:聚类算法实现
4、寻找相似词、一组词的相似度。
(1)寻找相似词:余弦相似度计算
(2)一组词的相似度:定义词组中对象的平均相似度。
5、同中选异——找出不属于已有列表中的某个词或某个问题:计算每个词与词组平均相似度并返回一个最不相似的词完成。
6、短文档相似度
7、词的类比——3CosAdd。从向量空间中的次运算到词之间的相似度运算的转换在某种程度上有助于解释词嵌入“解决”类比的能力。
改进版:
8、改装与映射(Faruqui et al. 2015)
类似于计算图
案例分析——一种用于句子意义推理的前馈结构
#SNLI数据集——自然语言推理(文本蕴含)任务
案例略。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。