赞
踩
词嵌入模型基于的基本假设是出现在相似的上下文中的词含义相似,以此为依据将词从高维稀疏的独热向量映射为低维稠密的连续向量,从而实现对词的语义建模。
通过对“文档-词”矩阵进行矩阵分解得到每个词的语义表示。典型模型有GloVe。GloVe模型的基本思想是最小化 词 i i i和词 j j j的向量向量表示 v i v_i vi和 v j ^ \hat{v_j} vj^算得的函数 F ( v i T v j ^ ) F(v_i^T\hat{v_j}) F(viTvj^) 与 词 j j j出现在词 i i i的上下文概率 P i j P_{ij} Pij 之间的误差。
基于词预测的词嵌入模型的典型模型是Word2Vec,又包括CBOW(Continuous Bag-of-Words)模型和Skip-Gram模型两种。
CBOW:多个one-hot输入向量通过一个
V
×
N
V \times N
V×N维的权重矩阵
W
W
W连接到隐藏层,相加后得到上下文向量;隐藏层通过一个
N
×
V
N\times V
N×V的权重矩阵
W
′
W^{'}
W′连接到输出层,得到预测向量,与目标one-hot向量计算损失。最终模型的词向量就是利用训练好的权重矩阵
W
W
W,输入对应单词的one-hot向量,输出
N
N
N维词向量。
Skip-Gram模型学习的目标是输入层与隐藏层之间的权重矩阵
W
W
W。预测结果由多个权重矩阵
W
′
W^{'}
W′映射得到。
目前流行的模型中,基于词预测的词嵌入模型占据主导地位。一方面,直接预测不需要对语料进行复杂的处理,可以适应更大的计算量;另一方面,预测上下文词的任务形式也很容易扩展为其他自然语言处理任务。
词嵌入模型常被用于预训练任务,即利用在大规模语料库中训练获得的词嵌入表示,来初始化各种自然语言处理任务中神经网络模型的输入层参数。
语言模型是自然语言处理中的核心任务,一方面它可以评估语言的生成概率,直接用于生成符合人类认知的语言;另一方面,由于语言模型的训练不依赖额外的监督信息,因此适合用于学习语句的通用语义表示。
ELMo基于双向LSTM来学习一个双向语言模型。具体任务中,通过特征融合的方式将特征表示集合中不同的表示加权求和,作为特征输入到任务模型中,权重跟随任务模型的参数一起学习。
GPT基于Transformer单向编码器结构,将单向语言模型作为预训练阶段的目标函数。预训练学习到的网络结构和参数将作为具体任务模型的初始值,然后针对文本分类、序列标注、句子关系判断等不同任务对网络结构进行改造,同时将语言模型作为辅助任务对模型参数进行微调。
BERT相对于之前工作的改进点主要有两个方面:
Seq2Seq架构的神经机器翻译模型在效果上还未超过统计机器翻译模型,主要原因在于模型将源语言端的信息全部编码到LSTM最后一次隐单元,对信息进行了有损压缩,同时LSTM对长距离语境依赖问题解决程度有限,解码时容易丢失重要信息而导致翻译结果较差。
基于注意力机制的神经机器翻译模型,与统计机器翻译中词对齐思想类似,认为模型在解码每个词的时候,主要受源语言中当前解码词相关的若干词影响,因此可以利用注意力机制学习一个上下文向量,作为每步解码的输入。注意力机制一方面生成上下文向量,为解码提供额外的信息;另一方面它允许任意编码节点到解码节点的直接连接,很好地解决了长距离语境依赖问题。
Transformer是基于注意力机制的网络结构,核心创新点在于提出多头自注意力机制。一方面通过自注意力将句中相隔任意长度的词距离缩减为常量,另一方面通过多头结构捕捉到不同子空间的语义信息,因此可以更好地完成对长难句的编码和解码。由于Transformer完全基于前馈神经网络,缺少了像卷积神经网络和循环神经网络中对位置信息的捕捉能力,因此它显式地对词的不同位置信息进行了编码,与词嵌入一起作为模型的输入。相比于循环神经网络,Transformer大大提升了模型的并行能力,在训练和预测时效率都远高于基于循环神经网络的机器翻译模型。
双语语料是机器翻译模型训练时最重要的监督信息,然而在现实应用中由于某些语言是小语种或者特定领域的语料稀缺等,经常出现双语语料不足的情况。
问答系统是指可以根据用户的问题从一个知识库或非结构化的自然语言文档集合中查询并返回答案的计算机软件系统。
对于同一个文本段落,不同问题的答案往往来自于段落中不同的位置。在给文本段落编码时结合问题信息,可以获得更有效的编码表示。利用注意力机制算得问题中每个词相对于段落的注意力编码 和 段落中每个词相对于问题的注意力编码。结合问题信息对段落进行注意力编码可以降低段落长度对预测结果的影响。
由于在 Transformer 中没有显式地保留位置信息,研究者采用不同频率的正弦/余弦函数对位置信息进行编码。位置编码向量的维度一般与文本编码向量的维度相同,这样二者可以直接相加作为单词最终的编码向量。位置编码的另一个优点是,即使测试集中出现了超过训练集文本长度的样本,这种编码方式仍然可以获得有效的相对位置表示。此外,使用这种位置编码时,在模型中加入位置信息只需要简单的相加操作即可,不会给模型增加过大的负担。
对话系统是指可以通过文本、语音、图像等自然的沟通方式自动地与人类交流的计算机系统。对话系统根据信息领域的不同(开放与闭合)以及设计目标的不同(任务型与非任务型)可以划分为不同的类型:
对于对话系统来说,用户的输入往往多种多样,对于不同领域的对话内容,对话系统可以采取的行为也多种多样。普通的有监督学习方法往往无法获得充足的训练样本进行学习,而强化学习可在一定程度解决这个问题。而且,当对话系统与用户的交互行为持续地从客户端传输到服务端时,强化学习方法可以对模型进行及时的更新,在线训练模型。
对话系统中的策略学习模块比较适合使用强化学习来建模。我们的目标是学习一个策略 π \pi π,根据系统当前对话状态向量 b b b来选择一个最优行为 a a a,使得对话系统尽可能完成用户在对话中指定的任务。每段对话结束时,可以根据任务是否成功完成来设定策略的奖励。另外在每一轮对话结束后,都反馈一个绝对值较小的 − ϵ -\epsilon −ϵ,以促使算法尽可能学习简洁的策略。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。