赞
踩
分类问题与预测问题:
图像分类:由当前输入得当前输出
时间序列预测:由当前与过去得输入预测当前输出
自回归模型:
特征编码
数值特征和类别特征。其中类别特征可以用独热(one-hot)向量来表示
文本处理
可以按字母处理或者按单词处理
文本预处理
词嵌入
概要:
在每个时间步上,RNN接受输入序列中的一个元素和上一个时间步的隐藏状态,并输出当前时间步的隐藏状态。
模型:
利用序列中的时间信息,并且可以通过保留隐藏状态来捕捉序列中的长期依赖关系。RNN模型由一个或多个循环单元组成,每个循环单元都有一个内部状态(隐藏状态),用于存储过去的信息,并在下一个时间步传递给自身。这种内部状态的反馈机制使得RNN能够处理任意长度的序列输入。
问题:随着输入的增加,会产生遗忘问题
问题:
梯度消失和梯度爆炸:在训练过程中,RNN很容易遇到梯度消失或梯度爆炸的问题。这是由于反向传播过程中梯度在多个时间步长内连续相乘或相加,导致梯度指数级增加或减小。
长期依赖建模困难:简单的RNN很难有效地捕捉长期依赖关系,因为随着时间的增长,信息需要通过多个时间步长传播,容易出现梯度消失或信息遗忘的问题。
内部状态限制:RNN的内部状态大小是固定的,这限制了其对长序列的处理能力。当序列很长时,RNN可能会丢失关键信息或受限于固定大小的内部状态。
并行计算效率低:由于RNN模型的时间步骤之间存在依赖关系,导致难以有效地并行化计算,限制了其在大规模数据上的训练速度。
为了解决这些问题,研究人员提出了许多改进的RNN变体,如门控循环单元(GRU)、长短期记忆网络(LSTM)等,以及其他结构如Transformer等。这些变体通过引入门控机制、跳跃连接等方式来改善长期依赖建模能力,解决梯度消失问题,并提高并行计算效率。
更新门(Update Gate): 决定了在当前时间步长,应该如何将过去的记忆信息与当前的输入进行结合。它控制了过去记忆信息的保留程度,以及新信息的重要程度。输出范围在0到1之间,表示需要保留的过去记忆信息的比例。
重置门(Reset Gate): 决定了在当前时间步长,应该如何考虑过去的记忆信息。它控制了过去记忆信息的遗忘程度,以及新信息的影响程度。输出范围在0到1之间,表示过去记忆信息的遗忘比例。
隐藏状态更新:基于更新门和重置门的输出,GRU根据当前输入和过去隐藏状态计算新的隐藏状态。更新门决定了过去记忆信息的保留程度,重置门决定了过去记忆信息的遗忘程度,二者结合起来影响了新的隐藏状态的生成。
门控机制:GRU利用门控机制来调节信息的流动,从而解决了长期依赖问题和梯度消失问题。通过更新门和重置门,GRU可以在不同的时间步长上自适应地调整过去信息的保留和遗忘程度,从而更有效地捕捉序列中的长期依赖关系。
LSTM的全称是Long Short Term Memory,它是具有记忆长短期信息的能力的神经网络,是一种改进之后的循环神经网络。提出的动机是为了解决普通RNN网络的长期依赖问题。原始 RNN 的隐藏层只有一个状态它对于短期的输入非常敏感。LSTM再增加一个状态,让它来保存长期的状态,称为单元状态(cell state)。
是RNN的拓展形式,具有L个隐含层。与传统的RNN相比,DRNN在每个时间步上执行多次非线性转换,以便对更长的序列数据进行建模。
生成对抗网络(GAN)的初始原理十分容易理解,即构造两个神经网络,一个生成器,一个鉴别器,二者互相竞争训练,最后达到一种平衡(纳什平衡)。 GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generativemodel,G)和判别式模型( discriminative model,D)充当。
生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯 分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越 像真实样本越好。
判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生 成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率, 否则,D 输出小概率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。