赞
踩
pointnet++是在pointnet的基础上提出的,它用于解决pointnet在场景分割时直接将所有的点最大池化成一个全局特征导致分割效果不好的问题。
pointnet++采用了分层点云采样的方法,把每一层的操作叫做一次set abstration,包括采样、分组和特征提取,首先通过最远采样点法(FPS)在点云上采样一些点,然后以这些点为中心在某一范围内寻找k个临近点组成局部子点云,接着对子点云使用pointnet作特征提取和池化操作,继续下一个set abstration。随着层数的增加,中心点的个数越来越少。这个过程类似于聚类操作。
进行分组的时候,需要选取策略,因为数据分布的密度不同,可能导致分组很不合理。
注意力机制可以选择性地将注意力集中在较为显著的区域,以更好捕捉时空语义信息。
注意力机制主要用在自然语言处理、图像修复、超分辨率、风格迁移等,常用的策略包括空间注意力,通道注意力等。
空间注意力主要关注两个不同位置的特征信息,寻找两个位置特征之间在时间空间上的依赖关系,用在视频动作识别;
通道注意力增强有用通道的响应,削弱影响较小的通道响应,一般将通道融合和注意力机制结合。一般用于图像处理。
图像处理
目标检测
针对移动端优化的模型
**sigmoid函数:**它的输出是一个概率,但是可以对其输出进行归一化以实现分类。
缺点:
ReLu当输入小于零,梯度为0,否则为1。
当输入为正时,不存在梯度饱和问题;
它是线性计算,比sigmoid和hanh速度快。
缺点:
如果输入为负,则梯度完全为零,导致无法反向传播、更新节点,导致神经元失效。
hanh
由sigmoid函数变换而来,其输出值在[-1,1]之间,以零为中心,加快了收敛速度。
缺点:
当输出趋近零或者很大很小时,会出现梯度消失的情况;
仍然是指数运算,运算速度慢。
leaklyReLu:输入小于零,且梯度为一个很小的值,输入大于零,梯度则为1。避免了ReLu中出现死亡神经元。
pointnet是2017年斯坦福研究人员提出的,主要用来处理三维点云数据,用于语义分割、分类与识别等。它直接对三维数据进行处理,最大限度保留了原始点云数据的信息。
主要流程:
多模态处理是针对单模态混合的数据处理基础上发展的。所谓的单模态就是文本、语音、图像等。而多模态如视频,包含了语音、文本、图像等。针对单模态数据,往往直接利用现有成熟的特征提取方法。对于多模态,则需要考虑到多模态信息的建模、获取、融合、语义度量等。
遗忘门:决定了上一时刻的单元状态有多少保留到当前单元,是一个sigmoid层。
thegama是sigmoid函数。h(t-1)是上一时刻LSTM的输出,x(t)是当前的输入,bf是偏置,Wf是权重矩阵。
输入门:决定了当前时刻存储什么新信息,包含了一个sigmoid网络层和tanh层。tanh状态创建一个新状态,sigmoid输出一个置于0,1之间的概率来确定哪些状态被更新,以及更新程度。
更新状态
输出门:确定当前状态要输出的信息。同样由sigmoid层和tanh组成。
SeqToSeq的思想和transformer很像,都是采用编码数据来学习,输出端输出解码数据。
图片中每一个都是一个RNN单元,通常是LSTM或者GRU。
Encoder是一个RNN,它的每一时刻的输入都是上一时刻隐层的状态和当前输出,然后有一个输出和新的隐层状态。输出作为下一个RNN的输入。seq2seq只保留最后一个RNN的隐状态作为Decoder的输入。
Decoder也是一个RNN,每一时刻的输入是上一时刻的隐状态和上一时刻的输出,一开始的隐状态是Enconder最后的隐状态,输入是特殊的。
隐马尔可夫模型是比较经典的机器学习模型,常用于自然语言处理、语言识别、模式识别。适合使用它的数据有以下两个特征:
流程:
网络中将训练数据前向传导,然后又进行反向传播。这个过程中将某些节点以概率p丢弃掉。之前丢弃的节点可能再次被丢弃,也可能被利用,但是这一轮训练中不再起作用。解决过拟合
标准dropout:在训练过程中按照一定概率将神经元权重或者偏置设置为0,而不是输出设置为0。发明人建议输入层的p=0.2,隐藏层的p=0.5。
DropConnect只能用于全连接的网络层,它的丢弃概率为1-p。
BPTT使用dropout的时候,只能相邻层的循环单元之间,而不能在同一层的循环体结构之间。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。