赞
踩
transformer
sequence结构采用的是RNN网络,后面时刻的信息依赖于前一时刻,存在无法并行运算的问题。
CNN没有时序上的依赖可以进行并行运算,但CNN倾向于提取局部信息,没有全局视野。
Transformer的优势:
并行运算、全局视野、灵活堆叠能力。
VIT结构设计
VIT采用原版transformer的编码端。
VIT输入端适配
将图片进行切分,然后进行编号,送入至网络中。
pyramid vision transformer(金字塔VIT)
VIT缺点
VIT的缺点
背景(以往方法的问题)
目前的方法都不直接,即无论是单阶段还是两阶段,无论是anchor based还是anchor free的,它们都无一列外地需要使用后处理方法:NMS来过滤掉冗余地预测框。目前的方法都是基于dense prediction,在原理上,这种操作方式不符合人类识别物体的方式。
DETR的研究意义
set predication
问题定义:一个预测集和GT集之间匹配的问题。
问题在于匹配的方式有多种,那么应该选那种?
->match loss最小的那一种。
采用匈牙利匹配找到loss最小的匹配方式。
position embedding
位置编码是写死的,不可学习的。
图像是2d的,因此:
encoder-decoder
DETR的位置编码会应用到每一个encoder上,而不只是开头的一个,而且只会加到QK上,不影响V。
右边为编码器,多出来的MSA,K和V来自于encoder,Q来自于obj queries。
obj queries是一个可学习的向量(num,b,dim)。num是人为给的值,远大于图片内物体数量,默认为100.b为batch size。dim是attention运行过程中用的未读数。
DETR的问题
DETR提出一套不同于dense prediction的pipeline,将检测视为一个set prediction的问题,成功去掉了anchor和NMS。
但在实际应用中,DETR在训练阶段面临难以收敛的困难,即训练开销过高;测试阶段,transformer存在计算量的问题,只能在分辨率最低的feature map上运行,导致小目标行的性能很差。
deformable DETR提出一种改进的attention机制,收敛速度更快,精度更高。
DETR收敛慢的缺点是:attention map变稀疏需要很长时间,transformer计算量大,只能运行在最后一层feature map上,导致小物体性能差。
deformable DETR总览
主体结构与DETR一致,利用多层feature map;所有attention采用deformable attention。
DCN(deformable CNN)
deformable是指可变形的,即参与卷积计算的点是可变的。
deformable attention
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。