赞
踩
(参考:A Survey on Visual Transformer 2020.12.23)
(参考Cheng He)
(参考 龙心尘)
(参考:李宏毅老师的Transformer视频)
(参考:A Survey on Visual Transformer 2020.12.23)
意义:分为多个head,每个head做不同的工作,比如一个head负责局部,另一个负责全局(不同head is almost the same, except the随机初始化)。head数量是一个可调参数。
做法第一步:以2-head Self-attention为例。如图,qkv都分为两支,而左侧的q之和左侧的k做attention,右侧的q之和右侧的k做attention。
做法第二步:得到2个b,直接contact起来,如果得到的维度过大,可以直接再乘上一个矩阵降维。
(参考:李宏毅老师的Transformer视频)
编码器部分同时输入“机器学习”四个中文,并同时得到编码结果。
解码器部分先输出“machine”,然后把“machine”作为解码器的输入,在输出“learning”。
解码器部分先输出“machine”,然后把“machine”作为解码器的输入,在输出“learning”。
(参考:李宏毅老师的Transformer视频)
(参考:A Survey on Visual Transformer 2020.12.23)(参考:大连理工大学 王栋老师 A Survey on Visual Transformer 导读)
常见:pruning 剪枝,low-rank decomposition 低秩分解, 知识蒸馏,网络量化,精致结构等等
手机端要求模型大小要小。
嵌入式端,如自动驾驶,更要求计算速度。
(参考:A Survey on Visual Transformer 2020.12.23)(参考:大连理工大学 王栋老师 A Survey on Visual Transformer 导读)
大部分视觉任务都只是使用了encoder部分,所以和CNN配合使用
(参考Cheng He)(参考咫尺小厘米)(论文)
(参考Cheng He)
(参考梦里梦到梦)
(参考henaqvmoyi)
(参考学无止境)
(DETR原文)
(看过的最好的讲解视频)
可以分为4个部分,backbone,encoder,decoder,后处理。
输入图像尺寸为
B
×
3
×
H
×
W
B \times 3 \times H \times W
B×3×H×W,分为位置编码和特征提取两个分支
(参考:mileistone)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。