赞
踩
这篇文章提出了一个端到端的Transformer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特征】+ST网络【同时考虑时序和空间特征】
几个值得注意的点:
网络组成部分:
上图是同时考虑时空的STARK网络结构。蓝色部分是与对空间建模的STARK一样的结构,粉色部分是对时间建模。
这个网络结构的输入加入了一个动态模板,就相当于同时考虑到目标外观的变化。这部分实现主要就是一个Score Head。
从左到右分别是 【动态模板, 初始模板, 搜索区域】组成的输入三元组、最后一层Encoder输出。 最右边是用初始模板作为query,三元组作为key和value生成的注意力可视化结果。从右边图可以看出感兴趣区域很好地集中在目标上,和镜子里那个干扰物也的判别力很强。【如果能把Backbone生成的特征也可视化作为对比,这样才更能说明Encoder的增强作用吧。】
左下角的两张图是对应模板
从左到右分别是 【动态模板, 初始模板, 搜索区域】组成的输入三元组。最后一层Decoder输出。 可以看到两个Tempalte上的注意力(左下角)在牛的尾巴那,而右边图Search区域上的注意力在牛的边界。作者得出的结论是Tempalte上的注意力(左下角)在目标左上区域,而Search区域上的注意力在目标的边界。
该图摘自作者CVPR汇报ppt。又图左知,STARK无法处理外观突然变化,而作者做了对比实验,当STARK与DiMP集成,加入DiMP在线更新机制后性能改善了。如图右边。所以说白了STARK的时序关系没有用好,或许是Template太少了或许是更新Template机制不是很有效。
今天西安下大雨了,强强落汤鸡~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。