赞
踩
研一不知道干啥,下面罗列了最近看的一些3D目标检测模型,其中都当作笔记记录在了主页博客里,不过记得不规范的就设置为私密了。现在比较一下相当于复习了,下面简单列了他们的主要思路。(有错误理解欢迎指出)
首先是基于LSS范式的:
然后是基于transformer的:
然后是基于双目立体视觉的:
看了这些模型后的感受:
刚看基于transfromer的算法时,感觉未来的大方向就是类似于detr那种,感觉好简洁,摆脱了锚框和NMS,感觉网络可以放开干了,可是后面在detr的改进还是又加入了anchor的思想,希望基于注意力机制的模型可以多摆脱一些之前卷积网络的惯式,query在融合各种信息感觉更加自由,优雅。还有感觉双目立体视觉算法沿用了之前三维重建的很多思路,不过也差不多就是一回事,只是现在用于自动驾驶而已。还有就是看了nuscenes排行上排名前几的模型,感觉想上分就得加时序,对于视觉模型深度是最关键的点,得分高的模型不仅是多机位构造空间多视角,还要引入时序构造时序上的立体,还有就是bevdepth那种显示深度估计也起到不错的效果,不管显示隐式,我觉得在训练视觉模型时能用激光点云数据做监督才是本质。
只看论文不动手,感觉自己还是废物一个啊!
如果有研一做相同方向的可以私信我,一起学习,自己一个人学太自闭了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。