当前位置:   article > 正文

【ViT系列(2)】ViT(Vision Transformer)代码超详细解读(Pytorch)_vit 自注意力机制代码讲解

vit 自注意力机制代码讲解

前言 

上一篇我们一起读了ViT的论文(【ViT系列(1)】《AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》论文超详细解读(翻译+精读)),大致了解了这个模型,那么接下来这篇就来看一看代码是如何实现的。

本文会介绍两个版本,一个是论文源码,这个比较复杂,我也是看了很多大佬的讲解才读通(小菜鸡啦~),在文末会放上这些链接。后来又找到了大佬复现的简易版本,这个版本的代码比较受欢迎且易使用,对新手小白比较友好,那我们就来讲解一下第二个版本吧!


962f7cb1b48f44e29d9beb1d499d0530.gif​   

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/528904
推荐阅读
相关标签