赞
踩
上一篇我们一起读了ViT的论文(【ViT系列(1)】《AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》论文超详细解读(翻译+精读)),大致了解了这个模型,那么接下来这篇就来看一看代码是如何实现的。
本文会介绍两个版本,一个是论文源码,这个比较复杂,我也是看了很多大佬的讲解才读通(小菜鸡啦~),在文末会放上这些链接。后来又找到了大佬复现的简易版本,这个版本的代码比较受欢迎且易使用,对新手小白比较友好,那我们就来讲解一下第二个版本吧!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。