赞
踩
VIT模型是自然语言处理和计算机视觉两个领域的融合结晶,在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。
VIT模型的主体结构是基于Transform模型的Encoder部分(部分结构顺序有调整)。
环境准备与数据读取,开始实验之前,需要确保本地已经安装了Python环境并安装了MindSpore。请确保你的数据集路径如下结构。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。