Mamba-Yolo：基于Mamba架构的yolov8目标检测模型_mamba yolo

作者：神奇cpp | 2024-08-01 18:43:33

踩

mamba yolo

关注up主的B站号：Ai缝合怪，

点赞评论截图发给我，代码和配置文件免费私发给大家。

mamba-yolo:在YOLOV8,V9,V10 中通用

一、mamba-yolo配置文件：

二、mamba-yolo代码：

动机：

基于 CNN 和 Transformer 的模型各有局限性。CNN 在捕获长距离信息上存在局部感受野限制，导致在某些情况下难以有效捕获长距离信息，可能导致分割等任务的结果不佳。另一方面，Transformer 在全局建模方面表现出色，能够有效捕获长距离依赖关系，但自注意力机制在处理图像尺寸较大时的复杂度较高，特别是在处理超高清图像检测以及小目标检测等任务时可能面临挑战。

CNN 主要局限性：

局部感受野限制：CNN 的卷积操作在每一层只能感知局部区域的特征，难以捕获长距离依赖关系。
参数共享：CNN 中参数共享的特性可能限制其在处理某些复杂模式和全局信息时的表现。

Transformer 主要局限性：

自注意力机制复杂度：Transformer 中的自注意力机制在处理大规模图像时需要高计算复杂度和显存消耗。
缺乏局部信息：Transformer 更注重全局关系，可能在一些需要局部信息的任务中表现不佳。

因此，为了克服CNN和Transformer的局限性，SSMs（如Mamba）通过建立远距离依赖关系并保持线性复杂度，展现出在各种任务中的潜力。本文首次提出了 mamba-Yolov8，这是一种将Mamba结合到Yolov8架构中的方法，旨在展示其在目标检测任务中的潜力。通过结合Mamba的优势，mamba-Yolov8旨在改善长距离信息捕获和全局建模能力，以提高目标检测任务的性能和效果。这种结合可能有助于克服传统CNN和Transformer在某些任务中的局限性，为目标检测等任务带来新的发展和进步。

若有想进行魔改、发文章的小伙伴，可在此基础上进行调整、以适配个人发文章的需求。

下图为打印出的结构

其中ultralytics.nn.Addmodules.mamba.MambaLayer 为mamba结构

核心：VSSblock（上图中的MambaLayer）

mamba-yolov8的核心模块是来自 VMamba 的 VSS 块，如图下图所示。

对于经过层归一化后的输入，模型分为两个分支处理：第一个分支经过线性层和激活函数处理，第二个分支经过线性层、深度可分离卷积和激活函数处理，然后进入2D-Selective-Scan（SS2D）。处理后的特征再次归一化，并与第一个分支的输出进行逐元素乘积合并，随后经过一个线性层混合特征，再与残差连接相加形成VSS块的输出。默认情况下，使用激活函数SiLU。

主要还是在 SS2D 这个新的模块，大家可以参考下下面的示意图。

SS2D模块通过扫描展开操作将输入图像在四个方向上展开成序列，然后通过S6块提取特征，以确保全面扫描信息并捕获多样特征。随后，扫描合并操作对四个方向的序列进行求和合并，将输出图像恢复为输入大小。S6块是基于Mamba模块的进一步发展，在S4基础上引入选择机制，有助于保留相关信息并过滤无关信息。

YoloV8改进步骤

1.在该ultralytics/nn下创建Addmodules文件夹，并在下面新建mamba.py文件

2.在mamba.py文件中写入。（注：全部代码私信博主获取，将博主所给代码文件mamba.py，放置在ultralytics/nn/Addmodules/目录结构下）


    class MambaLayer(nn.Module):
        def __init__(self, dim, d_state=16, d_conv=4, expand=2):
            super().__init__()
            self.dim = dim
            self.norm = nn.LayerNorm(dim)
            self.mamba = Mamba(
                d_model=dim,  # Model dimension d_model
                d_state=d_state,  # SSM state expansion factor
                d_conv=d_conv,  # Local convolution width
                expand=expand,  # Block expansion factor
                bimamba_type="v2",
            )
     
        def forward(self, x):
            B, C = x.shape[:2]
     
     
            assert C == self.dim
            n_tokens = x.shape[2:].numel()
            img_dims = x.shape[2:]
            x_flat = x.reshape(B, C, n_tokens).transpose(-1, -2)
            x_norm = self.norm(x_flat)
     
            # x_norm = x_norm.to('cuda')
     
            x_mamba = self.mamba(x_norm)
     
            out = x_mamba.transpose(-1, -2).reshape(B, C, *img_dims)
            #out = out.to(x.device)
            return out

3.在ultralytics/nn/Addmodules/__init__.py文件中写入


from .mamba import *
 
如下图（注：全部代码私信博主获取，将博主所给代码文件__init__.py，放置在ultralytics/nn/Addmodules/目录结构下）
 
4. 在ultralytics/nn/tasks.py中导入MambaLayer
 
from .Addmodules import *
 
5.在在ultralytics/nn/tasks.py中加入MambaLayer模块
 
6.在ultralytics/nn/tasks.py的class DetectionModel(BaseModel)类中进行如下修改
 
    class DetectionModel(BaseModel):
        """YOLOv8 detection model."""
        def __init__(self, cfg='yolov8n.yaml', ch=3, nc=None, verbose=True):  # model, input channels, number of classes
            """Initialize the YOLOv8 detection model with the given config and parameters."""
            super().__init__()
            self.yaml = cfg if isinstance(cfg, dict) else yaml_model_load(cfg)  # cfg dict
     
            # Define model
            ch = self.yaml['ch'] = self.yaml.get('ch', ch)  # input channels
            if nc and nc != self.yaml['nc']:
                LOGGER.info(f"Overriding model.yaml nc={self.yaml['nc']} with nc={nc}")
                self.yaml['nc'] = nc  # override YAML value
            self.model, self.save = parse_model(deepcopy(self.yaml), ch=ch, verbose=verbose)  # model, savelist
            self.names = {i: f'{i}' for i in range(self.yaml['nc'])}  # default names dict
            self.inplace = self.yaml.get('inplace', True)
            # Build strides
            m = self.model[-1]  # Detect()
            if isinstance(m, (Detect, Segment, Pose)):
                s = 256  # 2x min stride
                m.inplace = self.inplace
                forward = lambda x: self.forward(x)[0] if isinstance(m, (Segment, Pose)) else self.forward(x)
                # -------原始---------
                #m.stride = torch.tensor([s / x.shape[-2] for x in forward(torch.zeros(1, ch, s, s))])  # forward ，模型是通过一次前向传播的方式进行输入、输出比来知道步长缩放比
                #self.stride = m.stride
                # --------------------
                #--基于mamba的改进
                self.stride=torch.tensor([8., 16., 32.])
                m.stride=self.stride
                #----------------------
                m.bias_init()  # only run once
            else:
                self.stride = torch.Tensor([32])  # default stride for i.e. RTDETR
     
            # Init weights, biases
            initialize_weights(self)
            if verbose:
                self.info()
                LOGGER.info('')

7. 在ultralytics/cfg/models/v8/mamba.yaml中配置网络模型结构文件


  # Ultralytics YOLO 声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/915418
推荐阅读
articleMNN部署yolov5s检测算法(python)_mnn yolo...
使用MNN的整体流程，训练，使用训练数据训练出模型；转换，将其他训练框架模型转换为MNN模型的阶段。MNN当前支持Ten...
                                    赞
踩
articleYOLO-World实时开集检测论文阅读_yoloworld 用了哪些开源图片集...
我们介绍了YOLO World，这是一种创新的方法，通过在大规模数据集上进行视觉语言建模和预训练，增强YOLO的开放词汇...
                                    赞
踩
article基于 YOLOv8 的高级目标追踪系统项目详解_yolov8 model.track...
创建主窗口：使用 tk.Tk() 创建了一个主窗口 root，并设置了较大的尺寸。顶部栏：创建了一个顶部栏框架 top_...
                                    赞
踩
articleyolov5_master的下载、环境搭建、数据处理及训练全过程_香橙派 yolo...
本文借用了以下微博的文章，觉得写的比较全，所以照抄了过来，并且搭建了一遍可以正常训练，在这里作为笔记以后用的时候方便找，...
                                    赞
踩
articleYOLOv5在香橙派npu RK3588上部署（解决检测框混乱问题）_香橙派5 yolo...
yolov5模型在rk3588上的部署且无检测框混乱的情况_香橙派5 yolo香橙派5 yolo            ...
                                    赞
踩
articlerk3588 - yolov5 60帧/s的尝试[处理中...]_rk3588 yolo...
yolov5 rknn群里的信息，拉+推的视频延迟总体_rk3588 yolork3588 yolo          ...
                                    赞
踩
articleYOLO v5 代码精读（2）train模块_yolov5 train...
精读了YOLO v5 6.0版本的detect模块，这篇博客来精读train模块。_yolov5 trainyolov5...
                                    赞
踩
articleYOLOv8/v7/v5全网首发原创独家创新，内涵CBAM注意力改进、ECA改进，SPPF改进等_分...
本文介绍了原创的SPPF改进、CPMS/MSAM注意力机制、EMCA效率提升以及FT_Conv和BSAM新型注意力模型，...
                                    赞
踩
articleyolo--v5相关内容介绍_yolov5是什么东西...
Bottleneck 结构通常与残差连接一起使用，但在 YOLOv5 中，残差连接的使用有所变化，Backbone 中的...
                                    赞
踩
articleMamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍...
新智元报道编辑：编辑部【新智元导读】在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下I...
                                    赞
踩
articleMamba v2诞生：3 SMA与Mamba-2...
在开始之前提醒下读者，在Mamba不再真正认为SSM是连续的。事实上，正如在原始论文的讨论，Mamba与S4在对不同类型...
                                    赞
踩
articleMamba 环境安装踩坑问题汇总及解决方法（Windows已解决）_error: could not...
最近Mamba有关的论文引起了众多人的关注，虽然Mamba论文自身被ICLR 2024拒稿，但是其衍生的模型层出不穷，诸...
                                    赞
踩
articleMamba-2：超越 Transformer 的新架构，训练效率大幅提升！...
机器之心报道自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 ...
                                    赞
踩
article状态空间对偶 (Mamba-2) 第一部分 - 模型_mamba2论文原文...
本文是对Albert Gu和Tri Dao两位大佬的Mamba2博客的翻译_mamba2论文原文mamba2论文原文  ...
                                    赞
踩
article毕业设计-基于深度学习的鱼群计数识别系统 YOLO python 卷积神经网络 人工智能_神经网络体...
毕业设计-基于深度学习的鱼群计数识别系统的毕业设计。该系统利用先进的深度学习技术，通过对鱼群图像进行分析和处理，实现了自...
                                    赞
踩
articleYOLOv8『小目标』检测指南_yolov8 检测微小目标...
目前博主课题组在进行物体部件的异常检测项目，项目中需要先使用YOLOv8进行目标检测，然后进行图像切割，最后采用WinC...
                                    赞
踩
articleyolov8 小目标物体检测、分割加强方法_yolov8-p2...
常见下列三种方法加强小物体检测：Detectron2 （这个与yolov8不大相关，这篇不做多介绍，meta算法）SAH...
                                    赞
踩
article实践航拍小目标检测，基于轻量级YOLOv7tiny开发构建无人机航拍场景下的小目标检测识别分析系统_...
实践航拍小目标检测，基于轻量级YOLOv7tiny开发构建无人机航拍场景下的小目标检测识别分析系统_大疆自动跟拍 yol...
                                    赞
踩
article基于改进YOLOv8n航拍轻量化小目标检测算法：PECS-YOLO | 添加SE注意力机制 + 空间...
在无人机航拍中，目标通常是密集分布、特征不明显的小目标，且物体尺度变化较大。因此，目标检测容易出现漏检和误检的问题。为了...
                                    赞
踩
article论文阅读：VMamba: Visual State Space Model_visual mamba...
卷积神经网络（CNNs）和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展...
                                    赞
踩
相关标签
mnn
YOLO
人工智能
论文阅读
Yolo-world
开集检测
python
opencv
深度学习
个人开发
目标检测
算法
架构
Mamba
注意力机制
自然语言处理