当前位置:   article > 正文

OpenMMLab AI实战营笔记1_openmmlab ai实战营 笔记

openmmlab ai实战营 笔记

课堂内容:

这节课主要是对OpenMMLab算法库的一个介绍。
我关于OpenMMLab的理解:
OpenMMLab是一个开源的计算机视觉和机器学习研究平台,由香港中文大学多媒体实验室(Multimedia Laboratory,MMLab)创建和维护。该平台提供了丰富的高质量的模型和工具,涵盖了一系列计算机视觉和机器学习任务,包括目标检测、语义分割、实例分割、视频识别、人体姿态估计、深度估计和自然语言处理等。这些模型和工具都基于PyTorch深度学习框架实现,具有高效、易用、可扩展等特点。OpenMMLab还提供了详细的文档、示例代码和数据集,方便用户快速上手和开展相关研究工作。目前,OpenMMLab已经成为了计算机视觉和机器学习领域的重要开源平台之一,受到了广泛的关注和使用。

  • 深度学习框架发展流程
    在这里插入图片描述
  1. 第一代框架:早期的深度学习框架主要是基于Python科学计算库NumPy、SciPy和Matplotlib等构建的,例如Theano和Torch等。这些框架的主要特点是易于使用、灵活性高,但是在处理大规模深度神经网络时效率较低。
  2. 第二代框架:随着深度学习的快速发展,出现了一批新一代的深度学习框架,如Caffe、TensorFlow和MXNet等。这些框架采用了计算图模型,支持异步计算和GPU加速等功能,具有更好的性能和可扩展性。
  3. 第三代框架:近年来,出现了一些新的深度学习框架,如PyTorch、Keras和TensorFlow 2.0等。这些框架具有更高的易用性和灵活性,支持动态计算图、自动求导、模块化设计和分布式训练等功能,可以极大地简化深度学习模型的开发和调试,加速模型迭代和优化。

形如OpenMMLab等统一算法框架的出现,更多的AI从业者从手动设计算法,逐渐过渡到了使用算法的角色里。这正是OpenMMLab可以发力的地方。OpenMMLab提供统一的预训练算法。能通过统一的格式进行使用,对demo使用来说更加方便快捷。

  • OpenMMLab框架Overivew
    在这里插入图片描述
    OpenMMLab的框架由四个部分组成,我认为OpenMMLab其实是对PyTorch的一个上层抽象。面对开发者来说,如果有一个更细分算法库的抽象,能让开发者更加深入学习,而不必在工具上太过纠结。

All problems in computer science can be solved by another level of indirection。 -David Wheeler

对于每一个算法库,我这里仅进行简略介绍

  • MMDetection
    在这里插入图片描述
    MMDetection是一个开源的目标检测框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架基于PyTorch深度学习框架实现,提供了丰富的目标检测模型和工具,包括Faster R-CNN、Mask R-CNN、Cascade R-CNN、RetinaNet、SSD等多种经典模型,以及一系列数据增强、损失函数、评价指标和可视化工具等。
  • MMOCR
    在这里插入图片描述
    MMOCR是一个开源的OCR(Optical Character Recognition,光学字符识别)框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架基于PyTorch深度学习框架实现,提供了丰富的OCR模型和工具,包括文本检测、文本识别、端到端文本识别等多种模型,以及一系列数据增强、损失函数、评价指标和可视化工具等。
  • MMDetection3D
    在这里插入图片描述

MMDetection3D是一个基于PyTorch的开源3D目标检测框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架专注于3D目标检测任务,支持点云数据和深度图像数据的处理和训练,包括点云目标检测、点云分割和深度图像目标检测等多种任务。

  • MMSegmentation
    在这里插入图片描述
    MMSegmentation是一个基于PyTorch的开源语义分割框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架提供了多种经典的语义分割模型和算法,如DeepLabV3、PSPNet、HRNet等,并支持各种数据增强、损失函数、评价指标和可视化工具等。

  • MMPretrain
    在这里插入图片描述
    MMPretrain是由香港中文大学多媒体实验室(MMLab)开发和维护的一个开源预训练模型库,旨在解决深度学习模型训练中的数据不足和训练时间长的问题,提供了一系列高质量的预训练模型,包括图像分类、目标检测、图像分割、姿态估计等多种任务和领域。

  • MMPose
    在这里插入图片描述
    MMPose是一个基于PyTorch的开源姿态估计框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架提供了多种经典的姿态估计模型和算法,如HRNet、SimpleBaseline、PoseResNet等,并支持各种数据增强、损失函数、评价指标和可视化工具等。

  • MMHuman3D
    在这里插入图片描述

MMHuman3D是一个基于PyTorch的开源3D人体重建与动作估计框架,由香港中文大学多媒体实验室(MMLab)开发和维护。该框架提供了多种经典的3D人体重建和动作估计模型和算法,如SMPLify-X、VideoPose3D等,并支持各种数据增强、损失函数、评价指标和可视化工具等。

  • MMagic
    在这里插入图片描述
    MMagic是由香港中文大学多媒体实验室(MMLab)开发和维护的一个开源多媒体技术工具库,旨在提供一系列高效、智能、易用的多媒体处理和分析工具,包括图像处理、视频分析、音频处理等多个方面。
  • 推理场景
    在这里插入图片描述
    在这里插入图片描述
    模型推理流程:
  1. 输入数据预处理:将输入数据进行预处理,如缩放、裁剪、标准化等,使其适合模型的输入格式和尺寸。

  2. 模型前向传播计算:将预处理后的输入数据输入到模型中,通过模型的前向传播计算得到输出结果。

  3. 输出结果后处理:根据模型的输出类型和应用场景,对输出结果进行后处理,如分类、回归、分割、检测等,以得到最终的预测结果。

  • 模型推理框架MMDeploy:
    MMDeploy是由香港中文大学多媒体实验室(MMLab)开发和维护的一个开源模型部署工具库,旨在提供一系列高效、智能、易用的模型部署和推理工具,包括模型转换、模型压缩、模型加速等多个方面。

总结:这节课让我了解了关于OpenMMLab各个库的作用,给我一些关于Paper的启发。我会更加关注OpenMMLab中顶会论文的pipeline实现,希望能给我写代码一些帮助。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/96430
推荐阅读
  

闽ICP备14008679号