赞
踩
今天主要为大家详细介绍 X-AnyLabeling v2.3.0 版本近期更新的一些功能和新特性,同时也借此机会分享下这半年多下来的开源心路历程。
首先,提到图像标注软件,可能许多从事计算机视觉相关领域的研究人员及从业者脑海中第一印象便会想到由MIT开源的主流标注软件:LabelMe
,又或者是LabelImg
和CVAT
等耳熟能详的主流标定软件。可能细心的读者会像,既然有了这么成熟的工具,那花那么多精力重新设计和开发这样一款软件的意义是什么呢?
我的答案最早也是:Yes。在设计X-AnyLabeling
之前,包括笔者本人我也是基本在通过上述几款主流工具来解决日常的业务需求。这最开始也跟笔者从事的岗位性质有关,作为一名算法工程师,可能大家都或多或少能体会到,其实工作时间大部分时间是在与数据打交道;哪怕在ChatGPT
以及AIGC
发展如火如荼的今天,如何快速构建高质量的数据仍然是主旋律。在大多数场景下,数据的质量远比数量要来得重要,相信在一线的从业人员对这点会深有体会。这一点其实跟我们在学校做研究的方式不同;学术届更多地的是提出一个idea,然后在公认的数据集上刷榜,大多数时候都是在过拟合数据分布,往往也经受不住实际应用的推敲。
一开始,笔者的工作更多地是围绕在目标检测业务上,这其实用CVAT,甚至是LabelMe便已经能够应付了。后来,随着业务的多元化导致各类需求逐渐增多,但本质上还是围绕一个核心——数据,毕竟对于落地的算法其实更讲究的是稳定性,再有便是搭配一些上下游去做整体的逻辑应用,几乎很少会频繁的更换算法模型或者去尝试多如牛毛的SOTA
模型。为此,我们会面临几个问题:
众所周知,不同的任务其对应的数据输出形式各有不同。举个例子:
放在以往,大家可能更多地会针对特定的场景挑选合适的工具去完成相应地标定任务,例如:
LabelImg
来标注矩形框;LabelMe
来进行多边形框的标定;PPOCRLabel
来完成文本识别标注任务;roLabelImg
来解决旋转目标检测的功能;DarkLabel
来完成视频文件的标注及对象的跟踪功能;ELAN
完成对视频序列中人物动作的识别以及对应字幕的捕捉;可想而知,我们需要耗费更多地精力去完成这些工作,因为每一款工具的使用都有一定的学习使用成本;
针对第1点,有同学提过可以使用由 Intel
公司开发的开源工具——CVAT
;当然,不得不承认,CVAT工具是一款极其优秀的大型标定软件,毫不夸张地说,市面上几乎所有的标注行业相关公司开发的所谓内部或者云平台标注工具,都是基于此原型进行二次设计和开(包)发(装)的。然而,对于绝大多数用户而言,面对这样一款“庞然大物”,会遇到几个问题:
因此,我们更多地是需要一款小巧方便,最好是能开箱即用,同时也支持高度定制化的标定工具;
除了上述两点,我先前提到的最为关键的一点是,我们需要思考如何更高效、更快速地建立整个数据标定流程。我们有幸身处于这个人工智能大爆发的时代,当今涌现出了许多新技术,其中一些值得一提:
例如,Meta公司开源的SAM
是一项令人振奋的技术,用户只需简单点击感兴趣的目标,即可快速、准确地获取精细的掩膜。另外,OpenAI公司也为我们带来了ChatGPT
等创新技术,除了可以用人类自然对话的方式来获得逼真拟人化的互动,还可以用于甚为复杂的工具,如自动摘要提取、文本创作、代码编写等。最后,还有发展迅猛的多模态技术,可以帮助人们完成诸如文生成图、图生成文、图文-语音交互以及以文本或图像驱动(prompt-based)等创新应用。这些多模态技术的崛起不仅为各个领域的人工智能应用带来了更广泛的可能性,也推动了不同模态之间更深层次的融合。
为此,我们是不是可以考虑结合以上技术来构建更加强大、高效、快捷的标定流程呢?何乐而不为!以上便是笔者设计此款软件的初衷和动机,希望能与大家共勉。目前该工具已完全开源,遵循 GPL 协议,感兴趣的小伙伴可以通过下方链接访问,顺手点一个Star
给予支持:
项目链接:https://github.com/CVHub520/X-AnyLabeling/tree/main
总的来说,X-AnyLabeling
从设计和开发之初便有了明确的目标和动机,即要创建一个既能满足多样性需求,又具备易用性,同时包含多样功能且支持高度定制化的图像标注软件。值得一提的是,为了最大程度地减轻大家的使用成本,X-AnyLabeling 目前在设计交互的时候会尽可能地与主流标注工具(如LabelImg
、Labelme
、roLabelImg
、Anylabeling
以及CVAT
等)保持对齐,最大限度提升用户的标注效率和使用体验。同时,目前该工具已基本涵盖了市面上所有主流工具的大部分功能,做到真正的 All in one
!
下面简单介绍最新 v2.3.0 版本相较于 v2.0.0 版本引入的一些新特性:
Ctrl+G
快速查看当前任务的统计数据;Difficult
复选框以及Description
预览和编辑框,极大提升交互体验;除了支持图像级的标注功能外,X-AnyLabeling
还引入了对视频的全面支持,实现了一键解析和自动标注。为了更好地满足用户对视频文件标注的需求,当前集成了经典的ByteTrack
和最新的OC-Sort
(CVPR 2023)等先进的跟踪算法。因此,无论是处理图像还是视频,X-AnyLabeling
致力于提供全面而高效的标注解决方案,以满足不同场景下的标注需求。
当前,X-AnyLabeling
工具箱中还提供了一键导入/导出的便捷功能,支持多种主流数据标注格式,包括:
MOT-CSV
:多目标追踪MOT任务标注VOC-XML
:Pascal VOC,仅支持Rectangle
对象;DOTA-TXT
:旋转目标检测;YOLO-TXT
:支持Rectangle
(检测)和Polygon
(分割)对象;COCO-JSON
:支持Rectangle
(检测)和Polygon
(分割)对象;MASK
:支持语义分割和实例分割掩码一键导出;因此,无论您是与其它工具协同工作,还是应用到不同的深度学习框架中进行训练,X-AnyLabeling
都旨在提供广泛的输出选项,确保用户能够灵活地集成标注结果到其工作流程中。
通过直接加载上述导出的标签,我们可以快速导入到 YOLO 框架进行训练:
X-AnyLabeling
支持在不同硬件环境下运行。除了常规的 CPU
推理外,还引入了 GPU
加速推理支持,当前推理后端仅支持OnnxRunTime
,后续会逐步考虑添加TensorRT
和OpenVINO
等后端支持。
此外,该工具具备多平台兼容性,能够在 Windows
、Linux
和 MacOS
等不同操作系统环境下流畅运行。
不仅如此,X-AnyLabeling
还提供了一键编译脚本,赋予用户根据其具体需求自行编译系统的能力,使用户能够随时随地轻松地分发应用,为其提供更加灵活的定制和部署体验,进一步简化工具的安装过程。
X-AnyLabeling
中提供了灵活的标注方式,支持单帧预测和一键处理所有图像。用户可以选择逐帧标注,以更加精细地处理每一张图像,也可以通过一键处理所有图像来快速完成整个数据集的标注。
为最大限度满足用户的各式需求,X-AnyLabeling
中提供了多样化的图像标注功能,包括多边形、矩形、旋转框、圆形、线条、关键点等基本标注形状。此外,工具还支持文本检测和识别,使用户能够方便地标注图像中的文字信息。更进一步,X-AnyLabeling
还引入了 KIE(Key Information Extraction)标注,帮助用户标注并提取关键信息,以满足更复杂场景下的标注需求。
Tip: 旋转框还支持实时显示旋转角哦!
更进一步地,X-AnyLabeling
中内置了多种先进的深度学习算法,包括但不仅限于经典的目标检测算法如 YOLO
系列以及最热门的 SAM
系列等算法,目前仍在不断扩充中。
不仅如此,X-AnyLabeling
还支持导入用户自定义的模型,这一特性使其真正成为一个具备广泛适用性和高度可定制性的标注工具,满足用户的不同需求。
为了确保用户能够充分利用 X-AnyLabeling
的功能,提供了全面而详细的帮助文档。这些文档包含详细的使用说明、标注步骤、功能解释以及常见问题解答,旨在为用户提供清晰、易懂的指导,使其能够顺利地使用工具完成标注任务。
除此之外,仍积极维护和支持开发者社区,致力于建立一个互助互学的平台。在这个社区中,用户可以分享经验、提出问题、交流想法,得到来自开发人员的支持和解答(初步估计,目前X-AnyLabeling
的bug修复率以及功能支持率高达95%+,基本做到有问必答,有bug必解!)。通过建立积极的开发者社区,小编一直希望能为用户提供更加全面、实时的支持,以确保大家在使用 X-AnyLabeling
时能够获得最佳的体验和帮助,同时也欢迎大家积极提PR。
详情可参考[模型列表] (https://github.com/CVHub520/X-AnyLabeling/blob/main/docs/zh_cn/model_zoo.md),其中所有模型权重文件均提供百度网盘和
github
链接两种方式。
作为 v2.0.0 版本的主打功能,X-AnyLabeling
正式实现了从闭集到开集的重大突破。首次推出的功能基于 Grounding-DINO
、Grounding-SAM
等模型。其中,Grounding-DINO 是 IDEA 最新开源的零样本目标检测模型,通过任意文本驱动,能够根据用户提供的文字描述来检测图像中指定的目标。
以检测大熊猫为例,检测结果显示模型几乎完美地定位了图像中的每个目标(panda
),当然,结果也受到用户给定的文本提示词(prompt
)的影响,例如将提示词从 pandas
更改为 panda
可能导致检测结果的变化。
为了实现真正的全自动标注,推荐大家体验最新部署的 Grounding-SAM
。通过结合 X-AnyLabeling
工具中独家提供的一键运行组件和导出功能设置,用户可以高效地进行零样本检测和分割,轻松获取适用于各大主流训练框架的标签文件。
此外,尽管对于一些非通用目标定义仍然存在一些局限性,但通过亲自上手体验,可以更好地理解和掌握系统的运作方式。X-AnyLabeling
的持续优化和创新为用户提供了更广泛、更灵活的标注解决方案。
图像字幕生成是一项融合了计算机视觉(CV)和自然语言处理(NLP)的复杂任务,其目标是使计算机能够以自然语言自动生成对图像内容的详尽描述。具体而言,系统接收一张图像作为输入,通过 RAM 模型的强势植入,实现了自动生成生动而详实的文本描述。该描述旨在生动展现图像中的主要场景、对象及它们之间的关系,从而帮助人们更深入理解图像。
Recognize Anything, RAM 是专用于图像标记的识别一切模型,与 SAM 类似,作为基础模型,它具备卓越的识别能力,在准确性和识别种类方面均超越了 BLIP 等当前领先的模型。最新版本的 X-AnyLabeling 引入了 RAM 模型,并成功集成了该项图像字幕生成功能。
除了图像级别的描述之外,X-AnyLabeling 还引入了Object-level的图像描述功能,从而大幅丰富了系统的功能。这意味着系统不仅能够在整体上描述图像,还能够深入到图像中的各个对象层面,为用户提供更为细致和全面的信息。
当前最新版本支持ResNet50
、YOLOv5-cls
、YOLOv8-cls
以及最新的InternImage
模型。
为满足广大粉丝的需求,X-AnyLabeling v2 版本引入了全新的多标签属性标注功能。首次推出的功能包括基于百度飞浆开源的 PULC 中的车辆属性(Vehicle Attribute)和行人属性(Person Attribute)模型。整体的用户界面(UI)设计以及标注范式遵循 CVAT 开源工具箱的标准,为用户提供更加一致和友好的体验。现在,您可以尽情体验这一全新的标注功能!
X-AnyLabeling 目前提供基于Horizontal Bounding Box,HBB
即水平目标框(如yolov5/yolov6/yolov7/yolov8/yolox/yolo_nas/rtdeter/damo_yolo/gold_yolo等YOLO
全系列产品)以及基于Oriented Bounding Box,OBB
即有向目标框(如DOTAv1.0/1.5/2.0以及VisDrone数据集训练的yolov5_obb
和yolov8_obb
)的检测模型。
当然,你也可以替换为自定义模型。此外,为了提升小目标检出能力,X-AnyLabeling
中还集成了 SAHI
工具,支持切片推理,一键提升小目标检测性能:
不仅如此,Classify-by-detection
同样也提供,支持对检测后的结果进行二次分类,提供更细粒度的识别结果!例如这里可以将原本是 bird
的类别进一步更正为 chickadee
,即山雀:
目前,X-AnyLabeling 已经内置了两种先进的多目标跟踪(MOT)算法,分别是经典的 ByteTrack 和最新的 OC-Sort(CVPR 2023)。默认情况下,检测器使用 yolov5,当然,用户也可以根据个人偏好将其设置为其他先进的检测和跟踪模型。
关键点检测部分主要包括人脸关键点回归(Facial Landmark Detection)和全身人体姿态估计(Pose Estimation)两个关键领域。在这方面,FLD 的一期规划已经植入了美团的 YOLOv6lite-face 模型。
此外,姿态估计方面当前适配了面向产业界应用的 YOLOv8-Pose
模型和高精度的 DW-Pose
两阶段检测模型:
基于Line
模式,X-AnyLabeling 中集成了 CLRNet-Tusimple (CVPR 2022) 模型供大家快速体验:
OCR(光学字符识别)是一种通过使用机器学习和模式识别等方法自动识别图像中的文字并提取为可编辑的文本,方便后续处理、搜索和编辑。文本标签是许多标注项目中的一项常见任务,但遗憾的是在 Labelme
和 LabelImg
等工具中仍然没有得到很好的支持,X-AnyLabeling
中完美支持了这一项新功能。考虑到效率问题,目前工具内提供了基于 PaddlePaddle 最新开源的 PP-OCRv4
轻量化模型,支持中英文、多语种文本:
G
将其与其他对象组合在一起。分组的对象将用相同的颜色标记。当然,也可以按快捷键U
取消组合。注:标注的文本和分组信息将与其他标注保存在同一个
JSON
文件中。文本将保存在text
对象的字段中,组信息将保存在字段中group_id
。
目前 X-AnyLabeling
工具中提供的实例分割模型主要有两种范式,一种是常规的分割模型,如yolov5-seg
和yolov8-seg
:
另外一种是基于Segment-Anything
范式,如SAM
/EdgeSAM
/Mobile-SAM
/HQ-SAM
/Efficientvit-SAM
等:
更进一步地,针对医学图像场景,X-AnyLabeling
中同样提供了多种基于 SAM 微调的高精度模型,包括:
最后,工具内还内置了 yolov5-SAM
及 YOLOv8-EfficientvitSAM
模型,可以为原始的分割模型提供更加精细化的分割结果!
X-AnyLabeling
中的模型推理架构如下图所示:
其中,LabelingWidget
是推理 SAM
系列模型推理功能所需的核心部件。绘图区域是由Canvas
类处理,而AutoLabelingWidget
则作为自动标记功能和ModelManager
的主要部件用于管理和运行 AI 模型。
Encoder
的计算是需要时间的,所以我们可以把结果缓存起来,也可以对Encoder
在以后的图片上做预计算。这将减少用户等待编码器运行的时间。LRU
缓存来保存编码器的结果。图像保存在缓存中,键是标签路径。当缓存中存在图像嵌入时,不会再次运行编码器,这样可以节省很多时间。缓存大小默认为 10 张图像。image embedding
会缓存到上面的LRU
缓存中。如果图像已经在缓存中,工作线程将跳过它。Brain
按钮以激活自动标记。Model
中选择Segment Anything Models
类型的模型。模型精度和速度因模型而异。其中,Segment Anything Model (ViT-B)是最快的但精度不高。Segment Anything Model (ViT-H)是最慢和最准确的。Quant
表示量化过的模型。注意事项:
image_embedding
,具体见下述"集成方式"章节。X-AnyLabeling
在第一次运行任何模型时,需要从远程服务器下载模型,可能需要一段时间,这具体取决于本地的网络速度和服务运营商。此外,由于当前模型存放在 github 托管,因此如果没有开启科学上网的化,大概率会由于下载失败而中断,可以参考后续实操步骤解决。Segment Anything Model 分为两部分:一个很heavy
的编码器和一个lightweight
解码器。编码器从输入图像中提取图像嵌入。基于嵌入和输入提示(点、框、掩码),解码器生成输出掩码。解码器可以在单掩码或多掩码模式下运行。
在演示中,Meta 在服务器中运行编码器,而解码器可以在用户的浏览器中实时运行,如此一来用户便可以在其中输入点和框并立即接收输出。在本项目中,我们还为每个图像只运行一次编码器。之后,根据用户提示的变化(点、框),运行解码器以生成输出掩码。项目添加了后处理步骤来查找轮廓并生成用于标记的形状(多边形、矩形等)。
X-AnyLabeling
目前提供两种方式供大家运行。第一种是偏向小白用户,大家可以直接再 release 或者直接通过百度网盘链接下载编译好的 GUI 版本,打开即用,具体可参考以下链接:
https://github.com/CVHub520/X-AnyLabeling/blob/main/docs/zh_cn/get_started.md
第二种方式是通过下载源码运行,也是笔者比较建议的构建方式。具体的可以根据自己的机器和个人需求直接 pip 安装相关的依赖库即可。如果遇到某个包如(lap库)安装失败,可以自行上网搜索下解决方案。此外,如果是想体验GPU加速功能,需要安装对应的 requirements*-gpu.txt 文件,同时修改文件中的 onnxruntime-gpu 版本号,要与 CUDA 匹配,具体适配对照表可参考官方文档 [https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html]。
X-AnyLalbeing 中同样提供了丰富的快捷键,极大提升标注效率。大家可根据自己的习惯通过修改当前设备的用户根目录下的 .anylabelingrc
文件进行修改:
#Linux
cd ~/.anylabelingrc
#Windows
cd C:\\Users\\xxx\\.anylabelingrc
默认的快捷键设置可以参考 github 主页示意图。
https://github.com/CVHub520/X-AnyLabeling/blob/main/docs/zh_cn/custom_model.md
https://github.com/CVHub520/X-AnyLabeling/blob/main/docs/zh_cn/user_guide.md
可参考以下打包指令:
#Windows-CPU
bash scripts/build_executable.sh win-cpu
#Windows-GPU
bash scripts/build_executable.sh win-gpu
#Linux-CPU
bash scripts/build_executable.sh linux-cpu
#Linux-GPU
bash scripts/build_executable.sh linux-gpu
注意事项:
- 编译前请针对相应的 GPU/CPU 版本修改
anylabeling/app_info.py
文件中的__preferred_device__
参数,同时根据对应参数激活对应的 GPU/CPU 虚拟环境;- 如果需要编译
GPU
版本,请通过pip install -r requirements-gpu-dev.txt
安装对应的环境;特别的,对于GPU
版本的编译,请自行修改anylabeling-win-gpu.spec
的datas
列表参数,将您本地的onnxruntime-gpu
的相关动态库*.dll
or*.so
添加进列表中;此外,下载onnxruntime-gpu
包是需要根据CUDA
版本进行适配,具体匹配表可参考官方文档说明。- 对于
macos
版本可自行参考anylabeling-win-*.spec
脚本进行修改。
本文详细为大家介绍了 X-AnyLabeling 的设计初衷及完整的功能特性介绍。作为一款支持高度定制化的开源工具,其实大家完全可以基于该项目进行二次开发;例如我们可以联合目标追踪、检测及OCR识别等做视频人物和字幕的解析;可以编写TensortRT后端完成更高效的推理;还可以引入AI Agent构建更高效和强大的数据标定流程;
开源不易,希各位小伙伴给个 Star
鼓励支持下吧!最后,如果你有新的想法想要探讨或者碰到难以解决的问题,欢迎添加小编vx:ww10874,备注X-AnyLabeling
,与我一同探讨和交流。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。