YOLO-世界（实时开放词汇对象检测）

作者：我家小花儿 | 2024-02-22 05:07:44

踩

YOLO-世界（实时开放词汇对象检测）

YOLO _world引入了先进的实时 Ultralytics YOLOv8-基于开放词汇检测任务的先进实时方法。这项创新可根据描述性文本检测图像中的任何物体。YOLO-World 可大幅降低计算要求，同时保持极具竞争力的性能，是众多视觉应用的多功能工具。

概述

YOLO-传统的开放式词汇检测模型通常依赖于需要大量计算资源的繁琐变形器模型。这些模型对预定义对象类别的依赖也限制了它们在动态场景中的实用性。YOLO-World利用开放式词汇检测功能重振了YOLOv8 框架，采用了视觉语言建模和在大量数据集上进行预训练的方法，能够以无与伦比的效率在零拍摄场景中出色地识别大量物体。

主要功能

实时解决方案：利用 CNN 的计算速度，YOLO-World 可提供快速的开放词汇检测解决方案，满足各行业对即时结果的需求。
效率和性能： YOLO-World 可在不牺牲性能的前提下降低计算和资源需求，提供了一种可替代SAM 等模型的强大功能，但计算成本仅为它们的一小部分，从而支持实时应用。
利用离线词汇进行推理： YOLO-World 引入了 "先提示后检测 "的策略，利用离线词汇进一步提高效率。这种方法可以使用预先计算的自定义提示，包括标题或类别，并将其编码和存储为离线词汇嵌入，从而简化检测过程。
由YOLOv8 支持：基于 Ultralytics YOLOv8YOLO-World 利用实时对象检测方面的最新进展，以无与伦比的准确性和速度促进开放词汇检测。
卓越的基准测试： YOLO在标准基准测试中，World 的速度和效率超过了现有的开放词汇检测器，包括 MDETR 和 GLIP 系列，展示了YOLOv8 在单个 NVIDIA V100 GPU 上的卓越性能。
应用广泛： YOLO-World 的创新方法为众多视觉任务带来了新的可能性，与现有方法相比，速度提高了几个数量级。

可用型号、支持的任务和运行模式

本节详细介绍了可用的模型及其特定的预训练权重、支持的任务以及与各种运行模式（如推理、验证、训练和导出）的兼容性，支持的模式用 ✅ 表示，不支持的模式用 ❌ 表示。

使用示例

YOLO-World 模型可轻松集成到您的Python 应用程序中。Ultralytics 提供用户友好的Python API 和CLI 命令，以简化开发。

预测使用情况

使用 predict 方法，如下图所示：

该代码段演示了加载预训练模型并在图像上运行预测的简便性。

阀门使用

数据集的模型验证简化如下：

YOLO-World 框架允许通过自定义提示动态指定类别，使用户能够根据自己的特定需求定制模型，而无需重新训练。这一功能对于调整模型以适应新领域或特定任务（这些任务最初并不属于训练数据的一部分）尤其有用。通过设置自定义提示，用户基本上可以引导模型关注感兴趣的对象，从而提高检测结果的相关性和准确性。

例如，如果您的应用程序只需要检测 "人 "和 "公共汽车 "对象，您可以直接指定这些类：

您还可以在设置自定义类后保存模型。这样您就可以创建一个YOLO-World 模型版本，专门用于您的特定用例。此过程将您的自定义类定义直接嵌入模型文件，使模型无需进一步调整即可与您指定的类一起使用。请按照以下步骤保存和加载您的自定义YOLOv8 模型：

使用自定义词汇保存的好处

效率：通过关注相关对象、减少计算开销和加快推理速度，简化检测过程。
灵活性：可使模型轻松适应新的或特殊的检测任务，而无需进行大量的再培训或数据收集。
简单：无需在运行时重复指定自定义类，从而简化了部署，使模型可直接使用其嵌入式词汇。
性能通过将模型的注意力和资源集中在识别已定义的对象上，提高指定类别的检测准确性。

这种方法为特定任务定制最先进的物体检测模型提供了强有力的手段，使高级人工智能更容易获得并适用于更广泛的实际应用。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/128626