科技 > 人工智能 > 车联网

YOLO-World:实时开放词汇目标检测

84人参与 2024-07-31 车联网

摘要

open vocabulary:开放词汇
论文链接:https://arxiv.org/pdf/2401.17270.pdf

you only look once (yolo) 系列检测器已经确立了自己作为高效和实用工具的地位。然而,它们对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个问题,我们引入了 yolo-world,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,为 yolo 增添了开放词汇检测能力。具体来说,我们提出了一种新的可重新参数化的视觉语言路径聚合网络(repvl-pan)和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法以零样本的方式高效检测各种对象,表现出色。在具有挑战性的 lvis 数据集上,yolo-world 在 v100 上实现了 35.4 ap 和 52.0 fps,在准确性和速度方面都优于许多最先进的方法。此外,经过微调的 yolo-world 在多个下游任务上表现出色,包括目标检测和开放词汇实例分割。

1、引言

目标检测是计算机视觉中长期存在且基础性的挑战,它在图像理解、机器人技术和自动驾驶等领域有着广泛的应用。随着深度神经网络的发展,大量工作[16, 27, 43, 45]在目标检测方面取得了显著的突破。尽管这些方法取得了成功,但它们仍然受到限制,因为它们仅处理具有固定词汇的目标检测,例如 \mathrm{coco}[26] 数据集中的80个类别。一旦定义了目标类别并进行了标注,训练过的检测器只能检测那些特定的类别,从而限制了开放场景下的能力和适用性。

(0)
打赏 微信扫一扫 微信扫一扫

您想发表意见!!点此发布评论

推荐阅读

目标检测之SSD——全面讲解SSD的概念和原理

07-31

目标检测:如何将VOC标注的xml数据转为YOLO标注的txt格式,且生成classes的txt文件

07-31

目标检测标注工具Labelimg安装与使用

07-31

目标检测舰船数据集整合

07-31

YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

07-31

ros-noetic-desktop-full : 依赖: ros-noetic-desktop 但是它将不会被安装

07-31

猜你喜欢

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论