96人参与 • 2024-08-01 • 车联网
本文介绍目标检测基础概念,算法发展历史,yolov8环境配置,数据集标注,模型评估指标,改进策略。帮助小白从入门到精通。
目录
2.1 下载yolov8项目,anaconda和pycharm
目标检测(object detection)是计算机视觉领域的重要任务之一,旨在识别图像或视频中的特定目标并将其位置标记出来。与图像分类任务不同,目标检测要求不仅能够识别目标类别,还需要精确地定位目标的位置。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
目标检测技术的发展历史可以追溯到20世纪80年代。在早期阶段,目标检测主要依赖于手工设计的特征提取算法和分类器。这些方法通常基于边缘、纹理、颜色等低级特征,并结合模板匹配或统计模型进行目标检测。然而,这些方法受限于特征的表达能力和鲁棒性,对于复杂场景的检测效果较差。
随着计算机视觉和机器学习的快速发展,基于机器学习的目标检测方法逐渐兴起。其中,主要的突破之一是提出了基于特征的机器学习方法,如haar特征和hog特征。这些方法通过训练分类器来学习目标的特征表示,从而实现目标的检测。然而,这些方法仍然需要手动设计特征,并且对于复杂的目标来说,特征的表示能力较弱。
近年来,深度学习的兴起极大地推动了目标检测技术的发展。基于深度学习的目标检测方法将深度神经网络引入目标检测领域,并取得了重大突破。最具代表性的方法之一是基于区域的卷积神经网络(r-cnn),它将目标检测任务分解为候选区域提取和区域分类两个子任务。后续的方法,如fast r-cnn、faster r-cnn和yolo(you only look once)等进一步改进了速度和准确性。这些方法不仅能够自动学习特征表示,还能够在端到端的框架下进行目标检测。
yolo(you only look once)是一种对象检测算法,由joseph redmon等人于2015年提出。yolo的核心思想是将对象检测任务转化为一个回归问题,通过一个卷积神经网络直接在图像上进行推理,实现实时对象检测。
yolo的发展历程可以分为以下几个阶段:
yolo v1:yolo的第一个版本是在2015年提出的,它采用了一个全卷积神经网络,将输入图像分为s×s个网格,每个网格预测b个边界框和各自边界框的类别概率。然后,通过阈值筛选和非极大值抑制(nms)来获得最终的检测结果。yolo v1在速度和准确率上取得了很大的突破,但对小目标和近似目标的检测效果较差。
yolov5是由ultralytics团队在2020年开发的。yolov5相比于之前的版本在精度和速度上都有显著提升。它采用了一种轻量化的结构,包括多个不同大小的卷积层和池化层,用于提取图像特征。与以往的版本相比,yolov5引入了新的网络架构,以及一种新的训练方法,使用更大的数据集和更长的训练时间,从而提高了算法的性能。
yolov8 是由 ultralytics 公司在2023年1月发布的最新一代实时目标检测模型。yolov8 采用了先进的骨干网络和颈部架构,实现了改进的特征提取和目标检测性能。它采用了无锚点的分割 ultralytics 头部设计,这有助于提高准确性并使检测过程更加高效。yolov8 还专注于在准确性和速度之间保持最佳平衡,适合于不同应用领域的实时目标检测任务。此外,yolov8 提供了一系列预训练模型,以满足不同任务和性能要求,使得用户可以根据自己的具体用例找到合适的模型。
yolov9 由中国台湾 academia sinica、台北科技大学等机构联合开发。yolov9引入了程序化梯度信息(programmable gradient information, pgi),这是一种全新的概念,旨在解决深层网络中信息丢失的问题。传统的目标检测网络在传递深层信息时,往往会丢失对最终预测至关重要的细节,而pgi技术能够保证网络在学习过程中保持完整的输入信息,从而获得更可靠的梯度信息,提高权重更新的准确性。这一创新显著提高了目标检测的准确率,为实时高精度目标检测提供了可能。此外,yolov9采用了全新的网络架构——泛化高效层聚合网络(generalized efficient layer aggregation network, gelan)。gelan通过梯度路径规划,优化了网络结构,利用传统的卷积操作符实现了超越当前最先进方法(包括基于深度卷积的方法)的参数利用效率。这一设计不仅提高了模型的性能,同时也保证了模型的高效性,使yolov9能够在保持轻量级的同时,达到前所未有的准确度和速度。
论文地址:https://arxiv.org/abs/2402.13616
yolov9源代码:https://github.com/wongkinyiu/yolov9
yolov10是清华大学的研究人员在ultralytics的基础上,引入了一种新的实时目标检测方法,解决了yolo 以前版本在后处理和模型架构方面的不足。通过消除非最大抑制(nms)和优化各种模型组件,yolov10 在显著降低计算开销的同时实现了最先进的性能。大量实验证明,yolov10 在多个模型尺度上实现了卓越的精度-延迟权衡。
yolov10 的结构建立在以前yolo 模型的基础上,同时引入了几项关键创新。模型架构由以下部分组成:
主干网络:yolov10 中的主干网络负责特征提取,它使用了增强版的 cspnet(跨阶段部分网络),以改善梯度流并减少计算冗余。
颈部网络:颈部设计用于汇聚不同尺度的特征,并将其传递到头部。它包括 pan(路径聚合网络)层,可实现有效的多尺度特征融合。
一对多头:在训练过程中为每个对象生成多个预测,以提供丰富的监督信号并提高学习准确性。
一对一头:在推理过程中为每个对象生成一个最佳预测,无需 nms,从而减少延迟并提高效率。
论文:https://arxiv.org/pdf/2405.14458
源码: github - thu-mig/yolov10: yolov10: real-time end-to-end object detection
目前,目标检测技术仍在不断发展。一方面,研究者们致力于提高目标检测的准确性和效率。另一方面,一些新的方向也在探索中,如目标实例分割、多目标跟踪等。可以预见,随着技术的不断进步,目标检测技术将在更广泛的应用领域中发挥更大的作用。
分类-classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
定位-location:解决“在哪里?”的问题,即定位出这个目标的的位置。
检测-detection:解决“是什么?在哪里?”的问题,即定位出这个目标的的位置并且知道目标物是什么。
分割-segmentation:分为实例的分割(instance-level)和场景分割(scene-level),解决“每一个像素属于哪个目标物或场景”的问题。
目标检测任务可分为两个关键的子任务:目标分类和目标定位。目标分类任务负责判断输入图像或所选择图像区域(proposals)中是否有感兴趣类别的物体出现,输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像或所选择图像区域(proposals)中的可能性。目标定位任务负责确定输入图像或所选择图像区域(proposals)中感兴趣类别的物体的位置和范围,输出物体的包围盒、或物体中心、或物体的闭合边界等,通常使用方形包围盒,即bounding box用来表示物体的位置信息。
目前主流的目标检测算法主要是基于深度学习模型,大概可以分成两大类别:
(1)one-stage(单阶段)目标检测算法,这类检测算法不需要region proposal阶段,可以通过一个stage直接产生物体的类别概率和位置坐标值,比较典型的算法有yolo、ssd和cornernet;one-stage目标检测算法可以在一个stage直接产生物体的类别概率和位置坐标值,相比于two-stage的目标检测算法不需要region proposal阶段,整体流程较为简单。如下图所示,在testing的时候输入图片通过cnn网络产生输出,解码(后处理)生成对应检测框即可;在training的时候则需要将ground truth编码成cnn输出对应的格式以便计算对应损失loss。
目前对于one-stage算法的主要创新主要集中在如何设计cnn结构、如何构建网络目标以及如何设计损失函数上。
(2)two-stage(双阶段)目标检测算法,这类检测算法将检测问题划分为两个阶段,第一个阶段首先产生候选区域(region proposals),包含目标大概的位置信息,然后第二个阶段对候选区域进行分类和位置精修,这类算法的典型代表有r-cnn,fast r-cnn,faster r-cnn等。目标检测模型的主要性能指标是检测准确度和速度,其中准确度主要考虑物体的定位以及分类准确度。一般情况下,two-stage算法在准确度上有优势,而one-stage算法在速度上有优势。不过,随着研究的发展,两类算法都在两个方面做改进,均能在准确度以及速度上取得较好的结果。
two-stage目标检测算法流程如下图所示,在testing的时候输入图片经过卷积神经网络产生第一阶段输出,对输出进行解码处理生成候选区域,然后获取对应候选区域的特征表示(rois),然后对rois进一步精化产生第二阶段的输出,解码(后处理)生成最终结果,解码生成对应检测框即可;在training的时候需要将ground truth编码成cnn输出对应的格式以便计算对应损失loss。
想要搭建yolov8目标检测模型,首先需要下载代码,配置环境。让我们开始吧!
首先点击以下网址,下载yolov8项目:
ultralytics/ultralytics: new - yolov8 🚀 in pytorch > onnx > openvino > coreml > tflite (github.com)
打开项目,点击code,下载下来,解压。如下图所示。
解压后会得到一个文件夹。如下图所示。
anaconda官网:download anaconda distribution | anaconda
pycharm官网:pycharm:适用于数据科学和 web 开发的 python ide (jetbrains.com)
pycharm建议下载专业版的,上网找个激活码就ok。
安装过程很简单,网上教程一大堆,随便找个一步步来就可以。就不再赘述。
安装好anaconda之后,在开始菜单栏会有文件夹,打开anaconda prompt(记住不能错,必须是anaconda prompt)
新建虚拟环境
conda activate yolov8
# -c pytorch可以去掉,即不指定pytorch官方channel下载,国内快一点
conda install pytorch==1.13.0 torchvision==0.14.0 torchaudio==0.13.0 pytorch-cuda=11.6 -c nvidia
# 或者pip下载 (2选1)
pip install torch==1.13.0+cu116 torchvision==0.14.0+cu116 torchaudio==0.13.0 --extra-index-url https://download.pytorch.org/whl/cu116
右击yolov8项目以pycharm打开,在环境里面使用我们刚刚创建的yolov8
由于目标检测训练时间长,内存占用大,不建议在自己的电脑上训练,推荐租用gup进行训练,价格也很便宜,通常在1-2元一小时。
autodl是一个国内的gpu租用平台,autodl可以提供服务稳定、价格公道的gpu租用服务。更为学生提供免费升级会员通道,享极具性价比的会员价格。 并且操作简单,解决了本地深度学习任务中显卡性能不够用的问题。
本文详细介绍如何租用,和配置环境。链接:http://t.csdnimg.cn/7n7hl
基于深度学习的目标检测主要包括训练和测试两个部分。
训练的主要目的是利用训练数据集进行检测网络的参数学习。训练数据集包含大量的视觉图像及标注信息(物体位置及类别)。如图(a)所示,训练阶段的主要过程包括数据预处理、检测网络以及标签匹配与损失计算等部分。
1)数据预处理。数据预处理旨在增强训练数据多样性,进而提升检测网络的检测能力。常用的数据增强手段有翻转、缩放、均值归一化和色调变化等。
2)检测网络。检测网络一般包括基础骨干、特征融合及预测网络3部分。目标检测器的基础骨干通常采用用于图像分类的深度卷积网络,如alexnet 、vggnet、resnet和densenet等。近期,研究人员开始采用基于transformer的基础骨干网络,如vit(vision transformer)、swin和pvt(pyramid vision transformer)等。通常将大规模图像分类数据库imagenet上的预训练权重作为检测器骨干网络的初始权重。
特征融合主要是对基础骨干提取的特征进行融合,用于后续分类和回归。常见的特征融合方式是特征金字塔结构。
最后,预测网络进行分类和回归等任务。在两阶段目标检测方法中,分类和回归通常采用全连接的方式,而在单阶段的方法中,分类和回归等通常采用全卷积的方式。与此同时,检测器通常还需要一些初始化,如锚点框初始化、角点初始化和查询特征初始化等。
3)标签分配与损失计算。标签分配主要是为检测器预测提供真实值。在目标检测中,标签分配的准则包括交并比(intersection over union,iou)准则、距离准则、似然估计准则和二分匹配等。交并比准则通常用于基于锚点框的目标检测方法,根据锚点框与物体真实框之间的交并比将锚点框分配到对应的物体。距离准则通常用于无锚点框的目标检测方法,根据点到物体中心的距离将其分配到对应的物体。似然估计准则和二分匹配通常基于分类和回归的联合损失进行最优标签分配。基于标签分类的结果,采用损失函数计算分类和回归等任务的损失,并利用反向传播算法更新检测网络的权重。常用的分类损失函数有交叉熵损失函数、聚焦损失函数等,而回归损失函数有l1损失函数、平滑l1损失函数、交并比iou损失函数、giou (generalized iou)损失函数(rezatofighi等,2019)和ciou(complete-iou)损失函数等。
基于训练阶段学习的检测网络,在测试阶段输出给定图像中存在物体的类别以及位置信息。如图(b)所示,主要包括输入图像、检测网络和后处理等过程。对于一幅给定的图像,先利用训练好的检测网络生成分类和回归结果。一般而言,大部分目标检测方法在同一物体周围会生成多个检测结果。因此,大部分目标检测方法需要一个后处理步骤,旨在为每个物体保留一个检测结果并去除其他冗余的检测结果。最常用的后处理方法为非极大值抑制方法(non-maximum suppression,nms)。
nms 试图为每个物体保留一个分类得分最高的检测结果。bodla等人(2017)认为nms方法容易将距离较近的多个物体检测结果合并,造成部分物体漏检的问题。为解决这一问题,bodla等人(2017)对nms进行改进并提出soft-nms。该方法通过降低交并比高的检测结果的分类得分来抑制冗余检测。jiang等人(2018)提出iounet,预测检测框与物体真实框之间的交并比,并根据预测的交并比值进行非极大值抑制。he等人(2018)提出学习检测框的定位方差,并利用定位方差线性加权邻近检测框来提升当前检测框的定位精度。
数据集是必不可少的部分,数据集的优劣直接影响训练效果。一般来说,一个完整的数据集应该包括训练集、测试集和验证集。通常,数据集会被划分为训练集和测试集,比如将数据集的70%用作训练集,30%用作测试集。在进行训练时,可以使用交叉验证的方法将训练集再次划分为训练子集和验证子集,用于模型的训练和验证。
训练集是用于模型的训练的数据集。在训练过程中,模型使用训练集中的样本进行学习和参数调整,通过不断迭代优化模型的参数,使模型能够更好地拟合训练集中的数据。
测试集是用于模型的评估的数据集。在训练完成后,使用测试集中的样本来评估模型的性能和泛化能力。测试集中的样本是模型没有看到过的样本,可以用来判断模型是否过拟合了训练集,以及模型在真实场景中的表现如何。
验证集是用于模型的调优的数据集。在训练过程中,可以使用验证集对模型进行调参,比如选择合适的模型结构、调整超参数等。验证集的作用是帮助选择最佳的模型,并避免使用测试集对模型进行过度调优。
模型的建立需要收集图片并且进行标注。yolov8标注的文件格式如下:
其中,第一个数字表示目标框的类别,后面四个长数字代表框框的四个点的位置。
手动标注很累,推荐使用下面的项目进行标注:
1 labelme
labelme 是一款开源的图像/视频标注工具,标签可用于目标检测、分割和分类。灵感是来自于 mit 开源的一款标注工具 labelme。labelme 具有的特点是:
labelimg是一个图形化的图像注释工具。它是用python编写的,使用qt作为其图形界面。注释被保存为pascal voc格式的xml文件,该格式被imagenet使用。此外,它还支持yolo和create ml格式。labelimg是由tzutalin在几十位贡献者的帮助下创建的流行的图像注释工具,现在已经不再积极开发,并成为label studio社区的一部分。
在模型训练完成之后,需要对模型的优劣作出评估,yolo系列算法的评价指标包括:
1. 准确率(precision):指模型预测为正样本中实际为正样本的比例。
𝑇𝑃、𝐹𝑃、𝑇𝑁、𝐹𝑁分别代表被模型预测为正类的正样本、被 模型预测为正类的负样本、被模型预测为负类的负样本和被模型预测为负类的正 样本。𝑃表示正确预测的正样本在所有被预测为正样本中的百分比,𝑅表示正确预 测的正样本在所有正样本中的百分比。|𝑄𝑅|表示目标类别的数量,𝑞表示检测目标 的类别,𝐴𝑃(𝑞)表示类别𝑞的𝐴𝑃值。
2. 召回率(recall):指实际为正样本中模型预测为正样本的比例。
3. f1值(f1-score):综合考虑准确率和召回率的指标,由准确率和召回率的加权调和平均值计算而得。
4. 平均准确率均值(mean average precision,map):用于衡量模型在不同类别上的平均准确率。map是多个类别准确率的均值。
5.fps(frame per second):评估模型检测速度时常用的指标是 fps,即每秒帧率, 表示每秒内可以检测的图片数量。
6.参数量(params):params 被用来评估模型的空间复杂度。
7.浮点运算次数(gflops):gflops 被用来评估模型的 时间复杂度。
论文中需要使用这些指标,对比不同模型,确定哪些模型是优秀的。如图所示:
持续更新中。。。。。
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论