voc数据集是目标检测经常用的一个数据集,自2005年起每年举办一次比赛,最开始只有4类,到2007年扩充为20个类,共有两个常用的版本:2007和2012。学术界常用的5k的train/val 2007和 16k 的train/val 2012作为训练集,test 2007 作为测试集,用10k 的train/val 2007+test 2007和 16k的train/val 2012作为训练集,test2012作为测试集,分别汇报结果。
coco数据集是微软团队发布的一个可以用来图像recognition + segmentation + captioning数据集,该数据集收集了大量包含常见物体的日常场景图片,并提供像素级的实例标注以更精确地评估检测和分割算法的效果,致力于推动场景理解的研究进展。依托这一数据集,每年举办一次比赛,现已涵盖检测、分割、关键点识别、注释等机器视觉的中心任务,是继imagenet chanllenge以来最有影响力的学术竞赛之一。
相比imagenet,coco更加偏好目标与其场景共同出现的图片,即non-iconic images。这样的图片能够反映视觉上的语义,更符合图像理解的任务要求。而相对的iconic images则更适合浅语义的图像分类等任务。
coco的检测任务共含有80个类,在2014年发布的数据规模分 train/val/test 分别为 80k/40k/40k,学术界较为通用的划分是使用train和35k的val子集作为训练集(trainval35k),使用剩余的val作为测试集(minival),同时向官方的evaluation server提交结果(test-dev)。除此之外,coco官方也保留一部分test数据作为比赛的评测集。
open image是谷歌团队发布的数据集。最新发布的open images v4包含190万图像、600个种类,1540万个bounding-box标注,是当前最大的带物体位置标注信息的数据集。这些边界框大部分都是由专业注释人员手动绘制的,确保了它们的准确性和一致性。另外,这些图像是非常多样化的,并且通常包含有多个对象的复杂场景(平均每个图像8个)。
dota是遥感航空图像检测的常用数据集,包含2806张航空图像,尺寸大约为 4kx4k,包含15个类别共计188282个实例,其中14个主类,small vehicle 和 large vehicle都是vehicle的子类。其标注方式为四点确定的任意形状和方向的四边形。航空图像区别于传统数据集,有其自己的特点,如尺度变化性更大;密集的小物体检测;检测目标的不确定性。数据划分为 1/6 验证集。1/3 测试集,1/2 训练集。目前发布了训练集和验证集,图像尺寸从 800x800 到 4000x4000不等。
labelimg 是一款开源的图像标注工具,标签可用于分类和目标检测,它是用python编写的,并使用qt作为其图形界面,简单好用。注释以pascal voc格式保存为 xml文件,这是imagenet使用的格式。此外,它还支持coco数据集格式。
labelme 是一款开源的图像/视频标注工具,标签可用于目标检测、分割和分类。灵感是来自于mit开源的一款标注工具lebelme。labelme具有的特点是:
labelbox 是一家为机器学习应用程序创建、管理和维护数据集的服务提供商,其中包含一款部分免费的数据标签工具,包含图像分类和分割,文本,音频和视频注释的接口,其中图像视频标注具有的功能如下:
rectlabel 是一款在线免费图像标注工具,标签可用于目标检测、分割和分类。具有的功能或特点:
cvat是一款开源的基于网络的交互式视频/图像标注工具,是对加州视频标注工具(video annotation tool)项目的重新设计和实现。
opencv团队正在使用该工具来标注不同属性的数百万个对象,许多 ui 和 ux 的决策都基于专业数据标注团队的反馈。具有的功能:
vgg image annotator(via)是一款简单独立的手动注释软件,适用于图像,音频和视频。via在web浏览器中运行,不需要任何安装或设置。页面可在大多数现代web浏览器中作为离线应用程序运行。
liblabel,一个用 matlab 写的轻量级 语义/示例(semantic/instance) 标注工具。 imagetagger:一个开源的图像标注平台。 anno-mage:一个利用深度学习模型半自动图像标注工具,预训练模型是基于ms coco数据集,用 retinanet 训练的。
当然还有一些数据标注公司,可能包含更多标注功能,例如对三维目标检测的标注(3d bounding box labelling),激光雷达点云的标注(lidar 3d point cloud labeling)等。
1. introduction
mmdetection 特点:
2. support frameworks
faster r-cnn、r-fcn、mask r-cnn、mask scoring r-cnn、grid r-cnn
cascade r-cnn、hybrid task cascade
soft-nms、dcn、ohen、train from scratch 、m2det 、gn 、hrnet 、libra r-cnn
3. architecture
4. notice
