Skip to content

leo038/open_world_object_detection_survey

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

open_world_object_detection_survey

开放世界目标检测工作汇总。

算法

  • DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 2022.03 IDEA Research, ICLR DINO 是DETR with Improved deNoising anchOr boxes的缩写。 Meta也有系列工作命名为DINO, 但两者没有关系, 要注意区分。 DINO 的主要贡献是在之前的DETR系列工作上提出了3点改进, 从而提升了模型的性能和效率。 这3点改进是:
    1. 对比去噪训练
    2. anchor初始化的时候采用了混合查询的方法
    3. box预测时的2次前向

DINO framework

DINO做的还是闭集检测, 不算开放世界检测。 但是它是后面几篇工作的基础, 所以放在这里。

  • Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks 20240.01 IDEA Research

  • Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 2023.03 IDEA Research, ECCV

    Grouding DINO 这篇文章主要是为了做开放世界的目标检测,实现方式是把DINO和短语定位预训练任务结合。作者认为开集检测的核心是引入语言到闭集检测中。为有效融合语言和视觉模态, 把闭集检测器划分为3个阶段, 并且在3个阶段都进行了融合, 包括特征增强, 语言引导的查询选择 和交叉模态的编码器。这也是区别其他方法的地方, 其他方法一般在1-2个阶段进行融合。

    grounding dino framework

  • Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection 2024.05 IDEA Research 这篇工作主要是在Grounding DINO的基础上进一步扩大了模型规模和数据规模。 有2个版本的模型, 分别是Pro和Edge, Pro主打效果好, Edge版本主打高性能, 牺牲了一定的效果。 相比Grounding DINO, 主要是在密集场景检测, 长尾目标检测和语义理解上有了很大改进, 并且减少了幻觉(检测出图像中没有的prompt对象)。 grounding dino 1.5  framework

  • DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding 2024.11 IDEA Research

    这篇工作在扩展了更多的输入prompt, 包括文本prompt, 视觉prompt和自定义prompt, 从而使得长尾目标检测更容易。 并且作者构建了包含1亿个高质量样本的数据集。在如此大规模数据上预训练后, DINO-X 具备了基础的目标级别的表征能力, 可以支持多种目标感知和理解的任务, 比如检测, 分割, 姿态估计, 问答等等。

上面的DINO和Grounding DINO都是IDEA Research 出的。 Grounding DINO开源, 其他的都没有开源, 而是提供了api的形式使用。 模型体验平台: https://cloud.deepdataspace.com/

dinox framework

yolow framework

yoloe framework

数据集

dataset Image num Anno num category year link
Object365 600K 10M 365 2019 https://www.objects365.org/overview.html
GQA 113K 22M 2019 https://arxiv.org/pdf/1902.09506
Flickr 31K 276K 2016 https://arxiv.org/pdf/1505.04870
CC3M 3.3M 2018 https://aclanthology.org/P18-1238.pdf
LVIS 164K 200M 1203 2019 https://arxiv.org/pdf/1908.03195
Ref COCO 20K 50K 2016 https://arxiv.org/pdf/1608.00272v3
Ref COCO+ 20K 49.8K 2016 https://arxiv.org/pdf/1608.00272v3
Ref COCOg 26.7K 54.8K 2016 https://arxiv.org/pdf/1608.00272v3
COCO 164K 896K 80 2014 https://arxiv.org/abs/1405.0312

注:

GQA + Flickr 又称为GoldG数据集。 LVIS 使用与COCO数据集完全相同的图像,但有不同的分割和注释。

About

开放世界目标检测工作汇总。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors