Sparse R-CNN：稀疏框架，端到端的目标检测（附源码）

计算机系统听觉研究所时评

译者：Edison_G

Sparse R-CNN舍弃了anchor boxes或是reference point等dense基本概念，间接从a sparse set of learnable proposals起程，没NMS预处理，整座互联网极度整洁和简约，能看作是两个崭新的检验本体论。

社会公众号ID｜ComputerVisionGzq

自学群｜

1 概要

现阶段最终目标检验成熟的演算法都是如前所述Dense prior（稀疏的本体论，比如说anchors、reference points），但稀疏的本体论存有许多难题：1）会检验出许多相近的结论，须要预处理（比如说NMS）来过滤器；2）many-to-one label assignment 难题（译者叙述为 many-to-one 差值样品重新分配），揣测原意是他们在增设pred和gt时，通常并非单对单的亲密关系，可能将是有数个preds，看看别的与gt更合乎；3）检验结论与本体论的亲密关系十分紧密（anchors的数目、大小不一，reference points的保密性某种程度、proposal聚合的数目）。

因此，有人类学家明确提出了浓密RCNN（Sparse R-CNN），一类影像中最终目标检验的纯浓密方式。原有的最终目标检验组织工作十分大某种程度上倚赖稀疏的备选最终目标，如所有H×W的影像特征图网格上预定义的k个anchor boxes。

然而，在新明确提出的方式中，提供了一套固定的浓密的自学备选最终目标，总长度N，给最终目标检验头进行分类和定位。通过消除H*W*k（多达数十万）手工设计的备选最终目标到N（例如100)可自学的建议，Sparse R-CNN完全避免了所有与备选最终目标的设计和多对一的标签重新分配相关的组织工作。更重要的是，最终的预测是间接输出的，而没非极大抑制的预处理。SparseR-CNN证明了准确性、运行时和训练收敛性能，与具有挑战性的COCO数据集上建立的检验器基线相当，例如，在标准3×训练计划中实现45.0AP，并使用ResNet-50FPN模型以22fps的速度运行。

译者是希望新的架构能够激发人们重新思考最终目标检验器中稀疏本体论的惯例。

2 背景

不同最终目标检验pipelines的比较。(a)Dense，HWk备选最终目标枚举在所有的影像网格上，例如。RetinaNet；(b)Dense-to-Sparse，它们从稀疏的HWk备选最终目标中选择一小组N个备选最终目标，然后通过池化操作提取相应区域内的影像特征，如Faster R-CNN；(c)人类学家明确提出的Sparse R-CNN，间接提供了一小组N个自学的备选最终目标，这里N远小于HWk。

DenseNet

是CVPR2017的oral，十分厉害。文章明确提出的DenseNet（Dense Convolutional Network）主要还是和ResNet及Inception互联网做对比，思想上有借鉴，但却是崭新的结构，互联网结构并不复杂，却十分有效！众所周知，最近一两年卷积神经互联网提高效果的方向，要么深（比如说ResNet，解决了互联网深时候的梯度消失难题）要么宽（比如说GoogleNet的Inception），而译者则是从feature入手，通过对feature的极致利用达到更好的效果和更少的参数。主要优化：

减轻了vanishing-gradient（梯度消失）

加强了feature的传递

更有效地利用了feature

一定某种程度上较少了参数数目

在深度自学互联网中，随着互联网深度的加深，梯度消失难题会愈加明显，现阶段许多论文都针对这个难题明确提出了解决方案，比如说ResNet，Highway Networks，Stochastic depth，FractalNets等，尽管这些演算法的互联网结构有差别，但是核心都在于：create short paths from early layers to later layers。那么译者是怎么做呢？延续这个思路，那就是在保证互联网中层与层之间最大某种程度的信息传输的前提下，间接将所有层连接起来！

RetinaNet

明确提出两个新的损失函数，在解决类别不均衡难题上比之前的方式更有效。损失函数是动态缩放的交叉熵损失，其中缩放因子随着对正确类别的置信度增加而衰减到零(如下图)。直观地说，这个缩放因子能自动降低训练过程中简单样品的贡献，并快速将模型集中在困难样品上。实验发现，Focal Loss在one-stage检验器上的精确度胜过之前的state-of-art的启发式采样和困难样品挖掘。最后，focal loss的具体公式形式并非关键的，其它的示例能达到类似的结论。

设计了两个名叫RetinaNet的ondev上取得了39.1 AP的成绩，超过现阶段公开的单一模型在one-stage和two-stage检验器上取得的最好成绩。

3 新架构

数据输入包括an image, a set of proposal boxes and proposal features

使用FPN作为Backbone，处理影像

下图中的Proposal Boxes: N*4是一组参数，跟backbone没啥亲密关系

下图中的proposals features和backbone也没啥亲密关系

Learnable porposal box

跟backbone没什么亲密关系

能看成是物体潜在位置的统计概率

训练的时候能更新参数

Learnable proposal feature

跟backbone没什么亲密关系

之前的proposal box是两个比较简约、却的方式来叙述物体，但缺少了许多信息，比如说物体的形状与姿态

proposal feature就是用来表示更多的物体信息。

Dynamic instance interactive head

到最终预测结论

Head的数目与learnable box的数目相同，即head/learnable proposal box/learnable proposal feature一一对应

Sparse R-CNN的两个显著特点就是sparse object candidates和sparse feature interaction，既没dense的成千上万的candidates，也没dense的global feature interaction。Sparse R-CNN能看作是最终目标检验架构从dense到dense-to-sparse到sparse的两个方向拓展。

4 实验&可视化

COCO 2017 val set测试结论

COCO 2017 test-dev set

可视化迭代架构中每个阶段的预测框，包括自学到的备选框。自学到的备选框以白色绘制。显示了分类分数超过0.3的预测框。同一备选类的框以相同颜色绘制，自学到的备选框被随机分布在影像上，并一起覆盖整座影像。迭代头逐渐细化边界框位置，删除重复的。

上图显示了converged model的自学到的备选框。这些方框被随机分布在影像上，以覆盖整座影像区域。这保证了在浓密备选条件下的召回性能。此外，每个阶段的级联头逐渐细化边界框的位置，并删除重复的位置。这就导致了高精度的性能。上图还显示了Sparse R-CNN在罕见场景和人群场景中都表现出稳健的性能。对于罕见场景中的最终目标，其重复的方框将在几个阶段内被删除。拥挤的场景须要更多的阶段来细化，但最终每个最终目标都被精确而唯一地检验到。

© THE END

转载请联系本社会公众号获得授权

计算机系统听觉研究院自学群等你加入！

计算机系统听觉研究所主要涉及深度自学领域，主要致力于人脸检验、人脸识别，多最终目标检验、最终目标跟踪、影像分割等研究方向。研究所接下来会不断分享最新的论文演算法新架构，他们这次改革不同点就是，我们要着重”研究“。之后他们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机系统听觉研究所

社会公众号ID｜ComputerVisionGzq

源代码下载SRCNN

🔗

DenseNet

相关文章

微信