【论文阅读】YOLO系列

YOLOv1

主要思想是将检测问题转化为回归问题,对于每个grid cell仅预测两个bbox,不再需要两阶段的ROI生成,而是直接进行预测。

一共 7*7 个网格,每个网格有 (x,y,w,h)*2,再加上 20 种类别的分数,总计 30 个回归值。

损失函数:

YOLOv2

引入一些优化,例如BN层、更大的分辨率、微调网络结构、引入Anchor Box、回归Bbox时引入相对偏移量、使用特征融合机制缓解小目标丢失。

YOLOv3

多尺度特征图

image.png

引入了多尺度特征图,同时引入多尺度的先验框尺寸。

重新设计网络结构

引入了残差块设计、用了更多的小核卷积。

YOLOv4

数据增强

引入多种数据增强方法,包括CutMix、Random Erase、Hide and Seek、DropBlock、Label Smoothing

DIOU-NMS

标准 IoU

缺陷:

  • 若两个框没有相交,则IoU=0,不能反映两者的距离大小,并且loss=0没有梯度回传,无法进行学习训练。

  • IoU不能精确地反映两者的重合度大小。如下图所示,三种情况下的IoU相等,但它们的框质量实际大不相同。

GIoU (Generalized Intersection over Union)

GIoU=IoUCBBgtCGIoU=IoU-\frac{|C-B\cup B^{gt}|}{|C|},引入闭包 C,可以将两个框包含在内。

优点:

  • GIoU 考虑到了 IoU 未考虑到的框重叠面积,从而能够更好地反映两者的重叠程度。

  • GIoU是IoU的下界,在两个框无限重合的情况下,IoU=GIoU=1

  • IoU取值[0,1],但GIoU有对称区间,取值范围[-1,1]。在两者重合的时候取最大值1,在两者无交集且无限远的时候取最小值-1,因此GIoU是一个非常好的距离度量指标。

缺陷:

  • 无法判断目标框与预测框完全重叠的情况:

DIoU

LDIoU=1IoU+ρ2(b,bgt)c2\mathcal{L}_{DIoU}=1-IoU+\frac{\rho^{2}(\mathbf{b},\mathbf{b}^{gt})}{c^{2}},其中分子是预测框与真实框的中心点欧式距离 dd,分母是能覆盖预测框与真实框的最小 bbox 的对角线长度 cc 的平方。

直接优化了距离,速度更快并且解决了 GIoU 存在的问题。

CIoU

LCIoU=1IoU+ρ2(b,bgt)c2+αvv=4π2(arctanwgthgtarctanwh)2α=v(1IoU)+v\begin{aligned}&\mathcal{L}_{CIoU}=1-IoU+\frac{\rho^{2}(\mathbf{b},\mathbf{b}^{gt})}{c^{2}}+\alpha v\&v=\frac{4}{\pi^{2}}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w}{h})^{2}\&\alpha=\frac{v}{(1-IoU)+v}\end{aligned}

增加考虑了长宽比

DIoU-NMS

使用DIoU作为NMS的评判标准。

Soft(er)-NMS

Soft-NMS

不直接去除重叠的框,而是根据重叠IoU去降低框的置信度。IoU越高,置信度下降得越多。

标准NMS的滤框过程:

si={si,iou(M,bi)<Nt0,iou(M,bi)Nts_i=\begin{cases}s_i,&\text{iou}(\mathcal{M},b_i)<N_t\0,&\text{iou}(\mathcal{M},b_i)\geq N_t\end{cases}

Soft-NMS的滤框过程:

si={si,iou(M,bi)<Ntsi(1iou(M,bi)),iou(M,bi)Nts_i=\begin{cases}s_i,&\text{iou}(\mathcal{M},b_i)<N_t\s_i(1-\text{iou}(\mathcal{M},b_i)),&\text{iou}(\mathcal{M},b_i)\geq N_t\end{cases}

Softer-NMS

Soft-NMS的方法是不连续的,会在 NtN_t 处出现一个 sudden penalty。理想的惩罚函数是一个连续函数,否则会给检测框列表的排序带来突然的改变。

连续惩罚函数应当满足:no overlap-no penalty; high overlap-high penalty; low overlap-increase the penalty gradually (M不应该影响和它有较低overlap的框的分数); high overlap-be significantly penalized

考虑到上述条件,作者提出用 Gaussian penalty function 作为 Rescoring function:(高斯)

si=sieiou(M,bi)2σ,biDs_i=s_ie^{-\frac{\mathrm{iou}(\mathcal{M},b_i)^2}\sigma,\forall b_i\notin\mathcal{D}}

概率分布:传统边界框回归仅预测位置偏移,未考虑定位的置信度。分类得分高不代表定位准确,导致NMS可能抑制定位精确但分类得分低的候选框。作者通过将边界框的预测建模为高斯分布(均值为预测位置,方差表示不确定性),真实框建模为Dirac delta函数(方差趋近0)。通过最小化两者的KL散度,同时学习位置和方差。

数学推导:

预测分布 PΘ(x)=12πσ2e(xxe)22σ2 P_\Theta(x)=\frac1{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-x_e)^2}{2\sigma^2}},真实分布 PD(x)=δ(xxg)P_D(x)=\delta(x-x_g)

KL Loss:Lreg(xgxe)22σ2+12log(σ2)L_{reg}\propto\frac{(x_g-x_e)^2}{2\sigma^2}+\frac12\log(\sigma^2),其中,第一项惩罚定位误差,第二项防止方差过大。训练时通过预测 α=1/σ2\alpha=1/\sigma^2 避免梯度爆炸。

**基于方差的框融合:**在NMS过程中,利用预测的方差对邻近框进行加权平均,方差小的框(定位更准)权重更大。

评论 (0)

暂无评论,来发表第一条评论吧!