论文阅读2025/02/15 22:40阅读 15

【论文阅读】YOLO系列

算法深度学习计算机视觉

YOLOv1

主要思想是将检测问题转化为回归问题，对于每个grid cell仅预测两个bbox，不再需要两阶段的ROI生成，而是直接进行预测。

一共 7*7 个网格，每个网格有 (x,y,w,h)*2，再加上 20 种类别的分数，总计 30 个回归值。

损失函数：

YOLOv2

引入一些优化，例如BN层、更大的分辨率、微调网络结构、引入Anchor Box、回归Bbox时引入相对偏移量、使用特征融合机制缓解小目标丢失。

YOLOv3

多尺度特征图

引入了多尺度特征图，同时引入多尺度的先验框尺寸。

重新设计网络结构

引入了残差块设计、用了更多的小核卷积。

YOLOv4

数据增强

引入多种数据增强方法，包括CutMix、Random Erase、Hide and Seek、DropBlock、Label Smoothing

DIOU-NMS

标准 IoU

缺陷：

若两个框没有相交，则IoU=0，不能反映两者的距离大小，并且loss=0没有梯度回传，无法进行学习训练。
IoU不能精确地反映两者的重合度大小。如下图所示，三种情况下的IoU相等，但它们的框质量实际大不相同。

GIoU (Generalized Intersection over Union)

$GIoU=IoU-\frac{|C-B\cup B^{gt}|}{|C|}$ ，引入闭包 C，可以将两个框包含在内。

优点：

GIoU 考虑到了 IoU 未考虑到的框重叠面积，从而能够更好地反映两者的重叠程度。
GIoU是IoU的下界，在两个框无限重合的情况下，IoU=GIoU=1
IoU取值[0,1]，但GIoU有对称区间，取值范围[-1,1]。在两者重合的时候取最大值1，在两者无交集且无限远的时候取最小值-1，因此GIoU是一个非常好的距离度量指标。

缺陷：

无法判断目标框与预测框完全重叠的情况：

DIoU

$\mathcal{L}_{DIoU}=1-IoU+\frac{\rho^{2}(\mathbf{b},\mathbf{b}^{gt})}{c^{2}}$ ，其中分子是预测框与真实框的中心点欧式距离 $d$ ，分母是能覆盖预测框与真实框的最小 bbox 的对角线长度 $c$ 的平方。

直接优化了距离，速度更快并且解决了 GIoU 存在的问题。

CIoU

$\begin{aligned}&\mathcal{L}_{CIoU}=1-IoU+\frac{\rho^{2}(\mathbf{b},\mathbf{b}^{gt})}{c^{2}}+\alpha v\&v=\frac{4}{\pi^{2}}(arctan\frac{w^{gt}}{h^{gt}}-arctan\frac{w}{h})^{2}\&\alpha=\frac{v}{(1-IoU)+v}\end{aligned}$

增加考虑了长宽比。

DIoU-NMS

使用DIoU作为NMS的评判标准。

Soft(er)-NMS

Soft-NMS

不直接去除重叠的框，而是根据重叠IoU去降低框的置信度。IoU越高，置信度下降得越多。

标准NMS的滤框过程：

$s_i=\begin{cases}s_i,&\text{iou}(\mathcal{M},b_i)<N_t\0,&\text{iou}(\mathcal{M},b_i)\geq N_t\end{cases}$

Soft-NMS的滤框过程：

$s_i=\begin{cases}s_i,&\text{iou}(\mathcal{M},b_i)<N_t\s_i(1-\text{iou}(\mathcal{M},b_i)),&\text{iou}(\mathcal{M},b_i)\geq N_t\end{cases}$

Softer-NMS

Soft-NMS的方法是不连续的，会在 $N_t$ 处出现一个 sudden penalty。理想的惩罚函数是一个连续函数，否则会给检测框列表的排序带来突然的改变。

连续惩罚函数应当满足：no overlap-no penalty; high overlap-high penalty; low overlap-increase the penalty gradually (M不应该影响和它有较低overlap的框的分数); high overlap-be significantly penalized

考虑到上述条件，作者提出用 Gaussian penalty function 作为 Rescoring function：(高斯)

$s_i=s_ie^{-\frac{\mathrm{iou}(\mathcal{M},b_i)^2}\sigma,\forall b_i\notin\mathcal{D}}$

概率分布：传统边界框回归仅预测位置偏移，未考虑定位的置信度。分类得分高不代表定位准确，导致NMS可能抑制定位精确但分类得分低的候选框。作者通过将边界框的预测建模为高斯分布（均值为预测位置，方差表示不确定性），真实框建模为Dirac delta函数（方差趋近0）。通过最小化两者的KL散度，同时学习位置和方差。

数学推导：

预测分布 $P_\Theta(x)=\frac1{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-x_e)^2}{2\sigma^2}}$ ，真实分布 $P_D(x)=\delta(x-x_g)$ 。

KL Loss： $L_{reg}\propto\frac{(x_g-x_e)^2}{2\sigma^2}+\frac12\log(\sigma^2)$ ，其中，第一项惩罚定位误差，第二项防止方差过大。训练时通过预测 $\alpha=1/\sigma^2$ 避免梯度爆炸。

**基于方差的框融合：**在NMS过程中，利用预测的方差对邻近框进行加权平均，方差小的框（定位更准）权重更大。

暂无评论，来发表第一条评论吧！