【论文阅读】YOLO系列
YOLOv1
主要思想是将检测问题转化为回归问题,对于每个grid cell仅预测两个bbox,不再需要两阶段的ROI生成,而是直接进行预测。
一共 7*7 个网格,每个网格有 (x,y,w,h)*2,再加上 20 种类别的分数,总计 30 个回归值。
损失函数:
YOLOv2
引入一些优化,例如BN层、更大的分辨率、微调网络结构、引入Anchor Box、回归Bbox时引入相对偏移量、使用特征融合机制缓解小目标丢失。
YOLOv3
多尺度特征图
引入了多尺度特征图,同时引入多尺度的先验框尺寸。
重新设计网络结构
引入了残差块设计、用了更多的小核卷积。
YOLOv4
数据增强
引入多种数据增强方法,包括CutMix、Random Erase、Hide and Seek、DropBlock、Label Smoothing
DIOU-NMS
标准 IoU
缺陷:
若两个框没有相交,则IoU=0,不能反映两者的距离大小,并且loss=0没有梯度回传,无法进行学习训练。
IoU不能精确地反映两者的重合度大小。如下图所示,三种情况下的IoU相等,但它们的框质量实际大不相同。
GIoU (Generalized Intersection over Union)
,引入闭包 C,可以将两个框包含在内。
优点:
GIoU 考虑到了 IoU 未考虑到的框重叠面积,从而能够更好地反映两者的重叠程度。
GIoU是IoU的下界,在两个框无限重合的情况下,IoU=GIoU=1
IoU取值[0,1],但GIoU有对称区间,取值范围[-1,1]。在两者重合的时候取最大值1,在两者无交集且无限远的时候取最小值-1,因此GIoU是一个非常好的距离度量指标。
缺陷:
- 无法判断目标框与预测框完全重叠的情况:
DIoU
,其中分子是预测框与真实框的中心点欧式距离 ,分母是能覆盖预测框与真实框的最小 bbox 的对角线长度 的平方。
直接优化了距离,速度更快并且解决了 GIoU 存在的问题。
CIoU
增加考虑了长宽比。
DIoU-NMS
使用DIoU作为NMS的评判标准。
Soft(er)-NMS
Soft-NMS
不直接去除重叠的框,而是根据重叠IoU去降低框的置信度。IoU越高,置信度下降得越多。
标准NMS的滤框过程:
Soft-NMS的滤框过程:
Softer-NMS
Soft-NMS的方法是不连续的,会在 处出现一个 sudden penalty。理想的惩罚函数是一个连续函数,否则会给检测框列表的排序带来突然的改变。
连续惩罚函数应当满足:no overlap-no penalty; high overlap-high penalty; low overlap-increase the penalty gradually (M不应该影响和它有较低overlap的框的分数); high overlap-be significantly penalized
考虑到上述条件,作者提出用 Gaussian penalty function 作为 Rescoring function:(高斯)
概率分布:传统边界框回归仅预测位置偏移,未考虑定位的置信度。分类得分高不代表定位准确,导致NMS可能抑制定位精确但分类得分低的候选框。作者通过将边界框的预测建模为高斯分布(均值为预测位置,方差表示不确定性),真实框建模为Dirac delta函数(方差趋近0)。通过最小化两者的KL散度,同时学习位置和方差。
数学推导:
预测分布 ,真实分布 。
KL Loss:,其中,第一项惩罚定位误差,第二项防止方差过大。训练时通过预测 避免梯度爆炸。
**基于方差的框融合:**在NMS过程中,利用预测的方差对邻近框进行加权平均,方差小的框(定位更准)权重更大。
评论 (0)
暂无评论,来发表第一条评论吧!