博客 - RicePasteM's Cafe

【论文阅读】YOLO v11-13

论文阅读2025/07/18阅读 60

GELAN（generalized efficient layer aggregation network）是一种改进的深度学习模型，其核心是借鉴了ELAN中的“多梯度流路径”思想，以增强模型在训练过程中的梯度回传效率。该模型通过引入残差连接和CSP模块，实现了更加通用和高效的特征提取能力。此外，YOLO系列模型中也采用了类似的技术，如C3K2模块、C2PSA模块和R-ELAN等，这些技术都旨在提升网络在多尺度目标检测任务中的表现。

算法数据结构计算机视觉

【论文阅读】基于DETR的旋转目标检测

论文阅读2025/05/06阅读 23

**DOTA-V2.0**： - **优点**： - 引入了Transformer架构，显著提高了模型的检测性能。 - 支持多尺度训练和测试，适应不同尺寸的目标。 - 通过自注意力机制，模型可以更好地理解目标间的全局关系。 **ARS-DETR**： - **优点**： - 使用Aspect Ratio-aware CSL（ARS-CSL）来处理长宽比变化的问题。 - 提出了自适应方向精修模块（Oriented-Deformable Refinement），有效解决方向问题。 **RHINO**： - **优点**： - 使用了Hausdorff距离匹配，解决了传统L1距离匹配在旋转目标检测中存在的不连续性和方形类似问题。 - 结合点集预测和轴向预测，提高了对复杂旋转目标的检测精度。 **Oriented-DETR**： - **优点**： - 通过点轴表示法（Point-Axis Representation），将旋转目标分解为点集和轴线，解决了角度模糊性和方向问题。 - 引入了多种损失函数和优化策略，如Max-Projection Loss和Cross-Axis Loss，提高了模型的检测精度和鲁棒性。

算法深度学习计算机视觉

【论文阅读】YOLO系列

论文阅读2025/02/15阅读 15

文章介绍了YOLO系列模型的演进过程，从YOLOv1到YOLOv4，逐步引入了新的技术来改进检测性能。YOLOv1通过将回归问题简化为两个bbox，直接进行预测，减少了两阶段的ROI生成步骤。YOLOv2引入了BN层、更大的分辨率、微调网络结构等优化措施，以提升检测速度和准确性。YOLOv3引入了多尺度特征图和重设计网络结构，增强了对不同大小目标的检测能力。YOLOv4进一步引入多种数据增强方法和DIOU-NMS，提高了模型的鲁棒性和检测精度。此外，还探讨了基于方差的框融合方法，通过加权平均邻近框来提高检测的准确性。

算法深度学习计算机视觉

【论文阅读】DQ-DETR

论文阅读2024/12/28阅读 17

DQ-DETR 是一个针对微小物体检测的改进版 DETR，通过动态调整查询（query）的数量和位置信息来适应图像中物体的数量和分布。它包含两个主要部分：分类计数模块和计数引导的特征增强模块（CGFE）。 1. **分类计数模块**：该模块估计图像中对象的数量并分为几个等级，同时利用密度图增强编码器的视觉特征，以改善对微小目标的空间信息。 2. **计数引导的特征增强模块（CGFE）**：该模块使用从分类计数模块生成的密度图来增强编码器的视觉特征，包括空间交叉注意力和通道注意力，从而提升对微小物体的空间信息的理解。 3. **动态 Query 选择**：根据分类计数模块的结果动态调整在变换器编码器中使用的对象查询数量，确保每个查询都与当前图像中的微小物体紧密相关。 DQ-DETR通过这些技术改进，有效地提升了在检测微小物体时的性能表现，特别是在处理不同图像中对象数量不平衡的情况时。

算法深度学习计算机视觉

【论文阅读】D-FINE

论文阅读2024/12/12阅读 11

本文提出了一种名为D-FINE的实时目标检测模型，旨在改进传统目标检测模型在模糊场景中的表现。D-FINE通过细粒度分布优化（FDR）和全局最优位置自蒸馏（GO-LSD）来提高定位精度并降低计算成本。 ### 主要内容： 1. **模型组成与创新**： - **FDR**：将固定坐标回归转变为概率分布回归，使每层解码器能够更细致地细化边界框预测，提高定位的准确性。 - **GO-LSD**：通过自蒸馏技术，将深层位置知识传递到浅层，加速收敛，提升整体性能。 2. **轻量化优化**： - D-FINE在保持高精度的同时，显著降低了计算复杂度，适用于实时目标检测任务。 3. **实验验证**： - 在COCO数据集上进行实验，D-FINE实现了超过54%的平均精度，并在对象检测任务上超过了其他现有模型。 ### 总结： D-FINE通过结合精细的边界框预测和高效的自蒸馏策略，显著提高了目标检测模型在模糊和不确定环境下的性能。其轻量化特性使其适用于各种实时应用，如自动驾驶和智能监控。

算法深度学习计算机视觉

【论文阅读】RT-DETR

论文阅读2024/12/11阅读 10

RT-DETR 是一个实时的基于Transformer的目标检测器，使用Resnet作为backbone，并通过引入AIFI和CCFF来优化特征提取和多尺度特征融合。此外，RT-DETR采用了IoU感知的查询选择策略，通过GIoU损失和L1损失以及IoU软标签来提升模型性能。

算法深度学习计算机视觉

【论文阅读】DN-DETR/DINO

论文阅读2024/12/05阅读 8

文本主要介绍了两种基于深度学习的图像目标检测方法：DETR和DN-DETR。这两种方法都使用了去噪训练（DeNoising Training）技术，通过对比去噪训练来提高模型的稳定性和收敛速度，并利用混合查询选择来初始化解码器查询，以及两步前瞻机制来优化解码器的早期层预测。 ### 1. 问题提出 - **DETR** 和 **DN-DETR** 是两种流行的深度学习模型，用于目标检测任务。它们的主要区别在于 DETR 使用匈牙利匹配算法来处理二图匹配问题，而 DN-DETR 则使用去噪训练来加速收敛。 ### 2. 解决方案 - **去噪训练（DeNoising Training）**：这种方法通过引入噪声的锚点（Anchors）来训练解码器，使其能够更有效地学习目标检测。具体来说，在每个 GT 框周围添加微小的随机噪声，然后利用这些噪声数据进行训练。 - **混合查询选择（Mixed Query Selection）**：为了从编码器特征中更好地初始化解码器查询，引入了混合查询选择。这种策略首先从编码器输出中选择一个位置查询作为初始锚点，然后使用内容查询来初始化。 - **两步前瞻机制（Look Forward Twice）**：此机制允许解码器在预测边界框时考虑后续层的梯度信息，从而优化早期层的预测。 ### 3. 网络架构 - **对比去噪训练（Contrastive Denoising Training）**：通过对比不同噪声程度的锚点，DN-DETR 能够有效地识别和还原 GT 框。 - **混合查询选择（Mixed Query Selection）**：这一策略通过选择编码器特征来增强查询，帮助模型更好地理解输入数据。 - **两步前瞻机制（Look Forward Twice）**：通过两次查看前一步的结果，解码器可以更精确地预测边界框。 ### 4. 实验结果 - 通过引入去噪训练，DETR 和 DN-DETR 的性能显著提升，尤其是在处理复杂场景时。 - 使用混合查询选择和两步前瞻机制，进一步优化了解码器的早期层预测，提高了模型的稳定性和效率。

算法深度学习计算机视觉自然语言处理

【论文阅读】Conditional/DAB-DETR

论文阅读2024/12/02阅读 21

**Conditional-DETR 与 DAB-DETR 的主要区别：** 1. **条件嵌入的使用**：在 **DAB-DETR** 中，Decoder Embedding 被设计为包含不同区域的信息，即通过 Decoder Embedding 的输入不仅包括图像特征，还包括参考点的位置。这种设计使得模型能够更好地理解不同区域之间的空间关系。 2. **位置信息的动态调整**：在 **DAB-DETR** 中，位置信息（Positional Embedding）是通过一个前馈神经网络（FFN）从 Decoder Embedding 中提取的，并且根据锚框的大小和位置动态地调整。这一步骤确保了位置信息与 Decoder Embedding 的空间坐标对齐，增强了位置信息在注意力计算中的作用。 3. **Anchor Boxes 的直接学习**：在 **DAB-DETR** 中，每个解码器层都使用两个注意力模块来处理查询和键值对（Query、Key、Value），并直接更新这些查询以适应新的锚框信息。这种设计加速了训练过程，并提高了模型对新锚框的响应速度。 4. **位置编码的优化**：在 **DAB-DETR** 中，位置编码使用了正弦位置编码（Sine Sampling），这是一种更简单但效果类似的方法，用于捕捉位置信息。此外，位置编码还通过一个前馈神经网络（FFN）与 Decoder Embedding 结合，进一步优化了位置信息的传递。 5. **训练收敛速度**：由于 **DAB-DETR** 在训练过程中直接学习并更新锚框信息，它能够在训练初期就更快地收敛，尤其是在处理大量数据时。这有助于提高训练效率和模型性能。 6. **实验结果**：在实验部分，**DAB-DETR** 在多个数据集上展示了比原始 DETR 更好的性能，特别是在训练速度和模型精度方面。这表明 **DAB-DETR** 在实际应用中可能具有更高的效率和更好的泛化能力。

算法深度学习计算机视觉

【论文阅读】Deformable DETR

论文阅读2024/12/01阅读 15

本文介绍了一种名为Deformable DETR的改进型卷积神经网络，旨在解决传统DETR收敛慢和计算量大的问题。该网络结合了DCN（Deformable Convolution Networks）中的学习空间几何形变能力与DETR的端到端检测能力。通过引入多尺度特征提取和Deformable Attention模块，该模型能够适应更复杂的几何形变任务，并优化bbox预测头，降低优化网络的难度。此外，还提出了Bounding Box 偏移量修正方法，以减少坐标优化的复杂性。

算法深度学习计算机视觉

Deformable CNN（DCN）

学习笔记2024/12/01阅读 15

由于构造卷积神经网络所用的模块中几何结构是固定的，其几何变换建模的能力本质上是有限的。可以说CNN还不能很好实现旋转不变性的。在以往会使用数据增强的方式，让网络强行记忆不同的几何形状。作者认为以往的固定形状的卷积是网络难以适应几何变形的“罪魁祸首”，比如同一层的特征图的不同位置可能对应的是不同形状的物体，但是都和同一个形状卷积做计算，那么不能很好的将感受野作用在整个物体之上，因此提出了可变性卷积。

算法计算机视觉

第 1 页，共 5 页