yolo女主播微信群(必读综述YOLO十年之约:从起源到YOLOv10)

2025年02月25日 来源: 点击:

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群


0. 论文信息

标题:YOLOv10 to Its Genesis: A Decadal and Comprehensive Review of The You Only Look Once Series

作者:Ranjan Sapkota, Rizwan Qureshi, Marco Flores Calero, Chetan Badjugar, Upesh Nepal, Alwin Poulose, Peter Zeno, Uday Bhanu Prakash Vaddevolu, Hong Yan, Manoj Karkee

机构: 华盛顿州立大学、中佛罗里达大学、富尔扎斯阿玛达斯大学、田纳西大学、佐治亚州沃德利市股份有限公司、IISER TVM、LLC、佛罗里达大学、香港城市大学

原文链接:https://arxiv.org/abs/2406.19407

1. 摘要

本文系统地回顾了You Only Look Once(YOLO)目标检测算法从YOLOv1到最近发布的YOLOv10的发展历程。采用逆时间顺序分析,本研究从YOLOv10开始,逐步追溯至YOLOv9、YOLOv8及更早版本,深入探讨了每个版本在提升实时目标检测的速度、准确性和计算效率方面的贡献。研究强调了YOLO在五个关键应用领域——汽车安全、医疗健康、工业制造、监控和农业中的变革性影响。通过详细阐述后续YOLO版本中逐步增加的技术进步,本文记录了YOLO的演进历程,并讨论了各早期版本面临的挑战和局限性。这一演进标志着YOLO正朝着与多模态、上下文感知和通用人工智能(AGI)系统集成的方向发展,预示着在未来十年中,YOLO将对AI驱动的应用发展产生重大影响。

2. 引言

目标检测是计算机视觉的一个关键组成部分,它使系统能够在图像或视频帧中识别和定位物体。实时目标检测已成为许多需要即时分析和与动态环境交互的应用中不可或缺的一部分。例如,在自动驾驶和机器人技术中,实时目标检测至关重要,它允许系统快速识别和跟踪不同的物体,如车辆、行人、自行车和其他障碍物,从而提高导航的安全性和效率。目标识别的实用性不仅限于车辆应用,它在视频序列中的行为识别中也至关重要,这在数字监控、监测、运动分析和人机交互中非常有用。这些领域受益于实时分析和响应情况动态变化的能力,展示了目标检测的广泛应用性、接受度和影响力。然而,目标检测问题涉及多个挑战:

• 现实场景的复杂性:现实环境高度多变且不可预测。物体可能以不同的方向、尺度和光照条件出现,这使得检测算法难以泛化并保持准确性。

• 遮挡和杂乱:物体可能被其他物体部分遮挡,导致必须准确解释不完整的信息。

• 速度和效率:许多应用,如自动驾驶和实时监控,需要快速处理视觉数据以做出及时决策,这对检测算法提出了高精度和低延迟的双重要求。

必读综述!YOLO十年之约:从起源到YOLOv10

自“You Only Look Once”(YOLO)在计算机视觉领域得到广泛应用以来,截至太平洋夏令时间6月9日晚上9点05分,在Google Scholar上搜索该关键词可得到约5,550,000条结果。其缩写“YOLO”进一步凸显了其受欢迎程度,产生了约210,000条搜索结果。成千上万的研究人员引用了YOLO论文,凸显了其重大影响。本研究旨在回顾YOLO十年来的进展及其随时间的演变,如图2所示的思维导图从视觉上进行了总结。

综合分析首先从YOLO发展轨迹开始,讨论了从YOLOv1到YOLOv10的发展路径。接下来,“YOLO前期文献:背景与差异”部分提供了现有工作的背景和区分。在“YOLO版本综述”中,详细介绍了每个版本的关键特性和改进。在“应用”部分,突出了不同领域中的多种用例。随后,“挑战、局限性与未来方向”部分探讨了当前的问题和潜在进展。最后,“结论”部分总结了研究成果。每个部分进一步细分为小节:YOLO发展轨迹包括YOLO中的延迟和mAP分数的重要性,以及YOLO中的单阶段检测;YOLO前期文献:背景与差异;YOLO版本综述涵盖了YOLOv10、YOLOv9和YOLOv8、YOLOv7、YOLOv6和YOLOv5,以及YOLOv4、YOLOv3、YOLOv2和YOLOv1;应用部分讨论了自动驾驶、医疗健康和医学影像、安全监控、制造业和农业;挑战、局限性与未来方向部分探讨了YOLO与通用人工智能(AGI)的关系、YOLO在边缘设备上的应用以及未来前景。这种结构化的方法确保了对YOLO框架演变及其影响的详细和系统回顾。

必读综述!YOLO十年之约:从起源到YOLOv10

3. YOLO时间线

YOLOv1于 2015 年被引入,作为一种新颖的目标检测方法,通过单阶段处理图像实现了良好的准确性和速度。第一个 YOLO 版本为实时应用奠定了基础,为后续发展设定了新的标准。图 3 展示了从最初的 YOLOv1 版本到最新版本的 YOLOv10 的时间线历史。YOLOv2,或称 YOLO9000,在此基础上进行了扩展,提高了系统的操作分辨率,并能够检测超过 9000 个物体类别,从而增强了其通用性和准确性。YOLOv3 通过实现多尺度预测和更深的网络架构进一步提升了这些能力,使得对小物体的检测更为精准。该系列继续发展,推出了 YOLOv4 和 YOLOv5,每个版本都引入了更精细的技术和优化,以进一步提升检测性能(即准确性和速度)。YOLOv4 融入了跨阶段部分(CSP)连接和马赛克数据增强等特性,而由 Ultralytics 开发的 YOLOv5 则在易用性和性能方面带来了显著改进,成为计算机视觉社区中的热门选择。随后的版本 YOLOv6 到 YOLOv10 继续在这一成功的基础上发展,专注于增强模型的可扩展性、降低计算需求以及改进实时性能指标。YOLO 系列的每一次迭代都为目标检测能力设定了新的基准,并对从自动驾驶、交通监控到医疗保健和工业自动化等各个领域产生了重大影响。

必读综述!YOLO十年之约:从起源到YOLOv10

最新的YOLOv10引入了多个模型变体,如YOLOv10-N、YOLOv10-S、YOLOv10-M、YOLOv10-B、YOLOv10-L和YOLOv10-X,在MS-COCO数据集上的精度(AP)得分范围从38.5%到54.4%。值得注意的是,YOLOv10-N和YOLOv10-S的延迟最低,分别为1.84毫秒和2.49毫秒,使它们非常适合需要低延迟的应用。这些模型超越了其前代产品,YOLOv10-X实现了最高的mAP(54.4%)和10.70毫秒的延迟,这表明在精度和推理速度上都实现了良好的平衡增强。将YOLOv10与YOLOv9和YOLOv8进行比较,揭示了逐步改进的趋势。YOLOv9包含YOLOv9-N、YOLOv9-S、YOLOv9-M、YOLOv9-C和YOLOv9-X等模型,其mAP得分从39.5%到54.4%不等。尽管YOLOv9的mAP得分与YOLOv10相当,但其模型的延迟普遍较高,尤其是YOLOv9-X,尽管在mAP上与YOLOv10-X相当,但在延迟上却不敌后者,这表明YOLOv10具有更高的效率。YOLOv8模型,包括YOLOv8-N、YOLOv8-S、YOLOv8-M、YOLOv8-L和YOLOv8-X,其mAP得分范围从37.3%到53.9%,延迟从6.16毫秒到16.86毫秒不等。尽管YOLOv8模型表现良好,但在精度和延迟方面均落后于YOLOv10和YOLOv9,这表明YOLOv10中的架构优化有效地提升了检测性能和计算效率。

对早期YOLO版本(如YOLOv7、YOLOv6、YOLOv5、YOLOv4、YOLOv3、YOLOv2和YOLOv1)的进一步分析,凸显了该领域内的快速进展。YOLOv7-tiny和YOLOv7模型分别实现了56.4%和51.2%的mAP分数,但延迟显著较高,表明它们以牺牲速度为代价追求更高的准确性。YOLOv6模型(YOLOv6-N、YOLOv6-S、YOLOv6-M、YOLOv6-L)在中等延迟下实现了从37.0%到51.8%的mAP分数。YOLOv5作为一款流行模型,展现出了50.7%的mAP竞争力和140毫秒的延迟。而早期版本如YOLOv4、YOLOv3、YOLOv2和YOLOv1,分别实现了43.5%、57.9%、76.8%和63.4%的mAP分数,为后续改进奠定了基础,尽管与最新版本相比,它们的延迟更高。

YOLO从YOLOv1到YOLOv4的演进过程在学术文章中得到了广泛记录。如图4a所示,这些版本在推动目标检测技术发展方面发挥了基础性作用,它们在GitHub上提供了强大的源代码,并为进一步的创新铺平了道路。随着商业环境的变化,Ultralytics通过GitHub而非传统学术渠道发布了YOLOv5和YOLOv8,这一转变在部署和适应性方面产生了重要影响。随后的YOLOv6和YOLOv7版本则标志着向学术领域的回归,图4b展示了FPS和mAP的比较。

从YOLOv1到YOLOv10的技术分析(如图表所示)凸显了速度和准确性方面的逐步增强。使用Python和Matplotlib对FPS(每秒帧数)和mAP(平均精度均值)等性能指标进行了关键分析,揭示了每个版本设计中固有的权衡。如图4c和4d所示,YOLOv6至YOLOv10展示了持续改进,后续模型优化了计算效率和检测精度[58]、[56]、[55]。每张图表都反映了处理速度与准确性之间的复杂平衡,为不同配置和输入分辨率下模型的性能提供了深入见解。这一持续发展的轨迹展示了学术研究与商业应用之间的动态相互作用,推动了现实世界场景中目标检测系统能力的发展。

延迟(L)和mAP是描述YOLO等目标检测模型性能的重要指标。延迟衡量模型处理图像并产生预测所需的时间,包括检测过程所需的所有步骤,如图像预处理、模型推理和后处理,通常以毫秒(ms)为单位测量。对于自动驾驶、监控和机器人等实时应用而言,较低的延迟至关重要,因为这些应用中及时且准确的检测至关重要。高延迟可能导致在这些快节奏环境中出现有害的延迟,从而可能危及操作安全性和有效性。FPS(每秒帧数)是另一个关键指标,它通过指示模型每秒可以处理多少张图像来补充延迟指标。

延迟和FPS共同提供了模型在实时场景中性能的全面概述。图4a展示了mAP(平均精度均值)和FPS(每秒帧数)的速率,而图4b则展示了所有10个YOLO版本的延迟值,展示了它们在实时应用中的演变和有效性。

必读综述!YOLO十年之约:从起源到YOLOv10

同样,mAP是用于评估目标检测模型准确性的综合指标。它同时考虑了精确度和召回率(表1),并通过计算所有类别的平均精度(AP)然后对这些AP分数取平均值来得出。它提供了模型在不同对象类别和数据集内不同条件下性能的平衡视图。表1中详细列出了用于全面评估YOLO模型的其他指标。

在这里,真正例(TP)、真反例(TN)、假正例(FP)和假反例(FN)是关键的性能评估指标。其中,TP表示模型正确识别出存在的对象的情况。TN表示模型正确预测出对象不存在的情况。FP表示模型错误地将不存在的对象识别为存在的情况,而FN则表示模型未能检测到实际存在的对象的情况。这些指标对于评估YOLO目标检测的准确性和可靠性至关重要。

必读综述!YOLO十年之约:从起源到YOLOv10

图5展示了一个集成了SSD架构原则的YOLO模型示例,特别是通过使用多头注意力(Multi-Headed Attention, MA)层改进特征提取来增强实时检测能力。这些从SSD方法中借鉴的改进使得YOLOv8、YOLOv9和YOLOv10等YOLO模型在处理速度和检测准确性方面取得了显著提升,使它们对于需要快速可靠目标检测的应用来说非常有效。受SSD启发的单次检测机制直接对物体进行分类和定位,减少了计算开销,并使得这些模型能够在资源受限的环境(如移动设备和边缘设备)中部署。YOLO模型中这些技术的不断精炼,突显了平衡多样化现实场景中对准确性的高要求与对速度的需求之间持续演进的趋势。

必读综述!YOLO十年之约:从起源到YOLOv10必读综述!YOLO十年之约:从起源到YOLOv10

4. YOLO版本回顾

中国清华大学开发的YOLOv10在YOLO系列实时目标检测中取得了突破性进展,实现了前所未有的性能。该版本消除了非极大值抑制(NMS)的需求,这是早期模型中的一个传统瓶颈,从而极大地降低了延迟。YOLOv10在其训练协议中引入了双重分配策略,该策略通过一对一和多对一的标签分配方式优化检测精度,同时不牺牲速度,确保了低延迟下的稳健检测。

YOLOv10的架构包含多个创新组件,这些组件既提高了计算效率又提升了检测性能。其中包括轻量级分类头,它们降低了计算需求;空间-通道解耦下采样,以减少特征降维过程中的信息损失;以及基于排名的块设计,优化了参数使用。这些架构上的进步确保了YOLOv10能够跨不同规模(从YOLOv10-N(Nano)到YOLOv10-X(Extra Large))协同工作,使其能够适应多样化的计算约束和操作要求。

在MS-COCO等基准数据集上的性能评估表明,YOLOv10不仅在精度和效率上超越了其前身YOLOv9和YOLOv8,还树立了新的行业标准。例如,YOLOv10-S在改进的平均精度均值(mAP)和更低延迟方面显著优于同类模型。该版本还融合了全面的效率-精度驱动设计、大核卷积和部分自注意力模块,这些元素共同改善了计算成本与检测能力之间的权衡。YOLOv10、YOLOv9和YOLOv8的架构图分别总结在图6、图7和图8中。

必读综述!YOLO十年之约:从起源到YOLOv10必读综述!YOLO十年之约:从起源到YOLOv10必读综述!YOLO十年之约:从起源到YOLOv10

2020年推出的YOLOv4标志着这些发展的最新成果,它采用了CSPDarknet-53作为主干网络。CSPDarknet-53是Darknet-53的改进版,使用跨阶段部分连接来减少计算需求的同时增强学习能力。YOLOv4融入了诸如Mish激活函数等创新特性,替代传统的ReLU以保持梯度平滑,并采用了Mosaic和CutMix等新的数据增强技术。此外,它还引入了DropBlock正则化和类别标签平滑等高级正则化方法以防止过拟合,以及被称为BoF(免费包)和BoS(特殊包)的优化策略,这些策略提高了训练和推理效率。在YOLOv4成功之后,2018年推出了YOLOv3,它采用了受残差学习启发的Darknet-53架构。YOLOv3最初在ImageNet上进行训练,由于其架构中的多尺度检测能力,能够有效地检测各种大小的物体。YOLOv3通过使用三个不同的检测尺度来提高检测精度,特别是对小物体的检测,从而在各种分辨率下捕捉到关键特征。在此之前,YOLOv2和最初的YOLO(YOLOv1)为这些进步奠定了基础。YOLOv2于2016年推出,引入了带有来自Faster R-CNN的锚定框和批量归一化的新30层架构,以加快收敛并提升模型性能。而由Joseph Redmon于2015年首次推出的YOLOv1,通过其单次检测机制彻底改变了目标检测领域,该机制在单个网络传递中预测边界框和类别概率,采用了更简单的Darknet-19架构。这一初步方法显著加速了检测过程,并为YOLO系列后续版本的改进奠定了基础技术。

必读综述!YOLO十年之约:从起源到YOLOv10必读综述!YOLO十年之约:从起源到YOLOv10

5. 应用

YOLOv8的进一步发展显著提高了在恶劣天气条件下的目标检测能力,这是自动驾驶领域特别关注的问题。通过使用来自不同天气条件的数据集应用迁移学习技术,YOLOv8的检测性能得到了显著提升,确保了在挑战性的天气场景下能够可靠地识别关键的道路元素,如行人和障碍物。此外,YOLOv8针对特定任务(如刹车灯状态检测)的开发展示了该算法的灵活性,及其在提升自动驾驶车辆的可解释性和安全性方面的潜力。这些创新强调了YOLOv8和YOLOv9在推动自动驾驶行业可能性边界中的关键作用,凸显了它们在满足自动驾驶技术中严格的安全性和可靠性要求方面的影响。表3以逆时间顺序(从最新版本到较旧版本)展示了YOLO在自动驾驶行业中的不同应用。

必读综述!YOLO十年之约:从起源到YOLOv10

表4说明了YOLO版本在安全和监视方面的不同用途:

必读综述!YOLO十年之约:从起源到YOLOv10

在安全领域,Khin等人对YOLOv8与RetinaNet和EfficientDet等其他模型在枪支检测方面进行了比较研究,强调了YOLOv8在自定义数据集中检测枪支时的高准确性。这凸显了精确目标检测在预防潜在威胁中的关键作用。此外,Nkuzo等人对YOLOv7在实时检测汽车安全带方面进行了全面分析,展示了其在执行道路安全措施中的重要性。更进一步,Chang等人开发了一种改进的YOLOv7,配备了特征融合和注意力机制,专门用于在高风险环境(如建筑工地)中检测安全装备违规情况,以提高工作场所的安全标准。表5展示了YOLO在安全与监控领域的各种应用。

必读综述!YOLO十年之约:从起源到YOLOv10

Hussain等人将领域特征映射与YOLOv7相结合,应用于仓储设施中托盘式货架的自动化检查,提高了物流操作的安全性和效率。Zhu等人(2023)扩展了YOLOv7的实用性,用于带式磨削过程中表面缺陷的识别和分类,有助于保持制造工作流程的完整性。最后,Zhang等人(2024)创新性地提出了YOLO-RDP,这是一种轻量级的YOLOv7版本,专门用于实时检测钢材缺陷,展示了YOLOv7在资源受限环境中的适应性和对可持续制造实践的推动作用。表6展示了YOLO不同版本在工业制造领域中的不同应用:

必读综述!YOLO十年之约:从起源到YOLOv10

农业应用:

必读综述!YOLO十年之约:从起源到YOLOv10

6. 总结

在这篇综合评述中,我们探索了从最新的YOLOv10到开创性的YOLOv1的YOLO模型演变历程。这一回顾性分析跨越了十年的发展,重点介绍了每个版本的关键改进以及它们在公共安全、汽车技术、医疗保健、工业制造和零售等五个关键应用领域的影响。我们的评述概述了每次迭代在检测速度、准确性和计算效率方面的重大提升,同时也指出了早期版本所面临的具体挑战和局限性。此外,我们还识别了当前YOLO模型能力中的空白,并提出了未来研究的潜在方向。在预测YOLO发展轨迹时,我们预期其将向多模态数据处理方向发展,利用大型语言模型和自然语言处理方面的进展来增强目标检测系统。这一融合预计将扩大YOLO模型的应用范围,实现更复杂、更情境感知的应用程序,从而彻底改变AI系统与其环境之间的交互方式。因此,本评述不仅详细记录了YOLO的演变历程,还为其融入下一代技术创新设定了前瞻性的蓝图。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~


相关文章
友情链接