感知问题-2D目标检测
此处提供了一个针对“感知问题-2D目标检测任务”的上手示例,示例使用YOLO对交通场景片段进行车辆识别。完整项目的下载链接为:https://github.com/TOPSlearningcenter/2DD
模型介绍
1. 模型概述:
YOLO(You Only Look Once)是主流的二维目标检测模型,最早由Joseph Redmon及其团队在论文《You Only Look Once: Unified, Real-Time Object Detection》中提出,被后人继续优化发展,至今已到第十代。该模型的基本思想是将目标检测问题转化为回归问题,通过卷积神经网络提取图像的特征向量,并同时预测图像中的边界框坐标和类别标签。YOLO在整个图像上进行全局预测,从而实现快速且实时的目标检测。在机动车与行人的二维目标检测任务中,输入为摄像头捕捉到的交通流图像,输出为被检测出的各个目标的边界框范围与类别。
2. 模型架构:
- YOLO的模型架构在不同版本中略有变化,但核心思想保持一致。
- 基础网络:利用一系列卷积层提取图像特征,从浅到深堆叠,可以得到含有复杂信息的特征表达。
- 输出预测:在得到图像特征向量后,需要基于此进行目标检测边界框范围与置信度的预测,这需要在卷积层后再添加全连接层。
- 损失函数:损失函数包含三个部分,一是边界框的定位误差,二是置信度误差,三是类别预测的交叉熵损失,这与输出是对应的。
3. 具体实现:
- 数据预处理:将视频序列按照一定的帧率拆分成下标有序的图像序列。
- 选择模型:根据推理的速度与精度范围的需要,选择训练好的模型并加载。
- 可视化:用模型在图像上进行推理,并把推理结果预测框可视化到新的图像或视频流中。