开始-感知-2D目标检测

感知问题-2D目标检测

此处提供了一个针对“感知问题-2D目标检测任务”的上手示例，示例使用YOLO对交通场景片段进行车辆识别。完整项目的下载链接为：https://github.com/TOPSlearningcenter/2DD

以下给出了模型介绍，点击右侧在线运行代码。

模型介绍

1. 模型概述：

YOLO（You Only Look Once）是主流的二维目标检测模型，最早由Joseph Redmon及其团队在论文《You Only Look Once: Unified, Real-Time Object Detection》中提出，被后人继续优化发展，至今已到第十代。该模型的基本思想是将目标检测问题转化为回归问题，通过卷积神经网络提取图像的特征向量，并同时预测图像中的边界框坐标和类别标签。YOLO在整个图像上进行全局预测，从而实现快速且实时的目标检测。在机动车与行人的二维目标检测任务中，输入为摄像头捕捉到的交通流图像，输出为被检测出的各个目标的边界框范围与类别。

2. 模型架构：

YOLO的模型架构在不同版本中略有变化，但核心思想保持一致。
基础网络：利用一系列卷积层提取图像特征，从浅到深堆叠，可以得到含有复杂信息的特征表达。
输出预测：在得到图像特征向量后，需要基于此进行目标检测边界框范围与置信度的预测，这需要在卷积层后再添加全连接层。
损失函数：损失函数包含三个部分，一是边界框的定位误差，二是置信度误差，三是类别预测的交叉熵损失，这与输出是对应的。

3. 具体实现：

数据预处理：将视频序列按照一定的帧率拆分成下标有序的图像序列。
选择模型：根据推理的速度与精度范围的需要，选择训练好的模型并加载。
可视化：用模型在图像上进行推理，并把推理结果预测框可视化到新的图像或视频流中。