模型评估
模型评估功能是OnSite学习中心确保研究成果质量与价值的关键所在。通过提供一系列标准化的评估指标和可视化工具,用户可以直观地了解模型在不同数据集上的表现,包括精度、召回率、F1分数等关键指标。这一功能还支持帮助用户优化模型参数,识别潜在的偏差或方差问题,从而促进模型的持续改进,确保研究结论的有效性和可推广性。
感知问题
针对感知问题的模型评估指标包括:平均精度、精确度、召回率等。注意,并非所有的任务都能调用上述指标。
计算dataset数据集进行感知任务后结果的平均精度(Mean Average Precision, mAP)。这是目标检测任务中最常用的指标之一,它综合考虑了模型的精确度和召回率。mAP通常在多个重叠阈值下计算,以评估模型在不同情况下的一致性能。
计算dataset数据集进行感知问题后结果的精确度(Precision)。精确度衡量的是模型正确识别出的正例占所有被识别为正例的比率,即真阳性除以真阳性与假阳性的和。
计算dataset数据集进行感知问题后结果的召回率(Recall)。召回率是指模型正确识别出的正例占所有实际正例的比率,即真阳性除以真阳性与假阴性的和。
计算dataset数据集进行感知问题后结果的F1 分数(F1-Score)。F1分数是精确度和召回率的调和平均值,提供了一个平衡两者之间关系的单一指标。
计算dataset数据集进行感知问题后结果的重叠阈值(Overlap Threshold)。在目标检测,会设定一个重叠阈值,以确定预测框与真实框之间的匹配程度是否足够,通常使用IoU(Intersection over Union)作为度量。
计算dataset数据集进行感知问题后结果的平均交并比(Mean Intersection over Union, mIoU)。在语义分割任务中,mIoU用于评估预测的像素与实际像素之间的重叠程度,它是预测区域和实际区域交集与并集之比的平均值。
预测问题
针对预测问题的模型评估指标包括:ADE、FDE、MR等。
计算dataset数据集进行预测任务后结果的均方根误差 (RMSE):这是一个广泛应用于回归任务的指标,用于衡量预测值与真实值之间的平均平方差的平方根。在轨迹预测中,它表示预测轨迹点与实际轨迹点之间的平均欧氏距离的平方根。
计算dataset数据集进行预测任务后结果的负对数似然 (NLL)。这个指标主要用于概率模型的评估,它衡量模型预测概率分布与实际观察结果之间的差异。在轨迹预测中,NLL侧重于评估模型对轨迹预测的概率估计准确性,特别是对于涉及多模式预测的模型。
计算dataset数据集进行预测任务后结果的平均位移误差 (Average displacement error, ADE)。ADE计算整个预测轨迹中每个预测点与实际点之间的平均欧氏距离。它提供了一个整体的误差度量,表明预测轨迹与真实轨迹在整个序列中的平均偏离程度。
计算dataset数据集进行预测任务后结果的终点位移误差 (Final displacement error, FDE)。FDE专门关注预测轨迹的最后一个点与实际轨迹终点之间的欧氏距离。它衡量了模型在预测结束时刻的准确性,这对于需要准确停止点的场景尤为重要。
计算dataset数据集进行预测任务后结果的轨迹缺失率 (Miss Rate, MR)。MR计算预测轨迹的终点与实际轨迹终点之间的欧氏距离大于给定阈值(通常为2.0米)的比率。它揭示了模型在预测轨迹终点位置上的整体准确性。
计算dataset数据集进行预测任务后结果的偏离道路比率 (OffRoadRate):当数据集包含地图信息时,此指标统计预测轨迹中不在有效道路网络上的比例。它评估了模型在遵守道路规则方面的性能。
计算dataset数据集进行预测任务后结果的航向角加权的平均精度 (Mean average precision weighted by heading, mAPH):源于Waymo数据集,mAPH考虑了预测的航向角(方向)与位置精度,通过计算Precision-Recall曲线下的面积来评估模型的整体性能,同时将预测的航向角作为权重因子,适用于需要准确方向预测的任务。