百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

自动驾驶汽车的多光谱目标检测

bigegpt 2024-08-09 11:20 2 浏览

老论文了,只是数据集和实验很经典,翻出来看看

摘要

最近,研究人员积极开展了涉及自动驾驶的移动机器人技术的研究,为了在交通中实现自动移动机器人(例如自动驾驶车辆),需要在白天和夜间等各种条件下对汽车、人、自行车等各种类型的物体进行鲁棒检测,在本文中,我们提出了使用多光谱图像作为交通目标检测的输入信息。

多光谱图像由RGB图像、近红外图像、中红外图像和远红外图像组成,整体上具有多边信息,例如,一些在RGB图像中视觉上无法识别的物体可以在远红外图像中检测到,为了训练我们的多光谱目标检测系统,我们需要一个多光谱数据集来进行交通中的目标检测,由于这样的数据集目前不存在,在这项研究中,我们生成了自己的多光谱数据集,此外,为了充分利用多光谱图像的特征,我们提出了一种多光谱集合检测管道,该管道分为两部分:单光谱检测模型和集成部分。

在这项工作中我们进行了两个实验,在第一个实验中,我们评估了我们的单光谱目标检测模型,我们的结果表明,当应用于不同类型的物体时,多光谱图像中的每个成分都单独用于物体检测任务,在第二个实验中,我们评估了整个多光谱目标检测系统,并表明多光谱目标检测的平均平均精度(mAP)比仅rgb的目标检测高13%。

1介绍

在过去的几年里,自动驾驶系统得到了广泛的研究,可以想象,自动驾驶系统在未来将越来越多地被普通公众所采用,如果这些系统得以实现并被社会广泛采用,将有望减少交通事故,促进交通顺畅,自动驾驶系统是通过车辆中的计算机从各种信息中感知环境,并根据这些信息控制车辆的运行。

各种类型的环境信息都可以用于此目的,从图像中识别环境被认为是特别重要的,目标检测是利用图像信息进行环境识别的重要手段,在物体检测中,我们可以区分两种类型:特定物体检测和一般物体检测;在本文中,我们参考了一般的目标检测,目标检测技术发展迅速,实现了高速、高精度的目标检测,目标检测通常由两个模块进行:一个模块将目标区域从图像中切割出来(目标区域提取模块),另一个模块将提取的目标区域的剪切图像分类(剪切图像分类模块)。

物体区域提取模块最基本的技术是滑动窗口,在滑动窗口中,计算机用各种大小的窗口扫描整个图像并切割出物体区域,然而,当对所有切割区域进行图像分类时,计算复杂度变得巨大,作为一种解决方案,提出了BING、Edge Boxes和Selective Search等对象建议方法,提取图像中类似对象的候选区域,此外,对于剪辑图像分类模块,已经开发了许多用于分类图像类别的方法,如使用局部特征的整体方法(例如,SIFT或HOG),基于部分的方法,基于补丁的方法和积分图像方法,对于该分类模块,采用了R-CNN等使用卷积神经网络(cnn)进行图像分类的算法在2013年出现,目标检测的精度显著提高,在此之后,通过Fast R-CNN和Faster R-CNN[等方法增强了目标检测系统,此外,目前出现了You Only Look Once (YOLO)、Single Shot MultiBox detection (SSD)等端到端对象检测方法,这些方法不需要图像分类和目标提出的两步过程,相反,它们同时对整个图像中的对象区域进行回归和类别分类。这些方法大大加快了目标检测的速度。

然而,为了在现实世界中使用自动驾驶汽车等自动移动机器人,机器人需要在白夜等各种环境中鲁棒地检测各种物体,因此,在本文中,我们提出了多光谱目标检测,即利用远红外(FIR)图像、中红外(MIR)图像和近红外(NIR)图像,并以RGB图像为输入图像进行目标检测,以实现鲁棒性和高精度的目标检测,这三种类型的光谱图像(FIR,MIR和NIR)与RGB图像具有不同的特征,多光谱图像包含不同波长的光,环境中的光根据波长的不同具有不同的特征,由于波长较长的光通常较难散射,因此红外图像感知到的光比可见光到达得更远,这些特征的差异是非常重要的,在天文学和医学等各个领域都进行了多光谱图像的研究和开发,在计算机视觉领域,已经进行了一些使用近红外图像或FIR图像的研究,在物体检测方面,多光谱图像提供了多边信息,例如,一些在RGB图像中看不到的物体可以在FIR图像中看到,我们相信,通过使用多光谱图像而不是仅使用RGB图像,我们可以实现更强大和准确的目标检测。

在本文中,我们提出了一种基于多光谱图像的目标检测方法,同时使用4种类型的图像进行鲁棒性和高精度检测,为此,我们需要一个结合RGB、NIR、MIR和FIR图像的多光谱数据集,然而,由于没有这样的数据集,在这项工作中,我们首先生成一个新的多光谱数据集用于物体检测,假设汽车或机器人自动操作,RGB图像、NIR图像、MIR图像和FIR图像具有不同的特征,因此,对于目标检测,它们也被认为具有不同的特征,我们提出了一种充分利用其特征差异进行目标检测的多光谱集成检测方法,我们进行了两个实验来验证本研究中的假设。

通过第一个实验,我们只使用一个光谱来评估物体检测,以验证每个光谱图像本身是否有用,以及每个光谱是否具有不同的特征,可以用于物体检测,接下来,我们利用所提出的多光谱集成检测方法进行了多光谱目标检测实验。

本文的贡献如下

?生成我们的多光谱数据

?提出了一种使用多光谱图像的多光谱集成方法

?验证了每个光谱图像的有效性,并分析了它们特征的差异

?表明多光谱目标检测的平均平均精度比仅rgb的目标检测高13%。

2 相关工作

在这项工作中,我们使用多光谱图像进行目标检测,一些研究尝试在目标检测任务中使用多光谱图像,并在下面介绍。

Hwang等人将从FIR图像中提取的特征应用于行人检测,他们从颜色-热图像对中生成了一个用于人体检测的新数据集(KAIST数据集),并表明该数据集使行人检测更加准确,此外,他们提出了一种称为多光谱聚合通道特征(ACF)的特征,该特征扩展了多模态多光谱行人检测的传统特征,同时使用FIR图像和RGB图像,并表明同时使用两者可以获得更好的精度。

Wagner等人对上述KAIST数据集使用了CNN,结合FIR和RGB图像进行行人检测,他们在CNN的结构上进行了一个实验,比较了“早期融合”和“晚期融合”,有效地利用了数据集的特征,并表明在行人检测的情况下,通过“晚期融合”结合FIR和RGB图像的数据,可以获得更好的精度,人们认为,在“早期融合”的情况下,不可能训练出从多光谱图像中提取有意义特征的模型。

Govardhan和Pati研究了使用近红外图像作为输入图像,作为在夜间进行人体检测的一种方法,并验证了其有效性,在实验中,使用HOG和SVM代替CNN进行检测。

虽然这些研究表明将红外图像与RGB图像相结合用于目标检测是有用的,但研究仅限于将RGB图像与一幅红外图像相结合,还没有将NIR图像、MIR图像、FIR图像与RGB图像相结合的研究,然而,红外图像在近红外、MIR和FIR区域具有不同的特征,因此,我们认为通过组合RGB图像、NIR图像、MIR图像和FIR图像,可以在各种环境下进行鲁棒检测,虽然传统的研究是基于红外图像的特征来进行行人检测,而不是一般的物体检测,但由于红外图像特征的差异,我们认为在一般的物体检测中是有用的,在自动驾驶中假设环境感知时,需要对各类障碍物进行检测。

3多光谱数据集

在这项工作中,我们为自动驾驶汽车生成了一个新的多光谱数据集,由RGB、NIR、MIR和FIR图像组成,并添加了真相标签,这些照片是在大学环境中用RGB、FIR、MIR和NIR相机在白天和晚上以1帧/秒的速度拍摄的,为了模拟真实的汽车驾驶情况,如图1所示,摄像机安装在一辆推车上,并使用了两个发光量与汽车相似的灯。我们总共准备了7512张图片(日间3740张,夜间3772张),groundtruth由边界框坐标和标签组成,我们同时获得了四幅不同的图像,并在光谱图像中标注了每个物体,如图2所示,在驾驶过程中经常遇到的五类障碍(自行车,汽车,car_stop,color_cone,人)被标记在这个数据集中,表1显示了带注释的标签的数量。


如图1所示,摄像机的视点是不同的,为了对齐不同相机拍摄的图像,我们不仅标注了目标对象的标签,还标注了对应于每个特定目标对象的边界框id,使用边界盒坐标以及这些id,我们计算了将RGB、FIR和MIR图像坐标投影到近红外图像坐标的单应性矩阵,转换后的图像作为一种常见的视点,我们对图像进行了遮罩以匹配四种光谱图像的视点范围,结果,我们获得了2,999张与图3和图4所示示例类似的对齐图像,我们还将单应性应用于真值边界盒,得到了转换后的边界盒。

它们不是长方形的,因此近似为略大的矩形,其最小-最大XY坐标与转换后的边界框相同,因此,每个目标对象都应该用四个(原始的NIR和转换后的RGB/MIR/FIR)重复边界框进行注释,我们通过计算盒子的平均坐标来合并盒子,如图5所示,然而,当边界框的大小较小时,这一过程并不能很好地工作,有时,一个光谱图像的一个小边界框与另一个光谱图像的边界框完全不重叠,我们合并了这些小框,如图6所示。

当然,这种对齐方法不能完全对齐图像;因此,我们对转换后的图像进行目视检查,选择1446张对齐正确的图像(图3)作为测试图像,选择1553张对齐错误的图像(图4)作为6通道实验的训练图像(章节5.2),表1的“Merged”列显示了对齐正确的标签的数量。

4 .多光谱集成检测

多光谱图像是RGB图像、NIR图像、MIR图像和FIR图像的组合,每个光谱图像都是通过感知不同波长的光生成的,因此,从RGB图像、近红外图像、MIR图像和FIR图像中提取的目标检测特征是不同的,充分利用它们的特征是实现高精度多光谱目标检测的必要条件,本文提出了一种利用多光谱图像的多光谱集成方法。

Wagner等人验证了当CNN结合RGB和FIR图像特征进行行人检测时,仅通过扩展输入图像通道,我们无法训练出提取多光谱图像有意义特征的模型,在这项工作中,我们认为使用RGB图像、NIR图像、MIR图像和FIR图像组合获得的图像进行目标检测具有相似的特征,即我们无法训练提取多光谱图像有意义特征的模型,认为每个光谱图像都有不同的特征,因此分别检测每个光谱图像中的物体将有助于分别利用每个光谱中的特征。

为此,我们考虑了一种集成方法,其中在每个光谱中分别检测物体,并对结果进行集成,人们认为,当物体可以在任何一个光谱中被探测到时,就可以通过集成方法将其作为一个整体来探测。

例如,可以检测一些在RGB图像中看不到但在FIR图像中可以看到的物体,此外,通过使用多光谱集合方法,可以单独使用每个光谱图像进行训练;此外,该方法不需要大量RGB、FIR、MIR、NIR通道对齐正确的图像,集成方法的整个管道如图7所示,它分为单光谱检测模型,从每个光谱图像中输出候选检测,以及集成部分,将它们作为整体输出,下面将详细描述每个部分。

4.1单光谱检测模型

在单光谱检测模型中,针对每个光谱图像构建每个目标检测模型,在本文中,我们使用YOLOv1作为目标检测模型,YOLO是一种基于cnn的目标检测模型,以其快速准确的目标检测而闻名于众,除了输入层和输出层之外,我们使用了与YOLO相同的超参数(例如CNN层数)。

训练 我们通过微调使用PASCAL VOC数据集预训练的YOLO模型来训练我们的模型,该数据集是公开可用的,利用YOLO的R通道参数初始化近红外、MIR和FIR通道参数,由于YOLO有一种独特的训练方法,可以改变学习率,所以在本研究中我们采用了相同的方法。

此外,使用原始的(未合并的)RGB、FIR、MIR和NIR图像分别训练RGB、FIR、MIR和NIR通道,这是因为人们认为我们可以通过学习每个光谱上可见的物体来充分利用每个光谱图像的特征。

4.2集成部分

四种单光谱检测模型的输出结果组合如下:首先,将每个检测结果作为整个检测结果的候选,然后整合到单个空间中,这种方法允许探测任何光谱图像上可见的物体,其次,由于每个检测结果都包含常见对象,因此使用传统对象检测方法中常用的非最大抑制(non-maximumsuppression,NMS)方法来减少输出候选对象,从而提供集成结果(图8),NMS是一种将图像中两个边界框之间的交集超过并集(IoU)超过一定阈值的方法,将其视为同一对象,并删除得分最低的那个,计算公式如下:B1和B2表示两个边界框,area(*)表示?的面积。

虽然NMS中iou的阈值通常设置为0.3,但本研究将集成的阈值设置为0.1,使用较低值的原因是,如第3节所述,在创建集成数据作为评估数据时,由于存在坐标位移,正确的集成包围框被设置为公共包围框的平均值。

5实验

通过两个评价实验验证了多光谱目标检测的有效性,在第一个实验中,我们评估了第4节中描述的管道,整个多光谱目标检测评价实验作为第二个实验进行。

5.1单光谱检测实验

首先,我们对管道的单光谱目标检测部分进行了实验评估,实验的目的如下

?验证每个光谱图像用于物体检测的有效性

?验证每个光谱图像用于物体检测的特征差异

在这个实验中,我们使用平均精度(AP)和平均AP(mAP)作为度量,作为评估的数据,如第3节所述,使用了在创建的集成数据中偏差较小的1446×4图像和常见的正确答案数据。

5.1.1的结果 图9显示了将阈值设置为恒定后的预测结果,这表明在每张光谱图像中可以检测到不同的物体,另外,用每张光谱图像进行检测时,每一类的检测结果汇总如表2所示,每类别的最高分用粗体表示。

5.1.2总分的确定 RGB图像有三个通道,而NIR图像、MIR图像和FIR图像各有一个通道,但是,从表2中各图像作为输入图像的目标检测结果可以看出,以NIR图像、MIR图像、FIR图像作为输入图像检测的AP也并不比以RGB图像作为输入图像检测的AP差多少,每一幅红外图像都可以用于目标检测,虽然使用RGB图像作为输入图像时获得了最高的mAP,但应该注意的是,mAP是此数据集中仅5个对象类别的AP的平均值。

5.1.3不同类别AP比较。图10中的柱状图按类别对ap进行了比较

由于RGB图像比NIR、MIR、FIR图像多出两个通道,因此一般认为RGB图像的AP较高,但是从图10可以看出,当聚焦于每个待测目标物体时,RGB图像并不是所有类别物体检测中AP最高的,例如,MIR图像和FIR图像对人的检测AP最高,NIR图像对自行车的检测AP最高,从这些事实,我们定量地验证了在目标检测任务中,每一种感知不同性质光的光谱图像不仅作为图像具有不同的特征,而且在相互不同的目标物体的检测中也具有很高的不同效用,因此,我们发现在目标检测任务中,使用RGB图像、NIR图像、MIR图像和FIR图像组合得到的多光谱图像作为输入图像是有效的。

从表2的结果中,我们也可以看出FIR图像在本实验中对人体检测是有用的,然而,不仅FIR图像,而且MIR图像的特征介于FIR图像和近红外图像之间,对人类的检测是足够有用的,虽然MIR图像中的AP略超过FIR图像,差异较小,认为不显著,对于color_cone,在RGB图像的情况下,检测AP值非常高,但原因被认为是颜色清晰,而物体与环境之间的温度差异较小,如上所述,虽然RGB图像的得分在所有目标对象的平均AP中是最高的,但考虑到每个类别输入图像的有用性的差异,mAP只是这五个类别得分的平均值,不一定是一般得分。

5.2多光谱检测实验

作为第二个实验,我们对整个多光谱目标检测管道进行了评价实验,管道中单光谱目标检测模型部分,采用与单光谱检测实验相同的模型,如第3节所述,仅仅通过扩展输入图像的通道并不能有效地利用多光谱图像,为了验证这一点,我们实际构建了基于YOLO的六通道(R,G,B,NIR,MIR,FIR)目标检测模型,并进行了实验比较了目标检测的有效性,我们通过微调使用PASCALVOC数据集预训练的YOLO模型来训练六通道模型,方法与第4节中描述的集成模型相同,结果如表3所示。

从表3可以看出,多光谱目标检测得到的检测AP比仅RGB目标检测AP提高了13%,可以看出,多光谱目标检测分别比RGB图像、NIR图像、MIR图像和FIR图像得到了更高的AP,图11按类比较了ap,按类的实验结果如下所示。

在之前的实验中,不同类型输入图像的物体检测,根据目标物体的不同,检测AP最高,但是,从图11可以看出,通过进行多光谱集成检测,检测AP大大超过了对所有类别只使用RGB图像、NIR图像、MIR图像和FIR图像的情况,可以得出结论,使用多光谱集合检测可以充分利用每个光谱图像上不同特征的优点。

此外,本实验还进行了将输入通道简单扩展到6个通道的目标检测,但是,从图11可以看出,对于很多类来说,AP都不如单光谱图像的检测AP。

如前一节所述,即使是热彩色图像也不能通过仅仅扩展输入图像的通道来有效地使用,另一方面,在本研究中,目标检测不仅结合了RGB图像和FIR图像,还结合了NIR图像和MIR图像,因此,在六通道的目标检测中,仅仅扩展输入图像的通道是无效的,可以认为与仅RGB和FIR目标检测相似或更高,六通道目标检测模型仅通过扩展输入图像的通道,无法训练出有意义的多光谱图像特征提取模型,当我们采取简单地将输入通道扩展到六个通道的方法时,即使在视觉上无法识别另一幅图像中可见的物体,也会假设该物体存在于该区域进行训练,这似乎是降低AP的一个因素,另一个因素是我们使用的图像之间的偏差较小,合并后的数据作为测试数据,使用带有一定偏差的图像作为六通道目标检测器的训练数据。

5.2.2变分组合 表4比较了改变输入光谱数时的ap,从仅使用一个光谱得到的结果来看,FIR和MIR结果有相似的趋势,这是合理的,因为MIR和FIR图像在视觉上是相似的,因此,使用FIR图像和MIR图像的AP检测率低于其他组合,在我们数据集的实验中,使用所有四个光谱得到的结果与仅使用两个光谱得到的结果相似或更差(FIR和MIR组合除外),并且仅组合两个光谱就足够了,这意味着我们的集成方法还有改进的空间,但它需要更大的数据集,所以我们把这个问题留给未来的工作,从使用我们的数据集获得的结果来看,如果需要降低成本,使用RGB和MIR或FIR图像就足够了。

5.2.3昼夜图像差异 我们进行了一个实验来检验白天和夜间的结果的差异(表5和表6),总的来说,夜间得到的ap比白天得到的ap高,这只是因为我们的夜间数据集包含了比白天数据集更容易检测到的对象,使用RGB图像的汽车AP在白天与使用其他光谱图像的汽车AP基本相同,但在夜间效果较差,这一事实表明了近红外,MIR和FIR图像的有用性,特别是在夜间。

6结论

如本文所述,我们生成了包括RGB、近红外、MIR和FIR图像的多光谱数据集,用于交通场景中的物体检测,建议的数据集有7512×4图像和2999×4合并图像,注释了五个对象:bike、car、car_stop、color_cone和person,此外,我们还提出了一种利用多光谱图像进行目标检测的多光谱集成方法。

第一个实验是单光谱目标检测的评价实验,结果表明,每个光谱图像都对目标检测有用,对不同类别的目标检测有不同的有用性,通过第二个实验,即多光谱目标检测的评价实验,我们发现多光谱目标检测的mAP比RGB目标检测高13%,从而实现了使用多光谱图像的鲁棒性和高精度目标检测。

在本研究的实验中,由于目标检测是使用我们生成的多光谱数据集进行的,因此目标对象属于bike,car,car_stop,color_cone和person这五类中的一类,然而,实验结果表明,多光谱目标检测系统的优点是,通过将输入图像扩展到多光谱图像,可以以较高的精度检测各种目标,因此,随着待探测目标的种类越来越多样化,多光谱目标探测系统的优点将会更加突出,我们将为目标的更多类别(如交通信号灯)生成多光谱数据集。

在这项工作中,我们通过平等对待目标对象的所有类别的分数来评估每个对象检测器,但是,当这些探测器安装在交通中的自动驾驶车辆上时,我们应该根据交通状况和目标对象对自动驾驶车辆的重要性,对这些分数进行分类权衡,并实现合适的探测器。

相关推荐

10w qps缓存数据库——Redis(redis缓存调优)

一、Redis数据库介绍:Redis:非关系型缓存数据库nosql:非关系型数据库没有表,没有表与表之间的关系,更不存在外键存储数据的形式为key:values的形式c语言写的服务(监听端口),用来存...

Redis系列专题4--Redis配置参数详解

本文基于windowsX64,3.2.100版本讲解,不同版本默认配置参数不同在Redis中,Redis的根目录中有一个配置文件(redis.conf,windows下为redis.windows....

开源一夏 | 23 张图,4500 字从入门到精通解释 Redis

redis是目前出场率最高的NoSQL数据库,同时也是一个开源的数据结构存储系统,在缓存、数据库、消息处理等场景使用的非常多,本文瑞哥就带着大家用一篇文章入门这个强大的开源数据库——Redis。...

redis的简单与集群搭建(redis建立集群)

Redis是什么?是开源免费用c语言编写的单线程高性能的(key-value形式)内存数据库,基于内存运行并支持持久化的nosql数据库作用主要用来做缓存,单不仅仅是做缓存,比如:redis的计数器生...

推荐几个好用Redis图形化客户端工具

RedisPlushttps://gitee.com/MaxBill/RedisPlusRedisPlus是为Redis可视化管理开发的一款开源免费的桌面客户端软件,支持Windows、Linux...

关于Redis在windows上运行及fork函数问题

Redis在将数据库进行持久化操作时,需要fork一个进程,但是windows并不支持fork,导致在持久化操作期间,Redis必须阻塞所有的客户端直至持久化操作完成。微软的一些工程师花费时间在解决在...

你必须懂的Redis十大应用场景(redis常见应用场景)

Redis作为一款高性能的键值存储数据库,在互联网业务中有着广泛的应用。今天,我们就来详细盘点一下Redis的十大常用业务场景,并附上Golang的示例代码和简图,帮助大家更好地理解和应用Redis。...

极简Redis配置(redis的配置)

一、概述Redis的配置文件位于Redis安装目录下,文件名为redis.conf(Windows名为redis.windows.conf,linux下的是redis.conf)你可以通过C...

什么是redis,怎么启动及如何压测

从今天起咱们一起来学习一下关于“redis监控与调优”的内容。一、Redis介绍Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。...

一款全新Redis UI可视化管理工具,支持WebUI和桌面——P3X Redis UI

介绍P3XRedisUI这是一个非常实用的RedisGUI,提供响应式WebUI访问或作为桌面应用程序使用,桌面端是跨平台的,而且完美支持中文界面。Githubhttps://github....

windows系统的服务器快速部署java项目环境地址

1、mysql:https://dev.mysql.com/downloads/mysql/(msi安装包)2、redis:https://github.com/tporadowski/redis/r...

window11 下 redis 下载与安装(windows安装redis客户端)

#热爱编程是一种怎样的体验#window11下redis下载与安装1)各个版本redis下载(windows)https://github.com/MicrosoftArchive/r...

一款轻量级的Redis客户端工具,贼好用!

使用命令行来操作Redis是一件非常麻烦的事情,我们一般会选用客户端工具来操作Redis。今天给大家分享一款好用的Redis客户端工具TinyRDM,它的界面清新又优雅,希望对大家有所帮助!简介Ti...

一个.NET开发且功能强大的Windows远程控制系统

我们致力于探索、分享和推荐最新的实用技术栈、开源项目、框架和实用工具。每天都有新鲜的开源资讯等待你的发现!项目介绍SiMayRemoteMonitorOS是一个基于Windows的远程控制系统,完...

Redis客户端工具详解(4款主流工具)

大家好,我是mikechen。Redis是大型架构的基石,也是大厂最爱考察内容,今天就给大家重点详解4款Redis工具@mikechen本篇已收于mikechen原创超30万字《阿里架构师进阶专题合集...