国科大、北方电子设备研究所提出最新多模态无人机数据集Anti-UAV,取得新进展!

近日,中国科学院大学视觉实验室和北方电子设备研究所的一项研究工作取得了新进展。该项研究致力于监控无人机位置和轨迹等运行状态,并首次提出了反无人机的研究课题,同时发布了该领域下首个benchmark——Anti-UAV多模态非对齐数据集。研究人员使用多种目前市面上常见的无人机型,收集了超过300个可见光和红外的视频对,还提出了对应的多模态追踪训练策略——DFSC算法,并测试对比了其它超过40种的tracker算法,DFSC算法在红外和可见光上取得了最佳的性能。

当下,在无人机领域还没有高质量的基准方法来获得真实的动态场景,这项研究的发布极大地推动了未来野外无人机跟踪前沿研究的发展。

此外,研究者还开源了Anti-UAV数据集和源代码。

论文地址:https://arxiv.org/abs/2101.08466

GitHub 地址:https://github.com/ucas-vg/Anti-UAV

· 背景

近年来,商用小型无人机(UAV)产业在国内外发展日益蓬勃,已经成为我国经济发展的新的增长点,开始在节日里的灯光表演、体育比赛的高清航拍、灾后救援等各个场景下频繁亮相。应用范围越来越广泛,飞行高度也越来越高,但也随之产生了一系列严重的安全管控问题,未经许可闯入公共及敏感区域、意外坠落、影响客机正常起降、碰撞高层建筑等事件不断发生。

2018年2月7日,在唐山市古冶区范各庄一片空地上,唐某等四人操纵一架无人机升空进行地形图航空测绘。无人机起飞不久就被解放军空军雷达检测发现为不明空情,致使空军出动两架战斗机查证,空中飞行员目视发现为固定翼无人机。严重扰乱空中管理秩序、耗费大量人力物力的罪魁祸首,却是“黑飞”的无人机。如果能够在惊动战机之前对入侵无人机进行精准探测,就能够采取有效反制措施最大化降低损失。

近年来,国内外不断出现的无人机 “黑飞” 事件,不仅对公民的个人隐私与生命财产安全造成了严重危害,而且对机场、军事基地、大型集会现场、核电站、政府机部门驻地等敏感区域的安防造成了极大威胁。因此,开展复杂环境下低慢小(无人机)目标智能感知的研究,从而对无人机进行有效的探测、监管和必要的反制,具有重要意义。

· 数据集

目标追踪(object tracking)是在一组视频帧中定位目标,被广泛用在视频监控、海上救助、自动驾驶等领域。现有研究中,大多数追踪器基于可见光RGB信息,弱光条件下可能导致错误结果。另外一些研究虽然使用红外(IR)图像信息,但红外图像通常分辨率低,信息不足。

为了推动无人机追踪领域的发展,国科大的研究者考虑将可见光RGB和红外图像中的信息进行融合,首次针对无人机进行追踪,并构建了第一个无人机多模态的数据集——Anti-UAV。

(动图)

研究者录制了不同无人机在空中飞行的各类视频,共收集了318对高质量、高清晰度的RGB-T视频,每对包含一个可见光视频和一个红外视频。另外,不同于已发布的标准多模态跟踪数据集,Anti-UAV多模态数据是非对准的,这也是未来利用多模态数据跟踪无人机的新方向。

Anti-UAV数据集中包括6种无人机型(主要来自DJI和Parrot),两种光照条件(白天和夜晚),两种光照模式(红外和可见光)和各类背景(建筑物、云、树木等),存储为MP4文件,帧率为25fps。

为保证标注质量,研究者采用从粗到细的策略对无人机bounding box进行标注,分为粗注释、细标注、检查纠正三个阶段。

Anti-UAV分为训练集、验证集和测试集。训练集和验证集取自同一视频非重叠片段,而测试集完全独立。目标在测试集中的运动范围更加复杂多样。

目标尺度整体波动很大,如下图所示,三个集合的尺度分布类似,均值皆小于40像素,但测试集稍微更集中一些。

而由于往往不同tracker的细节差异很难从整体数据集的角度反映出来,因此该工作还通过提供二值属性标签,来帮助辨别不同反无人机跟踪器在各个方面优缺点。这些属性包括OV(Out-of-View),OC(Occlusion),FM(Fast Motion),SV(Scale Variation),LI(Low Illumination),TC(Thermal Crossover)和LR(Low Resolution)。其中在测试集中OV的占比较大,另外在Anti-UAV中,FM出现的情况也比较多,这同时也是无人机跟踪任务中的一个难题。

· 评价指标

该数据集使用的评价指标公式如下所示。

其中,IOUt是每个跟踪包围盒与相应的地面真值在并集上的交点。v为ground-truth能见度标志(tracker预测的p用来测量状态精度)。状态精度SA是一个序列中所有帧的平均值,所有视频序列mSA的平均状态精度作为最终评价结果。同时,精度和成功率也同样作为该数据集的评价指标。而针对不同任务,研究人员还可将具体的评估情况分为三种。

Protocol1采用可见光视频序列和红外视频序列分别对无人机跟踪器的性能进行评价,目的是验证在训练过程不使用含无人机的数据集的情况下,跟踪器对无人机跟踪的性能。Protocol2旨在提供一种独特的无人机跟踪评估准则,支持研究人员使用可见或红外的反无人机训练视频序列来微调他们的跟踪器或从零开始训练他们。Protocol3鼓励研究人员探索如何充分利用含无人机的可见光、红外多模态数据集。

· 方法

针对该数据集中的Protocol2评估方式,该工作还提出了DFSC算法。在Anti-UAV数据集中只有一类目标,即无人机。因此,即使是不同的视频串,其中的前景信息也是相关的。DFSC算法正是基于该想法,将训练不同视频串所获得的特征结合起来,使得所学习到的特征更具有鲁棒性。下图为DFSC算法示意图。

· 实验结果

根据以上评价指标,该工作还利用现阶段已有tracker做了大量的实验。根据Protocol1评估方式,该工作使用超过40种的tracker在Anti-UAV的验证集和测试集进行实验。以下两个表格分别为各种tracker在Anti-UAV测试集和验证集上的结果,实验结果表明:在Anti-UAV的测试集上,大多数情况下SiamRCNN和GlobalTrack比其他tracker表现更好。这两种tracker在除了FM、LR和LI属性之外,性能相当。以上三个属性中超过4.00% mSA的优势使SiamRCNN处于领先地位。至于验证集,GlobalTrack在OC和LI两个属性上略微领先,而SiamRCNN在其他属性上的性能都是最好的。特别是在OV, TC和LR上,SiamRCNN的性能远远优于其他tracker。

可以看出,基于深度学习的tracker普遍效果会更好相比于之前手工设计的特征,且最好的几个基本都是设计时基于长时(long term)的tracker。因为长时里面可能出现完全遮挡或者消失视野然后重新出现的情况,而短时(short term)里面没有。

而根据Protocol2评估方式,下表为不同训练策略下在Anti-UAV上的实验结果比较。可以看出,DFSC算法在红外和可见光上都取得了最佳的性能。与常规训练策略相比,DFSC在验证集和测试集上分别获得0.49 mSA和0.68 mSA的提升。对于可见跟踪序列,DFSC在验证集和测试集上分别提高了0.48 mSA和0.57 mSA。与大尺度训练策略相比,常规方法和DFSC方法在验证集上有明显的提高。

当下,在无人机领域还没有高质量的基准方法来获得真实的动态场景。总的来说,这项工作建立了第一个无人机跟踪数据集,其中收集了超过300视频对并且人工标注了超过58万个目标。该工作中还提出了针对无人机跟踪的评估方法和基准跟踪算法,并相对应地完成了大量的对照实验。在未来,多模态未对齐的跟踪数据集也将是一个很有潜力的提高跟踪准确率的方法。

Anti-UAV作为一种多模态benchmark,将极大推动未来野外无人机跟踪前沿研究的发展。基于该数据集,研究者还组织了CVPR 2020首届反无人机挑战赛。欢迎各位学者、同行积极参与,共同探讨、突破无人机跟踪领域的各个难点。