来源:3D视觉工坊
添加微信:dddvision,备注:SLAM,拉你入群。文末附行业细分群
0. 写在前面
今天笔者为大家推荐一篇光流学习的工作GyroFlow+。这篇文章也是ICCV 2021文章GyroFlow的升级版,GyroFlow只做了光流学习,GyroFlow+又引入了单应性学习。
下面一起来阅读一下这项工作~
1. 论文信息
标题:GyroFlow+: Gyroscope-Guided Unsupervised Deep Homography and Optical Flow Learning
作者:Haipeng Li, Kunming Luo, Bing Zeng, Shuaicheng Liu
机构:电子科技大学、旷世
原文链接:https://arxiv.org/abs/2301.10018
2. 摘要
现有的单应性和光流方法在具有挑战性的场景中存在误差,例如雾、雨、夜和雪,因为亮度和梯度恒常性等基本假设被打破。为了解决这个问题,我们提出了一种无监督学习方法,将陀螺仪融合到单应性和光流学习中。具体来说,我们首先将陀螺仪读数转换为名为陀螺场的运动场。其次,我们设计了自引导融合模块( SGF ),将从陀螺场中提取的背景运动与光流进行融合,引导网络关注运动细节。同时,我们提出了一个单应性解码模块( HD )来结合陀螺场和SGF的中间结果来产生单应性。据我们所知,这是第一个融合陀螺仪数据和图像内容的深度学习框架,用于深度单应性和光流学习。为了验证我们的方法,我们提出了一个新的数据集,该数据集涵盖了常规和具有挑战性的场景。实验表明,我们的方法在常规场景和具有挑战性的场景中都优于最先进的方法。
3. 效果展示
( a )光流估计在夜间场景中的性能,基准方法ARFlow无法计算。( b )雾天场景下单应性方法的比较。第二行表示源图像和warp的目标图像之间的误差热图,图像越暗,对齐效果越好。
4. 具体原理是什么?
GyroFlow+由一个金字塔编码器和一个金字塔解码器组成。对于每一对帧Ia到Ib,编码器提取不同尺度的特征。解码器包括两个或三个模块,每一层的SGF函数用于融合一个陀螺场Gab和一个光流Vab,以产生一个融合的光流Vab作为D的输入,它估计一个光流到下一层。在某一层,HD从SGF输入特征、陀螺场和权重图,生成单应性矩阵Hab。
生成陀螺场的Pipeline:给定时间戳tIa和tIb,可以读出陀螺仪的读数,从而计算出一组旋转矩阵R = ( R1 ... Rn)T。然后将旋转阵列转换为单应性阵列,将第一幅图像的像素p投影到p′中,从而产生一个陀螺场Gab。
自引导融合模块( SGF )示意图。对于特定的层i,使用2个块独立地产生融合映射Mi ab和融合流Oiab,然后生成光流Vab。
5. 和其他SOTA方法的对比
与ARFlow和UFlow在GHOF数据集上的对比。
GHOF基准上的平均端点误差( AEPE )和正确关键点百分比( PCK )的对比。
在GHOF基准测试集上点匹配误差( PME )和正确关键点百分比( PCK )的对比。
6. 总结
这篇文章在GyroFlow的基础上剔除了GyroFlow +,通过融合陀螺仪数据来进行无监督的单应性和光流学习,声称是第一个将陀螺仪、单应性和光流结合在一起的框架。GyroFlow +提出了一个自引导融合模块来融合陀螺场和光流,以及一个单应性解码器来实现陀螺场到单应性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~