首页 > 其他 > 详细

论文阅读《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

时间:2019-03-06 13:35:18      阅读:648      评论:0      收藏:0      [点我收藏+]

端到端学习几何和背景的深度立体回归

摘要

    本文提出一种新型的深度学习网络,用于从一对矫正过的立体图像回归得到其对应的视差图。我们利用问题(对象)的几何知识,形成一个使用深度特征表示的成本量(cost volume)。我们通过对这一匹配代价卷使用3D卷积来学习结合上下文信息。利用本文提出的一种可微分的soft argmin操作可以对匹配代价卷回归得到视差值,这使得我们可以直接端到端地训练我们的网络达到亚像素级别的精度,而不需要任何后处理和正则化。我们在Scene Flow和 KITTI数据集上对我们的方法进行评估,在KITTI上我们设置了一个新的最先进的benchmark,同时显著快于其他方法。

1.介绍

         从立体影像准确估计三维几何是许多计算机视觉应用的核心问题,包括自主车辆和无人机[2]。在本文中,我们特别感兴趣的是计算矫正后立体图像对之间每个像素的视差。为此,立体算法的核心任务是计算两个图像之间每个像素的对应关系。在现实世界中,这是非常具有挑战性的。当前最先进的立体声算法通常在无纹理区域,反射表面,薄结构和重复图案方面存在困难。许多立体算法的目标是通过基于池或梯度的正则化[15,23]减少这些失败。但是,这通常需要在平滑表面和检测详细结构之间进行折中。

       相比之下,深度学习模型已经成功地从原始数据学习获得在物体分类[28],检测[17]和语义分割[31,3]的方面直接强大的表示。这些例子表明深度卷积神经网络对理解语义非常有效。 在监督大型训练数据集时,他们擅长分类任务。我们观察到立体算法中一些具有挑战性的问题将从全局语义上下文的知识中受益,而不仅仅依赖于局部几何。例如,对于车辆挡风玻璃的反射表面,如果仅仅依靠反射表面的局部外观来计算几何形状,则立体算法可能是错误的。相反,理解该表面(它属于车辆)的语义背景来推断局部几何是有利的。在本文中,我们展示了如何学习一个可以进行端到端训练的立体匹配回归模型,并且能够理解更广泛的上下文信息。

        迄今为止,利用深度学习表示的立体算法主要集中于利用它们生成一元项[48,32]。在深度一元表示法上应用代价匹配在估计像素差异时表现不佳[32,48]。仍然使用传统的正则化和后处理步骤,如半全局块匹配和左右一致性检查[23]。这些正则化步骤受到严重限制,因为它们是手工设计的浅函数,仍然容易受到上述问题的影响。

        这篇论文解答了这一问题——我们能否利用我们对于立体几何的理解,借助深度学习的方法来将立体视觉问题规范化?这篇论文的主要贡献是提出了一个端到端的深度学习方法来从一对矫正过的图像来估算每个像素的视差值。我们的结构如图1所示。它通过构建成本量明确地表达了几何特征,同时还利用深度卷积网络表达了语义信息。我们实现这一方法主要遵循以下两个想法:

  • 我们直接从数据中结合上下文信息,使用3D卷积来规则化成本量(包含高度、宽度、视差三个维度)
  • 我们使用完全可微分的柔性argmin函数,允许我们从视差匹配代价卷中回归得到亚像素的视差值

第三节介绍了这个模型并从更多的细节方面介绍了模型的内容。第四节,我们在合成的SceneFlow数据集上评估了我们的模型,并在KITTI2012和KITTI2015数据集上排名第一。最后在4.3节,我们展示了我们的模型能够学习语义和上下文信息的证据。

2.相关工作

从立体图像对计算深度的问题已经研究了相当长的一段时间[5]。Scharstein和Szeliski[39]的一项调查提供了立体匹配算法的分类,如执行匹配成本计算,成本支持聚合,视差计算和优化或差异细化的一些子集。 这个调查还介绍了第一个Middlebury数据集和相关的评估指标,使用结构化光提供基本事实。KITTI数据集[14,35]是LIDAR提供的具有基本真实性的移动车辆收集的较大数据集。这些数据集首先激发了改进立体视觉所有组件的手工技术,其中我们提到了一些值得注意的例子。

匹配成本是潜在相应图像位置的像素差异度量[25],其中绝对误差,平方误差和截断误差是示例。可以使用基于梯度[16]的局部描述符或二进制模式,如CENSUS [45]或BRIEF [7,22]。

不是像基于面片的匹配成本一样聚集相邻像素,而是在假定它们更可能来自相同表面和视差的假设下,对图像内容的了解可以更大程度地合并具有相似外观的相邻像素。这些技术的调查由Tombari等人提供[43]。局部匹配成本也可以在全局框架内进行优化,通常将结合局部数据项和成对平滑项的能量函数最小化。全局优化可以使用图形切割[27]或置信传播[26]来完成,这可以扩展到倾斜表面[6]。全局优化的一个有名的有效逼近是Hirschmüller[24]的半全局匹配(SGM),其中动态规划优化了多方向上能量函数的路径形式。

除了为比较立体算法提供基础之外,来自这些数据集的地面实况深度数据提供了使用机器学习以各种方式改进立体算法的机会。 Zhang和Seitz [52]交替优化了视差和马尔科夫随机场正则化参数。Scharstein和Pal [38]学习条件随机场(CRF)参数,Li和Huttenlocher[29]用结构化支持向量机训练非参数CRF模型。 学习也可以用来估计一个传统的立体匹配算法的置信度,如海斯勒等人的随机森林方法。[19]。 Park和Yoon [37]表明,这种置信度测量可以改善SGM的结果。

深卷积神经网络可以训练以匹配图像块[46]。 Zbontar和Le-Cun[47,49]展示了一个深度网络,用于匹配9X9个图像块,然后是非学习成本聚合和正则化,以产生最先进的结果。

Luo等人提出了一个显着更快的网络计算局部匹配成本作为使用连体网络[33]多标签视差分类。 Chen等人的多尺度嵌入模型 [9]也提供了良好的局部匹配分数。另外值得注意的是Flynn等人的DeepStereo工作。 [12],它结合一个单独的条件色彩模型学习成本量,以预测多视点立体设置新颖的观点。

Mayer等人创建了一个大型的合成数据集来训练网络的视差估计(以及光流)[34],改善了最先进的技术。作为网络的一种变形,沿视差线提出了一种1-D相关性,这是对立体成本量的乘法近似。另外,这个量与单个图像的卷积特征串联,并且通过一系列进一步的卷积而成功。相比之下,我们的工作并没有在计算成本量时破坏特征维度,而是使用3-D卷积来合并上下文。

虽然这项工作的重点是双目立体视觉,值得注意的是,深卷积网络的表示能力也能够从一个单一的单目图像进行深度估计[10]。 Liu等人将深度学习与连续的CRF相结合。[30]。 而不是用标记的基本真实数据监督训练,可以使用无标记的立体图像对训练一个单眼模型[13]。

在我们的工作中,我们没有应用后处理或正则化。我们的网络可以通过形成完全可微分的成本量来明确地推断几何。我们的网络通过3-D卷积架构学习将数据的上下文结合起来。 我们不学习概率分布,成本函数或分类结果。 相反,我们的网络能够从立体图像对直接回归视差的亚像素估计。

3.学习端到端的视差回归  

我们不必手动设计立体匹配算法的任何一步,而是学习使用深度学习从图像对到视差图的端到端映射。我们希望直接从数据中学习更优化的功能。此外,这种方法有望降低大部分工程设计的复杂性。但是,我们的目的不是天真地将机器学习架构作为一个黑盒来建立立体模型。 相反,我们主张使用几十年来多视角几何研究的见解[20]来指导架构设计。因此,我们通过开发代表传统立体管道中每个主要组件的可微层来形成我们的模型[39]。这使我们能够学习整个模型的端到端,同时利用我们对立体声问题的几何知识。  

我们的架构,GC-Net(几何和上下文网络)如图1所示,表1中有更详细的逐层定义。  

在本节的其余部分中,我们将详细讨论每个组件。之后,在第4.1节中,我们将为调整设计决策提供定量结果。

3.1 一元特征(网络提取的特征)

 

 

https://blog.csdn.net/lvhao92/article/details/72627386

https://blog.csdn.net/qq_38906523/article/details/79625073

https://blog.csdn.net/qq_36104364/article/details/80277824

 

论文阅读《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

原文:https://www.cnblogs.com/LewisLEO/p/10482123.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!