当前位置:科学 > 正文

基于多尺度循环神经网络的立体匹配方法研究|全球今亮点

2023-05-23 16:58:47  来源:简意文史

基于深度学习的立体匹配方法,将模型建立在学习复杂图像特征的基础上,避免了人工特征一致性信息表达能力不足的问题,从而获取高精度、高鲁棒的深度数据,满足了无人驾驶、机器人引导等工程任务中三维信息精准感知的需求。然而,现有基于深度学习的高精度立体匹配方法对计算成本有着较高要求,难以在计算资源受限的条件下实现。

针对这一问题,本文采用基于门控循环单元(GatedRecurrentUnit,GRU)的循环代价聚合策略作为节约计算成本的主要手段,针对现有结构在单一尺度下感受野不足的问题进行改进,实现了一种基于多尺度循环神经网络的立体匹配方法,可同时满足计算成本与精度的需求,最终在广泛使用的标准数据集上对模型的性能进行了分析与评价。


(相关资料图)

对极几何

对于双目立体成像系统,空间中同名点在图像上的投影存在着对极几何约束关系,将匹配关系的搜索范围限制在极线上。如图所示,OR、OT分别表示参考相机与目标相机的光心,πR、πT表示对应的成像平面。

对于空间中的一点P,若点Q位于射线ORP上,则两点在成像平面上具有相同的投影,即p≡q,因此仅通过单张图像不能确定二者之间的空间位置关系,需借助目标相机中的成像来获取深度信息。图中,平面POROT与πR、πT的交线称为极线。

同时P点与Q点在πT上的投影q′、p′必定在同一条极线上,因此将在πT上对同名点的搜索范围缩减到了极线上,减少了匹配过程中的计算量。当两相机的成像平面共面且主光轴平行时,则对应的极线共线。在进行立体匹配前,为了进一步简化计算复杂度,一般通过极线矫正算法使两幅图像中的匹配点在同一行上。

卷积神经网络

卷积神经网络是深度学习中用于学习图像信息的主要工具,主要解决了全连接前馈网络在处理图像数据时参数过多的问题,同时保证了特征的局部不变性,卷积神经网络通常由卷积层、池化层和全连接层组成。其中,全连接层主要应用于处理分类问题的卷积神经网络中,本节中主要介绍常应用于立体匹配网络中的相关操作。

卷积层主要用于提取输入的局部特征,在输入各个通道上进行卷积运算,将结果累加后再与偏置项相加,经过激活函数得到最终的输出。由于单个卷积核仅能提取一种特征,因此在卷积层中一般使用多个卷积核进行特征提取来增强输出的表征能力,并将多个卷积核计算的结果按通道进行拼接,作为卷积层的最终输出,如图所示。

池化层(PoolingLayer)以相邻区域内的统计特征作为该区域的输出,减少了特征的数量,当输入的特征发生少量平移时,池化层的大部分输出可保持不变。通常池化层中都带有降采样操作,降低了特征图的尺寸,从而减少了网络中要学习的参数。

常见的池化函数包括:最大池化(MaxPooling)和平均池化(Meanpooling)。图中给出了池化核边长为2,步长为2的平均池化和最大池化操作,分别以池化核内的平均值与最大值作为池化层的输出。

其他卷积方式

在立体匹配网络中除了普通的卷积操作还经常使用反卷积(Deconvolution)和空洞卷积(DilatedConvolution)。图中介绍了这几种卷积的计算方式,红色虚线表示卷积核的大小,黄色表示输入,橙色表示参与计算的输入信息。

反卷积主要用于特征图的尺寸恢复。在卷积神经网络中,为充分联系上下文信息或减少参数与计算量,通常使用步长大于1的卷积或带有降采样的池化层对图像特征进行处理。然而,在某些视觉任务中要求输出与输入具有相同的图像尺寸,因此需要对图像特征进行上采样操作。如图所示,对于需要进行上采样的输入,首先在各个元素的间隙进行零填充,再进行普通的卷积运算得到最终的输出。

空洞卷积是一种常见的增加网络感受野的方式。通过在卷积核中添加空洞,在参数不变的条件下改变了其大小,其中控制在卷积核间隔中插入空洞数量的参数称为膨胀率(DilationRate),当膨胀率为1时,空洞卷积等效于普通卷积。图中给出了膨胀率为2时的情况,通过在卷积核相邻元素间插入间隙,增大了卷积核的大小,而需要学习的参数保持不变。

基于学习的立体匹配算法

基于卷积神经网络的立体匹配方法,相较于依赖人工特征的传统方法能够更充分地利用图像信息,因此近年来受到广泛的关注。主要介绍基于匹配代价学习的方法以及端到端的立体匹配网络。传统方法中的匹配代价往往依赖于手工特征的设计,易受光照变换、场景模糊等复杂条件的影响

基于匹配代价学习的方法通过从数据中学习图像块间的相似度描述,结合传统方法中的后处理方式得到最终的视差结果。如图所示,这类方法从左右视图中选取待匹配的图像块,利用孪生神经网络(SiameseNetwork)进行特征提取,将得到的特征输入至相同的代价计算模块中,最终输出图像块之间的匹配代价。

端到端立体匹配网络

端到端的立体匹配网络旨在之间从立体图像中完成对视差的估计,避免了人工特征与手动调节参数带来的影响。早期的端到端方法将视差的估计视为回归问题,在卷积神经网络实现从参考图像到视差图映射的过程中引入左右视图间的差异性描述。

图中给出了二维立体匹配网络的基本结构,可分为“编码”(Encode)和“解码”(Decode)两部分。在编码过程中,通过权重共享的卷积操作对参考图像和目标图像分别进行特征提取,通过相关层(CorrelationLayer)由向量的内积计算各个像素之间的一致性信息。

最终,为实现高分辨率的视差结果,结合参考图像的特征与相关层的输出,由带有反卷积操作的解码网络映射得到视差结果。这类网络包括:DispNetC,CRL,FADNet等。

为更好地利用双目相机之间的几何关系,三维立体匹配网络将视差估计视为分类问题,按每个视差对应的概率对视差结果进行分配。图中给出了三维立体匹配网络的网络框架,主要包括:特征提取、代价聚合和视差回归三部分。通过权值共享的二维卷积网络分别提取左右图像的深度特征后,按视差空间构建匹配代价体(CostVolume),并由三维卷积进行代价聚合,对于参考图像上的每个像素,得到其在各个视差下的匹配代价。

最后,在视差维度上将匹配代价转换为相应的概率,通过计算期望的方式分配视差。这类网络包括:GC-Net,PSMNet,GA-Net。

多尺度信息融合的立体匹配网络设计

为了实现端到端的立体匹配网络,对网络的整体结构进行了设计,并在上面的基础上设计了堆叠循环沙漏(StackedRecurrentHourglass,SRH)模块,有效实现了多尺度信息的融合,最终实现了低显存消耗下的高精度立体匹配网络。如图所示,网络整体由特征提取、循环代价聚合和视差回归三部分组成。

特征提取

作为立体匹配网络的第一部分,特征提取的目的是以相同的映射关系从立体图像对中提取表征信息,用于计算像素之间的相似度。与学习匹配代价的算法不同,特征提取网络以校正后的立体图像作为网络的输入。当网络输出的具有较大的感受野时,提取的图像特征能够更多地利用上下文信息,因此对弱纹理或重复纹理区域具有较强的辨识能力

但无论是对输入进行降采样或是使用空洞卷积,都会降低网络对场景细节的恢复能力,因此在特征提取部分一般都会对多个尺度下的图像信息进行融合,其中常见的手段包括在特征提取当中使用空间金字塔池化(SpatialPyramidPooling,SPP)模块

空间池化金字塔的提出解决了卷积神经网络仅能接受相同尺寸的输入的问题。对于任意大小的输入,SPP通过最大池化对其进行不同程度的划分并输出固定尺寸的特征,通过全连接层实现对任意尺寸图像的分类问题。将SPP用于语义分割中,并用平均池化代替最大池化,增强了网络结合上下文信息的能力

作为三维立体匹配网络中的代表性方法,PSMNet将SPP模块应用于特征提取中,有效实现了不同尺度下的特征融合,增强了网络在弱纹理区域下的表现,其结构如图所示。

模型泛化能力验证

为进一步说明该方法的实际应用价值,本文中在MiddleburyStereo数据集中选取了两组高分辨率的立体图像,分别为工厂环境下的管道结构以及包含多种机械零部件的摩托车作为样本数据,并使用由SceneFlow数据集训练得到的网络模型进行了测试,结果如图所示。

总结

本文对基于深度学习的立体匹配方法进行了研究,在循环代价聚合策略的基础上进行了改进,解决了已有方法中感受野不足的问题,并提出了一种多尺度信息融合的循环代价聚合模块,最后设计了网络的整体结构。通过在公开数据集上的分析与评价,本文方法能够在低显存消耗下实现高精度的视差估计。主要工作如下。

1.对现有的立体匹配网络进行了研究,分析造成视差估计精度与计算成本之间矛盾的主要原因。研究了基于循环神经网络的代价聚合方法,说明了该方法在保留匹配代价高维度信息条件下,减少计算资源消耗的基本原理。

2.针对在堆叠卷积循环单元结构中,循环代价聚合过程中接受匹配代价信息范围有限的问题,研究了一种循环沙漏模块。该模块可有效实现卷积门控循环单元中感受野的扩充,为进一步实现不同尺度下的代价聚合提供了主要手段。

3.为保证网络的视差估计精度,设计了一种堆叠循环代沙漏模块,可实现不同尺度下的代价聚合及信息融合,并在此基础上设计了网络的整体结构。

4.设计实验对本文方法进行了评价与分析。对不同循环代价聚合模块进行了比较,验证了本文中改进后的循环代价聚合方法的有效性,在病态区域上的一致性估计效果优于已有方法。在与现有立体匹配网络进行对比时,本文提出的网络,实现了高精度的视差估计精度,并相较于PSMNet和GA-Net显存消耗分别减少了56%和68%。

关键词:

推荐阅读

鳄鱼肉有什么营养 鳄鱼是不是国家保护动物?

鳄鱼肉有什么营养研究表明,鳄鱼肉中蛋白质含量高,其中含有适量的人体必需氨基酸,还含有高不饱和脂肪酸和各种对人体营养价值高的微量元素 【详细】

游轮是什么 全球最大邮轮有多大?

游轮是什么最初的游轮是用来运输货物的,现在的邮轮建的格外的大,已经成为了身份和地位的象征。全球最大邮轮有多大?1、皇家加勒比海洋魅力 【详细】

阿尔卑斯山简介 阿尔卑斯山地质特点是什么

阿尔卑斯山简介阿尔卑斯山呈弧形,长1200公里,宽130-260公里,平均海拔约3000米,总面积约22万平方公里。海拔4000米以上的山峰有128座。最 【详细】

沙漠蝗简介 沙漠蝗怎么会有侵入中国的风险呢?

沙漠蝗简介沙漠蝗是非洲和亚洲热带沙漠地区山谷和绿洲的主要农业害虫,飞行能力强,食量大,能聚集形成巨大的蝗群。一平方公里的蝗虫可容纳 【详细】

首都新机场叫什么名字 机场是24小时开放的吗?

首都新机场叫什么名字?一般指北京大兴国际机场。北京大兴国际机场定位为大型国际航空枢纽,国家发展新动力源,支撑雄安新区建设的京津冀区 【详细】

关于我们  |  联系方式  |  免责条款  |  招聘信息  |  广告服务  |  帮助中心

联系我们:85 572 98@qq.com备案号:粤ICP备18023326号-40

科技资讯网 版权所有