近年来,图像去雾技术受到了越来越多的关注。针对这一挑战,已经提出了许多深度学习方法,并在处理均匀雾霾(homogeneous haze)的场景中取得了显著成果。然而,当这些方法被应用于非均匀雾霾图像(如NTIRE挑战赛提出的NH-HAZE23数据集)时,其性能却难以保持相当水平。造成这种表现不佳的原因之一在于,非均匀雾霾(non-homogeneous haze)不符合建模均匀雾霾所需的基本假设。此外,传统的端到端训练方法往往需要大量成对的非均匀雾霾图像及其对应的干净图像。然而,NH-HAZE23数据集的样本数量有限,难以满足这一需求。尽管可以通过利用其他非均匀去雾数据集来增强NH-HAZE23数据集,实验表明设计一个合适的数据预处理技术以缩小目标数据集与增强数据集之间的分布差异是必要的。这一发现与**数据驱动人工智能(Data-centric AI)**的核心理念不谋而合。基于此,我们提出了一种创新的去雾方法,结合了新颖的网络架构与系统化提升数据质量的原则性数据预处理方法。具体而言,我们对增强数据集进行了基于RGB通道的转换,并在双分支框架中采用了当前最先进的Transformer模型作为主干网络。通过大量实验和消融研究,我们验证了所提出方法的有效性。源码见:https://github.com/ yangyiliu21/ntire2023_ITBdehaze.
近年来,图像去雾作为图像修复的一个子任务,受到了越来越多的关注。雾霾这种自然现象遍布世界各地,并且由于气候变化而变得更加频繁。这一普遍的大气现象因其对交通安全的潜在威胁而引起了广泛关注,因为在雾霾场景中,人类观察和计算机视觉模型的表现都会受到显著影响。因此,图像去雾成为一个重要的低层视觉任务,许多方法已经被提出以应对这一挑战【10, 15, 18, 21–23, 29, 30, 35–37, 39, 42】。其中,基于神经网络的方法【10, 11, 21, 29, 39, 42】在解决图像去雾问题上表现出色。具体来说,这些端到端的方法通过强大的网络模块和大量的训练数据,能够产生令人印象深刻的结果。然而,随着雾霾分布变得更加复杂和非均匀,许多方法在非均匀雾霾场景中难以达到令人满意的效果。这种失败的原因之一在于,非均匀雾霾的厚度并不仅仅由背景场景的深度决定,而是受到其他复杂因素的影响。
为了解决上述问题,我们采用了一个由当前最先进的骨干网络组成的**双分支框架**,并对以往的NH-HAZE数据集应用了一种新颖的数据预处理变换方法。受**数据驱动人工智能(Data-centric AI)**理念启发,即机器学习已发展到高性能模型架构广泛可用的阶段,但数据工程方法相对滞后【1, 27】,我们将大量精力集中于优化数据处理。
1.1.数据预处理策略
受伽马校正(gamma correction)【15, 37】良好效果的启发,我们提出了一种简 单而有效的基于RGB通道的预处理方法。我们证明了这种方法适用于比赛环境,并认为该方法有潜力成为增强类似数据集的原则性方法。后续部分将详细讨论这一基于数据驱动人工智能的数据预处理策略。
1.2.网络架构设计
在网络架构上,我们的模型基于双分支框架【15, 36, 37】设计:第一分支采用了预训练 于ImageNet数据集的Swin Transformer V2模型【24】作为编码器。Swin Transformer以 其在多种迁移学习场景中的卓越性能而著称,能够将从大规模基准数据集中学到的知识适配于特定任务数据集【20, 24】。这一特性在处理小规模的非均匀雾霾数据集时尤为重要【37】。此外,通过精炼的解码器和跳跃连接(skip connections),第一分支能够提取雾霾图像的多层次特征。第二分支专注于处理目标数据域,以补充第一分支从预训练模型中学习的知识。为简单起见,我们参考【37】使用了RCAN(Residual Channel Attention Network)【40】构建第二分支。由于第二分支没有下采样和上采样操作,我们期望它能够提取与第一分支不同的特征。最后,通过一个融合尾部(fusion tail)模块,将两条分支的结果聚合在一起,生成去雾后的图像输出。这种设计能够充分结合预训练模型的迁移学习能力与目标领域数据的独特特性,提升去雾任务的整体性能。
总体而言,我们的贡献可以总结如下:受数据驱动人工智能(Data-centric AI)理念的启发,我们提出了一种利用额外数据来显著增强模型性能的数据预处理方法。这种方法简单直观,但效果显著。我们在双分支框架中引入了当前最先进的主干网络,并通过精心平衡两个分支,使模型在小规模数据集上展现了出色的性能。我们的模型超越了采用类似框架的其他当前方法。 我们通过广泛的实验展示了所提方法的竞争力,并通过不同模型和数据组合的消融研究,验证了方法的有效性。我们希望通过这些研究说服未来的比赛参与者,在模型设计与数据工程之间保持同等的关注度,以实现更好的性能。
在这一部分,我们简要回顾了单幅图像去雾和小数据集学习的相关研究。单幅图像去雾的方法主要分为两大类:基于先验的方法(prior-based methods)和基于学习的方法(learning-based methods)。
基于先验的方法依赖于对雾霾图像的合理假设和先验知识,旨在准确估计传输图(transmission map)和大气光强度(atmospheric light intensity),从而完成大气散射模型(ASM)的建模【26】。代表性研究包括以下工作: 局部对比度最大化方法【34】观察到清晰图像的对比度通常比雾霾图像高,基于此提出一种局部对比度最大化的方法。暗通道先验(Dark Channel Prior, DCP)【18】基于假设,即无雾区域的像素值在至少一个颜色通道上的强度接近于零,提出了一种暗通道先验的方法。颜色衰减先验(Color Attenuation Prior, CAP)【44】利用雾霾图像的亮度与饱和度之间的差异,提出了一种线性模型来估计深度信息。尽管基于先验的方法为单幅图像去雾领域留下了重要贡献,但其在多变场景下的适应性较弱,这使得研究方向逐渐转向基于学习的方法。
基于学习的方法随着神经网络的发展,研究者提出了一系列更强大的模型【10, 11, 21, 29, 39, 42】,可以直接从雾霾图像中恢复清晰图像,而无需显式估计传输图和深度信息。这些方法在去除均匀雾霾方面表现出色,其优势归因于大规模训练数据的可用性。然而,在处理非均匀雾霾时,这些方法的效果却显著下降。这主要是由于现有的非均匀雾霾数据集数量有限,阻碍了研究者使用简单的端到端训练方法进行优化。利用小数据集进行学习。
数据是所有人工智能模型的核心。许多模型需要庞大的数据集进行训练,但大规模数据集并非总是可用,因此研究者需要探索在小规模数据集下完成训练的解决方案。对于去雾任务,一个看似直接的解决办法是将多个小型的非均匀雾霾数据集组合成一个相对较大的数据集。例如,在NTIRE2023挑战赛中,可以通过将之前的NH-HAZE数据集(增强数据集)与今年的新数据集(目标数据集)结合起来解决训练数据不足的问题【6, 7】。然而,与“更大的数据集通常更好”的普遍认知相反,研究发现模型在单一数据集上进行训练和测试的效果优于在多个数据集的联合数据集上进行训练和测试【22】。这一现象表明,增强数据与目标数据集属于不同的域,直接合并会引入域偏移问题。为应对这一问题,研究者提出了多种策略:测试时训练策略(Testing-Time Training)如【22】提出了在测试时进行训练的方法来缓解域偏移的问题。训练前域调整策略如【15, 31, 37】则选择在数据送入去雾模块前调整训练数据的域,从而减少域差异。
近年来,数据驱动人工智能(Data-Centric AI)的理念被提出,其核心思想是关注数据优化而非模型优化【1】。通过优化数据集,可以使深度神经网络在较小的数据集上也能有效训练【27】。数据优化方法的复杂性从简单的技术到复杂的组合各不相同【38】。例如,伽马校正(Gamma Correction)虽然是一种简单的预处理方法,但实验表明【15, 37】它无法准确恢复颜色信息。另一方面,复杂方法如【31】通过领域适配学习一个单独的神经网络来转换数据,但由于数据的稀缺性和缺乏深度信息,这种方法在实践中难以实施。基于上述挑战,我们在下一部分提出了一种针对NTIRE挑战赛的新颖解决方案,既考虑到数据的域差异问题,又实现了卓越的去雾效果。
在本节中,我们将按照工作流程的顺序介绍我们方法的详细信息。首先,我们展示了受以数据为中心的人工智能思想启发的数据预处理方法。其次,介绍了我们的模型架构的详细信息以及每个组件的功能。最后,我们介绍了用于训练我们提出的网络的损失函数。
3.1. 以数据为中心的工程
在深度神经网络的训练中,系统化地优化数据质量是关键要求。数据驱动人工智能(Data-Centric AI)的核心理念强调,在模型部署前必须评估数据的质量【38】。通过对比NH-HAZE20、NH-HAZE21数据集【6, 7】与本年度数据集,我们发现明显的颜色差异。当直接将这些数据集合并进行训练时,模型在本年度测试数据上的性能并未得到提升,甚至与仅使用本年度数据训练的结果持平(详见4.3.1节)。我们需要提出一种方法,减少不同数据集之间的颜色差异,并使增强数据的分布更接近目标数据的分布。受到伽马校正(Gamma Correction)成功应用的启发【15, 37】,我们设计了一种更系统化的数据工程解决方案。与传统的灰度伽马校正不同,我们提出了一种通道独立伽马校正方法,通过对RGB三个通道分别进行校正,进一步提升数据质量。不同于传统方法使用单一的伽马因子,这种方法允许每个通道采用独立的伽马因子,从而更精细地调整不同通道的分布特性。增强了数据预处理的灵活性和效果,有效减小不同数据集之间的分布差异。系统化的通道独立伽马校正方法不仅能够更精准地对齐数据分布,还为小规模数据集的去雾任务提供了通用的预处理框架。通过调整数据的域差异,这种方法避免了直接合并数据集带来的域偏移问题,显著提升了模型在目标数据上的性能。具体的实验结果(详见4.3.1节)表明,该预处理方法在NTIRE竞赛设置中具有显著优势,为非均匀去雾问题提供了有效的解决方案。
关于实现方面,我们首先计算了三个数据集的每个通道的平均像素强度;然后,对NH-HAZE20或21数据集的每个通道应用一个独特的伽马值变换,使得其每个通道的平均值和方差与NH-HAZE23数据集相似。如图2所示,我们展示了不同伽马值下直方图的变化。观察发现,我们的方法使NH-HAZE20和21数据的颜色变得更接近NH-HAZE23数据。具体而言,2023年数据的平均像素强度为107.46(R)、114.48(G)、101.92(B)。在应用我们的方法后,NH-HAZE20数据的调整后平均像素强度为107.77(R)、114.33(G)、102.08(B),NH-HAZE21数据的调整后平均像素强度为107.43(R)、115.01(G)、102.13(B)。需要注意的是,我们不仅对干净的真实图像应用这种预处理方法,也对有雾图像应用(与[15, 37]仅操作真实图像不同)。
通过这种新的数据预处理方法,NH-HAZE20和21数据集的三个颜色通道的分布向NH-HAZE23数据集的分布靠拢。得益于更多在目标分布范围内的数据,模型表现出了显著的提升。能够在一个小而优质的数据集上进行训练,而不是一个更大但内部分布差异较大的数据集,帮助我们在比赛中脱颖而出。这与数据驱动人工智能(Data-Centric AI)的理念相一致【27, 38】。对于未来的比赛参与者,我们认为这一方法是数据工程的一个良好起点。
3.2. 网络架构
图 3.我们的网络概览。该模型由两个分支组成。迁移学习分支由基于 Swin Transformer 的模型组成。数据拟合分支由残差通道注意力组组成。
如图 3 所示,预处理的数据被输入到两分支模型架构中。这个两分支框架已成功应用于各种计算机视觉任务【19】,并促使多项作品【15、36、37】在过去的 NTIRE 挑战中获奖。在我们的实现中,第一个迁移学习分支旨在通过预训练的权重初始化来提取输入的相关特征。第二个数据拟合分支负责补充从第一个分支学到的知识,并在目标数据领域进行工作。融合尾部聚合两个分支的输出并生成去雾图像。
基于Swin Transformer的迁移学习。为了充分利用迁移学习的优势【33】,我们使用了在ImageNet上预训练的Swin Transformer【24】作为编码器的骨干网络。Swin Transformer在多个视觉任务中表现出色,相比于其前代模型Vision Transformer(ViT)【13】,它在处理高分辨率图像时更加高效和精准,因为ViT的复杂度与输入尺寸的平方成正比,效率较低。Swin Transformer的工作流程如下:首先,Swin Transformer通过分块模块将输入图像分割成不重叠的块,并通过线性嵌入层将这些块及其特征设置为“token”,然后投影到一个固定维度。这些tokens通过一系列阶段进行处理,每个阶段由一个线性嵌入层和多个Swin Transformer Block(SwinT Block)模块组成。SwinT Block通过带有多头自注意力(MSA)模块的循环移位来实现高效的批处理计算,完成窗口划分。在每个阶段中,特征图的空间维度逐步减小,形成分层的特征图,这些模块构成了我们迁移学习分支的编码器部分。至于解码器部分,我们参考了【15, 37】中的方法。通过跳跃连接、注意力块和上采样层,逐步恢复分层特征图,最终生成与输入图像相同空间维度的输出。
模型剩余部分。我们借鉴了[40]中的数据拟合分支,该分支基于残差通道注意力模块(Residual Channel Attention Block,RCAB)【40】。该第二分支从头开始训练,专门针对目标数据的领域进行工作,从而补充第一个分支的学习。由于没有下采样和上采样操作,这个分支在全分辨率模式下运行,因此提取的特征与第一个分支得到的特征不同。一个简单而富有洞察力的融合尾部,由反射填充层、7×7卷积层和Tanh激活函数【37】组成,用于将来自两个分支的特征进行融合,最终生成去雾图像。
3.3. 损失函数
由于我们的方法主要集中在数据中心工程和实现Transformer,因此我们遵循[15, 37]的方法,采用了多个损失函数的组合来训练我们的模型。
平滑L1损失(Smooth L1 Loss)。在图像重建任务中,平滑L1损失被证明比均方误差(MSE)损失更具有鲁棒性【41】。其公式如下:
其中,xi和 yi分别表示干净图像和雾霾图像的第i个像素,NNN 是像素总数,fθ(⋅)表示网络。
多尺度结构相似性损失(MS-SSIM Loss)假设人眼适应于提取结构信息,因此评估结构相似性的度量能够很好地近似感知的图像质量。公式如下:
其中,μO,μG 是分别在去雾图像和地面真实图像中,第i个像素的均值,σO,σG 是标准差,σOG 是协方差,C1,C2是稳定除法的常数。
感知损失(Perceptual Loss)用于衡量去雾图像与地面真实图像在感知上的相似性。我们采用预训练的VGG16【32】来测量感知相似度,其定义如下:
其中,fθ(x) 是去雾图像,ϕj(⋅) 是特征图,N 是特征数量,Cj,Hj,Wj 分别是第j层特征图的通道数、高度和宽度。
对抗损失(Adversarial Loss)为了补偿像素级损失函数在小数据集上训练时无法提供足够监督的风险,我们采用了对抗损失【43】,其定义如下:
其中,fθ(x) 是去雾图像,D(⋅) 是判别器。
总损失(Total Loss)是上述四个部分的加权和,权重预先定义:
在本节中,我们首先介绍用于进行实验的数据集以及实现细节。然后,我们进行消融研究以验证我们的模型设计和数据预处理方法的有效性。最后,我们定性和定量地评估了我们提出的方法的去雾结果,并与几种最先进的方法进行了比较。
4.1. 数据集
O-HAZE:2018年发布的O-HAZE数据集包含45对干净图像和雾霾图像。每对图像具有独特的空间分辨率。我们的评估基于官方的训练集和测试集划分【5】。
DENSE-HAZE:为NTIRE2019挑战赛发布的DENSE-HAZE数据集,以密集且均匀的雾霾图像为特点。该数据集包含45张训练图像、5张验证图像和5张测试图像,所有图像的分辨率均为1600×1200【3】【4】。
NH-HAZE20 & NH-HAZE21:这两个数据集分别是为NTIRE2020和NTIRE2021挑战赛发布的,包含非均匀雾霾图像。两者的图像分辨率均为1600×1200。NH-HAZE20包含45张训练数据、5张验证数据和5张测试数据,而NH-HAZE21则包含20张训练数据和5张测试数据【6】【7】。
NH-HAZE23:NTIRE2023数据集延续了以往的非均匀雾霾风格,但图像分辨率大幅提升至4000×6000。该数据集包含50对图像,但由于验证数据和测试数据的地面真实图像尚未公开,因此目前只能使用40张训练数据。对于方法比较,我们使用官方训练集的前35张图像进行训练,剩余5张用于测试;而在进行消融研究时,我们使用所有40对图像进行训练,并通过挑战的在线验证服务器进行测试【6】【7】。这些数据集是雾霾去除研究中的重要组成部分,广泛应用于NTIRE等挑战赛,用于评估图像去雾方法的效果。
4.2. 实施细节
输入图像随机裁剪为256 × 256的尺寸,并通过多种数据增强策略进行增强,包括随机旋转90度、180度、270度,水平翻转和垂直翻转。需要注意的是,我们没有应用任何与亮度或颜色变化相关的增强策略,因为我们不希望破坏我们数据预处理方法所产生的调整后颜色分布。我们使用AdamW优化器【25】(β1 = 0.9, β2 = 0.999),学习率初始设为1e−4,并使用余弦退火策略逐步下降至1e−6。实现过程中,我们采用了PyTorch库【28】并在两块Nvidia Titan XP GPU上运行。我们使用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为定量评估的两个指标。
4.3. 消融研究
我们进行了全面的消融研究,分析并展示了我们数据预处理方法和提议网络架构的有效性。下表展示了不同架构和数据预处理技术的消融研究结果,所有分数均使用NTIRE2023在线验证服务器进行评估。从表中可以看到,采用数据增强和我们提出的改进数据预处理方法后,模型的PSNR和SSIM都得到了显著提高,证明了数据工程对提高去雾模型效果的重要性。
4.3.1 数据中心设计的重要性
在第3.1节中,我们强调了数据在非均匀去雾任务中的重要性。为了进一步证明这一点,我们在多个数据集上进行了实验,并采用了不同的数据预处理方法。实验使用了四组训练数据,分别是:NH-HAZE23 only:仅使用NTIRE2023挑战的数据;NH-HAZE20+21+23:直接将NH-HAZE20、NH-HAZE21和NH-HAZE23的数据组合在一起;NH-HAZE20+21+23 GC:将NH-HAZE20、NH-HAZE21和NH-HAZE23的数据结合,其中NH-HAZE20和21的GT数据经过灰度伽马校正处理,如[15, 37]所示;NH-HAZE20+21+23 RGB:将NH-HAZE20、NH-HAZE21和NH-HAZE23的数据结合,其中NH-HAZE20和21的模糊图像及GT数据均使用我们在第3.1节中提出的方法进行处理。我们将这些数据集应用于两种不同的模型架构。第一个模型来自NTIRE2021挑战赛[37](我们称其为Res2Net+RCAN),其中使用Res2Net[16]作为主干网络。第二个模型是我们在第3.2节中提出的模型。总共进行8个独立实验,并报告其最佳结果(以PSNR指标为评估标准),所有结果在NTIRE2023在线验证服务器上评估。结果如表1所示。
通过比较表1中的第一行和第二行,我们发现直接将所有可用数据结合起来对我们的方法和[37]的模型改进有限。再通过比较表1中最后两行和第二行,可以观察到数据预处理通常是有益的。毫不奇怪,使用我们数据集训练的模型表现最佳。这些结果强化了数据中心工程的重要性。
为了定性评估数据工程的重要性,我们展示了图4,展示了分别使用NH-HAZE20+21+23 GC和NH-HAZE20+21+23 RGB训练的模型生成的图像。通过与地面真实图像的比较,可以明显看出,使用我们处理过的数据集训练的模型在颜色和亮度上生成了更忠实的结果。具体而言,我们生成的建筑物和树木的颜色与地面真实图像更加一致,而对比图则更倾向于生成绿色物体。
4.3.2 模型的有效性
如第 3.2 节所述,我们的网络是建立在最近的工作[37]的基础上的。主要区别在于我们用提出的基于 Transformer 的结构替换了 [37] 中的 Res2Net 分支。通过快速检查我们的方法和 Res2Net+RCAN 在表 1 中的四个数据集上的性能,可以很容易地观察到我们的方法总是明显优于 Res2Net+RCAN。这说明了使用 Transformer 在非均匀去雾中的有效性。
4.4. 以数据为中心的工程的进一步分析
在图2中,我们展示了应用了所提出的RGB伽马校正后的地面真实值分布变化。在图5中,我们提供NH-HAZE20和21张模糊图像的分布变化作为补充。可以观察到,在我们的数据预处理之后,NH-HAZE20和21张模糊图像中的三个图像通道(RGB)的分布更符合NH-HAZE23的数据。图6进一步定性地显示了数据预处理前后的图像。结果表明,经过处理的NH-HAZE20和NH-HAZE21数据的颜色与NH-Haze 23。 我们强调,这种以数据为中心的工程是帮助我们的方法在竞争中脱颖而出的关键。 基于本节和第4.3.1节中的分析,我们得出结论认为,数据质量是一个决定因素,可能是NTIRE去雾挑战中最重要的一点。
4.5 与最先进的方法进行比较
为了进行比较,我们选择了五种最先进的方法作为基准,包括DCP [18]、AOD-Net [21] 、GCANet [11]、FFA [29] 和Res2Net+RCAN [37]。
在表2中,我们展示了每种方法在5个不同数据集上的最佳PSNR和SSIM指标。采用双分支框架的方法在所有数据集中表现良好,在图7中,Res2Net + RCAN 和我们的方法可以在所有数据集上产生视觉效果良好的结果。当处理非均匀的雾化模式时,它们显示出显著更好的性能,如我们在NH-HAZE20、21和23的结果中所观察到的那样。因此,双分支框架仍然主导着有限的数据场景。
值得注意的是,我们的模型在O-HAZE和NTIRE2023上显著优于Res2Net+RCAN模型。我们推测原因在于由于O-HAZE和NH-HAZE23数据集的图像分辨率的巨大增加。例如,NH-HAZE23数据集中像素的数量是NH-HAZE20和NH-HAZE21数据集组合的六倍多。因为我们的基于Transformer的模型包含更多的可学习参数,因此较大的训练数据集可以从根本上缓解过拟合问题。这种现象进一步表明,在有限的数据设置中,以数据为中心的方式进行研究比简单地提高模型容量更为重要。
以上就是本篇文章【计算机视觉-图像去雾(A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer)中文版】的全部内容了,欢迎阅览 ! 文章地址:http://w.yusign.com/news/6772.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 述古往 http://w.yusign.com/mobile/ , 查看更多