中文題目:多天氣恢復(fù)任務(wù):一種基于提示引導(dǎo)的高效卷積架構(gòu)
論文題目:Multi-weather restoration: An efficient prompt-guided convolution architecture
錄用期刊/會議:IEEE Transactions on Circuits and Systems for Video Technology (SCI 1區(qū)TOP,CCF B)
原文DOI:10.1109/TCSVT.2024.3469190
原文鏈接:https://ieeexplore.ieee.org/document/10697214
錄用/見刊時間:2024年9月27日
作者列表:
1) 李承陽 中國石油大學(xué)(北京)人工智能學(xué)院 智能與科學(xué)系教師
2) 孫方偉 軍事科學(xué)院 計算機科學(xué)與技術(shù)專業(yè) 博23
3) 周 恒 江南大學(xué)人工智能與計算機學(xué)院 人工智能系教師
4) 謝永強 軍事科學(xué)院 研究員
5) 李忠博 軍事科學(xué)院 高級工程師
6) 朱麗萍 中國石油大學(xué)(北京)人工智能學(xué)院 計算機系教師
摘要:
應(yīng)對惡劣天氣條件在實際應(yīng)用中起著至關(guān)重要的作用。許多現(xiàn)有的恢復(fù)方法僅限于特定的天氣類型,這限制了它們在不同天氣場景中的適用性。研究者們已經(jīng)利用包括 Transformer 和擴散模型在內(nèi)的先進(jìn)技術(shù)來應(yīng)對這一挑戰(zhàn)。然而,這些方法通常會增加網(wǎng)絡(luò)復(fù)雜性并延長推理時間。為此,本文提出MW-ConvNet,一種用于多天氣恢復(fù)的基于 U 形卷積的網(wǎng)絡(luò)。具體來說,引入了 MW-Enc 塊和 MW-Dec 塊來實現(xiàn)簡單但強大的特征提取,這完全依賴于傳統(tǒng)的 2D 卷積。為了提高對多種天氣條件的適應(yīng)性,設(shè)計了一個提示生成模塊來在編碼器的終端生成代表性的天氣提示。從風(fēng)格轉(zhuǎn)換中汲取靈感,天氣提示用于指導(dǎo)解碼器通過漸進(jìn)式恢復(fù)程序進(jìn)行學(xué)習(xí)。對于未來的高保真恢復(fù),在編碼器階段通過小波池化塊引入頻率分離,在解碼器階段引入相應(yīng)的上采樣塊。低頻和高頻特征的分離處理抑制了網(wǎng)絡(luò)計算過程中紋理信息的丟失。它還提高了生成的天氣提示的質(zhì)量和準(zhǔn)確性。大量實驗表明,與最先進(jìn)的方法相比,所提出的 MW-ConvNet 在特定天氣和現(xiàn)實世界恢復(fù)任務(wù)中都獲得了卓越的性能。值得注意的是,本文方法實現(xiàn)了每 256x256 圖像 0.12 秒的驚人推理速度,超過了基于Transformer和基于Diffusion的模型。
背景與動機:
多天氣條件下的圖像恢復(fù)對于增強自主系統(tǒng)的感知能力以及提高航空偵察能力至關(guān)重要。真實世界的場景經(jīng)常受到霧、雨和雪等惡劣天氣條件的影響,這些條件會扭曲圖像并阻礙能見度。這些失真對下游任務(wù)如目標(biāo)檢測和目標(biāo)跟蹤產(chǎn)生了不利影響。盡管在解決特定退化問題方面已經(jīng)取得了實質(zhì)性進(jìn)展,例如去霧、去雨和去雪,但大多數(shù)現(xiàn)有方法都是針對單一天氣條件設(shè)計的。這一限制限制了它們在真實世界場景中的有效性,真實世界場景中通常會同時出現(xiàn)多種天氣條件。為了應(yīng)對多種天氣退化,最近出現(xiàn)了一些有意義的研究工作。All-in-One首次引入這種多天氣恢復(fù)任務(wù)。它還提出了一個統(tǒng)一的框架,該框架利用特定任務(wù)的編碼器和多功能解碼器,通過神經(jīng)架構(gòu)搜索進(jìn)一步優(yōu)化,以實現(xiàn)有效的特征融合。TransWeather利用Transformer模型,采用了基于Transformer的編碼器和解碼器結(jié)構(gòu)來提升性能。此外,WeatherDiff引入了擴散模型,并設(shè)計了一種基于補丁的條件擴散方法。盡管這些方法顯示出相當(dāng)大的潛力,但它們也導(dǎo)致訓(xùn)練參數(shù)數(shù)量的顯著增加,導(dǎo)致訓(xùn)練復(fù)雜性和推理時間方面的挑戰(zhàn)。
設(shè)計與實現(xiàn):
為了滿足實時性要求并設(shè)計一種簡單高效的多降質(zhì)恢復(fù)算法,本文提出一種完全基于簡單卷積的多降質(zhì)恢復(fù)網(wǎng)絡(luò)MW-ConvNet。該網(wǎng)絡(luò)旨在解決多種降質(zhì)因素導(dǎo)致的圖像退化問題,其整體架構(gòu)如下圖所示。MW-ConvNet采用含有跳躍連接的經(jīng)典U形網(wǎng)絡(luò)U-Net的結(jié)構(gòu)。其整體架構(gòu)可以劃分為五個連續(xù)階段,依次為淺層特征提取階段、編碼器階段、提示生成模塊、解碼器階段和圖像重建階段。

在初始階段,采用2個3x3的卷積運算進(jìn)行淺層特征提取,將輸入圖像映射到高維特征空間。淺層特征的維度為dxHxW,d表示特征通道數(shù),H和W表示特征圖的尺寸。編碼器階段被劃分為5個子階段,每個子階段對應(yīng)不同的特征尺度,MW-Enc塊的數(shù)量依次設(shè)置為[2, 2, 4, 8, 5]。在前4個子階段尾部,加入小波池化塊以進(jìn)行下采樣。該模塊將功能解耦到四個頻域,從而實現(xiàn)高低頻特征的分離。與編碼器對應(yīng),解碼器階段同樣分為5個子階段,MW-Dec塊的數(shù)量依次設(shè)置為[5,2,2,2,2]。在前四個子階段尾部,上采樣模塊被使用來放大特征圖尺寸。最終,圖像重建階段由2個3x3卷積組成,將特征圖重新恢復(fù)到原始的圖像空間,其維度為3xHxW。
提示生成模塊位于編碼器階段和解碼器階段之間,其作用是為解碼器階段中的MW-Dec塊提取表征降質(zhì)因素的降質(zhì)提示向量。在訓(xùn)練期間,該模塊通過引入額外的約束損失來促進(jìn)降質(zhì)提示的學(xué)習(xí)過程。該模塊的設(shè)計旨在提升網(wǎng)絡(luò)的降質(zhì)特征表示能力,并為解碼器提供準(zhǔn)確的降質(zhì)提示信息,從而增強模型對降質(zhì)特征的敏感性,并實現(xiàn)更好的圖像重建效果。在多降質(zhì)恢復(fù)任務(wù)中,核心挑戰(zhàn)在于如何在網(wǎng)絡(luò)執(zhí)行過程中有效地分離不同的降質(zhì)因素,并生成相應(yīng)的解決方案。根據(jù)以往的研究,可以將每種降質(zhì)因素視為一個獨立的風(fēng)格域。基于此定義,降質(zhì)提示歸一化方法被提出作為一種簡單有效的方法,用于協(xié)調(diào)和融合圖像特征和降質(zhì)提示向量,使兩者有機地結(jié)合起來。這種方法不僅通過特定降質(zhì)特征的統(tǒng)計數(shù)據(jù)實現(xiàn)了特征級的風(fēng)格轉(zhuǎn)換,而且還保留了特征圖中細(xì)節(jié)信息的空間結(jié)構(gòu)。通過引入降質(zhì)提示向量,MW-Dec塊能夠有效地提高解碼器的性能和魯棒性,為在同一模型內(nèi)分離處理不同降質(zhì)提供了一種靈活而可靠的解決方案。
實驗結(jié)果及分析:
實驗數(shù)據(jù)集主要涵蓋三種降質(zhì)場景,分別為雨滴、雨霧、雪。為了確保公平比較,采用與All-in-one和TransWeather論文中相同的訓(xùn)練集和測試集,被稱為“AllWeather”。對于去雨滴、去霧和雨、去雪任務(wù)的定量比較中,將參與比較的方法分為兩類:特定降質(zhì)和多降質(zhì)。其中,特定降質(zhì)方法是針對特定降質(zhì)數(shù)據(jù)集進(jìn)行定制訓(xùn)練,以專門處理單個降質(zhì)恢復(fù)任務(wù),而多降質(zhì)方法則通過訓(xùn)練統(tǒng)一模型來同時處理所有降質(zhì)恢復(fù)任務(wù)。MW-ConvNet在多降質(zhì)恢復(fù)任務(wù)中表現(xiàn)出優(yōu)異的性能,體現(xiàn)在其較高的PSNR和SSIM分?jǐn)?shù)。此外,其訓(xùn)練過程也相對穩(wěn)定,能夠快速地收斂訓(xùn)練損失。相比基于Transformer的方法(如TransWeather)和基于擴散的方法(如WeatherDiff),基于CNN架構(gòu)的MW-ConvNet有效地解決算力需求較大的挑戰(zhàn),極大增強實際部署場景中的實用性。
同時,進(jìn)行了實驗對不同恢復(fù)方法的推理時間進(jìn)行比較分析,如下表所示。在所有方法的測試實驗中,統(tǒng)一采用相同的輸入圖像尺寸256x256。值得注意的是,MD-ConvNet具有最快的推理速度,每張圖像僅需0.12秒就可以完成圖像恢復(fù)。僅基于卷積的模型架構(gòu)成為提高其效率的關(guān)鍵因素,并且采用多尺度和編碼器-解碼器的設(shè)計進(jìn)一步提升特征豐富度和利用率,從而達(dá)到基于較大參數(shù)模型Transformer和擴散模型相同的實驗性能。
結(jié)論:
本文重新思考了傳統(tǒng)的2-D卷積,并發(fā)現(xiàn)基于卷積的模型可以實現(xiàn)與基于Transformer和基于Diffusion的模型相似的性能。基于這一觀察,本文提出了一個簡單而高效的卷積架構(gòu)MW-ConvNet,用于多天氣恢復(fù)。MW-ConvNet采用了帶有無激活特征提取塊MW-Enc和MW-Dec的U形編碼器-解碼器架構(gòu)。為了解決多種天氣共存的問題,在編碼器的末端引入了提示學(xué)習(xí),以生成一個天氣提示。通過強大的約束,這個提示具有強大的天氣感知能力,用于指導(dǎo)圖像重建。此外,引入了小波池化塊和上采樣塊進(jìn)行頻率分離,以實現(xiàn)高質(zhì)量的提示和高保真的恢復(fù)。在合成和真實世界的多天氣數(shù)據(jù)集上的比較實驗證明,MW-ConvNet在性能和推理時間方面比其他當(dāng)前最先進(jìn)的方法具有優(yōu)勢。這些結(jié)果高度表明了2D卷積的強大特征提取能力和網(wǎng)絡(luò)中提示的引導(dǎo)能力。本文為未來研究提供了啟示:最新的先進(jìn)技術(shù)值得探索用于各種應(yīng)用。然而,在某些任務(wù)中(例如本文中的多天氣恢復(fù)),小型模型也可以實現(xiàn)最先進(jìn)的性能,這些模型更易于部署在實際受限場景中。
作者簡介:
李承陽,特任崗位副教授。博士,中國石油大學(xué)(北京)人工智能學(xué)院智能科學(xué)與技術(shù)系教師,主要研究方向為復(fù)雜環(huán)境多模態(tài)智能感知技術(shù)。