中文題目:基于深度特征和類別置信度一致性的長尾聲吶圖像識別方法
論文題目:Deep Feature and Category Confidence Consistency Learning for Long-tailed Sonar Image Recognition
錄用期刊:Knowledge-Based Systems(中科院大類一區(qū)、TOP期刊)
錄用時間:2025.4.27
作者列表:
1)韓佳藝 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 博22級
2)劉建偉 中國石油大學(xué)(北京)人工智能學(xué)院 自動化系 教師
3)吳芃麒 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 碩22級
4)劉芷含 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 碩23級
摘要:
本文提出一種基于深度特征和類別置信度一致性的長尾聲吶圖像識別方法。該方法在雙分支解耦學(xué)習(xí)框架內(nèi)集成了變尺度空間混合和全局特征混合增強策略,并提出了深度特征和類別置信度一致性正則化損失函數(shù),以確保不同混合增強之間的一致性,從而有效提高模型對多層級特征表示的判別能力,而且提高了宏觀預(yù)測趨勢的平衡性。
背景與動機(jī):
現(xiàn)實世界的聲納圖像通常表現(xiàn)為長尾分布,其中大多數(shù)樣本屬于幾個主要類別,而尾部類別則受到數(shù)據(jù)稀缺的影響。這種不平衡導(dǎo)致對頭部類別的預(yù)測偏差,降低了對尾部類別的識別性能。另一方面,聲納圖像的高噪聲和細(xì)粒度特性需要更全面的特征提取,特別是邊緣紋理等淺層細(xì)節(jié)。大多數(shù)現(xiàn)有方法側(cè)重于樣本級學(xué)習(xí),忽略了宏觀層面的類別關(guān)系,這限制了它們在特征空間中提高整體類別可分性的能力。
基于以往研究的局限性,我們提出了一種用于長尾聲納圖像識別的深度特征和類別置信度一致性學(xué)習(xí)方法。從應(yīng)用的角度來看,我們設(shè)計了一種高效的針對水下聲納識別的端到端識別框架,即使在嚴(yán)重的類不平衡和噪聲下,也能表現(xiàn)出很強的魯棒性和泛化性。從算法角度來看,我們在輸入空間提出了變尺度空間和全局特征混合增強方法,在特征空間優(yōu)化方面,引入了多層級深度特征一致性約束和基于置信度一致性的類別關(guān)系優(yōu)化策略。該模型優(yōu)化了聲納圖像識別任務(wù)中的長尾分布問題,提高了對尾類的識別能力。在復(fù)雜的水下環(huán)境中,我們的方法減少了人工干預(yù)的需要,提高了智能聲納系統(tǒng)的穩(wěn)定性和可靠性。
主要內(nèi)容:

圖1 深度特征一致性正則化損失示意圖
為了增強樣本多樣性,并增強頭部和尾部數(shù)據(jù)之間的信息交換,我們采用了兩種圖像增強技術(shù):變尺度空間混合增強和全局特征混合增強。前者在空間域融合多尺度信息生成新圖像,后者在像素級融合全局特征的混合增強。
為學(xué)習(xí)更具判別性和廣義的特征表示,同時減少不相關(guān)特征的干擾,我們指導(dǎo)模型在不同抽象層次上從變尺度空間混合和全局特征混合增強樣本中保持特征一致性。在低級特征中加強一致性提高了模型捕獲細(xì)粒度空間細(xì)節(jié)的能力,而在高級特征中加強一致性有助于學(xué)習(xí)全局語義和抽象表示。第k層特征一致性正則化損失函數(shù)表示為:

在長尾分布問題中,來自神經(jīng)網(wǎng)絡(luò)不同層的多尺度信息在解決數(shù)據(jù)稀缺性和特征偏差方面起著至關(guān)重要的作用。為此,提出了一個深度特征一致性正則化損失:

深度特征一致性正則化損失函數(shù)通過約束單個樣本在樣本水平上優(yōu)化特征表示。然而,長尾分布問題存在于宏觀層面。分類頻率和難度的不平衡進(jìn)一步增加了置信度分配的不確定性。對于單個樣本,我們將模型對給定類別的非標(biāo)準(zhǔn)化預(yù)測輸出解釋為其置信度度量。我們使用余弦相似度約束不同增強策略下對應(yīng)類別的類別置信度賦值。類別置信度一致性正則化損失函數(shù)定義為:

雙分支分類損失定義為:

總體損失為分類損失、深度特征一致性正則化損失和類別置信度一致性正則化損失的加權(quán)和:

實驗結(jié)果與分析:
我們在四個長尾聲吶數(shù)據(jù)集和兩個基準(zhǔn)個廣泛使用的長尾數(shù)據(jù)集上評估了我們提出的模型的性能。部分實驗結(jié)果如表所示,在各個數(shù)據(jù)集上,我們提出的模型展現(xiàn)了出色的競爭力:
表1 不同方法在MDWD、MDTD、NKSID和SILT-34數(shù)據(jù)集上Top-1精度、宏觀F1分?jǐn)?shù)和G-mean結(jié)果的比較

基線模型CE、解耦學(xué)習(xí)方法CE- DRS和我們提出的模型在SILT-34數(shù)據(jù)集上的CAM可視化結(jié)果如圖2所示。

圖2 類激活映射可視化圖
結(jié)論:
本文提出了基于深度特征和類別置信度一致性學(xué)習(xí)的長尾聲納圖像識別方法。受解耦學(xué)習(xí)和一致性學(xué)習(xí)的啟發(fā),我們的方法增強了特征表示的可判別性和泛化性,同時減輕了分類器對頭部類別的偏見。在四個具有不同不平衡因素的長尾聲納數(shù)據(jù)集和兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實驗表明,性能得到了顯著提高,特別是在有效識別尾類聲納圖像方面。該方法有助于在現(xiàn)實場景中更準(zhǔn)確地探測和分類水下目標(biāo),提高智能聲納系統(tǒng)的效率和可靠性。
作者簡介:
劉建偉,教師,學(xué)者。發(fā)表學(xué)術(shù)研究論文280多篇。研究領(lǐng)域涉及在線學(xué)習(xí)(包括強化學(xué)習(xí),賭博機(jī)算法,持續(xù)學(xué)習(xí),長尾學(xué)習(xí));圖像視頻顯著性目標(biāo)檢測,解糾纏表示學(xué)習(xí),光場和神經(jīng)場模型,以及圖像視頻少樣本變化檢測;自然語言理解中的知識補全,圖神經(jīng)網(wǎng)絡(luò);不平衡數(shù)據(jù)處理;霍克斯點過程故障預(yù)測與診斷;非線性預(yù)測與控制。 是兵器裝備工程學(xué)報第三屆編輯委員會委員。歷屆中國控制會議(CCC)和中國控制與決策會議(CCDC)的程序委員會委員。擔(dān)任過80多個國際會議的TPC。