中文題目:一種改進(jìn)的YOLOv5s建筑檢測(cè)模型
論文題目:An Improved YOLOv5s Model for Building Detection
錄用期刊/會(huì)議:Electronics (中科院SCI 3區(qū),JCR Q2)
原文DOI:https://doi.org/10.3390/electronics13112197
作者列表:
1) 趙京翼 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20
2) 李一帆 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 人工智能專(zhuān)業(yè) 碩 23
3) 曹 靖 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20
4) 谷雨泰 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20
5) 吳遠(yuǎn)澤 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20
6) 陳 沖 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程系教師
7) 王瑩瑩 中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院 教師
摘要:
隨著自動(dòng)駕駛汽車(chē)技術(shù)的不斷進(jìn)步,建筑物的檢測(cè)變得越來(lái)越重要。它使自動(dòng)駕駛汽車(chē)能夠更好地了解周?chē)h(huán)境,促進(jìn)更安全的導(dǎo)航和決策過(guò)程。然而,建筑物識(shí)別面臨著無(wú)法部署在邊緣設(shè)備上的嚴(yán)重遮擋和大尺寸檢測(cè)模型等問(wèn)題。為了解決這些問(wèn)題,本文提出了一種基于YOLOv5s的輕量級(jí)建筑識(shí)別模型。我們首先從真實(shí)場(chǎng)景和互聯(lián)網(wǎng)上收集了一個(gè)建筑數(shù)據(jù)集,并應(yīng)用了一種改進(jìn)的GridMask數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)展數(shù)據(jù)集,減少遮擋的影響。為了使模型輕量化,我們采用BN層通道剪枝的方法對(duì)模型進(jìn)行剪枝,降低了模型的計(jì)算成本。此外,我們使用Mish作為激活函數(shù),以幫助模型在稀疏訓(xùn)練中更好地收斂。最后,將其與YOLOv5s(基線模型)進(jìn)行比較,實(shí)驗(yàn)表明,改進(jìn)的模型將模型大小減少了9.595MB,并且mAP@0.5達(dá)到82.3%。這項(xiàng)研究將為輕量化建筑檢測(cè)提供思路,并證明其在自動(dòng)駕駛領(lǐng)域中的環(huán)境感知方面的意義。
背景與動(dòng)機(jī):
建筑物檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)具有挑戰(zhàn)性和重要意義的任務(wù)。在與自動(dòng)駕駛相關(guān)的安全監(jiān)控和物聯(lián)網(wǎng)(IoT)應(yīng)用領(lǐng)域,建筑物檢測(cè)有助于快速有效的決策過(guò)程,從而在城市景觀中實(shí)現(xiàn)更高效的資源管理。
然而,建筑物檢測(cè)仍然面臨兩個(gè)問(wèn)題,一個(gè)是遮擋的影響。在實(shí)際場(chǎng)景中,由于拍攝角度的不同,建筑物可能會(huì)受到樹(shù)木、行人和車(chē)輛的遮擋,從而影響檢測(cè),降低檢測(cè)效果。另一個(gè)挑戰(zhàn)是模型的大小。盡管YOLOv5和Faster R-CNN等檢測(cè)模型具有強(qiáng)大的對(duì)象檢測(cè)能力,但由于模型的體積和計(jì)算復(fù)雜性巨大,將其部署到計(jì)算能力有限的嵌入式設(shè)備上是一個(gè)挑戰(zhàn)。
設(shè)計(jì)與實(shí)現(xiàn):
建筑物檢測(cè)方法的總體過(guò)程如圖1所示,包括以下步驟:(1)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),并使用改進(jìn)的GridMask方法引入隨機(jī)噪聲來(lái)模擬實(shí)際遮擋情況。(2) 對(duì)改進(jìn)后的模型進(jìn)行稀疏訓(xùn)練,使BN層的參數(shù)接近0。(3) 我們根據(jù)剪枝率來(lái)裁剪BN層參數(shù)。(4) 我們用Mish代替激活函數(shù),并比較其與不同激活函數(shù)的有效性。

圖1 建筑檢測(cè)方法的總流程
改進(jìn)版GridMask數(shù)據(jù)增強(qiáng)方法(如圖2所示):針對(duì)建筑檢測(cè)任務(wù)中建筑目標(biāo)面積較大的特點(diǎn),我們對(duì)原版的GridMask方法進(jìn)行了改進(jìn)。原始GridMask可能覆蓋整個(gè)建筑目標(biāo),影響模型的特征提取能力。因此,我們提出了將GridMask的分布細(xì)化為圖像中的隨機(jī)目標(biāo)區(qū)域的方法。這種方法能夠更準(zhǔn)確地模擬真實(shí)世界中的遮擋情況,因?yàn)樵趯?shí)際場(chǎng)景中,遮擋往往集中在圖像的特定區(qū)域而非整個(gè)圖像。我們首先按隨機(jī)比例縮小GridMask,以確保其不會(huì)占據(jù)過(guò)大的目標(biāo)區(qū)域。接著,在圖像中隨機(jī)分布這些縮小后的GridMask,以模擬實(shí)際識(shí)別過(guò)程中遮擋的隨機(jī)性。

圖2 改進(jìn)版GridMask
稀疏訓(xùn)練與剪枝(如圖3所示):在YOLOv5中,BN(Batch Normalization)層通過(guò)引入可學(xué)習(xí)參數(shù)γ和β來(lái)增強(qiáng)模型訓(xùn)練效率。當(dāng)γ和β接近0時(shí),BN層輸出趨于0,表明這些通道對(duì)網(wǎng)絡(luò)貢獻(xiàn)較小。根據(jù)劉壯等人的理論,稀疏訓(xùn)練利用L1正則化懲罰BN層內(nèi)的反向傳播梯度,使γ和β值趨近于0,減少剪枝對(duì)性能的影響。基于稀疏訓(xùn)練訓(xùn)練,我們剪枝具有較小γ和β值的通道及其對(duì)應(yīng)的卷積核,之后對(duì)模型進(jìn)行微調(diào)以補(bǔ)償剪枝帶來(lái)的性能損失。YOLOv5中BN層的密集分布使其成為模型優(yōu)化的關(guān)鍵。剪枝這些層能有效減小模型大小,且大多數(shù)BN層與前后卷積層通道一一對(duì)應(yīng),允許直接剪枝對(duì)應(yīng)通道,進(jìn)一步簡(jiǎn)化模型結(jié)構(gòu)。

圖3 BN層通道剪枝過(guò)程
Mish激活函數(shù);研究表明,激活函數(shù)的選擇在決定稀疏網(wǎng)絡(luò)的性能方面起著至關(guān)重要的作用,在這項(xiàng)研究中,我們應(yīng)用了Mish激活函數(shù),因?yàn)樗诟鞣N數(shù)據(jù)集中觀察到了顯著的性能Mish激活函數(shù)的公式如下所示:


通過(guò)將softplus函數(shù)應(yīng)用于輸入x進(jìn)行運(yùn)算,然后將結(jié)果通過(guò)雙曲正切函數(shù)(tanh)。最后,將結(jié)果乘以x以獲得輸出。在剪枝網(wǎng)絡(luò)中,參數(shù)的減少可能會(huì)降低模型的表達(dá)能力,導(dǎo)致準(zhǔn)確性損失。Mish的非線性映射和平滑性使網(wǎng)絡(luò)能夠有效地利用剩余參數(shù)進(jìn)行特征提取和學(xué)習(xí)。此外,Mish的梯度在接近零的情況下更平滑,減輕了梯度消失的問(wèn)題,增強(qiáng)了訓(xùn)練穩(wěn)定性。集成Mish激活利用其特征提取和梯度平滑功能,更好地補(bǔ)償剪枝造成的精度損失,使剪枝后的模型能夠在保持精度的同時(shí)保持高效率。
實(shí)驗(yàn)結(jié)果及分析:
表一給出了數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的結(jié)果,表2中的結(jié)果表明,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的模型精度為93.4%,比原版模型低了幾個(gè)點(diǎn)。這意味著添加改進(jìn)的Gridmask可能會(huì)導(dǎo)致模型在檢測(cè)某些圖像時(shí)出現(xiàn)一些錯(cuò)誤。然而,該模型的召回率提高到86.6%,這意味著具有改進(jìn)的GridMask的模型可以檢測(cè)到以前模型無(wú)法檢測(cè)到的一些圖像。
表一 YOLOv5s在使用數(shù)據(jù)增強(qiáng)的情況下的檢測(cè)性能。
Model |
Precision |
Recall |
mAP@0.5 |
Model Size |
Parameters |
Data augmentation |
93.4% |
86.6% |
89.6% |
14.070 MB |
7,074,330 |
Without Data augmentation |
94.9% |
84.3% |
89.5% |
14.070 MB |
7,074,330 |
為了進(jìn)一步驗(yàn)證改進(jìn)的GridMask對(duì)遮擋的影響,我們從測(cè)試數(shù)據(jù)集中選擇了所有具有遮擋的圖像(共101幅圖像),并用這些圖像測(cè)試了模型。結(jié)果如表3所示。與沒(méi)有數(shù)據(jù)增強(qiáng)的模型相比,改進(jìn)了GridMask的模型將召回指標(biāo)顯著提高了4.6%。所有模型的精度都保持在93%以上。在遮擋物體的檢測(cè)中,改進(jìn)的GridMask大大提高了模型的召回率,從而在一定程度上避免了漏檢。
表二 YOLOv5s在有遮擋的圖像中數(shù)據(jù)增強(qiáng)的檢測(cè)性能。
Model |
Precision |
Recall |
mAP@0.5 |
Model Size |
Parameters |
Data augmentation |
93.1% |
72.9% |
80.0% |
14.070 MB |
7,074,330 |
Without Data augmentation |
93.4% |
68.3% |
78.9% |
14.070 MB |
7,074,330 |
我們以體育館為例,如圖4(a)所示,兩張圖像顯示出漏檢現(xiàn)象,而另一張圖像顯示出現(xiàn)假陽(yáng)性。然而,通過(guò)數(shù)據(jù)增強(qiáng),圖4(b)中的體育館被成功檢測(cè)。

圖4.體育館的檢測(cè)結(jié)果
為了評(píng)估剪枝過(guò)程中的三個(gè)階段(稀疏訓(xùn)練、剪枝和微調(diào))對(duì)YOLOv5檢測(cè)性能的影響,我們比較了四種不同的模型,包括原始YOLOv5(YOLOv5)、稀疏訓(xùn)練的模型(稀疏YOLOv5。剪枝率從10%到90%不等,間隔為10%。實(shí)驗(yàn)結(jié)果如表三與圖5所示。
如表三所示,當(dāng)剪枝率增加時(shí),模型大小和參數(shù)數(shù)量減少,表明剪枝方法可以有效地減小模型的大小。
表三 不同模型在模型大小、參數(shù)和GFLOPs方面的檢測(cè)性能
Model |
Model Size (MB) |
Parameters |
GFLOPs |
YOLOv5 |
14.070 |
7,074,330 |
16.5 |
Sparse YOLOv5 |
27.931 |
7,074,330 |
16.5 |
Sparse and fine-tuned YOLOv5 |
14.120 |
7,074,330 |
16.5 |
Prune YOLOv5 (0.1) |
12.425 |
6,209,872 |
14.8 |
Prune YOLOv5 (0.2) |
10.731 |
5,344,219 |
13.5 |
Prune YOLOv5 (0.3) |
9.195 |
4,559,893 |
12.3 |
Prune YOLOv5 (0.4) |
7.873 |
3,884,554 |
11.1 |
Prune YOLOv5 (0.5) |
6.685 |
3,277,868 |
10.2 |
Prune YOLOv5 (0.6) |
5.606 |
2,727,398 |
9.2 |
Prune YOLOv5 (0.7) |
4.475 |
2,150,031 |
7.6 |
Prune YOLOv5 (0.8) |
- |
- |
- |
Prune YOLOv5 (0.9) |
- |
- |
- |
在圖5中,實(shí)驗(yàn)結(jié)果表明,該模型在40-50%的剪枝率左右達(dá)到了最低的精度。這表明剪枝率和模型性能之間存在非線性關(guān)系。此外盡管剪枝有效地減少了參數(shù)的數(shù)量,但會(huì)導(dǎo)致模型的檢測(cè)能力下降。此外,即使在微調(diào)之后,稀疏訓(xùn)練還是會(huì)降低模型的檢測(cè)能力。這表明微調(diào)對(duì)恢復(fù)模型精度的影響是有限的。

圖5 不同剪枝率的實(shí)驗(yàn)結(jié)果
由于激活函數(shù)對(duì)稀疏訓(xùn)練有顯著影響,我們將激活函數(shù)替換為Mish/HardSwish/Leaky ReLU/RReLU進(jìn)行稀疏訓(xùn)練,并將剪枝率分別設(shè)置為30%、50%和70%。我們進(jìn)行了消融實(shí)驗(yàn),以比較不同激活函數(shù)對(duì)稀疏訓(xùn)練下模型檢測(cè)性能的影響。實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 不同激活函數(shù)的實(shí)驗(yàn)結(jié)果
不同激活函數(shù)對(duì)模型性能的影響可歸因于梯度反向傳播和稀疏訓(xùn)練的機(jī)制。對(duì)于Conv模塊,反向傳播的梯度將從激活函數(shù)梯度傳輸?shù)紹N層,用于更新BN層參數(shù)。整個(gè)過(guò)程如圖7所示。損耗函數(shù)相對(duì)于BN層參數(shù)的梯度由四個(gè)部分組成:BN層輸出相對(duì)于BN層的梯度γ和β,激活函數(shù)的梯度,損耗函數(shù)相對(duì)于激活函數(shù)輸出的梯度,以及L1正則化帶來(lái)的梯度變化。BN層輸出相對(duì)于BN層參數(shù)的梯度和損失函數(shù)相對(duì)于激活函數(shù)輸出的梯度取決于網(wǎng)絡(luò)的輸入和輸出。此外,L1正則化產(chǎn)生的梯度變化是恒定的。因此,對(duì)于不同的激活函數(shù),損失函數(shù)相對(duì)于BN層參數(shù)的梯度可能不同,并且不同的激活功能可能影響L1正則化對(duì)梯度更新的影響,從而影響稀疏訓(xùn)練的效果。

圖7 Conv模塊中反向傳播的梯度過(guò)程
結(jié)論:
在本研究中,我們提出了一種基于YOLOv5s的輕量級(jí)建筑檢測(cè)模型。我們將GridMask修改為隨機(jī)大小,并將其放置在圖像中的隨機(jī)位置,因?yàn)樵糋ridMask可能完全覆蓋建筑物,這可能會(huì)導(dǎo)致原始圖像中的功能過(guò)度丟失。這樣,我們可以在模型的穩(wěn)定性和適應(yīng)性之間取得平衡,提高模型對(duì)遮擋的魯棒性。然后,我們使用BN層剪枝方法對(duì)模型進(jìn)行剪枝,成功地將模型的體積減少了70%。最后,我們比較了剪枝模型中不同的激活函數(shù),證明了Mish可以幫助減少剪枝對(duì)模型的影響。結(jié)果表明,通過(guò)選擇適當(dāng)?shù)募せ詈瘮?shù),可以減輕剪枝的副作用。還應(yīng)該注意的是,用于建筑物檢測(cè)的改進(jìn)的YOLOv5s模型不僅可以用于校園建筑,還可以用于旅游景點(diǎn)、城市導(dǎo)航等各個(gè)領(lǐng)域。通過(guò)識(shí)別建筑物和其他城市特征,自動(dòng)駕駛汽車(chē)可以增強(qiáng)其定位技術(shù),特別是在無(wú)GPS的環(huán)境中。
通訊作者簡(jiǎn)介:
陳沖,博士,中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院電子信息工程系副教授,碩士生導(dǎo)師,中共黨員。研究方向:數(shù)值模擬、機(jī)器學(xué)習(xí)、信息融合、不確定性分析。 聯(lián)系方式:chenchong@cup.edu.cn