经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

一種改進(jìn)的YOLOv5s建筑檢測(cè)模型

中文題目:一種改進(jìn)的YOLOv5s建筑檢測(cè)模型

論文題目:An Improved YOLOv5s Model for Building Detection

錄用期刊/會(huì)議:Electronics (中科院SCI 3區(qū),JCR Q2)

原文DOI:https://doi.org/10.3390/electronics13112197

作者列表

1) 趙京翼 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20

2) 李一帆 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 人工智能專(zhuān)業(yè) 碩 23

3) 曹   靖 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20

4) 谷雨泰 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20

5) 吳遠(yuǎn)澤 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20

6) 陳   沖 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 電子信息工程系教師

7) 王瑩瑩 中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院 教師

摘要:

隨著自動(dòng)駕駛汽車(chē)技術(shù)的不斷進(jìn)步,建筑物的檢測(cè)變得越來(lái)越重要。它使自動(dòng)駕駛汽車(chē)能夠更好地了解周?chē)h(huán)境,促進(jìn)更安全的導(dǎo)航和決策過(guò)程。然而,建筑物識(shí)別面臨著無(wú)法部署在邊緣設(shè)備上的嚴(yán)重遮擋和大尺寸檢測(cè)模型等問(wèn)題。為了解決這些問(wèn)題,本文提出了一種基于YOLOv5s的輕量級(jí)建筑識(shí)別模型。我們首先從真實(shí)場(chǎng)景和互聯(lián)網(wǎng)上收集了一個(gè)建筑數(shù)據(jù)集,并應(yīng)用了一種改進(jìn)的GridMask數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)展數(shù)據(jù)集,減少遮擋的影響。為了使模型輕量化,我們采用BN層通道剪枝的方法對(duì)模型進(jìn)行剪枝,降低了模型的計(jì)算成本。此外,我們使用Mish作為激活函數(shù),以幫助模型在稀疏訓(xùn)練中更好地收斂。最后,將其與YOLOv5s(基線模型)進(jìn)行比較,實(shí)驗(yàn)表明,改進(jìn)的模型將模型大小減少了9.595MB,并且mAP@0.5達(dá)到82.3%。這項(xiàng)研究將為輕量化建筑檢測(cè)提供思路,并證明其在自動(dòng)駕駛領(lǐng)域中的環(huán)境感知方面的意義。

背景與動(dòng)機(jī):

建筑物檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)具有挑戰(zhàn)性和重要意義的任務(wù)。在與自動(dòng)駕駛相關(guān)的安全監(jiān)控和物聯(lián)網(wǎng)(IoT)應(yīng)用領(lǐng)域,建筑物檢測(cè)有助于快速有效的決策過(guò)程,從而在城市景觀中實(shí)現(xiàn)更高效的資源管理。

然而,建筑物檢測(cè)仍然面臨兩個(gè)問(wèn)題,一個(gè)是遮擋的影響。在實(shí)際場(chǎng)景中,由于拍攝角度的不同,建筑物可能會(huì)受到樹(shù)木、行人和車(chē)輛的遮擋,從而影響檢測(cè),降低檢測(cè)效果。另一個(gè)挑戰(zhàn)是模型的大小。盡管YOLOv5和Faster R-CNN等檢測(cè)模型具有強(qiáng)大的對(duì)象檢測(cè)能力,但由于模型的體積和計(jì)算復(fù)雜性巨大,將其部署到計(jì)算能力有限的嵌入式設(shè)備上是一個(gè)挑戰(zhàn)。

設(shè)計(jì)與實(shí)現(xiàn):

建筑物檢測(cè)方法的總體過(guò)程如圖1所示,包括以下步驟:(1)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),并使用改進(jìn)的GridMask方法引入隨機(jī)噪聲來(lái)模擬實(shí)際遮擋情況。(2) 對(duì)改進(jìn)后的模型進(jìn)行稀疏訓(xùn)練,使BN層的參數(shù)接近0。(3) 我們根據(jù)剪枝率來(lái)裁剪BN層參數(shù)。(4) 我們用Mish代替激活函數(shù),并比較其與不同激活函數(shù)的有效性。

圖1 建筑檢測(cè)方法的總流程


改進(jìn)版GridMask數(shù)據(jù)增強(qiáng)方法(如圖2所示):針對(duì)建筑檢測(cè)任務(wù)中建筑目標(biāo)面積較大的特點(diǎn),我們對(duì)原版的GridMask方法進(jìn)行了改進(jìn)。原始GridMask可能覆蓋整個(gè)建筑目標(biāo),影響模型的特征提取能力。因此,我們提出了將GridMask的分布細(xì)化為圖像中的隨機(jī)目標(biāo)區(qū)域的方法。這種方法能夠更準(zhǔn)確地模擬真實(shí)世界中的遮擋情況,因?yàn)樵趯?shí)際場(chǎng)景中,遮擋往往集中在圖像的特定區(qū)域而非整個(gè)圖像。我們首先按隨機(jī)比例縮小GridMask,以確保其不會(huì)占據(jù)過(guò)大的目標(biāo)區(qū)域。接著,在圖像中隨機(jī)分布這些縮小后的GridMask,以模擬實(shí)際識(shí)別過(guò)程中遮擋的隨機(jī)性。

圖2 改進(jìn)版GridMask


稀疏訓(xùn)練與剪枝(如圖3所示):在YOLOv5中,BN(Batch Normalization)層通過(guò)引入可學(xué)習(xí)參數(shù)γ和β來(lái)增強(qiáng)模型訓(xùn)練效率。當(dāng)γ和β接近0時(shí),BN層輸出趨于0,表明這些通道對(duì)網(wǎng)絡(luò)貢獻(xiàn)較小。根據(jù)劉壯等人的理論,稀疏訓(xùn)練利用L1正則化懲罰BN層內(nèi)的反向傳播梯度,使γ和β值趨近于0,減少剪枝對(duì)性能的影響。基于稀疏訓(xùn)練訓(xùn)練,我們剪枝具有較小γ和β值的通道及其對(duì)應(yīng)的卷積核,之后對(duì)模型進(jìn)行微調(diào)以補(bǔ)償剪枝帶來(lái)的性能損失。YOLOv5中BN層的密集分布使其成為模型優(yōu)化的關(guān)鍵。剪枝這些層能有效減小模型大小,且大多數(shù)BN層與前后卷積層通道一一對(duì)應(yīng),允許直接剪枝對(duì)應(yīng)通道,進(jìn)一步簡(jiǎn)化模型結(jié)構(gòu)。

圖3 BN層通道剪枝過(guò)程

Mish激活函數(shù);研究表明,激活函數(shù)的選擇在決定稀疏網(wǎng)絡(luò)的性能方面起著至關(guān)重要的作用,在這項(xiàng)研究中,我們應(yīng)用了Mish激活函數(shù),因?yàn)樗诟鞣N數(shù)據(jù)集中觀察到了顯著的性能Mish激活函數(shù)的公式如下所示:


image005.gif

image006.gif

通過(guò)將softplus函數(shù)應(yīng)用于輸入x進(jìn)行運(yùn)算,然后將結(jié)果通過(guò)雙曲正切函數(shù)(tanh)。最后,將結(jié)果乘以x以獲得輸出。在剪枝網(wǎng)絡(luò)中,參數(shù)的減少可能會(huì)降低模型的表達(dá)能力,導(dǎo)致準(zhǔn)確性損失。Mish的非線性映射和平滑性使網(wǎng)絡(luò)能夠有效地利用剩余參數(shù)進(jìn)行特征提取和學(xué)習(xí)。此外,Mish的梯度在接近零的情況下更平滑,減輕了梯度消失的問(wèn)題,增強(qiáng)了訓(xùn)練穩(wěn)定性。集成Mish激活利用其特征提取和梯度平滑功能,更好地補(bǔ)償剪枝造成的精度損失,使剪枝后的模型能夠在保持精度的同時(shí)保持高效率。

實(shí)驗(yàn)結(jié)果及分析:

表一給出了數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的結(jié)果,表2中的結(jié)果表明,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的模型精度為93.4%,比原版模型低了幾個(gè)點(diǎn)。這意味著添加改進(jìn)的Gridmask可能會(huì)導(dǎo)致模型在檢測(cè)某些圖像時(shí)出現(xiàn)一些錯(cuò)誤。然而,該模型的召回率提高到86.6%,這意味著具有改進(jìn)的GridMask的模型可以檢測(cè)到以前模型無(wú)法檢測(cè)到的一些圖像。

表一 YOLOv5s在使用數(shù)據(jù)增強(qiáng)的情況下的檢測(cè)性能。

Model

Precision

Recall

mAP@0.5

Model Size

Parameters

Data augmentation

93.4%

86.6%

89.6%

14.070 MB

7,074,330

Without Data augmentation

94.9%

84.3%

89.5%

14.070 MB

7,074,330


為了進(jìn)一步驗(yàn)證改進(jìn)的GridMask對(duì)遮擋的影響,我們從測(cè)試數(shù)據(jù)集中選擇了所有具有遮擋的圖像(共101幅圖像),并用這些圖像測(cè)試了模型。結(jié)果如表3所示。與沒(méi)有數(shù)據(jù)增強(qiáng)的模型相比,改進(jìn)了GridMask的模型將召回指標(biāo)顯著提高了4.6%。所有模型的精度都保持在93%以上。在遮擋物體的檢測(cè)中,改進(jìn)的GridMask大大提高了模型的召回率,從而在一定程度上避免了漏檢。

表二 YOLOv5s在有遮擋的圖像中數(shù)據(jù)增強(qiáng)的檢測(cè)性能。

Model

Precision

Recall

mAP@0.5

Model Size

Parameters

Data augmentation

93.1%

72.9%

80.0%

14.070 MB

7,074,330

Without Data augmentation

93.4%

68.3%

78.9%

14.070 MB

7,074,330


我們以體育館為例,如圖4(a)所示,兩張圖像顯示出漏檢現(xiàn)象,而另一張圖像顯示出現(xiàn)假陽(yáng)性。然而,通過(guò)數(shù)據(jù)增強(qiáng),圖4(b)中的體育館被成功檢測(cè)。



4.體育館的檢測(cè)結(jié)果


為了評(píng)估剪枝過(guò)程中的三個(gè)階段(稀疏訓(xùn)練、剪枝和微調(diào))對(duì)YOLOv5檢測(cè)性能的影響,我們比較了四種不同的模型,包括原始YOLOv5(YOLOv5)、稀疏訓(xùn)練的模型(稀疏YOLOv5。剪枝率從10%到90%不等,間隔為10%。實(shí)驗(yàn)結(jié)果如表三與圖5所示。

如表三所示,當(dāng)剪枝率增加時(shí),模型大小和參數(shù)數(shù)量減少,表明剪枝方法可以有效地減小模型的大小。

表三 不同模型在模型大小、參數(shù)和GFLOPs方面的檢測(cè)性能

Model

Model Size (MB)

Parameters

GFLOPs

YOLOv5

14.070

7,074,330

16.5

Sparse YOLOv5

27.931

7,074,330

16.5

Sparse and fine-tuned YOLOv5

14.120

7,074,330

16.5

Prune YOLOv5 (0.1)

12.425

6,209,872

14.8

Prune YOLOv5 (0.2)

10.731

5,344,219

13.5

Prune YOLOv5 (0.3)

9.195

4,559,893

12.3

Prune YOLOv5 (0.4)

7.873

3,884,554

11.1

Prune YOLOv5 (0.5)

6.685

3,277,868

10.2

Prune YOLOv5 (0.6)

5.606

2,727,398

9.2

Prune YOLOv5 (0.7)

4.475

2,150,031

7.6

Prune YOLOv5 (0.8)

-

-

-

Prune YOLOv5 (0.9)

-

-

-



在圖5中,實(shí)驗(yàn)結(jié)果表明,該模型在40-50%的剪枝率左右達(dá)到了最低的精度。這表明剪枝率和模型性能之間存在非線性關(guān)系。此外盡管剪枝有效地減少了參數(shù)的數(shù)量,但會(huì)導(dǎo)致模型的檢測(cè)能力下降。此外,即使在微調(diào)之后,稀疏訓(xùn)練還是會(huì)降低模型的檢測(cè)能力。這表明微調(diào)對(duì)恢復(fù)模型精度的影響是有限的。



不同剪枝率的實(shí)驗(yàn)結(jié)果


由于激活函數(shù)對(duì)稀疏訓(xùn)練有顯著影響,我們將激活函數(shù)替換為Mish/HardSwish/Leaky ReLU/RReLU進(jìn)行稀疏訓(xùn)練,并將剪枝率分別設(shè)置為30%、50%和70%。我們進(jìn)行了消融實(shí)驗(yàn),以比較不同激活函數(shù)對(duì)稀疏訓(xùn)練下模型檢測(cè)性能的影響。實(shí)驗(yàn)結(jié)果如圖6所示。

不同激活函數(shù)的實(shí)驗(yàn)結(jié)果


不同激活函數(shù)對(duì)模型性能的影響可歸因于梯度反向傳播和稀疏訓(xùn)練的機(jī)制。對(duì)于Conv模塊,反向傳播的梯度將從激活函數(shù)梯度傳輸?shù)紹N層,用于更新BN層參數(shù)。整個(gè)過(guò)程如圖7所示。損耗函數(shù)相對(duì)于BN層參數(shù)的梯度由四個(gè)部分組成:BN層輸出相對(duì)于BN層的梯度γ和β,激活函數(shù)的梯度,損耗函數(shù)相對(duì)于激活函數(shù)輸出的梯度,以及L1正則化帶來(lái)的梯度變化。BN層輸出相對(duì)于BN層參數(shù)的梯度和損失函數(shù)相對(duì)于激活函數(shù)輸出的梯度取決于網(wǎng)絡(luò)的輸入和輸出。此外,L1正則化產(chǎn)生的梯度變化是恒定的。因此,對(duì)于不同的激活函數(shù),損失函數(shù)相對(duì)于BN層參數(shù)的梯度可能不同,并且不同的激活功能可能影響L1正則化對(duì)梯度更新的影響,從而影響稀疏訓(xùn)練的效果。


7 Conv模塊中反向傳播的梯度過(guò)程

結(jié)論:

在本研究中,我們提出了一種基于YOLOv5s的輕量級(jí)建筑檢測(cè)模型。我們將GridMask修改為隨機(jī)大小,并將其放置在圖像中的隨機(jī)位置,因?yàn)樵糋ridMask可能完全覆蓋建筑物,這可能會(huì)導(dǎo)致原始圖像中的功能過(guò)度丟失。這樣,我們可以在模型的穩(wěn)定性和適應(yīng)性之間取得平衡,提高模型對(duì)遮擋的魯棒性。然后,我們使用BN層剪枝方法對(duì)模型進(jìn)行剪枝,成功地將模型的體積減少了70%。最后,我們比較了剪枝模型中不同的激活函數(shù),證明了Mish可以幫助減少剪枝對(duì)模型的影響。結(jié)果表明,通過(guò)選擇適當(dāng)?shù)募せ詈瘮?shù),可以減輕剪枝的副作用。還應(yīng)該注意的是,用于建筑物檢測(cè)的改進(jìn)的YOLOv5s模型不僅可以用于校園建筑,還可以用于旅游景點(diǎn)、城市導(dǎo)航等各個(gè)領(lǐng)域。通過(guò)識(shí)別建筑物和其他城市特征,自動(dòng)駕駛汽車(chē)可以增強(qiáng)其定位技術(shù),特別是在無(wú)GPS的環(huán)境中。

通訊作者簡(jiǎn)介:

陳沖,博士,中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院電子信息工程系副教授,碩士生導(dǎo)師,中共黨員。研究方向:數(shù)值模擬、機(jī)器學(xué)習(xí)、信息融合、不確定性分析。 聯(lián)系方式:chenchong@cup.edu.cn