经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

基于多任務(wù)學(xué)習(xí)的視頻和圖像顯著目標(biāo)檢測(cè)方法

中文題目:基于多任務(wù)學(xué)習(xí)的視頻和圖像顯著目標(biāo)檢測(cè)方法

論文題目:Video and Image Salient Object Detection Based on Multi-Task Learning

錄用期刊/會(huì)議:計(jì)算機(jī)科學(xué)(CCF中文B類)

原文DOI:10.11896/jsjkx.231000051

原文鏈接:https://www.jsjkx.com/CN/10.11896/jsjkx.231000051

作者列表:

1) 劉澤宇 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 博20

2) 劉建偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師

摘要:

顯著目標(biāo)檢測(cè)(Salient Object Detection, SOD)能夠模擬人類的注意力機(jī)制,在復(fù)雜的場(chǎng)景中快速發(fā)現(xiàn)高價(jià)值的顯著目標(biāo),為進(jìn)一步的視覺(jué)理解任務(wù)奠定了基礎(chǔ)。圖像和視頻顯著目標(biāo)檢測(cè)任務(wù)既有共性又有特性,因而需要部署獨(dú)立的模型進(jìn)行單獨(dú)訓(xùn)練,這大大增加了運(yùn)算資源和訓(xùn)練時(shí)間開銷。當(dāng)前研究大多針對(duì)單個(gè)任務(wù)提出獨(dú)立的解決方案,而缺少統(tǒng)一的圖像和視頻顯著目標(biāo)檢測(cè)方法。針對(duì)上述問(wèn)題,本文提出了一種基于多任務(wù)學(xué)習(xí)的圖像和視頻顯著目標(biāo)檢測(cè)方法,通過(guò)一次訓(xùn)練同時(shí)適配兩種任務(wù),并進(jìn)一步彌合圖像和視頻顯著目標(biāo)檢測(cè)方法之間的性能差異。12個(gè)數(shù)據(jù)集上的定性和定量實(shí)驗(yàn)結(jié)果表明本文提出的方法不僅能夠同時(shí)適配兩種任務(wù),而且取得了比單任務(wù)模型更好的檢測(cè)結(jié)果。

背景與動(dòng)機(jī):



圖1 圖像和視頻顯著目標(biāo)檢測(cè)方法在靜態(tài)圖像和視頻序列上的可視化對(duì)比結(jié)果示意圖


圖1給出了圖像和視頻顯著目標(biāo)檢測(cè)方法在靜態(tài)圖像和視頻序列上的可視化對(duì)比結(jié)果。 圖像顯著目標(biāo)檢測(cè)算法雖然能夠定位靜態(tài)圖像中的顯著目標(biāo),并給出清晰的目標(biāo)邊界,然而不具備視頻理解能力,因而會(huì)產(chǎn)生前景誤判問(wèn)題。 視頻序列的內(nèi)容是小狗與玩具盒,由于缺乏時(shí)空信息,圖像顯著目標(biāo)檢測(cè)算法BASNet錯(cuò)誤地將玩具盒作為顯著目標(biāo),而視頻顯著目標(biāo)檢測(cè)方法能夠基于視頻內(nèi)容給出合理的預(yù)測(cè)結(jié)果。

設(shè)計(jì)與實(shí)現(xiàn):



圖2 模型框架結(jié)構(gòu)示意圖


圖2給出了基于多任務(wù)學(xué)習(xí)的圖像及視頻顯著目標(biāo)檢測(cè)方法的整體流程圖。模型采用端到端的編解碼結(jié)構(gòu),編碼階段使用通道注意力對(duì)顯著特征進(jìn)行挖掘,解碼階段引入自頂向下的特征聚合過(guò)程,并進(jìn)一步共享編解碼模塊參數(shù),以最大限度地利用任務(wù)間相關(guān)知識(shí)。

主要內(nèi)容:

模型通過(guò)聯(lián)合優(yōu)化圖像及視頻顯著目標(biāo)檢測(cè)任務(wù)的方式進(jìn)行訓(xùn)練,并最大限度地共享任務(wù)間相關(guān)知識(shí)。包含對(duì)顯著特征提取模塊、時(shí)空注意力模塊、解碼模塊。

實(shí)驗(yàn)結(jié)果及分析:



3 各模型在視頻顯著目標(biāo)檢測(cè)任務(wù)上的定性比較結(jié)果

結(jié)論:

本文提出了基于多任務(wù)學(xué)習(xí)的視頻及圖像顯著目標(biāo)檢測(cè)方法。在編碼階段,通過(guò)帶有殘差連接的通道注意力模塊初步提取顯著特征,過(guò)濾冗余信息,選擇與檢測(cè)任務(wù)最相關(guān)的底層特征。針對(duì)視頻分支,利用時(shí)空注意力引導(dǎo)解碼過(guò)程選擇顯著目標(biāo),減少背景干擾。時(shí)空注意力模塊利用鍵值查詢構(gòu)建視頻幀之間的暫態(tài)關(guān)系,有助于融合視頻上下文信息。針對(duì)圖像解碼分支,自頂向下的特征聚合過(guò)程有助于充分融合多尺度特征,逐步改善目標(biāo)的局部細(xì)節(jié)。編解碼過(guò)程最大限度地共享網(wǎng)絡(luò)權(quán)重,使得任務(wù)間相關(guān)知識(shí)得到充分提煉。最后同時(shí)對(duì)圖像和視頻顯著目標(biāo)檢測(cè)任務(wù)進(jìn)行優(yōu)化,通過(guò)一次訓(xùn)練同時(shí)適配兩種任務(wù)。

通訊作者簡(jiǎn)介:

劉建偉,副教授,學(xué)者。研究領(lǐng)域涉及在線學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí),賭博機(jī)算法,持續(xù)學(xué)習(xí),長(zhǎng)尾學(xué)習(xí));圖像視頻顯著性目標(biāo)檢測(cè),解糾纏表示學(xué)習(xí),光場(chǎng)和神經(jīng)場(chǎng)模型,以及圖像視頻少樣本變化檢測(cè);自然語(yǔ)言理解中的知識(shí)補(bǔ)全,圖神經(jīng)網(wǎng)絡(luò);不平衡數(shù)據(jù)處理;霍克斯點(diǎn)過(guò)程故障預(yù)測(cè)與診斷;非線性預(yù)測(cè)與控制。