经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

基于思維擴(kuò)散鏈的可解釋視覺問答模型

中文題目:基于思維擴(kuò)散鏈的可解釋視覺問答模型

論文題目An Explainable Vision Question Answer Model via Diffusion Chain-of-Thought

錄用期刊/會(huì)議:The 18th European Conference on Computer Vision ECCV 2024 (CCF-B類會(huì)議/CAAI-A類會(huì)議)

作者列表:

1)盧春昊 中國石油大學(xué)(北京)人工智能學(xué)院 人工智能 碩23

2)魯   強(qiáng) 中國石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系副教授

3)Jake Luo University of Wisconsin Milwaukee Department of Health Informatics and Administration Associate Professor

摘要:

在復(fù)雜視覺問答場(chǎng)景下,由于問題與答案之間的語義距離較遠(yuǎn),vc僅針對(duì)最終生成的答案作解釋,并不能有效縮短問題與答案之間的語義距離。為緩解此語義偏差問題,本文提出一種擴(kuò)散思維鏈模型(VQA-TD)來實(shí)現(xiàn)視覺問答的推理過程。該模型由內(nèi)外部?jī)蓴U(kuò)散過程組成,其中外部擴(kuò)散過程用來生成每步推理的解釋;內(nèi)部擴(kuò)散過程用來描述問題向每步解釋遷移的概率。通過在ScienceQA數(shù)據(jù)集上的實(shí)驗(yàn)表明,該擴(kuò)散思維鏈模型以GPT3.5的1%參數(shù)量,在答案準(zhǔn)確率和解釋文本生成質(zhì)量上全面超過GPT-3.5;在部分子任務(wù)上,已接近或超過GPT-4、Llama等模型。

背景與動(dòng)機(jī):

為了提升視覺問答(VQA)任務(wù)結(jié)果輸出的可解釋能力,現(xiàn)有研究主要采用解釋生成法、原型網(wǎng)絡(luò)法和局部可解釋方法來對(duì)答案作解釋。上述方法雖然有效,但這些解釋均是在得到答案后而再生成的,且無法進(jìn)行逐步解釋。而在復(fù)雜VQA場(chǎng)景中,圖像及問題與答案之間語義距離會(huì)更遠(yuǎn),答案預(yù)測(cè)的精度也會(huì)降低,進(jìn)而影響解釋文本生成的質(zhì)量。為緩解此問題,本文認(rèn)為VQA是先經(jīng)過逐步推理后再得到答案的過程,故提出了擴(kuò)散思維鏈模型以實(shí)現(xiàn)逐步推理。

設(shè)計(jì)與實(shí)現(xiàn):

擴(kuò)散思維鏈模型(VQA-TD)總體框架如圖1所示。首先,VQA-TD構(gòu)建了語義嵌入,語義對(duì)齊和推理解釋模塊(如圖1a所示)。然后,它利用推理解釋模塊實(shí)現(xiàn)內(nèi)外部擴(kuò)散過程。具體操作如下:(1)外部擴(kuò)散:構(gòu)造了各解釋文本之間的遷移概率:以縮短各個(gè)解釋之間的語義距離(如圖1a所示);(2)內(nèi)部擴(kuò)散:構(gòu)造了問題及圖像與解釋文本遷移概率:來縮短每一解釋與問題及圖像之間的語義距離(如圖1d及圖1e所示)

圖1 擴(kuò)散思維鏈模型(VQA-TD)

實(shí)驗(yàn)結(jié)果及分析:

在ScienceQA數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,VQA-TD以GPT-3.5的1%參數(shù)量,在答案準(zhǔn)確率和解釋文本生成質(zhì)量上超過GPT-3.5;在部分任務(wù)上接近或超越Llama以及GPT-4。

表1 對(duì)比試驗(yàn)結(jié)果(NAT:自然科學(xué);SOC:社會(huì)科學(xué);LAN:語言科學(xué);TXT:文本提示;IMG:圖像提示;NO:無提示;G1-6:1-6年級(jí)題目;G7-12:7-12年級(jí)題目)


圖2 預(yù)測(cè)答案準(zhǔn)確率對(duì)比結(jié)果

表2 解釋文本生成的質(zhì)量對(duì)比(雙語評(píng)估&召回率)


3 解釋文本生成的質(zhì)量對(duì)比(雙語評(píng)估&召回率)

VQA-TD的突出性能主要?dú)w功于內(nèi)外部?jī)蓴U(kuò)散過程。這兩個(gè)擴(kuò)散過程通過多個(gè)擴(kuò)散和恢復(fù)步驟逐步逼近并鏈接長(zhǎng)解釋文本中的語義信息,以此降低圖像及問題到答案之間的語義偏差。

表3 不同提示輸入對(duì)模型性能的影響

(a)解釋文本生成的質(zhì)量對(duì)比 (b)答案預(yù)測(cè)準(zhǔn)確率對(duì)比

本文針對(duì)四種提示數(shù)據(jù)的輸入情況進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,當(dāng)同時(shí)輸入兩種提示類型數(shù)據(jù)時(shí),模型輸出的結(jié)果明顯好于其它提示類型輸入的情況(如表3所示)。

結(jié)論:

本文提出了一種新的VQA算法框架——擴(kuò)散思維鏈模型(VQA-TD)。我們通過構(gòu)建擴(kuò)散思維鏈模型,實(shí)現(xiàn)了從問題到答案的逐步推理過程。該模型由內(nèi)外部?jī)蓚€(gè)擴(kuò)散過程組成,即通過外部擴(kuò)散捕獲推理步驟之間的聯(lián)系;通過內(nèi)部擴(kuò)散生成每一推理步驟的解釋。實(shí)驗(yàn)結(jié)果表明,即使是在模型較小的情況下,VQA-TD仍能有效緩解復(fù)雜問題中的語義偏移問題,提升了答案預(yù)測(cè)精度,并能夠生成質(zhì)量更好的解釋文本。

通訊作者簡(jiǎn)介:

魯強(qiáng):副教授,博士生導(dǎo)師。目前主要從事演化計(jì)算和符號(hào)回歸、知識(shí)圖譜與智能問答、以及軌跡分析與挖掘等方面的研究工作。

聯(lián)系方式:luqiang@cup.edu.cn