中文題目:基于加性注意力的圖像融合提示的文本到圖像擴(kuò)散模型
論文題目:Text-to-Image Diffusion Models via Additive Attention-based Image Fusion Prompts
錄用期刊/會(huì)議:CCDC2025(CAA A類會(huì)議)
錄用時(shí)間:2025.2.9
作者列表:
1)刁國文 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 研22級(jí)
2)劉建偉 中國石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師
摘要:
在傳統(tǒng)的文本到圖像模型的微調(diào)過程中,直接對(duì)模型進(jìn)行全參數(shù)微調(diào)不僅計(jì)算成本高昂、難以實(shí)現(xiàn),還容易導(dǎo)致過擬合,削弱模型的泛化能力,嚴(yán)重時(shí)甚至?xí)l(fā)災(zāi)難性遺忘。為解決這些問題,適配器微調(diào)作為一種通過在預(yù)訓(xùn)練模型中引入少量額外參數(shù)來實(shí)現(xiàn)高效微調(diào)的輕量級(jí)方案,逐漸成為文本到圖像模型微調(diào)的主流方法之一。本文首先設(shè)計(jì)了一個(gè)基于加性注意力的圖像融合模塊,使適配器能夠同時(shí)注入兩張圖像提示進(jìn)行訓(xùn)練,增強(qiáng)了模型從圖像提示中提取特征的能力。其次,利用穩(wěn)定擴(kuò)散模型中U-Net網(wǎng)絡(luò)的跳躍連接,能夠在減少適配器參數(shù)量的同時(shí),有效傳遞圖像提示信息到U-Net網(wǎng)絡(luò)的上采樣塊,確保了生成的圖像和圖像提示的對(duì)齊。實(shí)驗(yàn)結(jié)果表明,我們的方法在保持適配器原有優(yōu)勢的基礎(chǔ)上,進(jìn)一步提升了適配器的性能。
背景與動(dòng)機(jī):
在傳統(tǒng)的文本到圖像模型的微調(diào)過程中,直接對(duì)模型進(jìn)行全參數(shù)微調(diào)不僅計(jì)算成本高昂、難以實(shí)現(xiàn),還容易導(dǎo)致過擬合,削弱模型的泛化能力,嚴(yán)重時(shí)甚至?xí)l(fā)災(zāi)難性遺忘。為解決這些問題,因此需要一種高效且靈活的解決方案來微調(diào)預(yù)訓(xùn)練的文本到圖像模型,以便在保持泛化能力的同時(shí),能夠應(yīng)對(duì)多樣化的下游任務(wù)需求。而適配器微調(diào)作為一種通過在預(yù)訓(xùn)練模型中引入少量額外參數(shù)來實(shí)現(xiàn)高效微調(diào)的輕量級(jí)方案,正好能夠有效解決這些問題。
主要內(nèi)容:
本文設(shè)計(jì)了一個(gè)基于加性注意力的圖像融合模塊(IFM),該模塊能夠以非配對(duì)的方式同時(shí)注入兩張圖像提示進(jìn)行訓(xùn)練,增強(qiáng)了模型對(duì)圖像提示特征信息的提取能力。此外,在實(shí)驗(yàn)中發(fā)現(xiàn),利用穩(wěn)定擴(kuò)散模型中U-Net網(wǎng)絡(luò)的跳躍連接能有效傳遞圖像提示信息到U-Net網(wǎng)絡(luò)的上采樣塊。因此,本文僅在U-Net網(wǎng)絡(luò)的下采樣塊中引入適配器,相比于在U-Net網(wǎng)絡(luò)的所有塊中添加適配器,不僅降低了適配器的參數(shù)量和模型推理過程中的計(jì)算量,而且消除了因上采樣塊適配器輸入多余的圖像提示而引入的干擾信息。如圖1所示,展示了本文基于適配器方法的模型總體框架。
圖1 本文的模型總體框架
結(jié)論:
基于適配器法,本文首先設(shè)計(jì)了加性注意力圖像融合模塊,以支持同時(shí)注入兩張圖像提示來訓(xùn)練,這增強(qiáng)了模型的特征提取能力;再利用U-Net的跳躍連接,僅在U-Net的下采樣塊引入適配器,減少了適配器的參數(shù)量與模型推理的計(jì)算量。實(shí)驗(yàn)表明,該方法在保持適配器優(yōu)勢的基礎(chǔ)上提升了適配器的性能。
作者簡介:
劉建偉,教師。