经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法

中文題目:聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法

論文題目:Approximated Behavioral Metric-based State Projection for Federated Reinforcement Learning

錄用期刊/會(huì)議:34th International Joint Conference on Artificial Intelligence  (CCF A / CAA A)

錄用/見刊時(shí)間:20254月28

作者列表

1)郭增霞 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24

2)安博暉 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24

3)呂仲琪 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師

文章簡(jiǎn)介:

本文提出了一種聯(lián)邦強(qiáng)化學(xué)習(xí)方法,通過共享一種近似行為度量狀態(tài)投影函數(shù)的參數(shù),提升強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私安全。

摘要:

聯(lián)邦強(qiáng)化學(xué)習(xí)通常共享加密的本地狀態(tài)或策略信息,使各客戶端在保護(hù)隱私的前提下協(xié)作學(xué)習(xí)。本研究提出了FedRAG框架,各客戶端學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù),并在中心服務(wù)器上聚合該投影函數(shù)參數(shù)。該方法有望提升學(xué)習(xí)性能并保護(hù)隱私。在DeepMind Control Suite上進(jìn)行的大量實(shí)驗(yàn),證明該方法有效。

背景與動(dòng)機(jī):

聯(lián)邦強(qiáng)化學(xué)習(xí)面臨環(huán)境異構(gòu)所帶來的策略偏移挑戰(zhàn),同時(shí)需保護(hù)隱私。已有研究發(fā)現(xiàn),基于行為度量的表征學(xué)習(xí),通過學(xué)習(xí)狀態(tài)投影函數(shù),可以加速強(qiáng)化學(xué)習(xí)過程,并提高策略泛化能力。該投影函數(shù)對(duì)策略學(xué)習(xí)至關(guān)重要,同時(shí)不會(huì)暴露任務(wù)相關(guān)的敏感信息。

設(shè)計(jì)與實(shí)現(xiàn):

FedRAG在每個(gè)客戶端本地學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù),服務(wù)器則通過聚合這些本地函數(shù)構(gòu)建全局狀態(tài)投影函數(shù),綜合了不同環(huán)境的動(dòng)態(tài)特性與獎(jiǎng)勵(lì)信息。在訓(xùn)練過程中,客戶端定期用全局函數(shù)替換本地函數(shù),并通過L2正則項(xiàng)保持與全局函數(shù)的一致性,從而提升本地策略的魯棒性與適應(yīng)性。

image.png

圖1 FedRAG框架圖

主要內(nèi)容:

FedRAG通過共享狀態(tài)投影函數(shù)的參數(shù)來優(yōu)化本地策略,旨在最大化累積獎(jiǎng)勵(lì)和熵。

image.png 

圖2 問題定義公式

減少近似差距(RAG)的行為度量方式,衡量了狀態(tài)間的預(yù)測(cè)獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移差異。

image.png 

圖3 狀態(tài)投影損失函數(shù)

FedRAG算法共享狀態(tài)投影函數(shù)參數(shù),使各客戶端在保持自身本地訓(xùn)練優(yōu)勢(shì)的同時(shí),融入全局特性。

image.png 

圖4 FedRAG算法框架

針對(duì)半誠實(shí)攻擊者和貝葉斯推斷攻擊,證明所上傳的狀態(tài)投影函數(shù)參數(shù),不直接與私有數(shù)據(jù)相關(guān)。

image.png 

圖5 抗攻擊有效性分析

實(shí)驗(yàn)結(jié)果及分析:

在DeepMind Control Suite 基準(zhǔn)測(cè)試平臺(tái)下的cartpole-swing任務(wù)中,將FedRAG與基線方法(單機(jī)RAG、FeSAC、FedAvg)進(jìn)行性能比較,證明其有效性和魯棒性。

image.png 

圖6 FedRAG與基線性能比較

增加正則化參數(shù),提高了局部全局一致性,當(dāng)參數(shù)為0.001時(shí)性能最好,其后過大的參數(shù)值,使局部訓(xùn)練過于接近初始點(diǎn)而減少訓(xùn)練性能。

image.png 

圖7 不同參數(shù)值下FedRAG性能

在其它任務(wù)中,F(xiàn)edRAG(與單機(jī)RAG比較)都表現(xiàn)出很好的性能。

image.png 

圖8 FedRAG在不同任務(wù)下性能

隨著client數(shù)量和環(huán)境異質(zhì)性增加,F(xiàn)edRAG的性能保持穩(wěn)定(與FedAvg比較)。

image.png 

圖9 FedRAG隨客戶端數(shù)量和環(huán)境異構(gòu)性能變化

結(jié)論:

分享基于近似行為度量的狀態(tài)投影函數(shù)參數(shù),可以提高聯(lián)邦強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私。所提出的FedRAG框架,引入了一種基于近似行為度量的狀態(tài)投影函數(shù),并開發(fā)了聯(lián)邦算法。實(shí)驗(yàn)證明所提方法的有效性。

作者簡(jiǎn)介:

郭增霞,碩士研究生,研究方向?yàn)槁?lián)邦學(xué)習(xí)。安博暉,碩士研究生,研究方向?yàn)楸硎緦W(xué)習(xí)。呂仲琪,副教授,人工智能學(xué)院計(jì)算機(jī)系系主任,研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等。

通訊作者簡(jiǎn)介:

呂仲琪,副教授,人工智能學(xué)院計(jì)算機(jī)系系主任,研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等,研究成果被廣泛應(yīng)用于騰訊、微軟、深交所、中海油、中石化等企業(yè)。