中文題目:聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法
論文題目:Approximated Behavioral Metric-based State Projection for Federated Reinforcement Learning
錄用期刊/會(huì)議:34th International Joint Conference on Artificial Intelligence (CCF A / CAA A)
錄用/見刊時(shí)間:2025年4月28日
作者列表:
1)郭增霞 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24
2)安博暉 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24
3)呂仲琪 中國石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師
文章簡(jiǎn)介:
本文提出了一種聯(lián)邦強(qiáng)化學(xué)習(xí)方法,通過共享一種近似行為度量狀態(tài)投影函數(shù)的參數(shù),提升強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私安全。
摘要:
聯(lián)邦強(qiáng)化學(xué)習(xí)通常共享加密的本地狀態(tài)或策略信息,使各客戶端在保護(hù)隱私的前提下協(xié)作學(xué)習(xí)。本研究提出了FedRAG框架,各客戶端學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù),并在中心服務(wù)器上聚合該投影函數(shù)參數(shù)。該方法有望提升學(xué)習(xí)性能并保護(hù)隱私。在DeepMind Control Suite上進(jìn)行的大量實(shí)驗(yàn),證明該方法有效。
背景與動(dòng)機(jī):
聯(lián)邦強(qiáng)化學(xué)習(xí)面臨環(huán)境異構(gòu)所帶來的策略偏移挑戰(zhàn),同時(shí)需保護(hù)隱私。已有研究發(fā)現(xiàn),基于行為度量的表征學(xué)習(xí),通過學(xué)習(xí)狀態(tài)投影函數(shù),可以加速強(qiáng)化學(xué)習(xí)過程,并提高策略泛化能力。該投影函數(shù)對(duì)策略學(xué)習(xí)至關(guān)重要,同時(shí)不會(huì)暴露任務(wù)相關(guān)的敏感信息。
設(shè)計(jì)與實(shí)現(xiàn):
FedRAG在每個(gè)客戶端本地學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù),服務(wù)器則通過聚合這些本地函數(shù)構(gòu)建全局狀態(tài)投影函數(shù),綜合了不同環(huán)境的動(dòng)態(tài)特性與獎(jiǎng)勵(lì)信息。在訓(xùn)練過程中,客戶端定期用全局函數(shù)替換本地函數(shù),并通過L2正則項(xiàng)保持與全局函數(shù)的一致性,從而提升本地策略的魯棒性與適應(yīng)性。

圖1 FedRAG框架圖
主要內(nèi)容:
FedRAG通過共享狀態(tài)投影函數(shù)的參數(shù)來優(yōu)化本地策略,旨在最大化累積獎(jiǎng)勵(lì)和熵。
圖2 問題定義公式
減少近似差距(RAG)的行為度量方式,衡量了狀態(tài)間的預(yù)測(cè)獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移差異。
圖3 狀態(tài)投影損失函數(shù)
FedRAG算法共享狀態(tài)投影函數(shù)參數(shù),使各客戶端在保持自身本地訓(xùn)練優(yōu)勢(shì)的同時(shí),融入全局特性。
圖4 FedRAG算法框架
針對(duì)半誠實(shí)攻擊者和貝葉斯推斷攻擊,證明所上傳的狀態(tài)投影函數(shù)參數(shù),不直接與私有數(shù)據(jù)相關(guān)。
圖5 抗攻擊有效性分析
實(shí)驗(yàn)結(jié)果及分析:
在DeepMind Control Suite 基準(zhǔn)測(cè)試平臺(tái)下的cartpole-swing任務(wù)中,將FedRAG與基線方法(單機(jī)RAG、FeSAC、FedAvg)進(jìn)行性能比較,證明其有效性和魯棒性。
圖6 FedRAG與基線性能比較
增加正則化參數(shù),提高了局部全局一致性,當(dāng)參數(shù)為0.001時(shí)性能最好,其后過大的參數(shù)值,使局部訓(xùn)練過于接近初始點(diǎn)而減少訓(xùn)練性能。
圖7 不同參數(shù)值下FedRAG性能
在其它任務(wù)中,F(xiàn)edRAG(與單機(jī)RAG比較)都表現(xiàn)出很好的性能。
圖8 FedRAG在不同任務(wù)下性能
隨著client數(shù)量和環(huán)境異質(zhì)性增加,F(xiàn)edRAG的性能保持穩(wěn)定(與FedAvg比較)。
圖9 FedRAG隨客戶端數(shù)量和環(huán)境異構(gòu)性能變化
結(jié)論:
分享基于近似行為度量的狀態(tài)投影函數(shù)參數(shù),可以提高聯(lián)邦強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私。所提出的FedRAG框架,引入了一種基于近似行為度量的狀態(tài)投影函數(shù),并開發(fā)了聯(lián)邦算法。實(shí)驗(yàn)證明所提方法的有效性。
作者簡(jiǎn)介:
郭增霞,碩士研究生,研究方向?yàn)槁?lián)邦學(xué)習(xí)。安博暉,碩士研究生,研究方向?yàn)楸硎緦W(xué)習(xí)。呂仲琪,副教授,人工智能學(xué)院計(jì)算機(jī)系系主任,研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等。
通訊作者簡(jiǎn)介:
呂仲琪,副教授,人工智能學(xué)院計(jì)算機(jī)系系主任,研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等,研究成果被廣泛應(yīng)用于騰訊、微軟、深交所、中海油、中石化等企業(yè)。