高分高清片源点播网站,影视影集抢先看大全,免费高清短片影库入口

學(xué)校主頁

您所在的位置：首頁 - 科學(xué)研究 - 科研動(dòng)態(tài)

科研動(dòng)態(tài)

聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法

日期：2025-05-12 | 訪問量：

中文題目：聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法

論文題目：Approximated Behavioral Metric-based State Projection for Federated Reinforcement Learning

錄用期刊/會(huì)議：34th International Joint Conference on Artificial Intelligence (CCF A / CAA A)

錄用/見刊時(shí)間：2025年4月28日

作者列表：

1）郭增霞中國石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24

2）安博暉中國石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè) 碩24

3）呂仲琪中國石油大學(xué)（北京）人工智能學(xué)院計(jì)算機(jī)系教師

文章簡(jiǎn)介:

本文提出了一種聯(lián)邦強(qiáng)化學(xué)習(xí)方法，通過共享一種近似行為度量狀態(tài)投影函數(shù)的參數(shù)，提升強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私安全。

摘要:

聯(lián)邦強(qiáng)化學(xué)習(xí)通常共享加密的本地狀態(tài)或策略信息，使各客戶端在保護(hù)隱私的前提下協(xié)作學(xué)習(xí)。本研究提出了FedRAG框架，各客戶端學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù)，并在中心服務(wù)器上聚合該投影函數(shù)參數(shù)。該方法有望提升學(xué)習(xí)性能并保護(hù)隱私。在DeepMind Control Suite上進(jìn)行的大量實(shí)驗(yàn)，證明該方法有效。

背景與動(dòng)機(jī):

聯(lián)邦強(qiáng)化學(xué)習(xí)面臨環(huán)境異構(gòu)所帶來的策略偏移挑戰(zhàn)，同時(shí)需保護(hù)隱私。已有研究發(fā)現(xiàn)，基于行為度量的表征學(xué)習(xí)，通過學(xué)習(xí)狀態(tài)投影函數(shù)，可以加速強(qiáng)化學(xué)習(xí)過程，并提高策略泛化能力。該投影函數(shù)對(duì)策略學(xué)習(xí)至關(guān)重要，同時(shí)不會(huì)暴露任務(wù)相關(guān)的敏感信息。

設(shè)計(jì)與實(shí)現(xiàn):

FedRAG在每個(gè)客戶端本地學(xué)習(xí)基于近似行為度量的狀態(tài)投影函數(shù)，服務(wù)器則通過聚合這些本地函數(shù)構(gòu)建全局狀態(tài)投影函數(shù)，綜合了不同環(huán)境的動(dòng)態(tài)特性與獎(jiǎng)勵(lì)信息。在訓(xùn)練過程中，客戶端定期用全局函數(shù)替換本地函數(shù)，并通過L2正則項(xiàng)保持與全局函數(shù)的一致性，從而提升本地策略的魯棒性與適應(yīng)性。

圖1 FedRAG框架圖

主要內(nèi)容:

FedRAG通過共享狀態(tài)投影函數(shù)的參數(shù)來優(yōu)化本地策略，旨在最大化累積獎(jiǎng)勵(lì)和熵。

圖2 問題定義公式

減少近似差距（RAG）的行為度量方式，衡量了狀態(tài)間的預(yù)測(cè)獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移差異。

圖3 狀態(tài)投影損失函數(shù)

FedRAG算法共享狀態(tài)投影函數(shù)參數(shù)，使各客戶端在保持自身本地訓(xùn)練優(yōu)勢(shì)的同時(shí)，融入全局特性。

圖4 FedRAG算法框架

針對(duì)半誠實(shí)攻擊者和貝葉斯推斷攻擊，證明所上傳的狀態(tài)投影函數(shù)參數(shù)，不直接與私有數(shù)據(jù)相關(guān)。

圖5 抗攻擊有效性分析

實(shí)驗(yàn)結(jié)果及分析:

在DeepMind Control Suite 基準(zhǔn)測(cè)試平臺(tái)下的cartpole-swing任務(wù)中，將FedRAG與基線方法（單機(jī)RAG、FeSAC、FedAvg）進(jìn)行性能比較，證明其有效性和魯棒性。

圖6 FedRAG與基線性能比較

增加正則化參數(shù)，提高了局部全局一致性，當(dāng)參數(shù)為0.001時(shí)性能最好，其后過大的參數(shù)值，使局部訓(xùn)練過于接近初始點(diǎn)而減少訓(xùn)練性能。

圖7 不同參數(shù)值下FedRAG性能

在其它任務(wù)中，F(xiàn)edRAG（與單機(jī)RAG比較）都表現(xiàn)出很好的性能。

圖8 FedRAG在不同任務(wù)下性能

隨著client數(shù)量和環(huán)境異質(zhì)性增加，F(xiàn)edRAG的性能保持穩(wěn)定（與FedAvg比較）。

圖9 FedRAG隨客戶端數(shù)量和環(huán)境異構(gòu)性能變化

結(jié)論:

分享基于近似行為度量的狀態(tài)投影函數(shù)參數(shù)，可以提高聯(lián)邦強(qiáng)化學(xué)習(xí)性能并保護(hù)隱私。所提出的FedRAG框架，引入了一種基于近似行為度量的狀態(tài)投影函數(shù)，并開發(fā)了聯(lián)邦算法。實(shí)驗(yàn)證明所提方法的有效性。

作者簡(jiǎn)介:

郭增霞，碩士研究生，研究方向?yàn)槁?lián)邦學(xué)習(xí)。安博暉，碩士研究生，研究方向?yàn)楸硎緦W(xué)習(xí)。呂仲琪，副教授，人工智能學(xué)院計(jì)算機(jī)系系主任，研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等。

通訊作者簡(jiǎn)介:

呂仲琪，副教授，人工智能學(xué)院計(jì)算機(jī)系系主任，研究領(lǐng)域包括知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘、油氣人工智能等，研究成果被廣泛應(yīng)用于騰訊、微軟、深交所、中海油、中石化等企業(yè)。

经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

聯(lián)邦強(qiáng)化狀態(tài)的近似行為度量表征方法