中文題目:基于深度強(qiáng)化學(xué)習(xí)的可靠性感知的邊緣計算服務(wù)放置和任務(wù)卸載
論文題目:Deep Reinforcement Learning based Reliability-aware Service Placement and Task Offloading in Edge Computing
錄用期刊/會議:IEEE 2024 International Conference on Web Services (ICWS) (CCF B)
錄用時間:2024年5月14日
作者列表:
1)梁晶語 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 控制科學(xué)與工程專業(yè) 博20
2)馮子涵 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計算機(jī)科學(xué)與技術(shù)專業(yè) 碩22
3)高 涵 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計算機(jī)科學(xué)與技術(shù)專業(yè) 碩21
4)陳 瑩 北京信息科技大學(xué) 計算機(jī)學(xué)院 教授
5)Linh Truong Aalto University Computer Science Professor
6)黃霽崴 中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 教授
摘要:
隨著5G技術(shù)的快速發(fā)展,各種應(yīng)用場景中的服務(wù)需求不斷增加。移動邊緣計算(MEC)通過將服務(wù)資源和相應(yīng)的計算資源放置到邊緣服務(wù)器上,已經(jīng)成為一種流行的計算范式然而,邊緣服務(wù)器缺乏穩(wěn)定的保護(hù)基礎(chǔ)設(shè)施,以及有限的存儲空間和計算能力??紤]到邊緣系統(tǒng)的可靠性和穩(wěn)定性,有效地將資源和將任務(wù)轉(zhuǎn)移到邊緣服務(wù)器已經(jīng)成為一個緊迫的挑戰(zhàn)。本文考慮了不同時間尺度下的資源放置變化和任務(wù)卸載策略,優(yōu)化了動態(tài)邊緣系統(tǒng)下的服務(wù)提供商的成本。通過建立馬爾可夫模型,得到系統(tǒng)可靠性和延遲之間的定量關(guān)系,并計算出資源放置和任務(wù)卸載所需的時間。然后,本文提出了基于強(qiáng)化學(xué)習(xí)(RL)技術(shù),在不同時間尺度下的資源放置和任務(wù)卸載(RPTO)算法,目的是在長期服務(wù)中最小化服務(wù)提供者的成本。實驗結(jié)果表明,本文提出的方法有效地解決了在MEC中聯(lián)合資源放置和任務(wù)卸載的問題挑戰(zhàn)。
優(yōu)化模型與優(yōu)化方法:

圖1 整個過程的框架圖
針對邊緣計算系統(tǒng)的資源分配和任務(wù)卸載問題,采用基于深度強(qiáng)化學(xué)習(xí)的方法對資源放置和任務(wù)卸載過程進(jìn)行優(yōu)化,目標(biāo)是優(yōu)化資源分配和任務(wù)卸載過程中服務(wù)提供商成本。圖1是本文整個處理過程的框架流程圖。本文考慮到,相比較資源分配的動態(tài)變化,任務(wù)卸載過程中實時變化更快,因此利用雙時間尺度模型分別對資源分配和任務(wù)卸載過程進(jìn)行分析。為了滿足用戶的可靠性需求,在資源放置部分采用冗余的服務(wù)資源放置策略,確保存在正常的服務(wù)器能夠為用戶提供服務(wù),任務(wù)卸載部分考慮了服務(wù)器故障對于處理任務(wù)延遲的影響。為了進(jìn)一步優(yōu)化資源放置和任務(wù)卸載策略,建立了資源分配和任務(wù)卸載模型,資源放置部分主要包括離散動作的服務(wù)放置決策和連續(xù)動作的計算資源分配決策的混合動作空間,而任務(wù)卸載部分中的任務(wù)類型判斷和任務(wù)卸載決策均為離散動作空間。因此,采用兩種深度強(qiáng)化學(xué)習(xí)的方法分別對資源放置和任務(wù)卸載過程進(jìn)行訓(xùn)練,優(yōu)化服務(wù)提供商的成本。通過實驗證明了所提出算法的有效性。
實驗結(jié)果及分析:

圖2 不同超參數(shù)設(shè)置對于算法收斂性的影響。

圖3 不同參數(shù)設(shè)置對服務(wù)提供商成本的影響。

圖4 不同可靠性屬性對服務(wù)提供商成本的影響。
結(jié)論:
本文中,我們考慮了邊緣計算系統(tǒng)中的動態(tài)的服務(wù)放置和任務(wù)卸載問題,這一問題具有挑戰(zhàn)性??紤]到不同服務(wù)的異構(gòu)性和邊緣服務(wù)器有限的存儲空間和計算資源,為了在長期內(nèi)最小化服務(wù)成本,采取了不同的時間尺度來分別處理服務(wù)放置和任務(wù)卸載。我們提出了一種基于P-DQN和D3QN強(qiáng)化學(xué)習(xí)的RTPO算法,通過該算法可以動態(tài)地處理服務(wù)放置和任務(wù)卸載問題。此外,通過模型實驗分析了影響算法收斂性的參數(shù),并通過與基準(zhǔn)算法的比較,驗證了該方法的有效性。
通訊作者簡介:
黃霽崴,教授,博士生導(dǎo)師,中國石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院副院長,石油數(shù)據(jù)挖掘北京市重點(diǎn)實驗室主任。入選北京市優(yōu)秀人才、北京市科技新星、北京市國家治理青年人才、昌聚工程青年人才、中國石油大學(xué)(北京)優(yōu)秀青年學(xué)者。本科和博士畢業(yè)于清華大學(xué)計算機(jī)科學(xué)與技術(shù)系,美國佐治亞理工學(xué)院聯(lián)合培養(yǎng)博士生。研究方向包括:物聯(lián)網(wǎng)、服務(wù)計算、邊緣智能等。已主持國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計劃、北京市自然科學(xué)基金等科研項目18項;以第一/通訊作者在國內(nèi)外著名期刊和會議發(fā)表學(xué)術(shù)論文60余篇,其中1篇獲得中國科協(xié)優(yōu)秀論文獎,2篇入選ESI熱點(diǎn)論文,4篇入選ESI高被引論文;出版學(xué)術(shù)專著1部;獲得國家發(fā)明專利6項、軟件著作權(quán)4項;獲得中國通信學(xué)會科學(xué)技術(shù)一等獎1項、中國產(chǎn)學(xué)研合作創(chuàng)新成果一等獎1項、廣東省計算機(jī)學(xué)會科學(xué)技術(shù)二等獎1項。擔(dān)任中國計算機(jī)學(xué)會(CCF)服務(wù)計算專委會委員,CCF和IEEE高級會員,電子學(xué)報、Chinese Journal of Electronics、Scientific Programming等期刊編委。
聯(lián)系方式:huangjw@cup.edu.cn