经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

APF-DQN:基于改進(jìn)的深度強(qiáng)化學(xué)習(xí)的建筑火災(zāi)自適應(yīng)目標(biāo)路徑規(guī)劃算法

中文題目:APF-DQN:基于改進(jìn)的深度強(qiáng)化學(xué)習(xí)的建筑火災(zāi)自適應(yīng)目標(biāo)路徑規(guī)劃算法

論文題目:APF-DQN: Adaptive Objective Pathfinding via Improved Deep Reinforcement Learning among Building Fire Hazard

錄用期刊/會(huì)議:ICANN 2024(CCF-C)

原文DOI

原文鏈接:

錄用/見(jiàn)刊時(shí)間:2024.06.06

作者列表

1) 章可 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩21

2) 朱丹丹 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 智能中心教師

3) 許秋晗 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩21

4) 周昊 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩21

5) 彭雪梅 香港科技大學(xué)(廣州)信息樞紐 數(shù)據(jù)科學(xué)與分析學(xué)域 博23

摘要:

疏散路徑規(guī)劃引導(dǎo)是確保火災(zāi)中人員生命安全的關(guān)鍵任務(wù)。目前的疏散規(guī)劃方法主要是計(jì)算確定性目標(biāo)地點(diǎn)的最優(yōu)路徑。然而火災(zāi)疏散引導(dǎo)場(chǎng)景面臨著建筑物內(nèi)部存在多出口、火災(zāi)動(dòng)態(tài)蔓延導(dǎo)致疏散路徑不穩(wěn)定等關(guān)鍵挑戰(zhàn)。為了解決這些問(wèn)題,本文提出了一種疏散智能體,采用一種人工勢(shì)場(chǎng)深度強(qiáng)化學(xué)習(xí)(APF-DQN)算法來(lái)計(jì)算疏散路線(xiàn),使疏散智能體能夠選擇合適的出口并規(guī)劃動(dòng)態(tài)疏散路徑。該算法在深度強(qiáng)化學(xué)習(xí)架構(gòu)中引入人工勢(shì)場(chǎng)概念,引導(dǎo)智能體自適應(yīng)地選擇目標(biāo)出口,避免火災(zāi)蔓延造成的傷害;同時(shí)深度強(qiáng)化學(xué)習(xí)算法保證疏散智能體規(guī)劃動(dòng)態(tài)路徑。本文在仿真實(shí)驗(yàn)中測(cè)試了APF-DQN并與幾種傳統(tǒng)路徑規(guī)劃方法進(jìn)行了比較。與傳統(tǒng)的A*APFDQN方法相比,我們的APF- DQN算法規(guī)劃的疏散路徑所需要的時(shí)間成本降低了18.7%,距離火源點(diǎn)的安全距離增加了20.1%。本文代碼可以從 https://github.com/ColaZhang22/APFDQN-Indoor-fire-hazard-path-planning下載。

背景與動(dòng)機(jī):

面對(duì)火災(zāi)隱患時(shí),路徑規(guī)劃是建筑消防疏散系統(tǒng)的重要組成部分。然而隨著建筑物結(jié)構(gòu)越來(lái)越復(fù)雜和建筑面積逐漸龐大,建立合理的疏散路徑可以有效減少火災(zāi)造成的威脅。此外,由于建筑物內(nèi)有多出口和動(dòng)態(tài)火災(zāi)隱患,傳統(tǒng)方法中固定疏散路徑不足以應(yīng)對(duì)建筑物內(nèi)的多出口問(wèn)題。因此,建立一條動(dòng)態(tài)、可靠和安全的路線(xiàn)成為火災(zāi)疏散路徑規(guī)劃中一個(gè)關(guān)鍵問(wèn)題。

由于室內(nèi)建筑結(jié)構(gòu)規(guī)模龐大,傳統(tǒng)路徑規(guī)劃方法耗時(shí)長(zhǎng),因此在有限的疏散時(shí)間下是不可接受的。盡管已經(jīng)有許多先前的研究嘗試解決這個(gè)問(wèn)題,比如IACO和 Hierarchical A*。但目前的方法仍然存在兩個(gè)挑戰(zhàn),如圖 所示。第一個(gè)問(wèn)題是動(dòng)態(tài)火災(zāi)蔓延變化帶來(lái)的負(fù)面影響。隨著火災(zāi)危險(xiǎn)性的增加,環(huán)境中的某些路徑無(wú)法通過(guò),而某些房間則成為疏散通道的障礙。第二個(gè)問(wèn)題是大型建筑中存在多個(gè)出口。因此根據(jù)火災(zāi)危險(xiǎn)性選擇合適的出口是另一個(gè)重要問(wèn)題。



圖1 單目標(biāo)出口疏散路徑規(guī)劃與自適應(yīng)目標(biāo)疏散路徑規(guī)劃

為了解決上述問(wèn)題,本研究構(gòu)建了一種稱(chēng)為人工勢(shì)場(chǎng)深度強(qiáng)化學(xué)習(xí) (APF-DQN) 的方法來(lái)訓(xùn)練疏散智能體規(guī)劃疏散路徑,引導(dǎo)待疏散人員在室內(nèi)建筑物中以更短的疏散時(shí)間和更安全的距離進(jìn)行避險(xiǎn)疏散。本文在兩種建筑場(chǎng)景中檢驗(yàn)了APF-DQN,并與三種典型的尋路算法進(jìn)行了比較,基于APF-DQN的智能體能夠考慮火勢(shì)蔓延來(lái)規(guī)劃動(dòng)態(tài)疏散路徑,并選擇合理的出口作為目標(biāo),以避免火災(zāi)造成的損害。

設(shè)計(jì)與實(shí)現(xiàn):

APF-DQN主要包含兩個(gè)模塊:基于數(shù)據(jù)的強(qiáng)化學(xué)習(xí)模塊(RL) 和基于知識(shí)的人工勢(shì)場(chǎng)模塊(DQN),如圖2所示。與經(jīng)典的路徑規(guī)劃算法相比,基于 RL 的路徑規(guī)劃能夠提供實(shí)時(shí)動(dòng)態(tài)疏散路線(xiàn),從而避免計(jì)算開(kāi)銷(xiāo)。同時(shí),人工勢(shì)場(chǎng)模塊引導(dǎo)智能體自適應(yīng)地選擇合適的目標(biāo)出口作為目標(biāo),并根據(jù)建筑物內(nèi)火災(zāi)危險(xiǎn)的變化調(diào)整目標(biāo)出口。



圖2 APF-DQN 算法

強(qiáng)化學(xué)習(xí)模塊:為了減少計(jì)算最優(yōu)路徑的時(shí)間消耗實(shí)現(xiàn)實(shí)時(shí)規(guī)劃疏散路徑,采用DQN作為火災(zāi)疏散場(chǎng)景的路徑規(guī)劃框架。本問(wèn)將火災(zāi)疏散引導(dǎo)系統(tǒng)視為DQN中的疏散智能體,與火災(zāi)疏散環(huán)境進(jìn)行交互。疏散引導(dǎo)智能體根據(jù)自身狀態(tài)和火災(zāi)危險(xiǎn)情況規(guī)劃下一個(gè)疏散坐標(biāo)并調(diào)整目標(biāo)出口。

在火災(zāi)疏散場(chǎng)景中,疏散引導(dǎo)智能體從環(huán)境中感知周?chē)鷮傩裕绠?dāng)前坐標(biāo)和火災(zāi)發(fā)生位置,作為智能體的狀態(tài)。然后,火災(zāi)疏散引導(dǎo)智能體根據(jù)感知到的信息選擇下一個(gè)逃生動(dòng)作。最后,火災(zāi)疏散環(huán)境將獎(jiǎng)勵(lì)反饋給火災(zāi)疏散引導(dǎo)智能體。火災(zāi)疏散引導(dǎo)智能體的目標(biāo)是積累并最大化這些獎(jiǎng)勵(lì):



經(jīng)典強(qiáng)化學(xué)習(xí)算法Q-learning引入了價(jià)值函數(shù)來(lái)估計(jì)疏散代理當(dāng)前配對(duì)動(dòng)作狀態(tài)的值:



更高的Q值意味著當(dāng)前疏散位置更安全,并且疏散引導(dǎo)智能體傾向于選擇該逃離位置作為下一次行為選擇中的最佳行為。在訓(xùn)練過(guò)程中,為了在探索和開(kāi)發(fā)之間保持平衡,疏散代理采用epsilon-greedy策略來(lái)選擇下一步行動(dòng):



在火災(zāi)疏散環(huán)境中,基于強(qiáng)化學(xué)習(xí)的算法可能實(shí)時(shí)進(jìn)行疏散路徑規(guī)劃,然而火災(zāi)的發(fā)展擾亂強(qiáng)化學(xué)習(xí)理論中馬爾可夫過(guò)程過(guò)程的假設(shè),從而導(dǎo)致疏散智能體的決策產(chǎn)生錯(cuò)誤。在某些情況下,疏散引導(dǎo)智能體會(huì)判斷并選擇距離安全出口最近的下一步行動(dòng),但這種選擇可能會(huì)因火災(zāi)的副產(chǎn)物和火情的蔓延而出錯(cuò)。為了消除火災(zāi)發(fā)展對(duì)DQN在火災(zāi)疏散中的影響,本研究將人工勢(shì)場(chǎng) (APF) 引入了DQN



人工勢(shì)場(chǎng)模塊

人工勢(shì)場(chǎng)模塊:APF模塊生成兩個(gè)力場(chǎng),包括吸引力場(chǎng)和排斥力場(chǎng)。在火災(zāi)疏散場(chǎng)景中,火災(zāi)和障礙物產(chǎn)生排斥力場(chǎng),引導(dǎo)疏散引導(dǎo)智能體遠(yuǎn)離火災(zāi)隱患。同時(shí)建筑物中的多個(gè)出口分別產(chǎn)生吸引力場(chǎng),引導(dǎo)疏散引導(dǎo)智能體朝向目標(biāo)出口。因此,APF能夠準(zhǔn)確反映火災(zāi)的變化信息,并消除DQN算法中因?yàn)榛馂?zāi)發(fā)展和不同場(chǎng)景導(dǎo)致的建筑環(huán)境不穩(wěn)定性。

APF中的吸引力場(chǎng)表示多出口吸引力的強(qiáng)度,公式表示為:



由上式可知,隨著距離的縮短,引力場(chǎng)變得更大,疏散引導(dǎo)智能體將被引導(dǎo)到建筑物中所有出口中最近的出口。然而,當(dāng)火災(zāi)危險(xiǎn)發(fā)生在最近的出口附近時(shí),最近的出口并不是理想的目標(biāo)。因此,APF 中的排斥力場(chǎng)也用于指導(dǎo)疏散引導(dǎo)智能體的路徑規(guī)劃。與引力場(chǎng)相比,排斥力場(chǎng)也表示障礙物或火點(diǎn)排斥力的強(qiáng)度。排斥力場(chǎng)公式表示如下:



排斥力場(chǎng)公式說(shuō)明,當(dāng)疏散引導(dǎo)智能體離火災(zāi)點(diǎn)越近,智能體受到的排斥力就越大。因此,疏散引導(dǎo)智能體傾向于與火災(zāi)隱患保持安全距離,同時(shí)被引力場(chǎng)引導(dǎo)至合適的出口。

此外,在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,DQN存在稀疏獎(jiǎng)勵(lì)問(wèn)題阻礙了疏散引導(dǎo)智能體從經(jīng)驗(yàn)樣本中有效地學(xué)習(xí)。因此,APF的變化被視為兩種狀態(tài)之間的獎(jiǎng)勵(lì)函數(shù),以提高訓(xùn)練質(zhì)量,本文使用:



作為APF-DQN的獎(jiǎng)勵(lì)函數(shù)。疏散引導(dǎo)智能體每一次采取行動(dòng),都可以獲得獎(jiǎng)勵(lì)來(lái)評(píng)估動(dòng)狀態(tài)的好壞;當(dāng)疏散引導(dǎo)智能體到達(dá)出口時(shí),它會(huì)獲得一個(gè)固定的獎(jiǎng)勵(lì)。

實(shí)驗(yàn)結(jié)果及分析:

本文利用兩種環(huán)境來(lái)測(cè)試我們提出的方法來(lái)驗(yàn)證算法的可擴(kuò)展性,一種環(huán)境包含兩個(gè)出口和一個(gè)火災(zāi)發(fā)生點(diǎn),另一種環(huán)境考慮三個(gè)出口和一個(gè)火災(zāi)發(fā)生點(diǎn)。實(shí)驗(yàn)結(jié)果如圖4所示,每個(gè)點(diǎn)表示空間內(nèi)對(duì)應(yīng)狀態(tài)的Q值。顏色越深即Q值越高,意味著疏散引導(dǎo)智能體傾向于采取 值較高的行動(dòng)。在訓(xùn)練開(kāi)始時(shí),每個(gè)狀態(tài)的 值是不規(guī)則的,因此代理無(wú)法正確選擇行動(dòng)。在訓(xùn)練過(guò)程中,出口附近的狀態(tài)具有較高的 值,而環(huán)境中靠近火災(zāi)隱患的狀態(tài)具有較低的值。因此,疏散代理能夠在多個(gè)出口中自適應(yīng)地選擇合適的出口,同時(shí)遠(yuǎn)離遠(yuǎn)處的隱患。



圖4 狀態(tài)價(jià)值函數(shù)變化

至于疏散路徑,本文的疏散引導(dǎo)智能體初始被設(shè)置到建筑中的隨機(jī)位置,火災(zāi)隱患也發(fā)生在隨機(jī)位置。如圖5所示,APF-DQN算法能夠在各種情況下找到逃離火災(zāi)的最佳疏散路徑,并選擇遠(yuǎn)離火災(zāi)的路線(xiàn)以避免火災(zāi)隱患造成的損害。同時(shí)基于APF-DQN 規(guī)劃的疏散路徑表明,當(dāng)同時(shí)面臨多個(gè)出口時(shí),疏散引導(dǎo)智能體愿意選擇遠(yuǎn)離火災(zāi)點(diǎn)的出口。在5的 (c)(d) 中,規(guī)劃的疏散路線(xiàn)顯示,盡管一些出口靠近疏散引導(dǎo)智能體的當(dāng)前狀態(tài),但疏散引導(dǎo)智能體更傾向于規(guī)劃一條相對(duì)較遠(yuǎn)但更安全的路徑以確保逃離火災(zāi)。



圖5 基于APF-DQN的疏散路徑

然后,本文從兩個(gè)指標(biāo)評(píng)估提出的 APF-DQN算法,即疏散時(shí)間和疏散引導(dǎo)智能體到火災(zāi)發(fā)生點(diǎn)的最短距離。疏散時(shí)間表示疏散引導(dǎo)智能體從初始坐標(biāo)到達(dá)適當(dāng)出口所花費(fèi)的時(shí)間步長(zhǎng)。在火災(zāi)隱患疏散中,較短的疏散時(shí)間意味著代理能夠有效地到達(dá)出口,從而避免火災(zāi)隱患造成的損害。最短火源距離表示從疏散引導(dǎo)智能體到火災(zāi)發(fā)生點(diǎn)的距離,較長(zhǎng)的最短火源距離表示智能體距離火災(zāi)發(fā)生地較遠(yuǎn),能夠更安全的到達(dá)出口。



圖6 APF-DQN對(duì)比實(shí)驗(yàn)

本文對(duì)兩種經(jīng)典路徑規(guī)劃方法 A-star 和 APF 進(jìn)行了對(duì)比實(shí)驗(yàn),如圖6所示。在我們的實(shí)驗(yàn)中,對(duì)于每個(gè)代理,初始位置的差異會(huì)顯著影響疏散時(shí)間步長(zhǎng)和距離火災(zāi)的最近距離。因此,本文實(shí)驗(yàn)采取100次仿真,并計(jì)算平均距離和時(shí)間步長(zhǎng)以消除誤差。同時(shí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)算法DQN對(duì)比,如表1所示,APF-DQN具有最短的疏散時(shí)間和距離火災(zāi)危險(xiǎn)最大的距離。

表 1 對(duì)比實(shí)驗(yàn)結(jié)果



結(jié)論:

本文重點(diǎn)研究了火災(zāi)建筑環(huán)境中的疏散路徑規(guī)劃引導(dǎo)問(wèn)題。建筑物中存在多個(gè)出口和動(dòng)態(tài)火災(zāi)隱患,因此疏散引導(dǎo)智能體需要選擇合適的目標(biāo)出口來(lái)逃生并避免火災(zāi)隱患造成的損害。傳統(tǒng)方法需要針對(duì)每種情況重新計(jì)算疏散路線(xiàn),并且只為固定出口提供靜態(tài)路徑。然而,火災(zāi)發(fā)生的地點(diǎn)是隨機(jī)的,同時(shí)多個(gè)出口會(huì)導(dǎo)致疏散路線(xiàn)動(dòng)態(tài)變化。

為了解決這些問(wèn)題,本文提出了一種APF-DQN算法來(lái)規(guī)劃到出口的疏散路徑。APF-DQN 將人工勢(shì)場(chǎng)方法融合到深度強(qiáng)化學(xué)習(xí)中,以計(jì)算最短疏散路徑并同時(shí)保持與火災(zāi)點(diǎn)的安全距離。此外,APF-DQN能夠在環(huán)境中的多個(gè)出口中自適應(yīng)地選擇合適的出口,并根據(jù)吸引力場(chǎng)和排斥力場(chǎng)的變化構(gòu)造獎(jiǎng)勵(lì)函數(shù),從而引導(dǎo)疏散引導(dǎo)智能體感知火災(zāi)的發(fā)展,選擇合適的出口并規(guī)劃疏散路線(xiàn)。

作者簡(jiǎn)介:

朱丹丹:博士,智能中心副教授,碩士生導(dǎo)師。目前主要研究方向是強(qiáng)化學(xué)習(xí)和數(shù)據(jù)挖掘。聯(lián)系方式:zhu.dd@cup.edu.cn