经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

科研動(dòng)態(tài)

一種基于遷移強(qiáng)化學(xué)習(xí)的目標(biāo)感知井眼軌跡控制方法

中文題目:一種基于遷移強(qiáng)化學(xué)習(xí)的目標(biāo)感知井眼軌跡控制方法

論文題目:A Target-Aware Well Path Control Method Based on Transfer Reinforcement Learning

錄用期刊/會(huì)議:SPE Journal (JCR Q1)

原文DOI:https://doi.org/10.2118/218409-PA

原文鏈接:https://doi.org/10.2118/218409-PA

錄用/見刊時(shí)間:2024/01/15

作者列表

1) 朱丹丹 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 智能中心 副教授

2) 許秋晗 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 研21

3) 王   菲 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 研19

4) 陳   冬 中國(guó)石油大學(xué)(北京)石油工程學(xué)院 油氣井工程系 副教授

5) 葉智慧 中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院 海洋油氣工程系 副教授

6) 周   昊 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 研21

7) 章   可 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 研21

文章簡(jiǎn)介:

井眼軌跡控制技術(shù)是指遵循預(yù)先設(shè)計(jì)好的井眼軌道,控制鉆頭的實(shí)際鉆進(jìn)方向,使得實(shí)際鉆進(jìn)軌跡盡可能地與預(yù)設(shè)井眼軌道貼合。在石油工程中,井眼軌跡控制技術(shù)對(duì)于鉆井質(zhì)量、采收效率及資金投入等方面具有至關(guān)重要的意義。目前,全球油氣勘探的趨勢(shì)正在朝著超深水、超深層、低滲透、非常規(guī)等方向發(fā)展,井眼軌跡控制技術(shù)迎來了巨大的挑戰(zhàn)。隨著油氣行業(yè)對(duì)采收率及鉆井成本要求的不斷提高,傳統(tǒng)井眼軌跡控制技術(shù)已然無法滿足復(fù)雜油氣藏在軌跡精度和鉆進(jìn)效率等方面的需求,井眼軌跡控制技術(shù)亟待突破。但是,隨著油氣藏復(fù)雜度的不斷提高,井眼軌跡控制技術(shù)正面臨著復(fù)雜油氣藏高溫、高壓及高陡等特點(diǎn)所帶來的嚴(yán)峻挑戰(zhàn)。同時(shí),鉆進(jìn)過程中的非線性、強(qiáng)干擾、高耦合、滯后性及時(shí)變性也為井眼軌跡控制技術(shù)帶來了很多棘手的問題。而大多數(shù)傳統(tǒng)井眼軌跡控制方法通常是基于空間幾何關(guān)系,結(jié)合某些線性化的約束和假設(shè)進(jìn)行構(gòu)建,無法對(duì)鉆進(jìn)過程進(jìn)行準(zhǔn)確的描述,與實(shí)際井眼軌跡控制工作有一定差距,智能化程度低。而現(xiàn)有的智能井眼軌跡控制技術(shù)也尚未成熟,僅在某一或特定環(huán)境下表現(xiàn)優(yōu)異,算法的抗干擾性和自適應(yīng)性還需要進(jìn)一步研究。

基于以上背景,本文聚焦于井眼軌跡跟蹤控制,針對(duì)實(shí)際鉆進(jìn)過程中存在的強(qiáng)干擾、非線性等問題,提出了一種基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的井眼軌跡自適應(yīng)跟蹤控制方法。該方法采用基于優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制的深度確定策略梯度(Deep Deterministic Policy Gradient,DDPG)模型,并通過遷移學(xué)習(xí)加速模型學(xué)習(xí),提高系統(tǒng)的泛化能力。該方法能夠在三維模擬鉆進(jìn)環(huán)境中精準(zhǔn)跟蹤預(yù)設(shè)軌道,并在不確定干擾約束下表現(xiàn)出優(yōu)秀的抗干擾性,準(zhǔn)確引導(dǎo)井眼軌跡到達(dá)靶區(qū)。同時(shí),該方法具備良好的自適應(yīng)能力,當(dāng)預(yù)設(shè)井眼軌道與實(shí)際隨鉆數(shù)據(jù)不符時(shí),能夠?qū)壽E控制決策進(jìn)行優(yōu)化,提高目標(biāo)油層的鉆遇率。

摘要:

在實(shí)際施工過程中,由于地質(zhì)因素、鉆井工具以及井眼擴(kuò)大等原因?qū)е戮鄄豢杀苊獾匕l(fā)生偏斜,井眼軌跡控制任務(wù)通常具有挑戰(zhàn)性。傳統(tǒng)的井眼軌跡控制方法大多側(cè)重于精細(xì)的物理模型構(gòu)建,這些方法通常建立在一定的約束或假設(shè)的基礎(chǔ)上,而它們準(zhǔn)確捕捉實(shí)際鉆井過程的能力有限、智能水平低、抗干擾性能差、自適應(yīng)能力弱。為了解決這些問題,本文提出了一種結(jié)合強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的目標(biāo)感知井眼軌跡控制方法,從而構(gòu)建了具有較強(qiáng)抗干擾能力的目標(biāo)感知井眼軌跡自適應(yīng)控制系統(tǒng)。本文提出的基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的井眼軌跡目標(biāo)感知控制方法,能夠在不同地質(zhì)環(huán)境下準(zhǔn)確跟蹤預(yù)定軌跡,高精度到達(dá)靶區(qū),在目標(biāo)軌跡與油藏實(shí)際分布不匹配的情況下,利用MWD進(jìn)行合理的軌跡優(yōu)化決策。該方法具有良好的抗干擾能力和自適應(yīng)能力。

背景與動(dòng)機(jī):

井眼軌跡控制在鉆完井工程中起著至關(guān)重要的作用。實(shí)際鉆井過程復(fù)雜,具有變異性和不確定性,因此井眼軌跡控制存在一定難度。在常規(guī)井眼軌跡控制方法中,研究的重點(diǎn)主要是建立經(jīng)驗(yàn)?zāi)P秃蛿?shù)值模型。然而,在實(shí)際鉆井過程中,由于具有較強(qiáng)的非線性、復(fù)雜性、時(shí)變性和不確定性等特點(diǎn),始終存在跟蹤誤差和粘滑振蕩等問題。

在井眼軌跡控制的背景下,實(shí)現(xiàn)最優(yōu)控制通常需要專家知識(shí)。利用人工智能的魯棒性,智能井眼軌跡控制算法可以實(shí)現(xiàn)更強(qiáng)的自適應(yīng)井眼軌跡控制。在地層條件復(fù)雜的實(shí)際油田中,自適應(yīng)方法最初可能需要專家知識(shí)的指導(dǎo)。通過不斷的學(xué)習(xí),系統(tǒng)可以逐漸掌握知識(shí),并將其應(yīng)用到類似的地質(zhì)環(huán)境中。本文提出的方法有望幫助鉆井人員完成更多的任務(wù),從而降低人工成本。

設(shè)計(jì)與實(shí)現(xiàn):

井眼軌跡控制本質(zhì)上是BHA的控制。為了實(shí)現(xiàn)井眼軌跡的實(shí)時(shí)高效控制,本文設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的目標(biāo)感知井眼軌跡控制系統(tǒng)。該系統(tǒng)在完成鉆井作業(yè)的同時(shí),能夠保持較強(qiáng)的抗干擾性和適應(yīng)性。本文定義了鉆井環(huán)境任務(wù)中的基本要素,包括狀態(tài)空間、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)。其整體系統(tǒng)結(jié)構(gòu)如圖1所示。


圖1 自適應(yīng)鉆井系統(tǒng)框架


如圖1所示,定向井軌道經(jīng)過設(shè)計(jì)而預(yù)先確定,隨后針對(duì)相關(guān)數(shù)據(jù)進(jìn)行計(jì)算,以獲得預(yù)先設(shè)置的井眼軌跡數(shù)據(jù)。本文以方位角和傾角作為描述井眼軌跡的物理量。在遷移學(xué)習(xí)部分,模型將目標(biāo)任務(wù)的狀態(tài)空間映射到源任務(wù)。當(dāng)前井眼軌跡傾角數(shù)據(jù)和預(yù)先設(shè)定的井眼軌跡數(shù)據(jù)作為DDPG網(wǎng)絡(luò)模型的輸入。在強(qiáng)化學(xué)習(xí)部分,鉆井智能體在與環(huán)境的交互中對(duì)策略進(jìn)行優(yōu)化,以獲得最大的獎(jiǎng)勵(lì)。隨后,模型將輸出源任務(wù)操作映射到目標(biāo)任務(wù)操作。通過這種方式,可以實(shí)現(xiàn)井眼軌跡的實(shí)時(shí)跟蹤和控制。整個(gè)系統(tǒng)通過隨鉆測(cè)量實(shí)現(xiàn)信號(hào)反饋,并實(shí)時(shí)調(diào)整DDPG神經(jīng)網(wǎng)絡(luò)模型參數(shù),最終生成井眼軌跡。通過重用源任務(wù)生成的知識(shí)來完成目標(biāo)任務(wù)。當(dāng)測(cè)井?dāng)?shù)據(jù)與實(shí)際隨鉆數(shù)據(jù)不符時(shí),系統(tǒng)可以通過遷移學(xué)習(xí)重新利用過去的知識(shí)來規(guī)劃合適的井眼軌跡。在此過程中,鉆井策略自適應(yīng)調(diào)整以達(dá)到目標(biāo)儲(chǔ)層,確保有效跟蹤預(yù)設(shè)的井眼軌跡。

主要內(nèi)容:

1. 井眼軌跡跟蹤控制問題形式化

為了通過強(qiáng)化學(xué)習(xí)解決井道控制問題,本文首先將問題形式化,將其轉(zhuǎn)化為三個(gè)部分:定義智能體的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。

狀態(tài)空間如下所示:

本文將aω與aγ作為DDPG模型的井眼軌跡控制動(dòng)作。考慮到真實(shí)BHA的工具限制,定義ω方向的控制動(dòng)作aω的取值范圍為[0,π/2],定義γ方向的控制動(dòng)作的aγ取值范圍為[0,2π]。


圖2 井眼軌跡控制過程


為了構(gòu)建具備自適應(yīng)能力的井眼軌跡跟蹤控制模型,新獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)如下:

其中,R1為單步獎(jiǎng)勵(lì),R2為回合獎(jiǎng)勵(lì)。R1的計(jì)算由兩部分組成:

其中,r1代表對(duì)預(yù)設(shè)軌跡的跟蹤獎(jiǎng)勵(lì),r2代表在目標(biāo)油層中行進(jìn)的獎(jiǎng)勵(lì),λ作為調(diào)節(jié)兩獎(jiǎng)勵(lì)權(quán)重的系數(shù)。r1與r2獎(jiǎng)勵(lì)的計(jì)算公式如下所示:



獎(jiǎng)勵(lì)R2是回合獎(jiǎng)勵(lì),其設(shè)置的目的是為了激勵(lì)智能體到達(dá)靶區(qū),其計(jì)算公式如下:

2. 基于DDPG的井眼軌跡控制模型

本文所建立的DDPG模型的輸入向量維度為5,為當(dāng)前井眼軌跡井斜數(shù)據(jù)及預(yù)設(shè)井眼軌道數(shù)據(jù)。模型的輸出為作用于BHA的方位角和傾斜角。建立的DDPG模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。



圖3 DDPG網(wǎng)絡(luò)模型


考慮到井眼軌跡跟蹤控制系統(tǒng)的復(fù)雜性,為了進(jìn)一步提高DDPG模型的訓(xùn)練效率與穩(wěn)定性,本文對(duì)DDPG模型進(jìn)行了改進(jìn),摒棄了傳統(tǒng)經(jīng)驗(yàn)回放的隨機(jī)采樣機(jī)制,采用了一種基于優(yōu)先級(jí)的經(jīng)驗(yàn)回放機(jī)制。

在本文所設(shè)計(jì)的基于優(yōu)先級(jí)的經(jīng)驗(yàn)回放機(jī)制中,經(jīng)驗(yàn)的抽樣并非隨機(jī)從經(jīng)驗(yàn)池中進(jìn)行抽取,經(jīng)驗(yàn)抽樣的概率分布如下所示:


3. 控制策略遷移學(xué)習(xí)

基于遷移學(xué)習(xí)的DDPG模型需要解決的是如何將源領(lǐng)域的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)遷移到目標(biāo)領(lǐng)域的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。

對(duì)于策略網(wǎng)絡(luò),其定義為,即對(duì)于當(dāng)前狀態(tài)輸出一個(gè)確定性動(dòng)作。從本質(zhì)而言,策略網(wǎng)絡(luò)是一個(gè)非線性策略逼近器,用于對(duì)策略模型π(a|s)進(jìn)行逼近。因此,對(duì)策略網(wǎng)絡(luò)的遷移實(shí)質(zhì)上是對(duì)源領(lǐng)域的狀態(tài)-動(dòng)作關(guān)系進(jìn)行遷移。策略網(wǎng)絡(luò)具體的遷移過程如圖4所示。


圖4 策略網(wǎng)絡(luò)遷移過程

實(shí)驗(yàn)結(jié)果及分析:

為了驗(yàn)證基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的井眼軌跡跟蹤控制算法的有效性,測(cè)試算法的抗干擾能力與自適應(yīng)能力,本文設(shè)計(jì)了井眼軌跡跟蹤實(shí)驗(yàn)、抗干擾實(shí)驗(yàn)及自適應(yīng)實(shí)驗(yàn)。


1. 井眼軌跡跟蹤實(shí)驗(yàn)

圖5為基于隨機(jī)經(jīng)驗(yàn)重放的DDPG模型收斂后的井眼軌跡對(duì)比圖。紅色軌跡代表預(yù)先設(shè)定的井眼軌跡,藍(lán)色軌跡代表實(shí)際井眼軌跡。圖6為井眼軌跡水平投影對(duì)比圖,其中橫軸為東西方向位移,縱軸為南北方向位移。圖7為井眼軌跡垂直投影對(duì)比圖,其中橫軸為視平移,縱軸為垂深。



圖5 基于RER的DDPG模型井眼軌跡比較

圖6 基于RER的DDPG模型的水平投影圖

圖7 基于RER的DDPG模型的垂直投影圖


同理,圖8、圖9、圖10分別為基于優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制的DDPG模型在收斂后的井眼軌跡對(duì)比圖、井眼軌跡水平投影對(duì)比圖、井眼軌跡垂直投影對(duì)比圖。



圖8 基于PER的DDPG模型井眼軌跡比較

圖9 基于PER的DDPG模型的水平投影圖

圖10 基于PER的DDPG模型的垂直投影圖


可以看出,在收斂后兩模型的跟蹤效果基本一致,均能完成對(duì)預(yù)設(shè)井眼軌道的跟蹤任務(wù)。

為了進(jìn)一步對(duì)比兩模型的訓(xùn)練效率與跟蹤性能,驗(yàn)證基于優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制的優(yōu)化效果,本文采用最大偏移距離對(duì)兩模型進(jìn)行對(duì)比評(píng)估。圖11為兩模型的訓(xùn)練效果對(duì)比圖。

圖11 兩模型訓(xùn)練結(jié)果


兩模型最終都能達(dá)到收斂,且收斂后的最大偏移距離基本一致,都在1.5米左右。但基于優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制的DDPG模型的訓(xùn)練效率明顯優(yōu)于基于隨機(jī)經(jīng)驗(yàn)回放機(jī)制的DDPG模型。在本實(shí)驗(yàn)中,基于優(yōu)先級(jí)的經(jīng)驗(yàn)回放機(jī)制的訓(xùn)練效率約為隨機(jī)經(jīng)驗(yàn)回放機(jī)制的兩倍。


2.抗干擾實(shí)驗(yàn)

考慮到鉆頭和巖石之間的相互作用具有強(qiáng)烈的不確定性,本實(shí)驗(yàn)在鉆進(jìn)模型與地質(zhì)模型之間采用了隨機(jī)相互作用模型,該模型會(huì)導(dǎo)致角速度響應(yīng)的隨機(jī)結(jié)果,從而引發(fā)井眼軌跡控制的一定偏差。

對(duì)基于遷移學(xué)習(xí)的井眼軌跡自適應(yīng)跟蹤控制算法進(jìn)行抗干擾訓(xùn)練,圖12為算法收斂后的井眼軌跡跟蹤情況。圖13為井眼軌跡水平投影對(duì)比圖,圖14為井眼軌跡垂直投影對(duì)比圖。

圖12 干擾約束下的井眼軌跡

圖13 干擾約束下的井眼軌跡水平投影圖

圖14 干擾約束下的井眼軌跡垂直投影圖


為了更加貼近實(shí)際工程,本實(shí)驗(yàn)增加了中靶率這一評(píng)價(jià)指標(biāo)。在井眼軌跡跟蹤控制算法的訓(xùn)練過程中,對(duì)每100條鉆進(jìn)軌跡進(jìn)行中靶率計(jì)算。



圖15 干擾約束下的井眼軌跡最大偏移距離

圖16 干擾約束下的中靶率


在不確定干擾的約束下,井眼軌跡跟蹤控制算法在15000步左右逐漸收斂。收斂后的井眼軌跡跟蹤控制算法的井眼軌跡最大偏移距離為3m左右,中靶率約為97%。實(shí)驗(yàn)結(jié)果表明,基于遷移學(xué)習(xí)的井眼軌跡自適應(yīng)跟蹤控制算法具備良好的抗干擾能力,能夠在干擾約束下完成較高精度的軌跡跟蹤任務(wù),成功引導(dǎo)井眼軌跡到達(dá)地層中的靶區(qū)。


3.自適應(yīng)實(shí)驗(yàn)

本文在原有的三維模擬鉆進(jìn)環(huán)境中,在部分地質(zhì)區(qū)塊中加入了偏移處理。在鉆進(jìn)過程中,由于偏移處理,地層形態(tài)會(huì)隨機(jī)發(fā)生細(xì)微變動(dòng),從而模擬目標(biāo)軌跡與地層實(shí)際分布不一致的情況。

圖17 自適應(yīng)井眼軌跡


如圖17所示,實(shí)際的井眼軌跡在偏移地質(zhì)區(qū)塊中與目標(biāo)井眼軌跡產(chǎn)生了一定的偏離,而在非偏移地質(zhì)區(qū)塊中與目標(biāo)井眼軌跡保持一致。

為了進(jìn)一步分析井眼軌跡自適應(yīng)跟蹤控制算法的優(yōu)化效果,本實(shí)驗(yàn)采用鉆遇率這一指標(biāo)進(jìn)行評(píng)估。通過對(duì)比目標(biāo)井眼軌跡與實(shí)際鉆進(jìn)軌跡的鉆遇率,從而驗(yàn)證井眼軌跡控制算法的自適應(yīng)能力。



圖18 鉆遇率對(duì)比


結(jié)果表明,基于遷移學(xué)習(xí)的井眼軌跡自適應(yīng)跟蹤控制算法有效提高了鉆遇率,相比于目標(biāo)井眼軌跡,實(shí)際井眼軌跡的鉆遇率約提高10%。由此可知,井眼軌跡自適應(yīng)跟蹤控制算法能夠在鉆進(jìn)過程中根據(jù)測(cè)量到的隨鉆數(shù)據(jù),進(jìn)行自適應(yīng)決策,優(yōu)化井眼軌跡,提高目標(biāo)油層的鉆遇率。

結(jié)論:

本文提出了一種基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的自適應(yīng)井眼軌跡跟蹤控制方法。基于優(yōu)先體驗(yàn)重放機(jī)制的DDPG算法可以根據(jù)井斜數(shù)據(jù)實(shí)時(shí)控制井眼軌跡,完成高精度的井眼軌跡跟蹤任務(wù)。此外,遷移學(xué)習(xí)通過映射技術(shù)轉(zhuǎn)移知識(shí),提高了模型的學(xué)習(xí)效率和泛化能力。

該算法在三維模擬鉆井環(huán)境中進(jìn)行了訓(xùn)練和測(cè)試。本文利用隨機(jī)生成的地質(zhì)塊作為鉆井環(huán)境,基于不確定性干擾機(jī)制。這種方法模擬了不同的鉆井環(huán)境,為算法自適應(yīng)訓(xùn)練提供了一個(gè)高效的平臺(tái)。實(shí)驗(yàn)結(jié)果表明,所提出的自適應(yīng)井眼軌跡跟蹤控制方法具有良好的抗干擾能力和自適應(yīng)能力。通過算法的智能決策能力,可以規(guī)劃出適合實(shí)際需求的井眼軌跡。該算法的反饋還可以幫助鉆井人員評(píng)估情況。本文提出的方法有助于解決實(shí)際井眼軌跡跟蹤控制技術(shù)面臨的挑戰(zhàn),為智能井眼軌跡跟蹤控制提供了新的思路。

作者簡(jiǎn)介:

朱丹丹,博士,智能中心副教授,碩士生導(dǎo)師。目前主要研究方向是強(qiáng)化學(xué)習(xí)和數(shù)據(jù)挖掘。聯(lián)系方式:zhu.dd@cup.edu.cn