经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

您所在的位置:首頁 - 科學(xué)研究 - 科研動態(tài)

科研動態(tài)

帶變量標(biāo)識符的多變量長程魯棒預(yù)測模型

中文題目:帶變量標(biāo)識符的多變量長程魯棒預(yù)測模型

論文題目:An Enhanced Multivariate long-term Time Series Robust Forecasting Model with Distinguishable Variable Identifier

錄用期刊/會議:中國自動化大會 CAA A類會議)

錄用時間:2024.9.19

作者列表

1) 何洋洋 中國石油大學(xué)(北京)人工智能學(xué)院 控制工程 研22級

2) 劉建偉 中國石油大學(xué)(北京)人工智能學(xué)院 自動化系 教師

摘要:

最近,在多變量長期序列預(yù)測領(lǐng)域,線性模型受益于通道獨(dú)立性(CI)的訓(xùn)練策略,表現(xiàn)優(yōu)于之前大多數(shù)基于transformer的模型,并質(zhì)疑注意力機(jī)制捕捉時間依賴性的能力。為了重新獲得Transformer的主導(dǎo)地位,我們進(jìn)一步改進(jìn)了基于塊的Transformer模型,但也有文章指出基于CI設(shè)計的模型存在空間不可區(qū)分的缺陷。為了解決這個問題,我們專門為Transformer模型設(shè)計了變量標(biāo)識符(VD),賦予它變量區(qū)分能力。而且,我們學(xué)習(xí)到的變量標(biāo)識符還可以大致描述變量之間的相似度。此外,為了提高模型抵抗數(shù)據(jù)噪聲干擾的能力,防止模型發(fā)生過擬合噪聲,采用了一種新的損失函數(shù),融合了MSE和MAE損失函數(shù)的優(yōu)點。為了進(jìn)一步提高模型的性能,同時不增加額外的計算量,受計算機(jī)視覺的啟發(fā),設(shè)計了一種多尺度CNN結(jié)構(gòu)。該模型優(yōu)于最近提出的線性模型和基于transformer的SOTA模型,在廣泛使用的開源數(shù)據(jù)集上的廣泛實驗表明,與最先進(jìn)的方法相比,該模型的性能最高提高了4.4%。

背景與動機(jī):

時間序列預(yù)測作為常見的時間序列任務(wù)之一,包括但不限于時間序列的分類、預(yù)測、填充和異常檢測,廣泛應(yīng)用于能源、農(nóng)業(yè)、工業(yè)、金融等領(lǐng)域,旨在通過過去的歷史序列預(yù)測一個時間步(單步預(yù)測)或多個時間步(多步預(yù)測)的未來序列值。時間序列預(yù)測有著悠久的歷史。近年來,由于深度學(xué)習(xí)方法無需人工特征的端到端訓(xùn)練優(yōu)勢,基于深度學(xué)習(xí)的時間序列預(yù)測方法逐漸成為主流?;谏疃葘W(xué)習(xí)的長期時間序列預(yù)測方法主要包括RNN(如LSTM、GRU)、CNN、Transformer等。

盡管模型結(jié)構(gòu)越來越復(fù)雜,但令人驚訝的是,單層線性模型在預(yù)測精度方面優(yōu)于幾乎所有更復(fù)雜的基于transformer的模型,并且具有極簡的模型結(jié)構(gòu),這使其成為一個強(qiáng)大的基線模型。這讓人們開始思考時間序列預(yù)測是否需要復(fù)雜的Transformer模型,這也啟發(fā)人們設(shè)計更多基于mlp的模型來代替Transformer,如TS-mixer,這是谷歌的MLP-Mixer模型在時間序列預(yù)測中的一個成功應(yīng)用。最近,由Nie等人提出的基于transformer的模型PatchTST對時間序列進(jìn)行單獨(dú)的patch(類似于計算機(jī)視覺中的Vit),并使用實例歸一化方法來大大提高預(yù)測結(jié)果,以應(yīng)對zheng等人提出的問題。Lin等人也利用了補(bǔ)丁和多步并行預(yù)測技術(shù)來獲得良好的性能。PatchTST雖然效果較好,但對不同信道的時間序列采用信道獨(dú)立(CI)和參數(shù)共享的策略,導(dǎo)致存在空間不可區(qū)分的缺陷。解決這個問題的一個自然的想法是分別對不同的特征變量序列進(jìn)行建模,但這將導(dǎo)致O(C)的計算復(fù)雜度,其中C代表整個輸入的時間序列(通道)的數(shù)量,我們使用的數(shù)據(jù)集最大有321個特征,這不僅消耗大量的資源,而且實驗效果有時比單個模型整體的效果更差。Shao等人提出通過附加身份信息很好地解決了這個問題。然而,該模型過于簡單,擬合能力不足,且嵌入操作會導(dǎo)致隱藏層維數(shù)成倍增加,并可能耗費(fèi)不必要的計算資源。在本文中,以類似于位置嵌入的方式將變量身份信息融入到嵌入(VD)表示中可以緩解這一問題,盡管Chen等人對線性模型的時間序列預(yù)測能力進(jìn)行了理論分析,表明線性模型在捕獲線性依賴方面仍然具有明顯的優(yōu)勢,但我們將通過實驗表明,VD信息的直接添加對基于transformer的模型比線性模型更友好。此外,雖然Shao等人也將時間不可區(qū)分性作為模型性能的關(guān)鍵瓶頸,但對于長期時間序列,歷史窗口越長,發(fā)生該問題的可能性越小,因此本文不考慮該問題。

主要內(nèi)容:

針對多變量時間序列預(yù)測中的空間不可區(qū)分問題,設(shè)計了一種新的VD (learnable channel embedding)嵌入方法。為了提高模型的魯棒性,采用Huber損失函數(shù)來克服MSE損失函數(shù)對異常值過于敏感的缺點。 本文嘗試設(shè)計一種多尺度CNN變體來提取多尺度特征。 本文提供了一個關(guān)于補(bǔ)丁嵌入的新視角和解釋。實驗表明,該設(shè)計顯著提高了模型性能,在71%的實驗中達(dá)到了最先進(jìn)的性能。

圖片1.png

圖1 模型結(jié)構(gòu)

該模型包括一個抵抗分布偏移的REVIN、一個多尺度CNN、一個特別設(shè)計的變量標(biāo)識符,以及一個具有殘差注意力分?jǐn)?shù)的增強(qiáng)transformer。

結(jié)論:

在本文中,為了突破以往模型的性能瓶頸,創(chuàng)新性地設(shè)計了變量標(biāo)識符,使模型能夠有效區(qū)分不同變量。提出了一種CNN風(fēng)格的嵌入,并從趨勢-季節(jié)分解提供了一個新的分析視角來解釋為什么多尺度CNN是有效的。此外,我們重新設(shè)計了損失函數(shù),以減輕噪聲數(shù)據(jù)的影響。實驗結(jié)果表明,該模型在大部分實驗中取得了較好的效果。

作者簡介:

劉建偉,教師,學(xué)者。