经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

您所在的位置:首頁 - 科學(xué)研究 - 科研動態(tài)

科研動態(tài)

動態(tài)學(xué)習環(huán)境中遷移專家場景的PlipPlop算法

中文題目:動態(tài)學(xué)習環(huán)境中遷移專家場景的PlipPlop算法 

論文題目:The PlipPlop algorithm for migrating expert scenarios in dynamic learning environments

錄用期刊/會議:CCC2025 (CAA A類會議)

錄用時間:2025.1.2

作者列表

1)宋宇 中國石油大學(xué)(北京)人工智能學(xué)院 自動化系 教師

2)周佳佳 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 研18級

3)代思怡 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 研23級

4)劉建偉 中國石油大學(xué)(北京)人工智能學(xué)院 自動化系 教師

摘要:

首先,我們選擇相對熵損失函數(shù)作為自適應(yīng)權(quán)值動態(tài)更新工具,用于獲取遷移專家學(xué)習場景的后悔上界。 其次,參考在線觸發(fā)器算法的討論,推導(dǎo)了如何自適應(yīng)地動態(tài)調(diào)整學(xué)習速率。我們也得到了學(xué)習率的上界。 最后將學(xué)習率的上界轉(zhuǎn)化為后悔函數(shù)的上界,討論了如何在后悔函數(shù)上得到一個更小的上界,實現(xiàn)超參數(shù)的自適應(yīng)調(diào)整。 

主要內(nèi)容:

定理:假定, ,

f615e892f796aa4a6c634e819cccee0.png

這里,

Theorem 10: 假定, 權(quán)重563419d4b174a8881fb5d0050f7f151.png 服從: 

這里

比較序列d69a463751742e6fe22980854f9f368.png具有k次遷移: 

權(quán)值更新算法

具有下列后悔上界:

這里,

 

結(jié)論:

本文將2014年De Rooij等人提出的在線觸發(fā)器算法應(yīng)用于遷移專家,討論了學(xué)習率的優(yōu)化和調(diào)整對學(xué)習效果的影響。遷移專家場景在不同的區(qū)域有不同的模型,所以我們首先使用混合權(quán)重更新公式來討論在線學(xué)習中的遷移場景,通過混合前一刻的權(quán)重,很大程度上可以減少遷移帶來的損失,從而得到一個新的誤差上界。混合權(quán)重更新公式可以解決稀疏復(fù)雜模型的問題,該方法對許多真實數(shù)據(jù)集非常有效。同時,考慮到在遷移場景中,很難在不同的學(xué)習階段給出一個最優(yōu)的學(xué)習速率,在線觸發(fā)器算法可以通過調(diào)整相同概率分布產(chǎn)生的數(shù)據(jù)或不同概率分布產(chǎn)生的數(shù)據(jù)的學(xué)習率來獲得更好的學(xué)習效果,因此,觸發(fā)器算法為本文的討論提供了完整的理論基礎(chǔ)。我們討論了損失函數(shù)和近似損失函數(shù)之間的差來設(shè)置學(xué)習率的切換條件,學(xué)習率可以實時地選擇和切換,以實現(xiàn)遷移專家場景中學(xué)習率的調(diào)整。實驗結(jié)果進一步驗證了將觸發(fā)器算法應(yīng)用于遷移專家在線學(xué)習,可以獲得更小的后悔上界。

作者簡介:

劉建偉,教師。