经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

您所在的位置:首頁 - 科學(xué)研究 - 科研動態(tài)

科研動態(tài)

類不平衡問題的距離映射重疊復(fù)雜度度量

中文題目:類不平衡問題的距離映射重疊復(fù)雜度度量

論文題目:Distance Mapping Overlap Complexity Metric for Class-Imbalance Problems

錄用期刊/會議:【Applied Soft Computing】 (中科院大類1區(qū),JCR Q1 Top)

原文DOIhttps://doi.org/10.1016/j.asoc.2024.111904

原文鏈接:

https://www.sciencedirect.com/science/article/pii/S1568494624006781

錄用/見刊時間:2024.06.21

封面圖片:



作者列表

1) 代琪 中國石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 博20

2) 劉建偉 中國石油大學(xué)(北京)人工智能學(xué)院 自動化系 教師

3) 施永輝 華北理工大學(xué) 理學(xué)院

摘要:

類不平衡問題的數(shù)據(jù)復(fù)雜度是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)。經(jīng)典的數(shù)據(jù)復(fù)雜性度量方法使用kNN等技術(shù),計算每個樣本的最近鄰。但是,基于kNN的方法獲取所有樣本的最近鄰是一個NP難問題,不利于大規(guī)模數(shù)據(jù)復(fù)雜度計算。為了解決這個問題,分別從全局和局部兩個角度提出四種距離映射復(fù)雜度度量方法,將這類復(fù)雜度稱為距離映射重疊指數(shù)(DMOI)。首先,使用馬氏距離或標(biāo)準(zhǔn)化歐氏距離計算樣本到數(shù)據(jù)集中心點(diǎn)的距離,并按照每個樣本的距離大小排序。然后,根據(jù)有序標(biāo)簽向量,遍歷搜索每一類的映射割點(diǎn)數(shù)。最后,根據(jù)不同類的映射割點(diǎn)數(shù),計算數(shù)據(jù)集的DMOI。在50個類不平衡數(shù)據(jù)集上的實驗表明,提出的方法優(yōu)于最新的針對類不平衡問題的復(fù)雜度度量方法。雖然對于基于規(guī)則或樹的分類器,DMOI與ONB相比,仍然存在差距,但是,使用皮爾遜相關(guān)系數(shù)表明,DMOI能夠有效地近似ONB,且它們之間存在強(qiáng)正相關(guān)性。

背景與動機(jī):

數(shù)據(jù)的復(fù)雜性度量方法致力于評估訓(xùn)練數(shù)據(jù)集復(fù)雜程度。類重疊問題是影響分類器的重要數(shù)據(jù)問題之一。目前的研究表明,當(dāng)數(shù)據(jù)集中類重疊和類不平衡問題同時存在時,分類器的性能將會受到嚴(yán)重的影響。對于數(shù)據(jù)集的重疊程度的度量方法并未形成統(tǒng)一的標(biāo)準(zhǔn)度量方法。

特征重疊度度量方法主要是衡量個體特征之間的重疊程度。在使用這類重疊度度量方法之前,我們默認(rèn)特征之間是不存在相關(guān)性的。然而,這樣的情況在實際應(yīng)用中并不多見。結(jié)構(gòu)重疊度量方法主要是搜索數(shù)據(jù)集中的結(jié)構(gòu)特征估計數(shù)據(jù)集的類重疊程度。然而,傳統(tǒng)的結(jié)構(gòu)重疊度度量方法主要是通過暴力搜索的方式,遍歷整個數(shù)據(jù)集。當(dāng)面臨大規(guī)模數(shù)據(jù)集時,暴力搜索并不可取。通常我們認(rèn)為樣本之間的相似性或距離越小,則樣本之間越容易出現(xiàn)類重疊問題。

在重疊度度量方法中,通過使用距離函數(shù)映射的方式,搜索數(shù)據(jù)集中存在的重疊問題。在距離映射向量上,如果不同類的樣本交織在一起,則表明它們更有可能位于相同的區(qū)域中。因此,首次使用距離映射的方式,提出一種估計數(shù)據(jù)集的全局類重疊復(fù)雜度的方法。通過移除數(shù)據(jù)集的某一個特征,從理論上證明了數(shù)據(jù)集的特征子空間中,仍然存在潛在的重疊問題。為了避免忽略特征之間的相關(guān)性,我們進(jìn)一步提出一種從局部特征子空間的角度估計數(shù)據(jù)集的類重疊程度的方法。

設(shè)計與實現(xiàn):

提出的距離映射重疊復(fù)雜度度量(DMOI)的示意圖如下所示。



主要內(nèi)容:

在提出的DMOI方法中,主要分為三個階段:距離映射與排序、映射割點(diǎn)數(shù)計算和重疊指數(shù)計算。注意,MDOI和SEDMOI兩種方法除了距離度量方法存在差異之外,其具有相同的計算過程。

在第一階段中,計算數(shù)據(jù)集中的所有樣本的距離值,并獲取整個數(shù)據(jù)集的有序距離向量。

第二階段,根據(jù)有序距離向量中樣本的原始索引值,記錄有序距離向量中樣本的標(biāo)簽信息。根據(jù)標(biāo)簽索引與有序距離向量對應(yīng),獲得樣本的有序標(biāo)簽向量。然后,根據(jù)有序標(biāo)簽向量計算數(shù)據(jù)集中每個類的樣本的映射割點(diǎn)數(shù)。

第三階段,分別提出全局距離映射重疊指數(shù)(DMOI-G)和局部距離映射重疊指數(shù)(DMOI-L)。

實驗結(jié)果及分析:

在50個不平衡數(shù)據(jù)集上進(jìn)行對比實驗,并計算分類結(jié)果與復(fù)雜度度量方法之間的皮爾遜相關(guān)系數(shù),實驗結(jié)果如下所示。

不同評估度量與復(fù)雜度度量方法之間的皮爾遜相關(guān)系數(shù):





(a)G-mean (b)Kappa





(c)AUC (d)MCC

圖1 不同評估度量與復(fù)雜度度量之間的皮爾遜相關(guān)系數(shù)

復(fù)雜度之間的相關(guān)性如下所示:

表1 復(fù)雜度度量之間的相似性



結(jié)論:

DMOI是一種快速的數(shù)據(jù)重疊復(fù)雜度度量方法,在該方法中,根據(jù)不同的距離函數(shù),提出兩種復(fù)雜度度量方法。為了考慮數(shù)據(jù)集中樣本間的相關(guān)性,使用局部多粒度子空間思想,從全局和局部兩個視角,全面評估數(shù)據(jù)集的復(fù)雜程度。實驗結(jié)果表明,DMOI計算獲得的數(shù)據(jù)重疊程度與非規(guī)則歸納分類器的性能呈現(xiàn)強(qiáng)負(fù)相關(guān)性,而對于規(guī)則歸納分類器而言,ONBavg的近似能力更好。此外,ONBavg的計算復(fù)雜度較高,不適合在大規(guī)模數(shù)據(jù)集上使用。實驗結(jié)果表明,DMOI系列的方法能夠有效地近似ONBavg的計算結(jié)果,并且呈現(xiàn)出明顯的正相關(guān)性。

作者簡介:

代琪 自動化系2020級博士研究生。

通訊作者簡介:

劉建偉,教師,學(xué)者。