经典电视剧高清无广告播放网站 ,av免费网站_高清全集在线观看

您所在的位置:首頁 - 科學研究 - 科研動態(tài)

科研動態(tài)

基于非貫穿式張量劃分的協(xié)同推理加速

中文題目:基于非貫穿式張量劃分的協(xié)同推理加速

論文題目Collaborative Inference Acceleration with Non-Penetrative Tensor Partitioning

錄用期刊/會議2025 IEEE International Conference on Acoustics, Speech, and Signal Processing(CCF B)

原文鏈接:https://arxiv.org/abs/2501.04489

錄用時間:2024年12月21日

作者列表

1)劉志邦 中國石油大學(北京)人工智能學院 控制科學與工程專業(yè) 21

2)徐朝農 中國石油大學(北京)人工智能學院 計算機系教師

3呂振杰 中國石油大學(北京)人工智能學院 計算機科學與技術專業(yè)  22

4劉志卓 中國石油大學(北京)人工智能學院 先進科學與工程計算專業(yè) 22

5趙蘇豫 中國石油大學(北京)人工智能學院 計算機技術專業(yè) 22

摘要:

邊緣設備上進行大尺寸圖像推理通常受到計算資源的限制。目前,基于圖像劃分的協(xié)同推理解決這一問題的有效方案,即將大尺寸圖像劃分為多張子圖,并將每個子圖分配給不同的邊緣設備執(zhí)行推理。然而,各子圖劃分邊界的數(shù)據(jù)共享會帶來一定的通信開銷,導致額外的推理時延。為了解決這一問題,本文提出了一種非貫穿式張量劃分(Non-Penetrative Tensor Partitioning,NPTP)方案,通過最小化子圖劃分邊界的通信數(shù)據(jù)量來降低通信時延,進而減少整體推理延遲。我們在四種廣泛使用的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN模型上對NPTP進行了評估。實驗結果表明,與協(xié)同推理算法CoEdge相比,NPTP實現(xiàn)了1.44至1.68倍的推理加速。

背景與動機:

隨著邊緣計算和深度學習技術的普及,CNN在醫(yī)療、工業(yè)、交通等領域得到了廣泛應用。但其在部署和推理過程,面臨著推理的實時性需求以及設備計算與存儲資源受限等挑戰(zhàn)。針對以上問題,現(xiàn)有解決方案通常采用多設備協(xié)同推理方式。以圖1中的圖像分類應用為例,模型特征提取部分被復制并分別部署在設備 A、B 和 C 上。輸入圖像被貫穿式的劃三個部分,并分別輸入到這些設備中以生成三個特征圖。在分類階段,這三個特征圖將在某個設備(如圖中設備 B)上進行聚合,以完成剩余的分類任務。

image.png

1 基于圖像劃分的協(xié)同推理方案

然而,由于CNN模型特征提取層中的卷積操作是通過滑動窗口方式執(zhí)行計算的,如圖1所示,對原始圖像進行貫穿式劃分會導致某些設備在卷積過程中缺少完整的輸入數(shù)據(jù)。因此,保證推理結果的準確性,這些設備必須從相鄰設備獲取缺失的邊界圖像數(shù)據(jù)(也稱為共享數(shù)據(jù)),這一過程將會引入額外的設備間通信開銷。

設計與實現(xiàn):

通過非貫穿劃分方案,可以顯著減少設備間獲取子圖邊界數(shù)據(jù)而產生的通信開銷。圖2展示了在貫穿式和非貫穿劃分方案下的卷積計算過程。圖2(a)表示貫穿劃分的情況。其中,紅色和紫色方框分別表示卷積核在特征圖上滑動的兩個不同位置。假設卷積核的尺寸3×3,步長1。在滑動窗口位置1的計算過程中,設備A需要從設備B獲取特征圖的第3行數(shù)據(jù)。同樣,在滑動窗口位置2的計算過程中,設備B需要從設備C獲取特征圖的第5行數(shù)據(jù)。這種情況下,總共享數(shù)據(jù)量為24像素單位。

image.png

2 傳統(tǒng)劃分與非貫穿圖像劃分方案

在圖2(b)中,應用非貫穿劃分方案后,共享數(shù)據(jù)量減少到20像素單位,從而降低設備間通信開銷

主要內容:

image.png

3 多級圖像劃分流程

如圖3所示,步驟1從原始圖像中選擇高度或寬度維度進行劃分,得到子圖1,并將其指派到設備A作為輸入。步驟2對剩余的圖像部分進行劃分,得到子圖2,并將其指派到設備B。重復執(zhí)行此過程,直到整個圖像被劃分完成分配。該算法等效的實現(xiàn)了原始圖像貫穿劃分。每次生成的劃分方案被輸入到評估函數(shù)中,計算相應的推理延遲。從第二次得到的劃分方案開始,通過將當前生成的方案與上一次獲得的方案進行比較,并給出獎勵或懲罰,調整劃分位置。在完成預定義輪次的迭代,選擇獎勵值最高的方案作為最終的非貫穿式劃分方案。關于每輪獲取非貫穿劃分方案的詳細過程如算法1所示。

image.png

實驗結果及分析:

本研究采用三塊NVIDIA顯卡模擬邊緣設備集群,構建了NPTP方案的實驗原型系統(tǒng)。實驗選取不同類型的VGG網(wǎng)絡架構作為基準模型,這些模型在特征提取階段分別包含不同數(shù)量的卷積層,可有效驗證不同CNNNPTP下的表現(xiàn)。

4f711f61dbc2401b1fb6a40f8e5ca3f.png

4 NPTP 和 CoEdge 劃分方案在不同通信帶寬下的推理延遲

在設備帶寬范圍從0.1 MB/s到1.0 MB/s的場景下,這些網(wǎng)絡模型在CoEdge和 NPTP下的推理延遲如圖4所示。與CoEdge相比,NPTP在VGG11、VGG13、VGG16 和VGG19上分別實現(xiàn)了1.22-1.31倍、1.32-1.43倍、1.37-1.52倍和1.45-1.58倍的推理加速。NPTP在VGG19上的效果比其他三個模型更為顯著。這是因為VGG19含有更多的卷積層,導致在推理過程中減少了更多圖像劃分邊界的數(shù)據(jù)共享開銷。

05055286de5aa5c02507adc662d5324.png

5 四種 VGG 網(wǎng)絡在 NPTP 和 CoEdge 劃分方案下的通信數(shù)據(jù)量

為了對推理階段節(jié)省的通信開銷進行定量分析,對每一層卷積算子執(zhí)行計算時設備間通信量進行了研究。如圖5所示,與CoEdge相比,NPTP的通信量最多可減少1.32倍。在模型推理過程中,NPTP方案在每個卷積算子執(zhí)行計算時設備間的通信量始終低于CoEdge。兩種劃分方案的通信量變化趨勢大致相同。這是因為當輸入圖像的劃分方式確定后,每個子圖輸入相同的模型,并執(zhí)行相同的計算過程。

6ad52850ed08ded3e155f73b79d5ffc.png

6 NPTP和CoEdge 在不同尺寸圖像入時的推理延遲

由于NPTP方案主要應用于大尺寸圖像推理的場景。因此,研究不同輸入圖像尺寸下NPTP對模型推理延遲的改進效果是十分必要的。如圖6所示,NPTP在所有圖像尺寸下的推理延遲始終低于CoEdge,在VGG13和VGG16網(wǎng)絡上分別實現(xiàn)了1.44-1.68倍和1.47-1.64倍的推理加速。

結論:

本文提出了一種新穎的協(xié)作推理方案NPTP,通過非貫穿的劃分方式減少卷積運算過程中圖像劃分邊界的數(shù)據(jù)共享開銷進而實現(xiàn)推理加速。該方案設計了啟發(fā)式算法MPA,通過對原始圖像進行多級劃分并引入評估機制,獲得合理的劃分與指派方案。實驗結果表明,CoEdge相比NPTP實現(xiàn)了1.44-1.68倍的推理加速。

作者簡介:

徐朝農,中國石油大學(北京)人工智能學院教師,主要研究領域為邊緣智能、嵌入式系統(tǒng)、無線網(wǎng)絡。