中文題目:LASDTab:基于局部注意力和語義聯合解碼器的中文工程表格結構解析方法
論文題目:LASDTab: A Complex Chinese Engineering Table Parsing Method Based on Local Attention and Semantic-Aware Unified Decoder
錄用期刊/會議:The 2025 Twentieth International Conference on Intelligent Computing (CCF C)
錄用/見刊時間:2025.4.28
作者列表:
1)李曉雪 中國石油大學(北京)人工智能學院 碩23
2)王智廣 中國石油大學(北京)人工智能學院 計算機系教師
3)劉志強 中國石油大學(北京)人工智能學院 碩23
4)劉若冰 中國石油大學(北京)人工智能學院 碩24
5)周 靜 中國石油大學(北京)人工智能學院 碩22
6)魯 強 中國石油大學(北京)人工智能學院 計算機系教師
文章簡介:
當前方法應用于中文工程表格時,仍然面臨兩大核心問題。其一,中文工程表格往往包含數百個單元格,導致結構序列極為冗長,從而使模型在解析此類表格時難以取得理想效果。其二,表格解析通常涵蓋結構預測、單元格位置預測與單元格內容生成三個核心任務,這些任務在空間與語義層面緊密耦合,但現有方法多將其獨立建模,忽略了多任務之間的相互依賴性。針對上述兩個問題,本文開展了一系列研究工作。
摘要:
中文工程表格往往包含數百個單元格,并且在解析時需要將復雜的表格結構信息轉換為較長的序列表示,使得模型在解析此類表格時難以取得理想效果。此外,表格結構預測、單元格位置預測和單元格內容預測三個核心子任務在建模過程中通常相互獨立,當前的研究未能充分考慮其在空間結構與語義層面的緊密關聯。為應對上述難題,本文提出了一種基于局部注意力和語義感知聯合解碼器的復雜中文工程表格解析框架——LASDTab。
設計與實現:
首先,為了解決長表格問題,我們在結構解碼器中引入了一種局部注意力機制,該機制僅關注輸入序列中與當前位置鄰近的標記,在降低計算復雜度的同時,能夠捕獲重要的局部結構依賴。
傳統的Self-Attention機制的時空復雜度與文本的序列長度呈平方的關系,如圖1(a),這在很大程度上限制了模型的輸入不能太長。而局部注意力使用掩碼矩陣將注意力限制在一個窗口內,從而增強transformer對長序列的處理效率和準確性,如圖1(b)。
圖1 不同注意力機制的注意力范圍
其次,為了解決多任務建模分離問題,我們在語義感知聯合解碼器中,設計了一種語義信息驅動的聯合解碼機制。在聯合解碼過程中,內容生成過程中的隱藏狀態被映射到一個共享的語義空間,并與位置預測特征進行對齊,這種機制使位置預測模塊能夠直接從內容生成的語義信息中獲益,從而顯著提升其對單元格邊界的預測準確性。此外,我們通過結構解碼器的動態觸發機制,在每次解碼到結構標簽<td></td>時,激活聯合解碼器解析當前單元格的位置和內容,保證任務之間的時序一致性。整體模型結構圖如圖2所示。
圖2 模型結構圖
實驗結果及分析:
1、數據集
我們使用公共數據集 PubTabNet、FinTabNet,以及自建的 Long_PutTabNet 和 EGTabNet。Long_PutTabNet 是在 PubTabNet 的表結構中選取的具有 300 個以上結構標記的表圖像,共有 82,027 個表。EGTabNet是一個由多層嵌套實體關系構建的中文工程表數據集。
2、對比實驗結果及分析
表1展示了各模型在三個數據集上的實驗結果。從實驗結果可以看出,本文方法在所有數據集上的 S-TEDS 、AP50和 TEDS 指標均超過現有方法,充分驗證了其在復雜表格解析任務中的有效性。
表1 不同模型在表格解析任務中的 S-TEDS , TEDS和AP50 對比
結論:
我們提出了LASDTab,這是一個結合了局部注意力和語義感知聯合解碼器的新框架,用于增強表結構預測、單元格位置預測和單元格內容預測。局部注意機制提高了長且結構緊密的表的結構解碼精度,而SAUD通過共享注意力機制和語義對齊機制實現了單元位置和內容的聯合建模,確保了任務之間的一致性。在三個數據集上的實驗結果表明,LASDTab在TEDS、S-TEDS和AP50指標上顯著優于六種主流表解析方法。這些結果驗證了該方法在高效準確地解析復雜中文工程表中的有效性和魯棒性。未來的工作將進一步探索該模型對于多語言表格數據和跨域表解析的可擴展性。
作者簡介:
王智廣,教授,博士生導師,北京市教學名師。中國計算機學會(CCF)高級會員,全國高校實驗室工作研究會信息技術專家指導委員會委員,全國高校計算機專業(本科)實驗教材與實驗室環境開發專家委員會委員,北京市計算機教育研究會常務理事。長期從事分布式并行計算、三維可視化、計算機視覺、知識圖譜方面的研究工作,主持或承擔國家重大科技專項子任務、國家重點研發計劃子課題、國家自然科學基金、北京市教委科研課題、北京市重點實驗室課題、地方政府委托課題以及企業委托課題20余項,在國內外重要學術會議和期刊上合作發表學術論文70余篇,培養了100余名碩士博士研究生。