編者按:近年大熱的機器人流程自動化(Robotic Process Automation, RPA)利用 AI 技術將人們從繁雜的電子文檔處理任務中解放出來,其中最關鍵就是自動文檔分析與識別技術。面對大量無標注電子文檔,現(xiàn)有的大規(guī)模預訓練語言模型能夠在預訓練階段有效捕捉文本中蘊含的語義信息,但忽視了文檔中的視覺結(jié)構(gòu)信息。微軟亞洲研究院近日發(fā)布了結(jié)合文檔結(jié)構(gòu)信息和視覺信息的通用文檔預訓練模型 LayoutLM,在表單理解、票據(jù)理解、文檔圖像分類等任務的測試中均取得了目前的最佳成績,模型、代碼和論文都已開放下載。
隨著許多行業(yè)的數(shù)字化轉(zhuǎn)型,電子商業(yè)文檔的結(jié)構(gòu)化分析和內(nèi)容提取成為一項熱門的研究課題。電子商業(yè)文檔通常包括兩大類:一類是紙質(zhì)文檔的掃描圖像件,另一類是計算機生成的數(shù)字文檔,這些文檔涵蓋采購單據(jù)、行業(yè)報告、商務郵件、銷售合同、雇傭協(xié)議、商業(yè)發(fā)票、個人簡歷等。
一般來說,電子商業(yè)文檔包含了公司對于內(nèi)部和外部事物的處理細節(jié),具有大量與行業(yè)相關的實體信息和數(shù)字信息。在過去,電子商業(yè)文檔的信息處理一般由人工來完成,然而,人工信息提取不僅耗時費力,可復用性也不高,大大限制和阻礙了企業(yè)運行效率。因此,電子文檔的自動精準快速處理對于企業(yè)生產(chǎn)力提升至關重要,這也促使了一些新興行業(yè)的出現(xiàn),幫助傳統(tǒng)行業(yè)進行數(shù)字化轉(zhuǎn)型,提高生產(chǎn)力。
近年來,機器人流程自動化(Robotic Process Automation, RPA)應運而生,正是利用人工智能技術幫助大量人力從繁雜的電子文檔處理任務中解脫出來,提供了一系列配套的自動化工具提升企業(yè)生產(chǎn)力。其中,最為關鍵的核心技術就是自動文檔分析與識別技術。
傳統(tǒng)的文檔分析和識別技術往往基于人工定制的規(guī)則或少量標注數(shù)據(jù)進行學習,這些方法雖然能夠帶來一定程度的性能提升,但由于定制規(guī)則和可學習的樣本數(shù)量不足,其通用性往往不盡如人意,針對不同類別文檔的分析遷移成本較高。
隨著深度學習預訓練技術的發(fā)展,以及大量無標注電子文檔的積累,文檔分析與識別技術進入了一個全新的時代。大量的研究成果表明,大規(guī)模預訓練語言模型能夠通過自監(jiān)督任務在預訓練階段有效捕捉文本中蘊含的語義信息,經(jīng)過下游任務微調(diào)后能有效地提升模型效果。然而,現(xiàn)有的預訓練語言模型主要針對文本單一模態(tài)進行,而忽視了文檔本身與文本天然對齊的視覺結(jié)構(gòu)信息。
為了解決這一問題,我們提出了一種通用文檔預訓練模型 LayoutLM,對文檔結(jié)構(gòu)信息(Document Layout Information)和視覺信息(Visual Information)進行建模,讓模型在預訓練階段進行多模態(tài)對齊。我們在三個不同類型的下游任務中進行驗證:表單理解(Form Understanding),票據(jù)理解(Receipt Understanding),以及文檔圖像分類(Document Image Classification)。
實驗結(jié)果表明,我們在預訓練中引入的結(jié)構(gòu)和視覺信息,能夠有效地遷移到下游任務中。最終在三個下游任務中都取得了顯著的準確率提升,具體來說:
1)在表單理解任務中,我們的方法相比較于僅使用文本預訓練的模型提升8.5個百分點;
2)在票據(jù)理解任務中,我們的方法比ICDAR 2019票據(jù)信息抽取比賽第一名的方法提升1.2個百分點[1];
3)在文檔圖像分類任務中,我們的方法比目前公開發(fā)表的最好結(jié)果提升1.3個百分點[2]。
目前,預訓練模型和代碼都已經(jīng)開放下載:
-
代碼鏈接:
https://github.com/microsoft/unilm/tree/master/layoutlm
-
論文鏈接:
https://arxiv.org/abs/1912.13318
文檔結(jié)構(gòu)信息
很多情況下,文檔中文字的位置關系蘊含著豐富的語義信息。以下圖的表單為例,表單通常是以鍵值對(key-value pair)的形式展示的(例如“DATE: 11/28/84”)。通常情況下,鍵值對的排布通常是左右或者上下形式,并且有特殊的類型關系。類似地,在表格文檔中,表格中的文字通常是網(wǎng)格狀排列,并且表頭一般出現(xiàn)在第一列或第一行。通過預訓練,這些與文本天然對齊的位置信息可以為下游的信息抽取任務提供更豐富的語義信息。

圖1:圖像文檔樣例
視覺信息
對于富文本文檔,除了文字本身的位置關系之外,文字格式所呈現(xiàn)的視覺信息同樣可以幫助下游任務。對文本級(token-level)任務來說,文字大小,是否傾斜,是否加粗,以及字體等富文本格式能夠體現(xiàn)相應的語義。通常來說,表單鍵值對的鍵位(key)通常會以加粗的形式給出。對于一般文檔來說,文章的標題通常會放大加粗呈現(xiàn),特殊概念名詞會以斜體呈現(xiàn)等。對文檔級(document-level)任務來說,整體的文檔圖像能提供全局的結(jié)構(gòu)信息。例如個人簡歷的整體文檔結(jié)構(gòu)與科學文獻的文檔結(jié)構(gòu)是有明顯的視覺差異的。這些模態(tài)對齊的富文本格式所展現(xiàn)的視覺特征可以通過視覺模型抽取,結(jié)合到預訓練階段,從而有效地幫助下游任務。
為了建模上述信息,我們需要尋找這些信息的有效表示方式。然而現(xiàn)實中文檔格式豐富多樣,除了格式明確的電子文檔外,還有大量掃描式報表和票據(jù)等圖片式文檔。對于計算機生成的電子文檔,我們可以使用對應的工具方便地獲取文本和對應的位置以及格式信息。而對于掃描圖片文檔,我們使用 OCR 技術進行處理,從而獲得相應的信息。通過兩種不同的手段,我們幾乎可以使用現(xiàn)存的所有文檔數(shù)據(jù)進行預訓練,保證了預訓練數(shù)據(jù)的規(guī)模。
為了利用上述信息,我們在現(xiàn)有的預訓練模型基礎上添加 2-D Position Embedding 和 Image Embedding 兩種新的 Embedding 層,這樣一來可以有效地結(jié)合文檔結(jié)構(gòu)和視覺信息。

圖2:LayoutLM 模型結(jié)構(gòu)圖
2-D Position Embedding
根據(jù) OCR 獲得的文本 Bounding Box,我們能獲取文本在文檔中的具體位置。將對應坐標轉(zhuǎn)化為虛擬坐標之后,我們計算該坐標對應在 x、y、w、h 四個 Embedding 子層的表示,最終的 2-D Position Embedding 為四個子層的 Embedding 之和。
Image Embedding
在 Image Embedding 部分, 我們將每個文本相應的 Bounding Box 當作 Faster R-CNN 中的候選框(Proposal),從而提取對應的局部特征。特殊地,由于 [CLS] 符號用于表示整個輸入文本的語義,我們同樣使用整張文檔圖像作為該位置的 Image Embedding,從而保持模態(tài)對齊。
在預訓練階段,我們針對 LayoutLM 的特點提出兩個自監(jiān)督預訓練任務:1)Masked Visual-Language Model(MVLM,遮罩式視覺語言模型)2)Multi-label Document Classification (MDC,多標簽文檔分類)。
任務1:MVLM 遮罩式視覺語言模型
大量實驗已經(jīng)證明 MLM 能夠在預訓練階段有效地進行自監(jiān)督學習。我們在此基礎上進行了修改:在遮蓋(Mask)當前詞之后,保留對應的 2-D Position Embedding 暗示,讓模型預測對應的詞。在這種方法下,模型根據(jù)已有的上下文和對應的視覺暗示預測被遮罩的詞,從而讓模型更好地學習文本位置和文本語義的模態(tài)對齊關系。
任務2:MDC 多標簽文檔分類
MLM 能夠有效的表示詞級別的信息,但是對于文檔級的表示,我們需要文檔級的預訓練任務來引入更高層的語義信息。在預訓練階段我們使用的 IIT-CDIP 數(shù)據(jù)集為每個文檔提供了多標簽的文檔類型標注,我們引入 MDC 多標簽文檔分類任務。該任務使得模型可以利用這些監(jiān)督信號去聚合相應的文檔類別,并捕捉文檔類型信息,從而獲得更有效的高層語義表示。
預訓練過程
預訓練過程我們使用 IIT-CDIP 數(shù)據(jù)集[3]。IIT-CDIP 數(shù)據(jù)集是一個大規(guī)模的掃描圖像公開數(shù)據(jù)集,經(jīng)過處理后文檔數(shù)量達到約11,000,000。我們隨機采樣了1,000,000進行了測試實驗,最終使用全量數(shù)據(jù)進行完全預訓練。
通過千萬文檔量級的預訓練并在下游任務微調(diào),我們在測試的三個不同類型的下游任務中都取得了目前的最佳成績:在 FUNSD 數(shù)據(jù)集上將表單理解的 F1 值從70.72提高至79.2;將 ICDAR 2019 票據(jù)理解 SROIE 比賽中的第一名成績94.02提高至95.24;在 RVL-CDIP 文檔圖像分類數(shù)據(jù)集上將目前的最好結(jié)果93.07提高至94.42。
表單理解(Form Understanding)
在表單理解任務上,我們使用 FUNSD 作為測試數(shù)據(jù)集,該數(shù)據(jù)集中的199個標注文檔包含31,485個詞和9,707個語義實體。在該數(shù)據(jù)集上,我們需要對數(shù)據(jù)集中的表單進行鍵值對(key-value)抽取。通過引入位置信息的預訓練,我們的模型在該任務上取得了顯著的提升。實驗結(jié)果見下表。

表1:LayoutLM 在 FUNSD 數(shù)據(jù)集上的實驗結(jié)果
票據(jù)理解(Receipt Understanding)
在票據(jù)理解任務中,我們選擇 SROIE 測評比賽作為測試。SROIE 票據(jù)理解包含1000張已標注的票據(jù),每張票據(jù)標注了店鋪名、店鋪地址、總價、消費時間四個語義實體。通過在該數(shù)據(jù)集上微調(diào),我們的模型在 SROIE 測評中,F(xiàn)1 值高出第一名(2019)1.2個百分點,達到95.24%。

表2:LayoutLM 在 SROIE 測評上的實驗結(jié)果

圖3:SROIE 測評排名情況[4] (截至2020年3月)
文檔圖像分類(Document Image Classification)
對于文檔圖像分類任務,我們選擇 RVL-CDIP 數(shù)據(jù)集進行測試。RVL-CDIP 數(shù)據(jù)集包含16類總記40萬個文檔,每一類都包含25,000個文檔數(shù)據(jù)。我們的模型在該數(shù)據(jù)集上微調(diào)之后將分類準確率提高了1.35個百分點,達到了94.42%。

表3:LayoutLM 在 RVL-CDIP 數(shù)據(jù)集上的實驗結(jié)果
我們同樣根據(jù)實驗設置進行了分析。根據(jù)對訓練數(shù)據(jù)、步長、模型結(jié)構(gòu)和初始化結(jié)構(gòu)的分析,LayoutLM 還有更多的潛力可以挖掘。
訓練數(shù)據(jù)及步長
根據(jù)下表,我們可以看到增加訓練數(shù)據(jù)和訓練步長都能顯著提高模型效果。

表4:不同訓練步長和數(shù)據(jù)量情況下 LayoutLM 在 FUNSD 數(shù)據(jù)集上的實驗結(jié)果對比
模型結(jié)構(gòu)和初始化權(quán)重
我們進行了使用 BASE/LARGE 網(wǎng)絡結(jié)構(gòu)以及使用 BERT/RoBERT 權(quán)重初始化的對照實驗。根據(jù)實驗結(jié)果我們發(fā)現(xiàn),在其他實驗設置相同的情況下,使用規(guī)模更大的網(wǎng)絡結(jié)構(gòu)和更有效的權(quán)重能顯著影響模型的效果。

表5:不同權(quán)重初始化和不同網(wǎng)絡規(guī)模情況下 LayoutLM(Text+Layout, MVLM)在 FUNSD 數(shù)據(jù)集上的實驗結(jié)果對比
經(jīng)過實驗,我們觀察到在文檔內(nèi)容理解任務中,通過在預訓練階段引入文檔結(jié)構(gòu)和視覺信息能有效提高模型在下游任務的表現(xiàn)。未來的工作中,我們將會在預訓練階段嘗試將 Image Embedding 進行早期融合(Early Fusion),將圖像信息編碼進 LayoutLM。與此同時,我們也會嘗試其他有效的預訓練任務,同時引入規(guī)模更大的訓練數(shù)據(jù),擴展 LayoutLM 的潛力。
我們已經(jīng)放出論文以及預訓練模型,并提供了微調(diào)的代碼樣例,更多信息請訪問以下鏈接。
論文鏈接:
https://arxiv.org/abs/1912.13318
代碼鏈接:
https://github.com/microsoft/unilm/tree/master/layoutlm
參考文獻:
[1] https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=3
[2] https://paperswithcode.com/sota/document-image-classification-on-rvl-cdip
[3] https://ir.nist.gov/cdip/
[4] https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=3
特別聲明:
文章來源:微軟研究院AI頭條
原文鏈接:https://mp.weixin.qq.com/s/bK4hoxiw--pfqtAduduIZw
RPA中國推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來源標注錯誤或侵權(quán),請聯(lián)系更正或刪除,謝謝。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 賦能RPA時代,微軟發(fā)布通用文檔理解預訓練模型LayoutLM
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國