如何應用信息提取技術做好金融和法律文檔的結構化處理?

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部
      文本信息提取(Information Extraction)簡單說就是利用計算機從自然語言文本中提取出核心信息。 這項技術有什么用呢,我們舉個例子請簡單測試一下。 《史記》中對項羽有這樣 一段介紹: 
       

      項籍是下相人,字羽。開始起事的時候,他二十四歲。項籍的叔父是項梁,項梁的父親是項燕,就是被秦將王翦所殺害的那位楚國大將。項氏世世代代做楚國的大將,被封在項地,所以姓項。

       

      (原文:項籍者,下相人也,字羽。初起時,年二十四。其季父項梁,梁父即楚將項燕,為秦將王翦所戮者也。項氏世世為楚將,封于項,故姓項氏。)

       
      如果對這段話進行信息提取,得到的核心信息是:
                 
      • 姓名:項籍/項羽

      • 籍貫:下相(今江蘇宿遷)

      • 出道:24歲

      • 叔父:項梁

      • 叔父的爹(爺爺):項燕

      • 仇家:秦國 王翦

      • 姓氏由來:項家世世代代為楚國大將,被封在項地,所以姓項

       

      現在請在20秒時間內看一下上面的信息并給別人介紹一下項羽,可以選擇看原文,也可以選擇看提取之后的信息。相信很多人會選擇看后一種。這是因為后一種行文方式其核心信息不丟失,但是內容更簡練,邏輯性更強,更容易記憶。這就是信息提取的意義。接下來的篇章將用更通俗的方式介紹一下文本信息提取技術的產業應用。

       

          
      一.信息披露背景下的金融文檔提取     
          

      信息披露是金融改革發展的長期趨勢。從2018年4月的資管新規發布,再到2019年的科創板和注冊制。信息披露一直是監管層強調的重點。以上市公司為例,需要披露的信息包括首次披露(IPO招股說明書),定期報告(年度報告、中期報告、季度報告)和臨時報告等多種文檔。隨著上市企業的不斷增多和信息披露機制的不斷加強,給監管層、資本市場、普通投資者都帶來了新的壓力。對監管層來說,信息披露的審核量加大;對資本市場和投資者來說,投研要求更高,對企業的分析從個體的財務經營狀況到產業鏈競爭力,不一而足。

       

      下圖是達觀數據文檔智能審閱系統(以下簡稱:IDPS)對招股書進行提取的示例,通過將文檔上傳到文檔智能審閱系統中,一份大幾百頁的招股書被快速提取成右邊上千個核心要素,包括董監高信息、財務信息、專利情況、募集資金與應用、上下游企業、重大合同、發行人所處行業等。同時支持點擊跳轉功能,比如點擊右側董事基本情況,除了直接提取出董事的姓名、出生年月、國籍、學歷等信息外,左側窗口頁面也會滾動到招股書原文的對應位置。

       

      圖1 利用IDPS對招股書進行提取

       

      圖2 利用IDPS對招股書中董監高信息進行提取

       

      這種信息提取和閱讀的方式,對于監管層去審核信息披露是否完備,可以大幅提升效率。 對于投資者來說,也可以利用信息提取技術解析上市公司公告,了解其基本面狀況。

       

      圖3 利用IDPS表格提取對PDF格式的財報進行提取

       

      你可能會問,企業的經營狀況尤其是財務狀況在其公告中都有非常詳細的報表(資產負債表,利潤表,現金流量表),為什么還要做提取呢?這是因為信息提取解決的并不是有與無的問題,而是解決效率和標準的問題,比如同樣是2018年的上市財報,各家的格式、排版都不一樣。所以人工閱讀一份財報了解一家企業的基本面狀況,同樣的時間,借助信息提取了解的可能是一個行業幾十家企業的基本面狀況。這種有效信息量的巨大差異,對于投資決策的影響必定不同,帶來的投資回報一定也是不一樣的。

       

      你可能還會問,能否自上到下推廣一套統一的財報標準,所有企業都按照這個標準來披露財務狀況,這樣就不會有“代溝”了。其實行業內已經存在了,這里補充一個小插曲。

       

      XBRL,1998年美國人提出,被譽為財務報表領域內的條形碼。XBRL是在XML的基礎上發展而來的,專門用于財務報告編制、披露和使用的計算機語言。XBRL通過對商業報告中的數據增加特定的標簽和分類標準,以支持數據信息的識別、處理與交流。XBRL主要由技術規范、分類標準和實例文檔三部分組成。技術規范是XBRL的總綱,定義了各類專業術語,規范XBRL文檔結構。分類標準是根據XBRL技術規范對商業報告中的元素及其關系進行標記和描述的“業務詞典”,是編制XBRL實例文檔的具體規范。XBRL實例文檔是依據前兩個制作的實際財務或商業數據文件,是XBRL數據的載體。

       

      在 XBRL 推出前,財務信息披露的數據格式包括 TXT、PDF、WORD、EXCEL等。這些財務數據披露格式很難實現不同形式數據間自由轉換的功能,從而增加了信息使用者對信息對比分析的難度。XBRL打破了這一瓶頸,為財務信息提供了一個統一的標準化格式,可以實現財務信息的跨空間、跨時間對比。

       

      在我國,XBRL推廣主要包括證監會和財政部。證監會在上市公司財報披露,財政部在大型國資企業信息披露都有試點。但截止到目前,XBRL真正的潛力和作用并沒有被完全發揮。這其中的原因較為復雜,從設立標準角度看,建立一套接軌國際同時滿足行業、地域、監管要求的標準何其難;從推廣使用角度看,上市公司、資本市場尚未對XBRL有足夠的重視。所以,盡管大家都能理解XBRL是個好東西。但是要到普遍的推廣應用,還有很長的道路要走。


      證監會是XBRL在國內最早的推廣者。上證交易所官網有利用XBRL披露上市公司年報。但在網頁下方會提示:“本系統展示數據來自于上市公司提交的XBRL格式報告,信息僅供參考,請以對應報告的PDF版本為準”。

       

      所以在標準普遍推廣之前,信息提取仍然是不可避免的技術手段。如今面向個人投資者的各類股票軟件和面向專業投資機構的數據終端,都會在信息提取的基礎之上,進一步剖析企業的成長性、行業排名等橫縱分析,指標選股等功能。(下圖中,左圖就是利用信息提取技術從企業財報中提取財務指標和數值,然后進行同比計算;右圖同樣是提取財務指標和數值,計算出市凈率,結合搜索技術提供選股功能)。

       

       

      可以看出,利用信息提取從各類金融披露文檔中提取出核心要素信息,對資本市場投資者投研分析、監管層的信息審核都帶來極大便利和幫助。

       

          
      二.法律判決文書的信息提取     
          
       

      2014年,最高人民法院為貫徹落實審判公開原則,促進司法公正,提升司法公信力,發布了《關于人民法院在互聯網公布裁判文書的規定》,除涉及國家秘密、未成年人犯罪等少數幾類判決文書不公布外,其余判決文書都需要在互聯網上公開。(最高法裁判文書網,http://wenshu.court.gov.cn/)。

       

      同提取金融領域披露的信息公告一樣,也可以對公布的判決文書進行信息提取。比如針對一份民事判決書,我們可以提取案號、案由、審級、原被告、代理律師、代理律所、依據法律、審判機關、判決日期、判決結果等上百個核心要素信息。

       

      圖4 利用達觀IDPS提取民事判決文書中的要素

       

      那么對法律判決文書的信息提取又有什么用呢?當我們對數千萬份判決文書進行信息提取之后,我們閱讀判決文書的視角,就從單份文書縱向閱讀擴展到全量文書橫向閱讀。這種擴展會帶來的價值,還是通過幾個例子來說明。比如現在離婚率越來越高,若想了解最近三年各省離婚案件的整體情況,就可以在案件信息提取的基礎上,從時間、地域角度分析統計離婚案件的數量、判決結果、案由等,并進一步分析這種現狀產生的社會經濟因素;再比如我現在面臨一起專利糾紛,想找一位代理專利糾紛案件比較有經驗律師,就可以利用案由、律師、律所、判決結果這些要素去組合篩選出一位心儀的代理律師。

       

           
      三.信息提取技術的原理      
           
       

      通過前文介紹,大概了解了信息提取這項技術的應用。接下來簡單介紹下這些技術的原理。

       

      我們知道機器學習是已知一組自變量(input)和一組因變量(output),找到一個函數能夠最優地擬合這組input和output。當有新的input進入時,利用這個函數可以得出output。所以,機器學習就好比把大象裝冰箱,只需要三步。

       

       

      如何利用機器學習去做信息提取呢,常用的就是序列標注。序列標注簡單講就是選用一些標簽對輸入的序列數據進行標簽化。比如我想提取6月25日美空軍戰斗機在東地中海上空開展編隊飛行這個事件中的時間和地點。選用BMEO(Begin, Middle, End, Other)來標記,BMEO每一個字母代表一個單字,一個詞由多個單字組成,所以B代表中文單詞的第一個漢字,M代表單詞中間的漢字,E代表單詞最后的漢字,用O代表其他不需要提取的字。我用T代表時間(此時T_B代表時間的第一個字,T_M代表時間中間的字,T_E代表時間最后的字)。用L代表地點(此時L_B代表地點的第一個字,L_M代表地點中間的字,L_E代表地點最后的字)。

       
      選用這樣的標注系統以后,信息提取問題的input和output如下:

       
      Input:6/月/25/日/美/空/軍/戰/斗/機/在/東/地/中/海/上/空/開/展/編/隊/飛/行     
         
         
      Output:T_B/T_M/T_M/T_E/O/O/O/O/O/O/O/L_B/L_M/L_M/L_E/O/O/O/O/O/O          

            
      這樣就把一個文本信息提取問題轉化為求解一個標簽序列問題。在接下來,通過標注獲取訓練集和測試集,又經過一頓噼里啪啦猛如虎的代碼操作之后,我們找到了一個效果還不錯的可以用于提取的函數,此時一條新的數據過來。

       
         
      新的Input:今/天/上/午/沙/特/空/軍/1/架/波/音/專/機/飛/越/上/海/上/空/向/東/飛/行。
      通過這個函數,輸出
      新的Output:T_B/T_M/T_M/T_E/O/O/O/O/O/O/O/O/O/O/O/O/L_B/LE/O/O/O/O/O/O/。
      我們把T_B/T_M/T_M/T_E/這段和/L_B/LE/摳出來,同樣T還是代表時間,L代表地點,就切分出這個事件的時間為“今天上午”,地點是“上海”。

       

           
      四.總結      
           

      信息提取解決的并不是信息的有和無問題,而是解決效率和標準的問題。它用更加效率的方式將信息重新整合成一種標準規范的方式,從而用一個更為寬廣的視角去審閱這些信息。

       

      特別聲明:

      文章來源:達觀數據(Datagrand_)

      作者: 呂文超:達觀數據解決方案架構師,負責達觀推薦引擎,搜索引擎,NLP,RPA等AI產品和技術在金融、軍工、政府、互聯網等行業的應用落地。

      原文鏈接:https://mp.weixin.qq.com/s/Hy-ggE_FmIb9LctL0YHAzw

      RPA中國推薦閱讀,轉載此文是出于傳遞更多信息之目的。如有來源標注錯誤或侵權,請聯系更正或刪除,謝謝。

           

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 如何應用信息提取技術做好金融和法律文檔的結構化處理?

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 通山县| 吉安县| 保靖县| 大同县| 阜康市| 巫山县| 图木舒克市| 来安县| 平武县| 孟村| 安泽县| 蓬莱市| 米脂县| 宁陕县| 贡觉县| 田东县| 定安县| 扶沟县| 四会市| 偃师市| 西乌珠穆沁旗| 凤凰县| 辉南县| 新营市| 乐都县| 义马市| 牙克石市| 泸定县| 栾川县| 武邑县| 嘉禾县| 专栏| 灵璧县| 贡觉县| 磐石市| 赣州市| 贵溪市| 昌邑市| 巢湖市| 万安县| 屏南县|