?
作為國內首屈一指的文本智能處理專家,達觀數據日前出席了由RPA中國主辦的“2019 Tech Business商業智能大會”,并斬獲“最佳RPA行業貢獻企業”和“年度最佳RPA+AI產品”兩項重磅榮譽,公司副總裁陳文彬先生以《AI+RPA:打造企業智能的數字化白領員工》為主題進行了演講,向與會嘉賓分享了達觀在文本智能處理方面的最新經驗,并著重提到達觀正在將RPA與AI結合,致力于打造企業智能的數字化白領員工的宏偉圖景。
達觀數據副總裁-陳文彬
達觀RPA作為國內首款自主研發集OCR(光學字符識別)與NLP(自然語言處理)于一體的智能RPA,與其他廠商調用國外OCR與NLP技術相比,達觀RPA的AI組件完全采用多年積累的自主研發技術,根據國內企業的實際業務情況進行量身定制,在識別率、準確率和穩定性上都有極大地的提升,更全面的滿足企業自動化的需求。
陳文彬介紹,達觀數據多年專注于文字資料的自然語言處理,而自然語言處理又細分為自動閱讀和自動寫作兩個部分。自然語言處理技術可以教會計算機斷文解字,幫人類更好的處理文檔資料。通常情況下,文字工作者平均每天大概有1/3的時間是和文字打交道,因此基于文本的交互處理有廣闊的市場需求。
自動閱讀
這方面的場景待處理文本內容包括法律文書、合同文本、金融文本、待審批文書、行政公文、公司文檔資料、業務單據、傳媒文章、互聯網咨詢、用戶評的意見和客戶的一些問題。
常見的文字處理需求一般涵蓋抽取信息、自動填表、內容審核、材料預審、材料報送、文檔歸納、資料搜索等等。為了更好的幫助員工處理文檔資料,達觀綜合性的使用了RPA和OCR,以及NLP技術。
通過OCR技術識別圖片和掃描文字,再通過自然語言處理技術去抽取文字中的關鍵要素,把這些信息做結構化的處理。最后通過達觀的RPA技術實現數據的搬運和填寫工作,這樣可以提供一套完整的解決方案,全面提升文檔處理的工作效率和準確率。達觀自建了一套標準化的文檔智能處理平臺,通過遷移學習和微小的調整可以很好的支持企業內部專屬定制化的擴展,這也是達觀的核心優勢。
通過集成RPA、OCR和NLP技術,達觀很好的解決了人工智能之前在落地時原有的信息系統銜接的問題,實現了端到端的流程自動化,可以構建一個全面的自動化生態系統。
目前達觀智能RPA已經應用到各個行業的業務場景中,比如銀行的信貸審核,對債券募集說明書、招股說明書、企業年報的審核,金融咨詢的一些信息抽取,合同智能審閱,簡報的生成,以及政務的一些智慧審批,企業材料審批,自動填表,還有通信和互聯網領域等等。
在RPA與AI的結合方面,陳文彬列舉了幾個應用場景。首先是財務報表識別與采集的場景。一般來說,企業在向銀行申請授信的過程中,首先企業要向銀行的客戶經理提交企業的基本信息和財務報表,然后再由銀行客戶經理把這些紙質材料做電子化的處理。在處理的過程中,根據監管合規要求,成立時間超過3年的企業,需提交至少3年的財務報表,而每年提交的又包括三張資產負債表、現金流量表、損益表。表內數字一般是8位數以上,所以在整個采集過程中,除了耗時,還很容易出錯。
基于此,達觀給出了智能化的解決方案,首先通過OCR技術把財務報表掃描進行電子化的處理,面對不規范的報表,還需要再基于NLP的技術識別企業提交的很多會計科目的同義詞。比如一個會計科目,A企業叫實收股本,B企業叫實收資本,但它們代表的都是同一個會計科目的含義,所以這里達觀會用自然語言處理的技術去識別這類同義詞,來提高整個信息采集的準確率和完整度。
最后再通過RPA技術將這些結構化的數據計算、填寫在信息系統或信審報告里最終再進行校審。整套方案實施下來,財務報表信息采集和報告填寫的工作流程,從4小時降低到10分鐘以內。
自動寫作
在寫作的NLP技術方面,陳文彬講解了如何自動生成一個商業案例報告,在這個場景中要去自動撰寫商業報告,它的數據源有新聞資訊、企業年報、企業研報、募集說明書,這些信息數據源的格式也是多樣的,包括圖片,PDF,Word等等。這就需要綜合的采用RPA、OCR和NLP三個技術進行數據的提取和加工處理,形成一開始生成這個報告所需要的知識庫。陳文彬介紹,對于每一個知識點我們會通過時間、機構、科目、動作、數值5個要素進行整理。當完成所有的知識點采集以后用文本生成技術,自動的生成符合期望的商業案例報告。
在政務級場景方面,陳文彬舉例,國際友人來到中國工作,他需要向相關機構申請工作許可證和居住許可證等多個證件。在實現“一網通辦”的過程中,達觀RPA實現了申請端和審批端的自動化。在申請端,用機器人去識別申請材料中的關鍵要素,再由機器人自動登錄政務機關相關的信息系統完成填報。在機器人的幫助下,整個人工錄入的信息采集從94項降低到27項。在審批端,申請材料由機器人進行完備性、一致性、合規性和真實性的預審,再由工作人員做復審,在這個方式下,審批時間從12天降低到5天內。
點擊視頻,觀看陳文彬現場演講內容
在演講的最后,陳文彬用四句話表達了達觀的愿景:千層網絡、萬卷詩書,寒暑相推,而歲成焉。
千層網絡代表了達觀擁有的過硬算法技術;
萬卷詩書 表示著達觀有的豐富數據;
寒暑相推 寓意達觀將繼續深耕行業,落實到每個場景;
最后的而歲成焉表示,需要達觀數據將持之以恒,打造真正優秀智能、的數字員工,為企業提供最佳的數字化體驗。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 達觀數據陳文彬:深耕文本處理,重塑企業數字員工
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國