UiPath PDF數據提取
PDF一直是存儲數據最可靠的格式之一。從大型公司到小型企業,每個人都以這種格式存儲各種數據。但是,想象一下,如果必須從這些PDF文檔中提取原始數據。可以手動完成嗎?好吧,簡單的答案是否定的,因為這是一項相當繁瑣的工作,但是,如果您熟悉自動化中的某些服務,那么您可以輕松地自動執行此過程。
這篇關于UiPath PDF數據提取的文章將向您簡要介紹UiPath提供的從PDF中提取數據的所有方式,無論是原生文本格式還是掃描圖像。
為了便于您理解,我將本文分為以下兩個部分:
- 提取大文本
- 提取特定元素
在真正開始提取數據之前,需要確保的一件重要事情是從系統上安裝的Manage Packages部分獲得UiPath.PDF.Activities。選擇軟件包后,單擊“保存”,軟件包將開始安裝。請參閱下圖。
圖1:管理包的快照 - UiPath PDF數據提取
在我們繼續之前,如果您想學習使用UiPath從PDF中提取數據,可以參考以下視頻。該視頻將幫助您獲得數據提取的實踐經驗。
UiPath PDF數據提取
Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.
現在,您知道必須安裝哪個軟件包后,下面介紹如何在PDF文檔中提取大型文本。
提取大文本
可能存在這樣的情況:我們有一個完全充滿文本的文檔,或者文本和圖像的混合。那么,提取大型文本屬于這種文檔,其中文檔僅包含文本或文本和圖像的混合。
UiPath主要提供兩種選項來提取大型文本。分別是:
- 閱讀PDF文本
- 閱讀帶有OCR的PDF
除此之外,我們還有屏幕抓取方式。讓我們從閱讀PDF文本開始。
閱讀PDF文本
Read PDF用于從僅包含Text 的PDF文件中提取數據。因此,如果PDF中存在圖像,則此活動將不是要選擇的正確活動,因為它不會提取圖像中存在的數據。
在此之前,您可以參考下面的圖片,其中展示了我將用于此文章的示例PDF文件。在PDF文檔中,上半部分是文本,引用的部分是圖像。
現在,我將創建一個序列,在其中我將提到必須從中提取數據的PDF目錄,并且我將在消息框中編寫輸出。
注意: 您可以將輸出寫入任何格式的文件,如寫文本文件,寫入行,寫入單元格活動等。
第1步:創建一個序列并重命名。在這里,我將其重命名為Extract Text。
第2步:拖放“ 閱讀PDF文本活動”。在活動中,請提及必須從中提取數據的PDF文檔的路徑。
第3步:現在,在屬性面板中閱讀PDF文本活動,提一個輸出變量查看輸出。要設置輸出變量,請按CTRL + K,然后輸入名稱。這里我提到了輸出。
步驟4:之后,在序列中拖放一個消息框,然后在其中提及輸出變量。
完整序列和輸出應分別如下面的圖片所示。
Fig 2: Snapshot of Read PDF Text Activity with
圖2:使用輸出讀取PDF文本活動的圖片 - UiPath PDF數據提取
在這里,您可以清楚地看到我們圖像中存在的文本未被提取,并且僅提取了樣本PDF文檔中存在的文本。那么,你們就可以使用“閱讀PD??F文本活動”。
現在,轉到下一個活動,即使用OCR活動讀取PDF。
閱讀帶有OCR活動的PDF
帶有OCR活動的閱讀PDF用于從包含文本和圖像的PDF文檔中提取數據。因此,如果除文檔中的文本外還有其他圖像,此活動將從這些圖像中提取數據并提供文本輸出。
正如活動的名稱所示,此活動使用光學字符識別來掃描PDF文檔內的圖像,并將所有文本輸出為變量。所以它需要一個OCR引擎。在“ 活動窗格”中,如果搜索OCR引擎,您將獲得已安裝引擎的列表。請參閱上圖。
現在,我將創建一個序列,在其中我將提到PDF的目錄,從中提取數據,我將在消息框中寫入輸出。唯一的區別是,您將看到圖像中的文本也被提取出來。
按照以下步驟,創建自動化以提取圖像中存在的文本。
第1步:創建一個序列并重命名。在這里,我已將其重命名為使用OCR提取文本。
步驟2.1:拖放帶有OCR活動的閱讀PDF。在活動中,請提及必須從中提取數據的PDF文檔的路徑。
步驟2.2:現在,搜索OCR引擎,并根據安裝的任何一個拖放OCR引擎。在這里,我使用了Google OCR Engine。
步驟3:現在,在具有OCR活動的閱讀PDF的屬性窗格中,提及輸出變量以查看輸出。設置輸出變量按CTRL + K,然后輸入名稱。這里我提到了輸出。
步驟4:之后,在序列中拖放一個消息框,然后在其中提及輸出變量。
您的完整序列和輸出應分別如下面的圖片所示。
圖2:使用OCR活動和輸出讀取PDF的快照 - UiPath PDF數據提取
在這里,您可以清楚地看到示例文檔圖像中存在的文本已被提取。這就是如何使用帶有OCR活動的閱讀PDF的操作方式。
在我結束這一部分之前,我再提一些重要的點。閱讀帶有OCR活動的PDF
關鍵點
- 在“ 讀取文本活動的屬性窗格 ” 和“ 使用OCR 活動讀取PDF”中,我們有一個名為Range的參數。此參數用于提及必須從中提取數據的頁碼范圍(1,全部,2-10 10-All)。
- 上述兩種活動都是獨立的,即它們不需要打開其他應用程序。因此,即使您的PDF文檔未在屏幕上打開,這些活動也可以執行您的任務。
現在,除了上述活動之外,還有另一種提取數據的方法,即使用“ 設計”選項卡中的屏幕抓取向導。
屏幕抓取向導
屏幕抓取向導是UiPath提供的一項功能,用于從多個平臺中抓取數據。
要使用此向導,您可以通過保持PDF文檔打開來執行以下步驟。
步驟1:單擊屏幕抓取擦圖標,然后選擇要提取的PDF文檔中的部分。
第2步:然后,您將被重定向到屏幕抓取向導,您可以使用提取的文本在下面看到。現在,在這里你可以選擇抓取方法(原生/全文/ OCR)。選擇所需的方法,然后單擊“ 完成”。
圖3:屏幕抓取向導快照 - UiPath PDF數據提取
第3步:單擊完成后,Scraping Wizard將返回到您的序列。在這里添加一個消息框以查看輸出并提及輸出變量,該變量在返回序列中的“獲取全文/獲取OCR文本”活動中提到。這里的變量名是'AvlAvview',我在消息框中提到過。
您的完整序列和輸出應如下圖所示。
圖4:屏幕抓取和輸出的快照 - UiPath PDF數據提取
在這里,您可以清楚地看到示例文檔圖像中存在的文本被提取出來,以及文件中的文字。因此,您可以使用Screen Scraper Wizard來提取文本和圖像。
現在,繼續我們的下一部分,即提取特定元素
提取特定元素
通過提取特定元素,您可以在某些情況下提取特定元素,例如發票中的總計或簡歷中的聯系人號碼等。
UiPath主要提供兩種選項來提取大型文本。這些方法是:
- 獲取文字活動
- 錨定基礎活動
獲取文字活動
此活動只是指向您要提取的元素。使用此活動,可以提取文本,并可以使用輸出變量。之后,您可以使用消息框或寫文本文件活動并提及輸出變量。
請參閱下面的圖片以檢查順序和輸出。在這里,我提取了總金額,然后在消息框中顯示輸出。
圖5:獲取文本活動和輸出的圖片 - UiPath PDF數據提取
這就是如何使用Get Text Action。現在,轉到我們的下一個活動,即Anchor-Base Activity。
錨定活動
Anchor Base Activity用于提取文本和圖像。此活動由兩個操作組成,因為它執行與另一個固定元素或錨點相關的操作。
因此,典型的錨定活動主要有兩個:
- 查找元素/查找圖像活動
- 獲取文字活動
查找元素/查找圖像活動
查找元素/查找圖像活動用于分別查找元素,即文本和圖像。您可以根據需要使用這些活動。現在,由于Anchor Base活動是一個相對活動,您可以像我之前提到的那樣使用Get Text Activity。
請參閱下面的圖片。在這里,我使用了Anchor-Base 活動,以及Find Image Activity和Get Text Activity。在“ 查找圖像活動”中,我選擇了“總計”,因此基本上會搜索“總計”,然后在“獲取文本活動”中,由于選擇了該值,因此將提取該值。
圖6:錨點基礎活動的圖片 - UiPath PDF數據提取
以上便是關于UiPath PDF數據提取的內容。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > UiPath PDF數據提取 - 從PDF文檔中提取文本
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國