UiPath PDF數據提取 - 從PDF文檔中提取文本

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      UiPath PDF數據提取

      PDF一直是存儲數據最可靠的格式之一。從大型公司到小型企業,每個人都以這種格式存儲各種數據。但是,想象一下,如果必須從這些PDF文檔中提取原始數據。可以手動完成嗎?好吧,簡單的答案是否定的,因為這是一項相當繁瑣的工作,但是,如果您熟悉自動化中的某些服務,那么您可以輕松地自動執行此過程。

      這篇關于UiPath PDF數據提取的文章將向您簡要介紹UiPath提供的從PDF中提取數據的所有方式,無論是原生文本格式還是掃描圖像。
      為了便于您理解,我將本文分為以下兩個部分:

      • 提取大文本
      • 提取特定元素

      在真正開始提取數據之前,需要確保的一件重要事情是從系統上安裝Manage Packages部分獲得UiPath.PDF.Activities選擇軟件包后,單擊“保存”,軟件包將開始安裝。請參閱下圖。

      Manage Packages - UiPath PDF Data Extraction - Edureka

      圖1:管理包的快照 - UiPath PDF數據提取

      在我們繼續之前,如果您想學習使用UiPath從PDF中提取數據,可以參考以下視頻。該視頻將幫助您獲得數據提取的實踐經驗。

      UiPath PDF數據提取

       

      Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.

      現在,您知道必須安裝哪個軟件包后,下面介紹如何在PDF文檔中提取大型文本。

      提取大文本

      可能存在這樣的情況:我們有一個完全充滿文本的文檔,或者文本和圖像的混合。那么,提取大型文本屬于這種文檔,其中文檔僅包含文本或文本和圖像的混合。

      UiPath主要提供兩種選項來提取大型文本。分別是:

      • 閱讀PDF文本
      • 閱讀帶有OCR的PDF

      除此之外,我們還有屏幕抓取方式。讓我們從閱讀PDF文本開始。

      閱讀PDF文本

      Read PDF用于從包含Text 的PDF文件中提取數據。因此,如果PDF中存在圖像,則此活動將不是要選擇的正確活動,因為它不會提取圖像中存在的數據。

      在此之前,您可以參考下面的圖片,其中展示了我將用于此文章的示例PDF文件。在PDF文檔中,上半部分是文本,引用的部分是圖像。

      Sample PDF - UiPath PDF Data Extraction - Edureka

      現在,我將創建一個序列,在其中我將提到必須從中提取數據的PDF目錄,并且我將在消息框中編寫輸出。

      注意: 您可以將輸出寫入任何格式的文件,如寫文本文件,寫入行,寫入單元格活動等。

      第1步:創建一個序列并重命名。在這里,我將其重命名為Extract Text。

      第2步:拖放“ 閱讀PDF文本活動”在活動中,請提及必須從中提取數據的PDF文檔的路徑。

      第3步:現在,在屬性面板閱讀PDF文本活動,提一個輸出變量查看輸出。要設置輸出變量,請按CTRL + K,然后輸入名稱。這里我提到了輸出。

      步驟4:之后,在序列中拖放一個消息框,然后在其中提及輸出變量。

       

      完整序列和輸出應分別如下面的圖片所示。

      Read PDF Text Activity - UiPath PDF Data Extraction - EdurekaFig 2: Snapshot of Read PDF Text Activity with 
      圖2:使用輸出讀取PDF文本活動的圖片 - UiPath PDF數據提取

      在這里,您可以清楚地看到我們圖像中存在的文本未被提取,并且僅提取了樣本PDF文檔中存在的文本。那么,你們就可以使用“閱讀PD??F文本活動”。

      現在,轉到下一個活動,即使用OCR活動讀取PDF。

      閱讀帶有OCR活動的PDF

      帶有OCR活動的閱讀PDF用于從包含文本和圖像的PDF文檔中提取數據。因此,如果除文檔中的文本外還有其他圖像,此活動將從這些圖像中提取數據并提供文本輸出。

      OCR Engine - UiPath PDF Data Extraction - Edureka

      正如活動的名稱所示,此活動使用光學字符識別來掃描PDF文檔內的圖像,并將所有文本輸出為變量。所以它需要一個OCR引擎。在“ 活動窗格”中,如果搜索OCR引擎,您將獲得已安裝引擎的列表。請參閱上圖。

      現在,我將創建一個序列,在其中我將提到PDF的目錄,從中提取數據,我將在消息框中寫入輸出。唯一的區別是,您將看到圖像中的文本也被提取出來。

      按照以下步驟,創建自動化以提取圖像中存在的文本。

      第1步:創建一個序列并重命名。在這里,我已將其重命名為使用OCR提取文本。

      步驟2.1:拖放帶有OCR活動的閱讀PDF。在活動中,請提及必須從中提取數據的PDF文檔的路徑。

      步驟2.2:現在,搜索OCR引擎,并根據安裝的任何一個拖放OCR引擎。在這里,我使用了Google OCR Engine。

      步驟3:現在,在具有OCR活動閱讀PDF屬性窗格中,提及輸出變量以查看輸出。設置輸出變量按CTRL + K,然后輸入名稱。這里我提到了輸出。

      步驟4:之后,在序列中拖放一個消息框,然后在其中提及輸出變量。

      您的完整序列和輸出應分別如下面的圖片所示。

      Read PDF with OCR Activity - UiPath PDF Data Extraction - Edureka
      圖2:使用OCR活動和輸出讀取PDF的快照 - UiPath PDF數據提取

      在這里,您可以清楚地看到示例文檔圖像中存在的文本已被提取。這就是如何使用帶有OCR活動的閱讀PDF的操作方式。

      在我結束這一部分之前,我再提一些重要的點。閱讀帶有OCR活動的PDF

      關鍵點

      1. 在“ 讀取文本活動屬性窗格 ” 和“ 使用OCR 活動讀取PDF”中,我們有一個名為Range的參數此參數用于提及必須從中提取數據的頁碼范圍(1,全部,2-10 10-All)。
      2. 上述兩種活動都是獨立的,即它們不需要打開其他應用程序。因此,即使您的PDF文檔未在屏幕上打開,這些活動也可以執行您的任務。

      現在,除了上述活動之外,還有另一種提取數據的方法,即使用“  設計”選項卡中的屏幕抓取向導

      屏幕抓取向導

      屏幕抓取向導是UiPath提供的一項功能,用于從多個平臺中抓取數據。

      要使用此向導,您可以通過保持PDF文檔打開來執行以下步驟。

      步驟1:單擊屏幕抓取擦圖標,然后選擇要提取的PDF文檔中的部分。

      第2步:然后,您將被重定向到屏幕抓取向導,您可以使用提取的文本在下面看到。現在,在這里你可以選擇抓取方法(原生/全文/ OCR)。選擇所需的方法,然后單擊“ 完成”。

      Screen Scraper Wizard - UiPath PDF Data Extraction - Edureka
      圖3:
      屏幕抓取向導快照 - UiPath PDF數據提取

      第3步:單擊完成后,Scraping Wizard將返回到您的序列。在這里添加一個消息框以查看輸出并提及輸出變量,該變量在返回序列中的“獲取全文/獲取OCR文本”活動提到這里的變量名是'AvlAvview',我在消息框中提到過。

      您的完整序列和輸出應如下圖所示。

      Screen Scraping with Output - UiPath PDF Data Extraction - Edureka

      圖4:屏幕抓取和輸出的快照 - UiPath PDF數據提取

      在這里,您可以清楚地看到示例文檔圖像中存在的文本被提取出來,以及文件中的文字。因此,您可以使用Screen Scraper Wizard來提取文本和圖像。

      現在,繼續我們的下一部分,即提取特定元素

      提取特定元素

      通過提取特定元素,您可以在某些情況下提取特定元素,例如發票中的總計或簡歷中的聯系人號碼等。

      UiPath主要提供兩種選項來提取大型文本。這些方法是:

      • 獲取文字活動
      • 錨定基礎活動

      獲取文字活動

      此活動只是指向您要提取的元素。使用此活動,可以提取文本,并可以使用輸出變量。之后,您可以使用消息框或寫文本文件活動并提及輸出變量。

      請參閱下面的圖片以檢查順序和輸出。在這里,我提取了總金額,然后在消息框中顯示輸出。

      Get Text Activity - UiPath PDF Data Extraction - Edureka
      圖5:獲取文本活動和輸出的圖片 - UiPath PDF數據提取

      這就是如何使用Get Text Action。現在,轉到我們的下一個活動,即Anchor-Base Activity。

      錨定活動

      Anchor Base Activity用于提取文本和圖像。此活動由兩個操作組成,因為它執行與另一個固定元素或錨點相關的操作。

      因此,典型的錨定活動主要有兩個:

      • 查找元素/查找圖像活動
      • 獲取文字活動

      查找元素/查找圖像活動

      查找元素/查找圖像活動用于分別查找元素,即文本和圖像。您可以根據需要使用這些活動。現在,由于Anchor Base活動是一個相對活動,您可以像我之前提到的那樣使用Get Text Activity。

      請參閱下面的圖片。在這里,我使用了Anchor-Base 活動,以及Find Image ActivityGet Text Activity。在“ 查找圖像活動”中,我選擇了“總計”,因此基本上會搜索“總計”,然后在“獲取文本活動”中,由于選擇了該值,因此將提取該值。

      Anchor Based Activity - UiPath PDF Data Extraction - Edureka
      圖6:錨點基礎活動的圖片 - UiPath PDF數據提取

      以上便是關于UiPath PDF數據提取的內容。

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > UiPath PDF數據提取 - 從PDF文檔中提取文本

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 枝江市| 咸阳市| 通渭县| 五大连池市| 湄潭县| 潜山县| 阿瓦提县| 阿拉善盟| 阳东县| 九龙县| 抚宁县| 阜城县| 广灵县| 临猗县| 连山| 东兰县| 南阳市| 自贡市| 林州市| 安徽省| 大连市| 桐柏县| 寿宁县| 彭水| 女性| 连州市| 双辽市| 丹寨县| 武强县| 桂林市| 四子王旗| 儋州市| 和顺县| 广德县| 嘉峪关市| 枣庄市| 修文县| 博客| 出国| 长春市| 海兴县|