精品欧美一区二区在线观看视频,久久国产精品久久精品,国产精品久久久久av福利动漫

UiPath PDF數據提取

PDF一直是存儲數據最可靠的格式之一。從大型公司到小型企業，每個人都以這種格式存儲各種數據。但是，想象一下，如果必須從這些PDF文檔中提取原始數據。可以手動完成嗎？好吧，簡單的答案是否定的，因為這是一項相當繁瑣的工作，但是，如果您熟悉自動化中的某些服務，那么您可以輕松地自動執行此過程。

這篇關于UiPath PDF數據提取的文章將向您簡要介紹UiPath提供的從PDF中提取數據的所有方式，無論是原生文本格式還是掃描圖像。
為了便于您理解，我將本文分為以下兩個部分：

提取大文本
提取特定元素

在真正開始提取數據之前，需要確保的一件重要事情是從系統上安裝的Manage Packages部分獲得UiPath.PDF.Activities。選擇軟件包后，單擊“保存”，軟件包將開始安裝。請參閱下圖。

Manage Packages - UiPath PDF Data Extraction - Edureka

圖1：管理包的快照 - UiPath PDF數據提取

在我們繼續之前，如果您想學習使用UiPath從PDF中提取數據，可以參考以下視頻。該視頻將幫助您獲得數據提取的實踐經驗。

UiPath PDF數據提取

Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.

現在，您知道必須安裝哪個軟件包后，下面介紹如何在PDF文檔中提取大型文本。

提取大文本

可能存在這樣的情況：我們有一個完全充滿文本的文檔，或者文本和圖像的混合。那么，提取大型文本屬于這種文檔，其中文檔僅包含文本或文本和圖像的混合。

UiPath主要提供兩種選項來提取大型文本。分別是：

閱讀PDF文本
閱讀帶有OCR的PDF

除此之外，我們還有屏幕抓取方式。讓我們從閱讀PDF文本開始。

閱讀PDF文本

Read PDF用于從僅包含Text 的PDF文件中提取數據。因此，如果PDF中存在圖像，則此活動將不是要選擇的正確活動，因為它不會提取圖像中存在的數據。

在此之前，您可以參考下面的圖片，其中展示了我將用于此文章的示例PDF文件。在PDF文檔中，上半部分是文本，引用的部分是圖像。

Sample PDF - UiPath PDF Data Extraction - Edureka

現在，我將創建一個序列，在其中我將提到必須從中提取數據的PDF目錄，并且我將在消息框中編寫輸出。

注意： 您可以將輸出寫入任何格式的文件，如寫文本文件，寫入行，寫入單元格活動等。

第1步：創建一個序列并重命名。在這里，我將其重命名為Extract Text。

第2步：拖放“ 閱讀PDF文本活動”。在活動中，請提及必須從中提取數據的PDF文檔的路徑。

第3步：現在，在屬性面板中閱讀PDF文本活動，提一個輸出變量查看輸出。要設置輸出變量，請按CTRL + K，然后輸入名稱。這里我提到了輸出。

步驟4：之后，在序列中拖放一個消息框，然后在其中提及輸出變量。

完整序列和輸出應分別如下面的圖片所示。

Read PDF Text Activity - UiPath PDF Data Extraction - Edureka Fig 2: Snapshot of Read PDF Text Activity with
圖2：使用輸出讀取PDF文本活動的圖片 - UiPath PDF數據提取

在這里，您可以清楚地看到我們圖像中存在的文本未被提取，并且僅提取了樣本PDF文檔中存在的文本。那么，你們就可以使用“閱讀PD??F文本活動”。

現在，轉到下一個活動，即使用OCR活動讀取PDF。

閱讀帶有OCR活動的PDF

帶有OCR活動的閱讀PDF用于從包含文本和圖像的PDF文檔中提取數據。因此，如果除文檔中的文本外還有其他圖像，此活動將從這些圖像中提取數據并提供文本輸出。

OCR Engine - UiPath PDF Data Extraction - Edureka

正如活動的名稱所示，此活動使用光學字符識別來掃描PDF文檔內的圖像，并將所有文本輸出為變量。所以它需要一個OCR引擎。在“ 活動窗格”中，如果搜索OCR引擎，您將獲得已安裝引擎的列表。請參閱上圖。

現在，我將創建一個序列，在其中我將提到PDF的目錄，從中提取數據，我將在消息框中寫入輸出。唯一的區別是，您將看到圖像中的文本也被提取出來。

按照以下步驟，創建自動化以提取圖像中存在的文本。

第1步：創建一個序列并重命名。在這里，我已將其重命名為使用OCR提取文本。

步驟2.1：拖放帶有OCR活動的閱讀PDF。在活動中，請提及必須從中提取數據的PDF文檔的路徑。

步驟2.2：現在，搜索OCR引擎，并根據安裝的任何一個拖放OCR引擎。在這里，我使用了Google OCR Engine。

步驟3：現在，在具有OCR活動的閱讀PDF的屬性窗格中，提及輸出變量以查看輸出。設置輸出變量按CTRL + K，然后輸入名稱。這里我提到了輸出。

步驟4：之后，在序列中拖放一個消息框，然后在其中提及輸出變量。

您的完整序列和輸出應分別如下面的圖片所示。

Read PDF with OCR Activity - UiPath PDF Data Extraction - Edureka
圖2：使用OCR活動和輸出讀取PDF的快照 - UiPath PDF數據提取

在這里，您可以清楚地看到示例文檔圖像中存在的文本已被提取。這就是如何使用帶有OCR活動的閱讀PDF的操作方式。

在我結束這一部分之前，我再提一些重要的點。閱讀帶有OCR活動的PDF

關鍵點

在“ 讀取文本活動的屬性窗格 ” 和“ 使用OCR 活動讀取PDF”中，我們有一個名為Range的參數。此參數用于提及必須從中提取數據的頁碼范圍（1，全部，2-10 10-All）。
上述兩種活動都是獨立的，即它們不需要打開其他應用程序。因此，即使您的PDF文檔未在屏幕上打開，這些活動也可以執行您的任務。

現在，除了上述活動之外，還有另一種提取數據的方法，即使用“ 設計”選項卡中的屏幕抓取向導。

屏幕抓取向導

屏幕抓取向導是UiPath提供的一項功能，用于從多個平臺中抓取數據。

要使用此向導，您可以通過保持PDF文檔打開來執行以下步驟。

步驟1：單擊屏幕抓取擦圖標，然后選擇要提取的PDF文檔中的部分。

第2步：然后，您將被重定向到屏幕抓取向導，您可以使用提取的文本在下面看到。現在，在這里你可以選擇抓取方法（原生/全文/ OCR）。選擇所需的方法，然后單擊“ 完成”。

圖3：屏幕抓取向導快照 - UiPath PDF數據提取

第3步：單擊完成后，Scraping Wizard將返回到您的序列。在這里添加一個消息框以查看輸出并提及輸出變量，該變量在返回序列中的“獲取全文/獲取OCR文本”活動中提到。這里的變量名是'AvlAvview'，我在消息框中提到過。

您的完整序列和輸出應如下圖所示。

Screen Scraping with Output - UiPath PDF Data Extraction - Edureka

圖4：屏幕抓取和輸出的快照 - UiPath PDF數據提取

在這里，您可以清楚地看到示例文檔圖像中存在的文本被提取出來，以及文件中的文字。因此，您可以使用Screen Scraper Wizard來提取文本和圖像。

現在，繼續我們的下一部分，即提取特定元素

提取特定元素

通過提取特定元素，您可以在某些情況下提取特定元素，例如發票中的總計或簡歷中的聯系人號碼等。

UiPath主要提供兩種選項來提取大型文本。這些方法是：

獲取文字活動
錨定基礎活動

獲取文字活動

此活動只是指向您要提取的元素。使用此活動，可以提取文本，并可以使用輸出變量。之后，您可以使用消息框或寫文本文件活動并提及輸出變量。

請參閱下面的圖片以檢查順序和輸出。在這里，我提取了總金額，然后在消息框中顯示輸出。

Get Text Activity - UiPath PDF Data Extraction - Edureka
圖5：獲取文本活動和輸出的圖片 - UiPath PDF數據提取

這就是如何使用Get Text Action。現在，轉到我們的下一個活動，即Anchor-Base Activity。

錨定活動

Anchor Base Activity用于提取文本和圖像。此活動由兩個操作組成，因為它執行與另一個固定元素或錨點相關的操作。

因此，典型的錨定活動主要有兩個：

查找元素/查找圖像活動
獲取文字活動

查找元素/查找圖像活動

查找元素/查找圖像活動用于分別查找元素，即文本和圖像。您可以根據需要使用這些活動。現在，由于Anchor Base活動是一個相對活動，您可以像我之前提到的那樣使用Get Text Activity。

請參閱下面的圖片。在這里，我使用了Anchor-Base 活動，以及Find Image Activity和Get Text Activity。在“ 查找圖像活動”中，我選擇了“總計”，因此基本上會搜索“總計”，然后在“獲取文本活動”中，由于選擇了該值，因此將提取該值。