用UiPath的DataScraping(數(shù)據(jù)抓取)功能,鼠標(biāo)點(diǎn)擊幾下,就可以實(shí)現(xiàn)抓取瀏覽器、應(yīng)用程序或文檔界面結(jié)構(gòu)化數(shù)據(jù),可謂功能強(qiáng)大!
抓取方式分為兩種:a、自動(dòng)抓取整張表內(nèi)容;b、按需求抓取需要的列內(nèi)容及列內(nèi)容的URL(超鏈接網(wǎng)址)。
這個(gè)功能用得不多,不過還是很好用的,而且有點(diǎn)技巧在里面,特此介紹。
數(shù)據(jù)抓取使您可以將瀏覽器、應(yīng)用程序或文檔中的結(jié)構(gòu)化數(shù)據(jù)提取到數(shù)據(jù)庫(kù),.csv文件甚至Excel電子表格中。
注意:
建議在Internet Explorer 11及更高版本、Mozilla Firefox 50或更高版本或最新版本的Google Chrome上使用該功能。
結(jié)構(gòu)化數(shù)據(jù)是一種高度組織化的特殊信息,以可預(yù)測(cè)的方式呈現(xiàn)。
例如,所有Google搜索結(jié)果都具有相同的結(jié)構(gòu):頂部的鏈接,URL的字符串和網(wǎng)頁(yè)的描述。
這種結(jié)構(gòu)使Studio可以輕松提取信息,因?yàn)樗冀K知道在哪里可以找到信息。
1. 打開要從中提取數(shù)據(jù)的網(wǎng)頁(yè)、文檔或應(yīng)用程序界面,單擊“ 設(shè)計(jì)”選項(xiàng)卡中“ 數(shù)據(jù)收集”按鈕,
打開數(shù)組抓取向?qū)В?/p>
點(diǎn)擊Next,然后選擇要抓取的數(shù)據(jù)的第一個(gè)單元格里面的內(nèi)容:
然后,Studio會(huì)自動(dòng)檢測(cè)您是否指示了表格單元格,并詢問您是否要提取整個(gè)表格:
-
如果單擊“ 是”,進(jìn)入自動(dòng)抓取方式,“ 提取向?qū)?rdquo;將顯示所選數(shù)據(jù)所在的表的所有數(shù)據(jù)預(yù)覽:
再點(diǎn)擊Finish,進(jìn)入第5步。
-
如果單擊“ 否”,則進(jìn)入按需的抓取模式,出現(xiàn)下面的界面:
點(diǎn)擊Next,回到要抓數(shù)據(jù)的界面,點(diǎn)擊同類型或同列第2個(gè)數(shù)據(jù),
選擇后,Studio可以推斷出信息的模式,進(jìn)入下面的界面。
2. 自定義列標(biāo)題,然后選擇是否提取URL。
3. 點(diǎn)擊Next,進(jìn)入預(yù)覽數(shù)據(jù)界面,編輯要提取的最大結(jié)果數(shù),然后更改列的順序:
4. (可選)如果還需要抓取其他列,單擊提取相關(guān)數(shù)據(jù)(Extract Corralted Data)按鈕。這使您可以再次執(zhí)行“ 提取向?qū)?rdquo;(也是需要兩次點(diǎn)擊同一類型數(shù)據(jù)),以提取其他信息并將其添加為同一表中的新列。
5. 指示網(wǎng)頁(yè),應(yīng)用程序或文檔中的“ 下一步”(Next)按鈕(如果要提取的信息跨越多個(gè)頁(yè)面)。
這里需要告訴想到,是否需要它幫你點(diǎn)擊下一頁(yè),以便收集所有的數(shù)據(jù)。如果選擇Yes,需要點(diǎn)擊“下一頁(yè)”按鈕,否則點(diǎn)擊No,完成向?qū)А?/p>
完成向?qū)Ш螅琒tudio中會(huì)生成一個(gè)序列:
數(shù)據(jù)抓取始終會(huì)生成一個(gè)容器(“附加瀏覽器”或“附加窗口”),該容器帶有用于頂層窗口的選擇器,以及帶有部分選擇器的“ 提取結(jié)構(gòu)化數(shù)據(jù)”活動(dòng),從而確保正確識(shí)別要抓取的應(yīng)用程序。
此外,“提取結(jié)構(gòu)化數(shù)據(jù)”活動(dòng)還帶有一個(gè)自動(dòng)生成的XML字符串(在ExtractMetadata屬性中,其中自動(dòng)抓取生成的內(nèi)容很簡(jiǎn)單,手動(dòng)一列一列抓取的內(nèi)容稍微復(fù)雜點(diǎn),好在都是自動(dòng)生成,無(wú)需太多關(guān)注),該字符串指示要提取的數(shù)據(jù)。
最后,所有已抓取的信息都存儲(chǔ)在你定義的DataTable變量(如上圖的ExtractDataTable)中,接下來,您就可以使用變量ExtractDataTable來保存到數(shù)據(jù)庫(kù)、csv文件或Excel電子表格。
網(wǎng)頁(yè)文件是用html寫的,網(wǎng)頁(yè)看見的文字,可能被裹了很多層用于格式的代碼,如果抓取到不合適的層,可能抓取不到需要的URL,舉例如下:
抓取包裹文字所在的層,可以抓到URL,不在其被包裹的層,例如單元格。
如果需要抓取URL,只能用第二種方式(按需取列)。
特別聲明:
文章來源:“柴班說”微信公眾號(hào)
作者:柴娟偉
RPA中國(guó)推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來源標(biāo)注錯(cuò)誤或侵權(quán),請(qǐng)聯(lián)系更正或刪除,謝謝。
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 借助UiPath RPA,輕松搞定數(shù)據(jù)抓取
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)