借助UiPath RPA,輕松搞定數(shù)據(jù)抓取

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文頂部

      用UiPath的DataScraping(數(shù)據(jù)抓取)功能,鼠標(biāo)點(diǎn)擊幾下,就可以實(shí)現(xiàn)抓取瀏覽器、應(yīng)用程序或文檔界面結(jié)構(gòu)化數(shù)據(jù),可謂功能強(qiáng)大!

       

      抓取方式分為兩種:a、自動(dòng)抓取整張表內(nèi)容;b、按需求抓取需要的列內(nèi)容及列內(nèi)容的URL(超鏈接網(wǎng)址)。 

       

      這個(gè)功能用得不多,不過還是很好用的,而且有點(diǎn)技巧在里面,特此介紹。

       

       

      一、數(shù)據(jù)抓取(DataScraping)       

       

      數(shù)據(jù)抓取使您可以將瀏覽器、應(yīng)用程序或文檔中的結(jié)構(gòu)化數(shù)據(jù)提取到數(shù)據(jù)庫(kù),.csv文件甚至Excel電子表格中。
       

      注意:

      建議在Internet Explorer 11及更高版本、Mozilla Firefox 50或更高版本或最新版本的Google Chrome上使用該功能。

       

      結(jié)構(gòu)化數(shù)據(jù)是一種高度組織化的特殊信息,以可預(yù)測(cè)的方式呈現(xiàn)。

       

      例如,所有Google搜索結(jié)果都具有相同的結(jié)構(gòu):頂部的鏈接,URL的字符串和網(wǎng)頁(yè)的描述。

       

      這種結(jié)構(gòu)使Studio可以輕松提取信息,因?yàn)樗冀K知道在哪里可以找到信息。

       

      二、數(shù)據(jù)抓取向?qū)У闹饕襟E       

       

      1. 打開要從中提取數(shù)據(jù)的網(wǎng)頁(yè)、文檔或應(yīng)用程序界面,單擊“ 設(shè)計(jì)”選項(xiàng)卡中“ 數(shù)據(jù)收集”按鈕,

       

      打開數(shù)組抓取向?qū)В?/p>

      點(diǎn)擊Next,然后選擇要抓取的數(shù)據(jù)的第一個(gè)單元格里面的內(nèi)容:

      然后,Studio會(huì)自動(dòng)檢測(cè)您是否指示了表格單元格,并詢問您是否要提取整個(gè)表格:

       

      • 如果單擊“ 是”,進(jìn)入自動(dòng)抓取方式,“ 提取向?qū)?rdquo;將顯示所選數(shù)據(jù)所在的表的所有數(shù)據(jù)預(yù)覽:

       

      再點(diǎn)擊Finish,進(jìn)入第5步。

       

      • 如果單擊“ 否”,則進(jìn)入按需的抓取模式,出現(xiàn)下面的界面:

      點(diǎn)擊Next,回到要抓數(shù)據(jù)的界面,點(diǎn)擊同類型或同列第2個(gè)數(shù)據(jù),

      選擇后,Studio可以推斷出信息的模式,進(jìn)入下面的界面。

       

      2. 自定義列標(biāo)題,然后選擇是否提取URL。

       

      3. 點(diǎn)擊Next,進(jìn)入預(yù)覽數(shù)據(jù)界面,編輯要提取的最大結(jié)果數(shù),然后更改列的順序:

       

      4. (可選)如果還需要抓取其他列,單擊提取相關(guān)數(shù)據(jù)(Extract Corralted Data)按鈕。這使您可以再次執(zhí)行“ 提取向?qū)?rdquo;(也是需要兩次點(diǎn)擊同一類型數(shù)據(jù)),以提取其他信息并將其添加為同一表中的新列。

       

      5. 指示網(wǎng)頁(yè),應(yīng)用程序或文檔中的“ 下一步”(Next)按鈕(如果要提取的信息跨越多個(gè)頁(yè)面)。

      這里需要告訴想到,是否需要它幫你點(diǎn)擊下一頁(yè),以便收集所有的數(shù)據(jù)。如果選擇Yes,需要點(diǎn)擊“下一頁(yè)”按鈕,否則點(diǎn)擊No,完成向?qū)А?/p>

       

             完成向?qū)Ш螅琒tudio中會(huì)生成一個(gè)序列:

       

      數(shù)據(jù)抓取始終會(huì)生成一個(gè)容器(“附加瀏覽器”或“附加窗口”),該容器帶有用于頂層窗口的選擇器,以及帶有部分選擇器的“ 提取結(jié)構(gòu)化數(shù)據(jù)”活動(dòng),從而確保正確識(shí)別要抓取的應(yīng)用程序。

       

      此外,“提取結(jié)構(gòu)化數(shù)據(jù)”活動(dòng)還帶有一個(gè)自動(dòng)生成的XML字符串(在ExtractMetadata屬性中,其中自動(dòng)抓取生成的內(nèi)容很簡(jiǎn)單,手動(dòng)一列一列抓取的內(nèi)容稍微復(fù)雜點(diǎn),好在都是自動(dòng)生成,無(wú)需太多關(guān)注),該字符串指示要提取的數(shù)據(jù)。

       

      最后,所有已抓取的信息都存儲(chǔ)在你定義的DataTable變量(如上圖的ExtractDataTable)中,接下來,您就可以使用變量ExtractDataTable來保存到數(shù)據(jù)庫(kù)、csv文件或Excel電子表格。

       

      三、可能遇到的問題       

      網(wǎng)頁(yè)文件是用html寫的,網(wǎng)頁(yè)看見的文字,可能被裹了很多層用于格式的代碼,如果抓取到不合適的層,可能抓取不到需要的URL,舉例如下:

       

      抓取包裹文字所在的層,可以抓到URL,不在其被包裹的層,例如單元格。

       

      四、總結(jié)       

       

      如果需要抓取URL,只能用第二種方式(按需取列)。



      特別聲明:
       

      文章來源:“柴班說”微信公眾號(hào)  

      作者:柴娟偉

      RPA中國(guó)推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來源標(biāo)注錯(cuò)誤或侵權(quán),請(qǐng)聯(lián)系更正或刪除,謝謝。

       

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 借助UiPath RPA,輕松搞定數(shù)據(jù)抓取

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 新巴尔虎右旗| 玛曲县| 呼和浩特市| 重庆市| 安吉县| 田阳县| 龙里县| 平罗县| 和平县| 思南县| 噶尔县| 嘉义市| 东丽区| 大埔区| 南乐县| 太仓市| 客服| 乐至县| 郧西县| 定南县| 崇文区| 武宣县| 临沧市| 安庆市| 古浪县| 乐陵市| 谢通门县| 南川市| 高阳县| 江门市| 阿荣旗| 永安市| 江永县| 长宁县| 精河县| 泗洪县| 霞浦县| 进贤县| 宁安市| 鄂托克前旗| 宁远县|