80% 的企業(yè)采用半自動化構(gòu)建知識圖譜,全自動化什么時候?qū)崿F(xiàn)?

      后臺-系統(tǒng)設(shè)置-擴展變量-手機廣告位-內(nèi)容正文頂部


       

      AI 技術(shù)的發(fā)展和大數(shù)據(jù)時代的到來令知識圖譜的自動化構(gòu)建成為可能,盡管現(xiàn)階段還面臨著一些挑戰(zhàn),但已有不少企業(yè)在積極探索和嘗試自動化構(gòu)建技術(shù)。近日,AI 前線采訪了來自明略科技和國雙數(shù)據(jù)科學(xué)團隊多位專家,他們分享了實現(xiàn)大規(guī)模自動化知識圖譜建設(shè)的技術(shù)與應(yīng)用實踐。
       
      人工構(gòu)建還是機器構(gòu)建?
       

      知識圖譜是新一代知識工程技術(shù)的代表,傳統(tǒng)的知識工程重度依賴人工干預(yù),知識建模和獲取主要從領(lǐng)域?qū)<姨帿@取專業(yè)知識。自 2012 年谷歌提出"知識圖譜"的概念并運用到搜索引擎后,知識圖譜的構(gòu)建技術(shù)與應(yīng)用引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
       

      最近幾年,隨著 AI 技術(shù)的發(fā)展和大數(shù)據(jù)時代的到來,知識圖譜的自動化構(gòu)建成為可能,從構(gòu)建技術(shù)看,它經(jīng)歷了由人工構(gòu)建到群體智慧構(gòu)建到自動獲取、構(gòu)建的過程。 自動化構(gòu)建知識圖譜的特點是面向互聯(lián)網(wǎng)的大規(guī)模、開放、異構(gòu)環(huán)境,利用機器學(xué)習(xí)和信息抽取技術(shù)自動獲取互聯(lián)網(wǎng)上的信息。
       

      明略科技科學(xué)院知識工程實驗室負(fù)責(zé)人張杰在接受 AI 前線采訪時表示,對企業(yè)而言,知識圖譜的構(gòu)建,如果自動化程度和準(zhǔn)確度都能很高,具有兩方面意義:
       

      為企業(yè)拓展數(shù)據(jù)規(guī)模增加數(shù)據(jù)連接。知識圖譜可以連接內(nèi)部結(jié)構(gòu)化數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、外部非結(jié)構(gòu)化數(shù)據(jù),進而可能成為下一代企業(yè)管理數(shù)據(jù)的主流技術(shù)路線;

      另一方面,提升數(shù)據(jù)的挖掘深度和利用效率。以往多數(shù)企業(yè)做數(shù)據(jù)挖掘項目,都僅僅對靜態(tài)數(shù)據(jù)做淺層加工得到標(biāo)簽,然后再訓(xùn)練模型。以圖結(jié)構(gòu)為主的關(guān)系數(shù)據(jù)、以時空序列為主的動態(tài)數(shù)據(jù)并沒有得到充分利用。


      人工構(gòu)建和自動化構(gòu)建各有優(yōu)缺點。人工構(gòu)建圖譜耗時耗力,構(gòu)建出的圖譜規(guī)模較小。知識圖譜發(fā)揮作用需要依靠規(guī)模效應(yīng),如果單純依靠人工構(gòu)建,容易陷入此前專家系統(tǒng)的瓶頸,導(dǎo)致實用能力有限,無法發(fā)展起來。而自動化構(gòu)建處理速度快,可以減少人工、時間、成本,更適應(yīng)大數(shù)據(jù)時代的應(yīng)用要求。
       

      不過以目前的技術(shù)水平,自動化構(gòu)建的準(zhǔn)確率還低于人工,一般情況下減少人工會導(dǎo)致準(zhǔn)確性下降。在一些結(jié)構(gòu)化不強,需要人工理解才能判斷的場景,如果缺少人工參與,將會影響知識圖譜的質(zhì)量。
       

      在知識圖譜構(gòu)建的主流技術(shù)路線中,人工對于其中幾個環(huán)節(jié)仍不可或缺。 如在從結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)映射為知識圖譜的工作中,主要工作量在于工程師梳理映射邏輯和開發(fā)映射規(guī)則,然后機器去批量化的自動執(zhí)行;在從非結(jié)構(gòu)化文本中自動抽取本體的工作中,自動化程度較高,在標(biāo)注訓(xùn)練數(shù)據(jù)集上,準(zhǔn)確度往往難以保證商用,仍需人工校驗。
       

      國雙數(shù)據(jù)科學(xué)團隊負(fù)責(zé)人表示,現(xiàn)階段要兼顧效率和精度,最合理的方式是半自動化結(jié)合人工。目前業(yè)內(nèi)構(gòu)建知識圖譜很少見純?nèi)斯ず腿詣臃椒ǎ捎玫闹髁鞣绞绞前胱詣咏Y(jié)合人工方式,約占 80% 以上。
       

      半自動結(jié)合人工方式操作的流程是,前期借助人工標(biāo)注適量數(shù)據(jù),訓(xùn)練模型自動化抽取,最后由人工進行審核或驗證。
       

      目前商業(yè)化的知識圖譜,均有部分自動化構(gòu)建能力,實現(xiàn)動輒千萬甚至上億數(shù)據(jù)規(guī)模的知識圖譜。一般手工部分出現(xiàn)在知識圖譜構(gòu)建早期(冷啟動),隨著圖譜規(guī)模的擴大,依據(jù)知識推理和機器學(xué)習(xí),自動化程度會逐漸提升。后期的知識圖譜自動更新主要集中在動態(tài)更新實體數(shù)據(jù)、發(fā)現(xiàn)新的實體,從新入庫的各類原始數(shù)據(jù)中獲取新的知識等環(huán)節(jié)。
       

      現(xiàn)階段,一定程度的人工參與加機器自動化的方式可能在相當(dāng)長一段時間內(nèi)會是主流。 圖譜結(jié)構(gòu)的定義依賴于具體應(yīng)用場景和要解決的問題,需要人來定義。有些場景對數(shù)據(jù)質(zhì)量要求極高,如公共安全、金融、醫(yī)療等領(lǐng)域做知識融合要通過人工校驗來最大程度保證可靠性。
       

      張杰表示,如果一些場景的知識圖譜可以滿足商用要求( TO C 場景下準(zhǔn)確率要到 95%,TO B 場景下要更高),就可以全面交給機器來進行自動化構(gòu)建。 他認(rèn)為,To C 場景下的檢索、推薦,應(yīng)該會很快實現(xiàn)全面自動化,而 To B 場景下的推理、決策,通往全面自動化還要很久。
       

      國雙認(rèn)為,在一些垂直的有限領(lǐng)域如司法等可能將在未來 2~3 年實現(xiàn)可自動更新實體數(shù)據(jù)的知識圖譜體系。
       

      如何實現(xiàn)大規(guī)模自動化的知識圖譜構(gòu)建
       
      知識圖譜自動化構(gòu)建流程與技術(shù)
       

      盡管實現(xiàn)全面自動化構(gòu)建知識圖譜還有很長的一段路要走,但已有不少企業(yè)在積極探索降低人工參與度,提升自動化構(gòu)建水平,如明略科技推出了人類智能、機器智能、組織智能三位一體的 HAO 智能系統(tǒng),國雙通過自研的知識抽取算法設(shè)計平臺完成知識抽取流程設(shè)計。
       

      這里以國雙為例,說明知識圖譜自動化構(gòu)建的方法。
       

      自動化構(gòu)建流程主要包括本體創(chuàng)建 –> 數(shù)據(jù)標(biāo)注 –> 模型訓(xùn)練 –> 知識抽取 –> 知識融合 –> 知識推理 –> 知識更新等環(huán)節(jié)。具體來看:
       

      數(shù)據(jù)標(biāo)注和模型訓(xùn)練環(huán)節(jié),通過知識抽取算法設(shè)計平臺完成;
       

      在知識抽取環(huán)節(jié),以相對復(fù)雜的非結(jié)構(gòu)化知識抽取為例,國雙運用的技術(shù)是將標(biāo)注數(shù)據(jù)清洗擴增,使用基于 Encoder 和 Decoder 的端到端三元組聯(lián)合抽取模型進行知識抽取。針對沒有標(biāo)注數(shù)據(jù)的冷啟動知識抽取需求,構(gòu)建了一套利用依存句法分析算法實現(xiàn)無監(jiān)督情況下抽取三元組的系統(tǒng)。
       

      在知識融合環(huán)節(jié),國雙構(gòu)建了一套結(jié)合傳統(tǒng)字符串相似度和圖卷積網(wǎng)絡(luò)的融合系統(tǒng),將知識圖譜經(jīng)過 GCN 編碼后得到表示向量,通過計算表示向量相似度和實體的字符串相似度,并結(jié)合 Sieve 模式高效篩選出融合結(jié)果。
       

      在知識推理環(huán)節(jié),在基于規(guī)則和基于算法的知識推理方面做了一些嘗試,例如通過業(yè)務(wù)本體框架中的相關(guān)約束來做相關(guān)推理。
       

      在知識更新環(huán)節(jié),使用知識抽取實驗平臺把新的增量數(shù)據(jù)去重新訓(xùn)練模型,且依靠知識抽取算法 API 來實現(xiàn)自動的知識更新。
       

      張杰表示,知識圖譜自動構(gòu)建的過程中主要運用到了自然語言處理、小樣本訓(xùn)練、領(lǐng)域遷移等關(guān)鍵的 AI 技術(shù)。自動化構(gòu)建知識圖譜有四大技術(shù)重點:
       

      如何自動化的從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識圖譜并做知識融合;如何通過小樣本學(xué)習(xí)和領(lǐng)域知識遷移的技術(shù)減少人工標(biāo)注成本;如何從非結(jié)構(gòu)化文本中做篇章級的事件抽取和多事件關(guān)聯(lián);基于深度學(xué)習(xí)的知識表示在各個構(gòu)建的環(huán)節(jié)的應(yīng)用。
       

      針對結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),明略科技提出了 HAO profiling 技術(shù),對來自不同數(shù)據(jù)源的結(jié)構(gòu)化 / 半結(jié)構(gòu)化數(shù)據(jù)進行匯聚、組織,試圖理解數(shù)據(jù),解決數(shù)據(jù)冗余、沖突等問題,對數(shù)據(jù)進行標(biāo)準(zhǔn)化、連接,形成數(shù)據(jù)的知識圖譜,進行可視化展示,并以統(tǒng)一視圖服務(wù)查詢、計算等應(yīng)用需要。
       

      針對非結(jié)構(gòu)化數(shù)據(jù),明略科技設(shè)計、開發(fā)了一套算法工具包:HAO 圖譜。HAO 圖譜包括關(guān)系抽取、事件抽取、實體對齊、網(wǎng)絡(luò)結(jié)構(gòu)嵌入式表示、時空序列數(shù)據(jù)表示、圖譜摘要、基于圖譜的短文本生成等算法。
       

      構(gòu)建挑戰(zhàn)
       

      知識圖譜在構(gòu)建過程中面臨著諸多挑戰(zhàn)。
       

      張杰指出,自動化構(gòu)建主要的技術(shù)挑戰(zhàn)點有三項:信息丟失、信息冗余、信息重疊。 信息丟失是指應(yīng)該抽取出來的信息沒有抽全。信息冗余指在輸入文本中不存在但在背景知識中存在的額外概念和關(guān)系。信息重疊是指能否將原文中距離跨度較大的屬性歸結(jié)到正確的實體上,并對動態(tài)變化的屬性進行適當(dāng)存儲。
       

      此外,知識圖譜構(gòu)建成本高昂,小樣本的抽取和構(gòu)建問題,也是業(yè)界公認(rèn)的難題。
       

      對于小樣本的抽取問題,在國雙看來,從小樣本中進行抽取,很難采用直接數(shù)據(jù)驅(qū)動的方式,一般需要借助知識來降低對數(shù)據(jù)的依賴。知識輔助的方式有兩種,一種是人工將知識寫入系統(tǒng),即規(guī)則編碼等方式;另一種是機器進行知識推理,也就是基于背景知識進行概率推理,這個方法在消歧或?qū)嶓w鏈接、關(guān)系預(yù)測上經(jīng)常使用。
       

      人工構(gòu)建一個知識圖譜的成本是非常高的,降低成本從某種程度上可以說是構(gòu)建過程的核心和關(guān)鍵。明略科技和國雙分享了自己的解決方案:
       

      明略科技認(rèn)為,降成本需要做到行業(yè)經(jīng)驗復(fù)用和技術(shù)工具復(fù)用。 為此,在行業(yè)經(jīng)驗復(fù)用方面,明略科技成立了行業(yè)咨詢團隊,形成了面向行業(yè)的最佳實踐和成功案例,且投入到國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、聯(lián)盟標(biāo)準(zhǔn)的制定中。
       

      技術(shù)工具復(fù)用方面,明略科技將技術(shù)體系(行業(yè)交付團隊、技術(shù)部、科學(xué)院)的技術(shù)能力全集團范圍內(nèi)共享打通,科學(xué)院的成果會輸出到技術(shù)部,技術(shù)部形成公司級的產(chǎn)品組件,行業(yè)交付團隊初次面對新行業(yè)時會做些定制化開發(fā),再次復(fù)用后會凝練為產(chǎn)品并回流到技術(shù)部。
       

      國雙認(rèn)為,構(gòu)建知識圖譜的成本需要考慮三大因素:人,模型,數(shù)據(jù)。首先由人來創(chuàng)建正確有效的本體,標(biāo)注少量數(shù)據(jù);利用數(shù)據(jù)增強等方式來訓(xùn)練機器學(xué)習(xí)模型,再利用模型處理有標(biāo)注和無標(biāo)注數(shù)據(jù);最后人工查驗,在保證標(biāo)注精度的情況下最大程度減少人工干預(yù),最終實現(xiàn)控制成本、做大規(guī)模,同時保證知識圖譜的質(zhì)量。使用知識抽取算法設(shè)計平臺,可以通過平臺化的方式設(shè)計知識抽取流程,在設(shè)計過程中流程化地預(yù)估各個方案的預(yù)期結(jié)果和成本,最終通過科學(xué)決策選擇性價比最好的方案。
       

      應(yīng)用實踐
       

      目前自動化構(gòu)建的知識圖譜主要運用在智能問答、智能推薦、語義搜索、網(wǎng)絡(luò)行為動態(tài)分析等場景中。由于需要大量領(lǐng)域?qū)<业母深A(yù),很多特定領(lǐng)域的知識圖譜自動化構(gòu)建的進展有些緩慢,尤其在一些小規(guī)模、應(yīng)用場景復(fù)雜、專家知識密集的場景。
       

      但知識圖譜需要運用到廣闊的業(yè)務(wù)場景里才能夠發(fā)揮出它的真正價值。
       

      據(jù)了解,明略科技一直在營銷、公共安全、數(shù)字城市、工業(yè)、金融等領(lǐng)域探索自動化構(gòu)建行業(yè)知識圖譜。明略科技的 HAO 智能系統(tǒng)在以人為本、人機協(xié)同的基礎(chǔ)上,加入了面向行業(yè)應(yīng)用、具體細(xì)分領(lǐng)域的 Organizational Intelligence。
       

      該系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)通用治理平臺 CONA(關(guān)聯(lián)所有數(shù)據(jù)),可通過設(shè)置數(shù)據(jù)轉(zhuǎn)換規(guī)則,結(jié)合數(shù)據(jù)多值溯源和融合策略,自動完成標(biāo)準(zhǔn)化對標(biāo),實現(xiàn)數(shù)據(jù)治理自動化,這能夠大大提高行業(yè)知識圖譜構(gòu)建效率。以公共安全領(lǐng)域?qū)嶋H數(shù)據(jù)治理為例,業(yè)務(wù)系統(tǒng)中近千張表,傳統(tǒng)方法和工具做圖譜構(gòu)建可能需要半年以上的時間,而 CONA 能夠縮短到 2 周。
       

      張杰介紹,在協(xié)同推理方面,明略科技采用專家規(guī)則加數(shù)據(jù)驅(qū)動的方式形成了行業(yè)因果圖譜,以便于對未來事件的走向做預(yù)測。這一技術(shù)今年有望應(yīng)用在復(fù)雜度較高且客單價較高的行業(yè)中。
       

      國雙從 2016 年開始在司法領(lǐng)域構(gòu)建知識圖譜,并逐步擴展到了營銷領(lǐng)域和工業(yè)領(lǐng)域。其中,司法知識圖譜是目前做到技術(shù)成熟度最高和規(guī)模最大的。
       

      在構(gòu)建這個知識圖譜的過程中,由于知識來自于文書庫、法律法規(guī)庫和司法專業(yè)知識庫等多個來源,存在知識重復(fù)和指代不明等問題,為了做到自動化、高質(zhì)量地構(gòu)建知識圖譜,國雙針對這些問題運用層次聚類和基于密度的聚類方法,實現(xiàn)了實體間的對齊和內(nèi)部消歧,消歧的正確率達到 98%。
       

      “知識圖譜的構(gòu)建是一個復(fù)雜的系統(tǒng)工程,不可能通過某一項技術(shù)適配所有場景。綜合來看,解決這個問題需要以技術(shù)為基礎(chǔ),構(gòu)建工具體系,然后面向場景進行系統(tǒng)設(shè)計”,國雙數(shù)據(jù)科學(xué)團隊負(fù)責(zé)人表示。
       

      結(jié)束語
       

      通過以上專家的分析,可以預(yù)見的是,大規(guī)模知識圖譜的自動化、高質(zhì)量構(gòu)建將成為重要的發(fā)展趨勢。
       

      張杰認(rèn)為,要實現(xiàn)上述目標(biāo),至少需要三方面的能力:
       

      算法把控能力: 知道各類算法的適用場景和算法所能達到的上限大致在哪里,不盲從所謂的主流,不迷信所謂的前沿,實際場景下有效的系統(tǒng)往往是多種技術(shù)方案共同作用的結(jié)果;

      跨層并行能力: 從原數(shù)據(jù)到圖譜應(yīng)用是個很長的鏈條,并不是所有環(huán)節(jié)在處理大規(guī)模數(shù)據(jù)時都能夠獨立的做并行化處理,如何跨層做聯(lián)合優(yōu)化,需要架構(gòu)的設(shè)計者打通技術(shù)棧;

      業(yè)務(wù)理解能力: 技術(shù)人員要對所屬行業(yè)和所面臨的場景需求要有很好的理解,才能在投入與產(chǎn)出之間做出良好的平衡。


      采訪嘉賓介紹 :

      張杰,明略科技科學(xué)院知識工程實驗室負(fù)責(zé)人,天津大學(xué)本科、碩土、博士畢業(yè),研究方向為機器學(xué)習(xí)、自然語言處理、知識工程,發(fā)表學(xué)術(shù)論文十余篇,發(fā)明專利八十余項,曾就職于華為諾亞方舟實驗室,后作為聯(lián)合創(chuàng)始人創(chuàng)辦金融科技公司并任 CTO,曾主持搭建百科知識問答、對話機器人、推薦引擎、決策引擎、大數(shù)據(jù)風(fēng)控等多項系統(tǒng),累計創(chuàng)造商業(yè)價值數(shù)億元。

      國雙數(shù)據(jù)科學(xué)團隊,經(jīng)歷了五年多的發(fā)展目前成員共計 30 多人。所有成員均來自國內(nèi)外一流大學(xué),包括數(shù)據(jù)科學(xué)家、機器學(xué)習(xí)建模專家、計算機視覺專家、自然語言處理專家、語音工程專家等。目前數(shù)據(jù)科學(xué)應(yīng)用主要服務(wù)能源、汽車、金融、快消、政府、司法等行業(yè)。 


       

      特別聲明:

      文章來源:AI前線(ai-front)

      作者:劉燕

      原文鏈接:https://mp.weixin.qq.com/s/EAxYJyRHuG-b7ybWQwb6MA

      RPA中國推薦閱讀,轉(zhuǎn)載此文是出于傳遞更多信息之目的。如有來源標(biāo)注錯誤或侵權(quán),請聯(lián)系更正或刪除,謝謝。

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 80% 的企業(yè)采用半自動化構(gòu)建知識圖譜,全自動化什么時候?qū)崿F(xiàn)?

      后臺-系統(tǒng)設(shè)置-擴展變量-手機廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 侯马市| 道孚县| 阿合奇县| 增城市| 德保县| 平安县| 来安县| 乌鲁木齐市| 绥德县| 西丰县| 宜君县| 呼和浩特市| 景宁| 平顺县| 确山县| 广安市| 渑池县| 孟津县| 宜城市| 绍兴市| 军事| 丹巴县| 阳谷县| 莱州市| 肃南| 郴州市| 津南区| 华蓥市| 安平县| 南城县| 健康| 扬中市| 浦县| 萨迦县| 额尔古纳市| 淮滨县| 潜江市| 黄梅县| 化州市| 思茅市| 山阳县|