流程剩余時間預(yù)測對于業(yè)務(wù)異常的預(yù)防和干預(yù)有著重要的價值和意義。現(xiàn)有的剩余時間預(yù)測方法通過深度學(xué)習(xí)技術(shù)達到了更高的準確率,然而大多數(shù)深度模型結(jié)構(gòu)復(fù)雜難以解釋預(yù)測結(jié)果,即不可解釋問題。此外,剩余時間預(yù)測除了活動這一關(guān)鍵屬性還會根據(jù)領(lǐng)域知識選擇若干其它屬性作為預(yù)測模型的輸入特征,缺少通用的特征選擇方法,對于預(yù)測的準確率和模型的可解釋性存在一定影響。
01
方法概述
針對現(xiàn)存問題,本文提出了基于可解釋特征分層模型(Explainable Feature-based Hierarchical Model,EFH Model)的流程剩余時間預(yù)測框架,如圖1所示。具體而言,首先提出了特征自選擇策略,通過基于優(yōu)先級的后向特征刪除和基于特征重要性值的前向特征選擇,得到對預(yù)測任務(wù)具有積極影響的屬性作為模型輸入。然后提出可解釋特征分層模型架構(gòu),通過逐層加入不同特征得到每層的預(yù)測結(jié)果,解釋特征值與預(yù)測結(jié)果的內(nèi)在聯(lián)系。采用LightGBM (Light Gradient Boosting Machine)和LSTM (Long Short-Term Memory)算法實例化所提方法,框架是通用的不限于本文選用算法。
02
實驗驗證
本文在8個真實事件日志上與最新方法進行比較。實驗結(jié)果表明所提方法能夠選取出有效特征(見圖2),提高了預(yù)測的準確率(見圖3),并通過一個案例分析介紹展示了特征選擇過程并可視化解釋了預(yù)測結(jié)果。
03
案例分析
選用Helpdesk事件日志進行案例分析。圖4是經(jīng)過基于優(yōu)先級的后向特征刪除策略之后得到的特征重要性圖,說明了各特征對預(yù)測結(jié)果的影響程度,提供了全局解釋。圖中只顯示了對預(yù)測具有積極影響的屬性,活動作為關(guān)鍵標志特征,不需要計算其特征重要性。
圖4 Helpdesk的特征重要性
基于特征重要性值的前向特征選擇策略的篩選過程見圖5,其中No. 0是特征后向刪除策略選取的特征組合和預(yù)測結(jié)果,No. 1-10展示了前向特征選擇策略每次迭代使用的特征組合和預(yù)測結(jié)果。策略最終返回No. 8特征組合為最終結(jié)果,相比于No.0去除了hour和responsible_section得到了最小的MAE值,可以看出這兩個屬性單獨去除都會增加預(yù)測誤差,可兩個屬性同時去除則可以減少預(yù)測誤差,說明特征間具有組合關(guān)系。
圖5 基于特征重要性值的前向特征選擇策略的篩選過程
圖6和圖7隨機抽取了測試集中來自2條軌跡中2個事件的預(yù)測結(jié)果,并可視化出了每層的預(yù)測值。通過對比兩圖可以看出,兩圖中中Activity均為“Take in charge ticket”,第一層的預(yù)測值相同,但真實值相差較大,通過不同的allDuration值得到了更接近真實值的預(yù)測結(jié)果,allDuration較大時剩余時間會相對減少,而allDuration非常小則預(yù)測往往會偏大。其它屬性也具有不同程度的積極影響,每個屬性根據(jù)當前特征值的不同改變預(yù)測結(jié)果和影響趨勢(例如圖中位于真實值的上下兩側(cè))。由于該真實日志的發(fā)布者對敏感隱私數(shù)據(jù)進行了脫敏處理,許多特征值由代號來進行表示。若在具體場景中知道Value1等代號所指的具體含義,則可對預(yù)測結(jié)果產(chǎn)生更豐富的解釋。可以看出,我們的方法能夠在事件層面上解釋每一次預(yù)測的輸入特征值對預(yù)測結(jié)果的影響。
圖6 'Case 404'第2個事件節(jié)點
圖7 'Case 4505'第2個事件節(jié)點
04
未來展望
未來研究工作主要在所提框架中采用更先進的深度學(xué)習(xí)模型替換當前的LSTM,以驗證是否可以進一步提升預(yù)測準確率。其次,嘗試確定具有組合關(guān)系的特征,將其放入同一層中以驗證特征結(jié)合對預(yù)測結(jié)果的影響。此外,本文通過特征這一角度對預(yù)測的可解釋性進行了探討,可以繼續(xù)探討其它可解釋的模型或方法,進一步提高模型的可信性。
作者信息

未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 【好文推薦】一種預(yù)測流程剩余時間的可解釋特征分層方法
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國