色婷婷综合网,日韩视频―中文字幕,久久久久观看

導讀

本文整理自達觀數據聯合創始人于敬 4 月 19 日的直播公開課——《基于智能推薦的精細化運營》。

首先簡單介紹下我們公司。達觀數據是中國文本智能化處理領域的領軍企業，曾先后獲得國家級高新技術企業、上海市科技小巨人企業等稱號，是中國文本智能化處理領域的準獨角獸企業。總部位于上海浦東軟件園，核心團隊由來自于BAT的頂尖技術專家組成。

在文字語義自動化處理領域，達觀數據已經獲得100余項發明專利和軟件著作權，榮獲中國人工智能領域最高獎“吳文俊人工智能獎”，曾獲得國際計算機學會ACM、CIKM、KDD算法競賽全球冠軍、EMI Hackathon倫敦競賽冠軍。

達觀已經成功為數百家政企提供各種文本的自動化處理軟件，包括文本處理、搜索推薦、知識圖譜、OCR、RPA等功能，大幅提升客戶運營效率，獲得客戶廣大好評。

本次分享主要包含以下四部分內容：

精細化運營和智能推薦概述
達觀推薦流程及相關技術
智能推薦賦能精細化運營
客戶成功案例場景

1、精細化運營和智能推薦概述

1、什么是精細化運營？

精細化運營是一種針對人群、場景、流程做差異化細分運營的運營策略，是結合市場、渠道、用戶行為等數據分析，對用戶展開有針對性的運營活動，以實現運營目的行為。

從流量角度來說，就是讓流量價值最大化；
從用戶角度來說，就是“看人下菜” / “見人行事“，為用戶提供專門的定制化服務。

運營的形式有很多種，常見的有用戶運營、內容運營、活動運營、社群運營、產品運營等，這些運營方式的本質主要是圍繞對用戶的運營，因為企業生存的基礎就是用戶，企業的利潤最終直接或間接來源于用戶。

精細化運營主要關注投入產出比，它運營的粒度更細，能更加精準地根據用戶興趣、內容特征、活動狀態等信息進行數據化的、科學的決策。

為什么要精細化運營？

1、流量越來越貴。“人傻、錢多、流量速來”的這種粗放式運營模式早已行不通。

2、移動互聯網人口紅利逐漸消失。隨著國內互聯網網民數、移動用戶數逐漸趨于飽和，增量市場逐漸往存量市場轉變。

3、技術的發展逐漸成熟。AI、大數據、云計算等技術為精細化運營提供了技術的支撐。

4、精細化運營的目標主要是追求價值最大化、風險最小化。基于海量數據的不斷挖掘，我們可以快速迭代優化產品，使得精細化運營成為可能。可以通過細致的運營行為來提高轉化率、運營效率，降低運營成本、運營風險。

以前市場更關注如何大規模并且低成本的獲客，現在更多人關注如何提升存量用戶的價值。通過借助精細化的運營手段，讓用戶感受到有溫度、有靈魂的產品。

AI時代產品增長策略-AARRR模型

AARRR模型是典型的用戶增長模型，從獲取用戶進行拉新，然后到激活、留存、變現、傳播。它覆蓋到了用戶整個生命周期：

1、獲取

用戶從不同的渠道了解到你的產品；

2、激活

用戶在產品上完成一系列的操作之后，用戶通過激活過程和產品有更多交互；

3、留存

用戶在了解產品、激活之后也可以經常打開產品，連續不斷的使用產品；

4、變現

用戶在使用產品的過程中，發生一些可以使你收益變大的行為，進而帶來轉化；

5、傳播

用戶通過產品幫助你做口碑效應，帶動或引導他所了解的人使用產品。

從上到下來看，每一步都會有用戶流失，獲取、激活、留存是一個漏斗模型，這個用戶增長模型主要是因為其掠奪式增長方式，也被稱為“海盜模型”。

AARRR模型

早期PC互聯網時代，瀏覽頁面時有各種彈窗廣告，用戶體驗很差。當時主要是賣方占據絕對優勢，用戶體驗處于比較次要的地位。但在移動互聯網時代，業界產品同質化現象非常嚴重，競爭非常激烈，我們也會看到每個產品也會一些馬太效應、并存這種問題，這給現在的產品運營帶來更多挑戰。

AI時代的用戶增長模型優先級也發生了變化。當用戶來了希望能更多留存，帶來更多激活，接著可以帶來口碑效應（傳播），從而進行轉化變現，再去大量的拉新、獲客。

AI時代的產品增長策略模型

運營本質

運營的本質主要是解決內容和用戶匹配問題。從產品形態來說主要有兩種方式：主動搜索和被動推薦。當然，還會有各種各樣的運營借助大數據分析挖掘的技術，例如千人千面的個性化分發系統。

2、日常生活中的推薦

推薦大家并不陌生，甚至它已經成為了產品的標配，現在打開任意APP都可以看到多種推薦場景——《今日頭條》的新聞資訊，抖音、快手的視頻，愛奇藝或騰訊上的電影、電視劇，天貓、京東上的商品，甚至打開微博看看好友動態或各種熱點……智能推薦已經完全融入到大家的日常生活當中了。

產品標配的推薦系統有各種各樣的推薦場景，文本、圖片、音頻、視頻、好友推薦……現在日常我們能看到的各種各樣推薦產品，達觀都服務過類似的客戶。

智能推薦解決的兩大問題

1、信息過載問題

用戶如何在有限時間內從海量內容中找到自己感興趣的內容？這變得很有難度。

有時用戶并不知道想要什么內容，可能會存在“我有這個時間，我想找自己感興趣的東西，但是無所適從”的窘境。

2、長尾問題

在移動互聯網時代，熱門的內容占據了大量的曝光機會，這時候就會帶來馬太效應加劇，不利于產品良好形態的構建，很多內容沒有機會曝光給感興趣的用戶。

內容的產生到維護都需要很多成本，對于企業而言是很大的損失。

智能推薦的千人千面智能分發過程，可以很好的解決信息過載和長尾問題。

推薦系統對于用戶的核心價值

從用戶側來說，用戶期望在需求不明確的時候可以有一個貼心助手，可以從海量內容中篩選我感興趣的內容，可以在面對陌生領域時提供參考意見。這種推薦其實很多時候有一個自己好奇心的機制，我們在刷抖音的時候，時間在上刷、下刷的不斷交互中慢慢過去了。

推薦系統從本質上來說是基于用戶反饋來挖掘用戶興趣，進而可以結合內容本身各種各樣維度特點和用戶偏好進行匹配。在合適的場景、時機，以特定的形式推薦給用戶，滿足用戶實際心理訴求。

什么是個性化推薦

個性化推薦搭起了用戶和內容間的橋梁。從用戶角度，篩選出喜好的內容；從內容角度，篩選出匹配的用戶群；結合用戶行為反饋的變化，進行實時分析挖掘、進行實時推薦，保證推薦內容的時效性、多樣性，時刻給用戶驚喜的結果。

目前主流的推薦場景有首頁信息流或卡片式推薦，包括詳情頁底部的相關推薦等。對于PC頁面來說，側邊欄可以放推薦結果。

推薦的形式主要有三種：

1、個性化推薦

類似常見的feed流，常以“推薦”、“猜你喜歡”、“發現”等形式出現，一般放在首頁。主要滿足興趣的廣度，內容不會太單一，可以保證用戶興趣的廣度。做個性化探索，給用戶帶來持續性、有驚喜度的推薦結果。

2、相關推薦

常以“相關推薦”、“看了還看”、“買了還買”等形式出現，一般放在內容詳情頁。主要滿足用戶興趣的深度，用戶進來之后往往想多了解一些相關的情況，可能需要多看一些內容來滿足自己的訴求。

3、熱門推薦

基于上報的各種數據進行計算，得到的排行榜，支持全局排行以及分類排行等，它可以讓用戶的逐熱心理得到滿足。

除了推薦結果，我們還提供推薦理由，它增加了對推薦結果的可解釋性，告訴用戶是因為什么推薦了這些內容。

評估推薦系統

推薦系統評估一般分離線和線上指標。

1、離線指標

主要分為AUC、RMSE、NDCG等指標，主要用來評估離線模型。

2、線上指標

主要有CTR、CVR、GMV等指標，甚至還有留存率、人均點擊、人均時長等指標，這些指標和具體行業與業務場景強相關，一般通過AB測試來完成。

設計推薦系統要以用戶體驗作為根本，細分包括三部分：功能、效果和性能。

1、從功能來說，盡可能豐富多樣化，例如：相關推薦、個性化推薦、熱門推薦；

2、從效果來說，要盡可能的好，這樣能夠帶來更多收益的提升；

3、從性能來說，要穩定快速。

另外，推薦的過程要盡可能快速，盡量做到不可感知。在我們應用過程中，良好的推薦性能需要進行全面考慮與平衡，功能、效果、性能三方面相輔相成、互相作用與影響。

2、達觀推薦流程及相關技術

達觀數據智能推薦已經服務過數百家企業。我們依據客戶服務經驗，對推薦流程進行了高度的概括抽象，進行了標準化工作。歸納起來，用戶和推薦型的交互都是通過類似API來進行交互。

1、達觀智能推薦流程

推薦引擎在我們內部進行標準化工作已經抽象為四步：數據預處理、結果召回、結果排序、結果后處理。經過這四步處理之后，最終有一個TOPN結果返回給用戶。

第一步：數據預處理

推薦系統使用的數據一般包括四大類：物品數據、行為數據、用戶數據，外部數據（輔助推薦）。拿到原始數據后，首先要進行數據預處理（異常數據檢查或反作弊、NLP相關的文本處理、數據歸一化等）。經過數據預處理之后的數據會通過消息隊列的方式到不同的地方，比如HDFS、MySQL、Redis等，后面不同的推薦系統模塊可以直接調用。

第二步：推薦結果召回

數據預處理后進行各種各樣的離線數據分析，通過構建物品畫像和用戶畫像，結合各種各樣的推薦算法進行結果的召回。

達觀目前的召回方式主要是以深度學習為主的召回，同時也有協同過濾、隱語義模型，還有基于內容的推薦等。我們有一個算法庫的機制，在用戶上線過程中，我們會自適應的選擇不同的推薦場景自動化的處理，每種召回算法可以召回一定量的候選集。經過召回后，我們從海量的物品列表里面召回用戶最可能、最感興趣的推薦候選結果。

第三步：推薦結果排序

有了召回的推薦候選集，接下來我們會使用機器排序模型來進行處理。主要圍繞CTR、CVR預估展開。達觀的算法模型庫支持可插拔操作，根據實際的推薦場景來進行算法模型的預選，然后進行針對性的調優，經過排序模型的處理后，推薦預選集的物品就會有各種各樣的預估score，將score從高到低排序后即可得到優先推薦機制。

第四步：業務規則后處理

經過排序模型處理后的結果，經過業務規則或運營規則處理后展示給前端用戶。在業務規則后處理之后，我們可以生成一個配置好的TOPN結果，基于這個結果可以把TOPN推薦給用戶。

個性化推薦理由

除了推薦結果之外，我們可以增加個性化推薦理由。個性化推薦理由是基于內容屬性、用戶行為、用戶特征等生成的，分為靜態推薦理由和動態推薦理由。個性化推薦理由對推薦結果有更好解釋性，可以增加用戶信任度，增強用戶體驗，從而能更好的采集用戶反饋，進行更好的精細化運營。

2、相關技術

NLP技術深度挖掘文本信息

推薦場景有大量文本信息需要處理，NLP相關技術應用對推薦結果會有至關重要的影響。對于客戶所在的行業，達觀一般會使用bert模型進行文本內容預訓練的處理，深度挖掘行業的語言模型和語料資源，確保準確的把握內容語義含義。

NLP一般分為字詞級、段落級和篇章級處理，主要用于文本信息的挖掘分析，包括中文分詞、同義詞或近義詞的挖掘，內容關聯性分析，標簽挖掘、摘要提取等，最終對物品文本信息進行全方位的語義理解，為推薦精準度打下堅實的基礎。

序列標注

序列標注模型的訓練廣泛應用在NLP若干基礎組件中，比如分詞、詞性標注、實體識別、信息抽取等。

序列化標注就是把信息抽取問題轉化為四種類型的分類問題。時間序列分析的相關思路也可以廣泛應用——常用的序列標注模型有隱馬爾科夫模型還有條件隨機場，深度學習模型Bi-LSTM+CRF等，經過模型的處理，最終可以從海量文本內容里面提取關鍵的高價值信息。

通過Vector Representations進行低維連續空間的字詞表示

在2013年谷歌開源一款用于詞向量計算的工具word2Vec，引起了學術界和工業界的關注。達觀基于word2Vec的相關應用非常普遍。word2Vec可以在百萬數量級或上億數據集上進行高效訓練，詞向量更好的解決度量詞與詞之間的相似性，詞向量之間的矢量距離也可以體現語義的相關性，并且這個矢量還有一定傳遞性。

Embedding處理

字詞向了對于Embedding來說，在各種任務中扮演很重要的角色，尤其深度學習模型在處理文本分析任務中幾乎是離不開字詞向量，字詞向量的生成算法作為一個無監督模型，可以利用海量未標注語料進行訓練，然后來捕捉其中的語料關系。

達觀數據在Embedding主要是三方面的應用：

基于相似性運算得到物品的標簽、標簽相關的標簽，在推薦時進行更多的召回。
在item上直接引用，進行相似item的召回計算。
特征工程主要對基于item和用戶來說進行Embedding處理，進行廣泛應用在排序模型。

基于知識圖譜實現更好的推薦效果

在達觀的推薦體系中廣泛應用的基于知識圖譜的推薦，通過各種構建的領域知識圖譜，我們可以進行推薦結果的召回、推薦結果的解釋還有排序等相關工作。這部分和專家規則類似，推薦結果準確率往往比較高。另外，我們可以借助知識圖譜的推理能力，推薦出一些用戶認為驚喜度特別高的內容。

3、深度學習算法

DNN

深度學習這個算法廣泛應用在推薦系統里，尤其是DNN。DNN是谷歌YouTube這個團隊進行了大量的嘗試，公開的論文在2016年9月的RecSys會議上發表。DNN的應用主要面臨數據規模很大、更新很快切噪音數據比較多的問題，在實踐過程中分兩個階段：matching階段和ranking階段。

從結構上來看，整個模型包含三個層次隱含層的DNN結構，輸入用戶各種流量信息，還有歷時搜索數據、人工統計信息等，組成一個向量，輸出主要分線上和離線訓練兩部分，離線訓練一般用的輸入層是softmax，而線上直接利用user向量查詢，最重要的是在解決問題時我們一般主要考慮性能。

Wide&Deep模型

Wide&Deep模型在2016年提出，Wide部分是線性模型+特征組合的方式，優點是記憶性好、可解釋性強，Wide部分可以手動的進行特征交叉。Deep部分主要是利用MLP實現高階特征交叉，所以Wide部分和Deep部分經過聯合訓練，就可以得到比較好的結果。早期在谷歌play上推薦效果獲得一定量的提升。Wide&Deep主要是應用在排序模型階段，就是LTR這塊的。

DeepFM

DeepFM是在2017年時提出來的，DeepFM模型是在Wide&Deep這個架構基礎上，輸入層和Wide的部分進行了改進。和之前的模型相比，有兩類優勢：

1、模型不需要手工構建Wide部分；

2、FNN是把FM的這個隱向量參數直接作為網絡參數學習，這樣DeepFM可以將Embedding層的結果輸入給FM和MLP，兩者通過輸出疊加，最終可以達到捕捉低階和高階特征交叉的目的。

DeepFM模型由于有效結合因子分解集和神經網絡在特征學習中的優點，同時也可以提取到低階組合特征與高階組合特征，目前已被廣泛應用。

3、常見的推薦算法

1、基于內容的推薦算法

除了深度學習之外，內容推薦主要是各種文本匹配的，比如標簽相似度到類型的推薦。這種推薦的算法，結果相關性比較好，可解釋行比較強，對冷啟動問題也有很好的解決，但它是大量的文本進行匹配的，一般驚喜度比較差。對于一些復雜或者稀疏的數據來說，推薦結果不夠理想。

2、協同過濾

協同過濾主要分兩種，基于用戶的協同過濾和基于物品的協同過濾。這個廣泛應用了十幾年，日常生活也容易遇到，比如“看了還看”、“買了還買”。

基于用戶的過濾：首先找到和當前用戶相似的用戶列表，把感興趣的物品推薦給當前用戶，這里主要牽扯到用戶相似度和用戶感興趣列表計算。

基于物品的協同過濾：通過計算相似物品的列表，把用戶偏好相似的物品推薦出來，它主要牽扯到用戶對物品的偏好以及物品相似度計算。在實際應用里面，相似度有很多種，我們要考慮熱門物品或者冷門物品的影響，包括一些作弊機制作弊數據的防范等，有大量變形。

4、排序模型機制

從流程來說，排序模型機制主要包括樣本數據的生成、特征抽取、離線訓練和評估、模型serving、還有在線評估這幾步。目前我們這邊使用的離線評估指標主要是AUC，基本上是AUC可以做到0.8以上。

排序模型從線性模型到非線性模型，再到深度模型。我們會結合我們所服務的新聞資訊、視頻、商品、金融等領域，有針對性的選擇一些排序模型。線性模型一般依賴人工特征工程，非線性模型更好的來進行多特征融合，深度學習模型是各種超參的調優。我們在實際應用中會基于用戶實際推薦場景和客戶數據進行有針對性的選擇。

達觀智能推薦有“三級火箭”機制，分為離線、近線和在線三層，離線主要是大數據復雜計算的；在線是高并發、毫秒級的返回推薦結果；近線是進行中間的銜接，它主要保證系統穩定性和靈敏性，大量使用NoSQL、內存計算、卡夫卡等技術。

三層架構分別對應召回、排序、后處理這個標準化流程。離線召回主要是海量數據分析挖掘的算法，比如各種深度學習模型、協同過濾模型等，一般是小時級，生成在千這個維度的候選集。近線主要是對推薦結果進行初排，包括線性的、非線性的、深度學習等各種各樣的排序模型。在線可以對近線的結果進行各種業務規則的后處理邏輯，包括強制推薦、時效性、多樣性的控制等，主要是內存型的計算，可以在幾十毫秒左右生成10條左右的結果返回給用戶。

層次推進

從架構來說，通用的推薦引擎會充分理解業務場景。從內部來說，達觀服務的數百家客戶完全使用一套推薦流程。對于行業或者推薦內容進行高度標準化工作，我們可以根據不同內容、不同優化指標快速完成需求開發、效果調優。

基于海量的數據來說，我們會在推薦里常常遇到冷啟動問題，一般包括用戶的、物品的、系統的，達觀對這幾塊都有解決流程，比如做高熱、專家規則和UCB算法等，都可以靈活調整上線，快速完成冷啟動問題的解決，并帶來用戶體驗和效果提升。

我們可以通過多種方式來刻畫物品和用戶的畫像，那么對于用戶畫像來說，我們一般分為事實標簽，模型標簽和預測標簽，通過用戶和物品畫像，我們可以全方位的了解自己產品各種內容或者了解我們的用戶，最終對于用戶全生命周期進行一個精細化運營。

好的推薦產品要有很好的開放性，運營規則、算法調整、效果調優在很多應用不需要停留在改代碼階段。可以讓技術、運營、產品經理等角色都可以加入產品化后臺進來進行深度干預。通過推薦的各種召回算法、排序過程、后處理邏輯等都可以靈活的通過頁面來進行配置，并且我們還有一些效果評估機制，提供相對應的量化指標數據，提供一些數據上的支撐。

3、智能推薦賦能精細化運營

1、推薦內容管理

內容采集、上報到推薦引擎后，可以通過推薦和運營效果進行增刪改查操作。同時也可以根據業務需求靈活修改內容的屬性，比如標簽、分類等。我們提供NLP相關的技術進行輔助，進行打標簽或者分類。借助推薦效果，我們可以對物品畫像進行精細化評估。

我們也可以進行相應的操作來調整權重。推薦很多時候需要人工干預，各種各樣的運營指標需要兼顧，因此達觀的推薦后臺支持人工設置權重來影響推薦結果的曝光展示，推薦權重越高，被推薦出來的可能性就越大。

基于物品豐富了效果數據的統計，我們支持多條件的篩選、高質量的內容進行重點運營。運營同學可以基于物品列表進行規則篩選，比如效果統計數據。也可以利用物品自身各種各樣畫像標簽，基于自己設置的條件進行聯合查詢，生成一部分的推薦結果。

生成的推薦結果可以直接應用到精細化運營，不僅進行個性化push，還可以干預推薦結果的生成。轉化效果差的內容可以在這里做出調整。通過對內容詳細數據的分析，可以為接下來的操作（如內容采購、產品調性運營）提供數據支撐。

2、推薦策略管理

推薦結果本身有大量的召回算法和排序模型需要處理，達觀智能推薦做產品化過程時已經內置了數十種常用的算法模型，可以滿足絕大部分推薦業務場景需求。

除了內置外，我們也支持自定義的召回和排序策略，這些策略可以由運營手動基于規則來生成，也可以由算法同學自己開發，還可以接入第三方機器學習平臺的算法。同時，我們會支持AB測試的評估，通過不斷調整召回、排序或者其他處理邏輯來不斷迭代優化算法模型，最終達到運營指標的不斷提升。

3、推薦效果分析

推薦效果有很多量化指標數據，包括留存分析（次日的、7日的或者月度的）、用戶轉化漏斗分析（點擊、收藏、加購物車、購買等漏斗轉化規則可自行配置）、推薦點擊的分析、各種策略或算法的下鉆分析等。圖表結合的方式可以更好地展示智能推薦和精細化運營相互作用的效果趨勢變化情況。這些數據都可以下載，方便使用者進行二次分析和加工。

4、用戶分群及定向推薦

推薦系統的迭代優化和精細化運營很多都是圍繞用戶來展開。結合用戶的屬性、行為數據的分布和用戶的心理偏好等各種維度的標簽信息可以進行用戶群體的劃分?？梢哉故居脩袅斜硪约叭后w畫像，針對特定的用戶群體可以進行人群的定向推薦，也可以做個性化的push。

同時，冷啟動推薦可以進行特別的人工或者算法干預，方便各種角色進行快速的配置和上線，并且可以進行數據分析和評估，對用戶進行全方位的洞察。

5、推薦運營管理

不同的場景變化會帶來各種各樣運營活動的需求：節假日、產品改版、重大運營活動等。智能推薦的結果不僅可以由算法得出，我們可以通過添加時效性、多樣性、打散、強制類別限制、去重、相似性控制等運營規則進行靈活干預。

例如資訊類這種首頁產品，我們會限定視頻和圖文的比例。10條內容推薦結果中20%是視頻，80%是圖文，而且視頻是不能連續。這些都可以通過達觀智能推薦的后臺設置干預項。

6、推薦運營評估

業界普遍采用的推薦運營評估方法是線上進行AB測試。通過在同樣產品的場景之下進行不同的流量劃分，一部分流量可以作為基礎的，另外一部分流量可以進行線上分流測試。觀察一段時間之后，查看點擊率、人均點擊、人均停留時長、購買轉化等指標的趨勢變化。

達觀智能推薦后臺支持直接配置流量劃分，進行線上效果評估，分流支持多策略，無論是做運營規則還是做算法，可以在同一個場景里做多種流量的分配測試。除了配置流量分流之外，我們還有數據統計的后臺。它可以提供各種量化指標，可以看到不同流量指標的明確變化。

從各種原始物品、用戶行為等數據的上報，到最后推薦效果指標數據的生成，我們做各種各樣的內容運營、用戶運營、召回、排序、規則，通過AB分流查看效果，就形成產品運營全封閉的一個生態，形成一個閉環的操作，這樣就可以基于這個后臺做各種各樣的智能調整或者精細化運營的調整。

4、客戶成功案例場景

從行業來說，達觀智能推薦服務的的客戶覆蓋了媒體、視頻、電商、小說閱讀和金融等多個業務場景。市面所有的推薦場景，達觀都有相關的優化或者需求開發的實戰經驗。

服務方式主要包含兩部分：私有化和SaaS，兩種交互方式可以滿足多樣化的需求。私有化是把達觀推薦引擎部署到客戶現場，和客戶的產品、業務系統進行適配和調優。SaaS是把推薦的各種數據通過API傳到達觀的推薦引擎，再通過接口調用達觀智能推薦結果。

5、Q&A

1、還有哪些結合業務場景的特別標簽呢？

于敬：標簽生成一般通過注冊數據進行采集，比如年齡、性別、位置等。除此之外，有很多標簽需要在實際推薦或者用戶運營過程中挖掘的。舉例來說，電商場景本身有各種各樣偏好，活躍用戶、對價格敏感、有明確品牌傾向……還有偏個人的標簽，比如商品個性化的訴求（比如買東西看尺寸、尺碼）。針對這些信息，我們可以生成一些用戶偏好相關的各種各樣維度很豐富的標簽。

另外，我們會結合用戶在達觀智能推薦平臺上留下的各種數據進行綜合篩選，針對性的給用戶打上一個標簽。這些標簽里面有不同的應用場景，對標簽的實際維度也有差異。如果你做用戶流失的模型，你可能會有各種各樣的流失特征。

在做關于活躍度這部分的用戶增長模型時，我們會把維度標簽和實際數據進行關聯，這樣就可以結合實際業務場景給用戶打不同粒度的標簽。要結合實際的業務場景，不同的業務訴求打的標簽差異化是很大的。

2、推薦一定需要結構化數據嗎？

于敬：未必。我們現在處理的很多業務場景，結構化數據可以推薦，例如關系型數據庫里面的數據、商品、新聞資訊等推薦場景。非標準化的數據也可以推薦，比如圖片、音視頻、文檔的推薦場景，甚至我們做的內部的工單類型文本信息的推薦場景。

對于非結構化的數據來說，我們一般根據實際的訴求，可以把它抽象為一些關鍵的信息出來，然后轉化成結構化數據進行處理。當然，如果只是進行相似性處理，比如對文本信息進行相似性推薦，這時未必要轉化成結構化數據，可以通過文本方式、深度匹配、語義理解等方式進行推薦。

3、用戶分析的標簽是人工打的還是自動化打的？

于敬：在實際的業務場景里，人工打標簽和自動化打標簽是共存的。很多時候自動化的標簽有一部分是人工干預的。人工干預會結合自己設置的標簽維度，比如價值度分析、活躍度分析、其他的用戶模型……和用戶實際的維度或者和實際數據有很大關系，這部分需要人工干預；做模型預測時有一部分數據打上標簽，需要有個訓練樣本進行模型的預測；基于各種指標數據的統計進行綜合的篩選，生成了標簽，這部分標簽可以通過人工的方式生成。

還有一部分是用戶自動化的打標簽，我們通過自己標注的數據，或者通過把物品本身的使用數據映射到用戶身上的方式，都可以完成用戶自動化打標簽。

4、做好精細化運營需要做好哪些準備？

于敬：精細化運營是個閉環的操作。最開始有數據流準備，大量運營的前期調研。調研完成后會拿到對應量化效果數據的評估指標，運營結合評估指標和實際的訴求來制定運營活動。做好運營活動后，進行上線評估驗證效果。接下來，通過這個效果反饋發現并分析運營活動的問題，通過分流、效果評估，生成閉環的機制。

所以精細化運營需要做前期的分析調研。前期需要采集豐富的數據流，還要確定一些量化指標，例如運營活動的預期、面向的用戶群體、預期的收益等。

關于主講人

于敬：達觀數據聯合創始人，中國計算機學會（CCF）會員，第23屆ACM CIKM Competition競賽國際冠軍，達觀數據搜索推薦組總負責人，工作包括推薦系統的架構設計和開發、推薦效果優化等。同濟大學計算機應用技術專業碩士，承擔公司重大緊急項目的架構設計和個性化推薦研發管理工作。曾先后在盛大創新院、盛大文學和騰訊文學數據中心從事用戶行為建模、個性化推薦、大數據處理、數據挖掘和機器學習相關工作，對智能推薦、機器學習、大數據技術和分布式系統有較深入的理解和多年實踐經驗。

特別聲明：

文章來源：達觀數據（Datagrand_）

原文鏈接：https://mp.weixin.qq.com/s/j7j3u0YGo4DomXnJFmzoGA

RPA中國推薦閱讀，轉載此文是出于傳遞更多信息之目的。如有來源標注錯誤或侵權，請聯系更正或刪除，謝謝。

繼續閱讀：智能推薦、精細化運營