濮阳杆衣贸易有限公司

主頁 > 知識庫 > 達不雅觀數(shù)據(jù)是如何基于用戶歷史行為進行精準個性化保舉的?

達不雅觀數(shù)據(jù)是如何基于用戶歷史行為進行精準個性化保舉的?

熱門標簽:重慶外呼回撥系統(tǒng)怎么樣 機器人電銷 弊端 泊頭怎么辦理400電話 福州電銷防封卡攻略 上海申請400開頭的電話 受歡迎的400電話申請 工信部外呼系統(tǒng) 石家莊電話機器人銷售怎么樣 百度地圖標注審批需要幾天
 

在DT(data technology)時代,網(wǎng)上購物、不雅觀看視頻、聆聽音樂、閱讀新聞等各個領域無不充斥著各種保舉,個性化保舉已經(jīng)完全融入人們的日常生活傍邊。個性化保舉按照用戶的歷史行為數(shù)據(jù)進行深層興趣點挖掘,將用戶最感興趣的物品保舉給用戶,從而做到千人千面,不但滿足了用戶素質(zhì)的信息訴求,也最大化了企業(yè)的自身利益,所以個性化保舉蘊含著無限商機。

號稱“保舉系統(tǒng)之王”的電子商務網(wǎng)站亞馬遜曾宣稱,亞馬遜有20%~30%的銷售來自于保舉系統(tǒng)。其最大優(yōu)勢就在于個性化保舉系統(tǒng),該系統(tǒng)讓每個用戶都能有一個屬于本身的在線商店,而且在商店中能招到本身最感興趣的商品。美國著名視頻網(wǎng)站Netflix曾舉辦保舉系統(tǒng)角逐,懸賞 100 萬美元,希望能將其保舉算法的預測準確度提升10%。美國最大的視頻網(wǎng)站YouTube曾做過實驗比較個性化保舉和熱門視頻的點擊率,結(jié)果顯示個性化保舉的點擊率是后者的兩倍。

達不雅觀數(shù)據(jù)擁有雄厚的研發(fā)保舉系統(tǒng)的技術積累,曾在ACM、CIKM、KDD、Hackathon等國際競賽的獲獎,在內(nèi)容保舉,文本挖掘、廣告系統(tǒng)等方面申請有超過三十項國家發(fā)明專利。本文從數(shù)據(jù)處理、用戶行為建模到個性化保舉,分享達不雅觀數(shù)據(jù)在個性化保舉系統(tǒng)方面積累的一些經(jīng)驗。(達不雅觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)

1.數(shù)據(jù)收集及預處理

保舉系統(tǒng)的素質(zhì)其實就是通過必然的方式將用戶和喜歡的物品聯(lián)系起來。物品和用戶自身擁有眾多屬性信息進行標識。

1)物品屬性

用戶體現(xiàn)保舉系統(tǒng)的主體,自身屬性包孕人口統(tǒng)計學信息以及從用戶行為數(shù)據(jù)中挖掘分析得到的偏好等。

3)用戶行為

用戶行為分析

在數(shù)據(jù)采集的過程中,不免會出現(xiàn)一些臟數(shù)據(jù),在使用數(shù)據(jù)前需要進行清洗。過濾掉關鍵字段為空、數(shù)值異常、類型異常等數(shù)據(jù);用戶id包孕cookie、手機號、email、注冊id等,需要進行映射得到用戶唯一id;以及數(shù)據(jù)去重等操作。別的,還有“報答”的臟數(shù)據(jù),如作弊、刷單等行為,這些數(shù)據(jù)也需要清除,不然會嚴重影響后續(xù)算法的效果。達不雅觀數(shù)據(jù)在反作弊方面也做了很多工作,可有效篩選各種行為上的作弊情況。

2.用戶行為建模

基于用戶歷史行為的進行挖掘分析,得到刻畫用戶素質(zhì)需求的一組屬性集合,即得到用戶模型,個性化保舉的準確性很大程度上依賴于對用戶屬性刻畫的準確性。達不雅觀數(shù)據(jù)采用了多種方式進行量化,主要包孕顯式用戶偏好分析和隱式用戶興趣點挖掘。

1)顯式用戶偏好分析

除了結(jié)合物品信息進行分析計算得到的顯式偏好外,還有一部分隱式興趣點需要挖掘,這部分主要用于細分用戶群體,進行有針對性的進行更有效的保舉。劃分群體的準則要按照具體的業(yè)務需求而定,好比是否是高價值用戶、是否價格敏感、是否對大牌情有獨鐘、大神用戶和小白用戶的區(qū)分、喜歡熱門流行還是偏小眾的等等。借助機器學習中的分類(如SVM)和聚類(如k-means)算法可有效解決用戶群體的劃分問題,牽涉到的訓練和測試數(shù)據(jù)需要先按照一些規(guī)則粗略得到候選集,在結(jié)合人工標記的進行篩選。除了可以從行為數(shù)據(jù)中抽取特征外,也可以從物品和用戶的屬性數(shù)據(jù)中抽取特征。經(jīng)過模型的訓練、預測和后處理,從而將用戶劃分到差別的群體。

3)協(xié)同過濾的基石

 相似度計算方法對保舉效果的影響

相似度的計算很多種方法,如余弦相似度、皮爾遜相關度等,曾經(jīng)使用mahout做過的一個差別相似度度量方法下的對比測試結(jié)果,測試中score的計算使用的是絕對差值的平均,越小越好。本次測試結(jié)果表白,在基于用戶的協(xié)同過濾中,使用皮爾遜相關度的計算方法,保舉效果最好。

其實差別的相似度計算方法有各自的優(yōu)缺點,適用差別的應用場景,可以通過對比測試進行拔取。在實際業(yè)務中,相似度的計算方法都有很多變種,好比是否考慮去除冷門物品和熱門物品的影響。終究過于冷門和過于熱門的物品對衡量用戶間的相似度時區(qū)分度欠好,這時就需要進行剪枝。這種基于K近鄰的拔取相似用戶的方法,相似度的閾值設置對結(jié)果影響很大,太大的話召回物品過多,準確度會有下降。

4)時間維度上的考量

3.個性化保舉的實踐經(jīng)驗

標簽:長沙 駐馬店 大慶 宜春 瀘州 四平 紅河 忻州

巨人網(wǎng)絡通訊聲明:本文標題《達不雅觀數(shù)據(jù)是如何基于用戶歷史行為進行精準個性化保舉的?》,本文關鍵詞  達,不雅觀,數(shù)據(jù),是,如何,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權(quán)與本站無關。
  • 相關文章
  • 下面列出與本文章《達不雅觀數(shù)據(jù)是如何基于用戶歷史行為進行精準個性化保舉的?》相關的同類信息!
  • 本頁收集關于達不雅觀數(shù)據(jù)是如何基于用戶歷史行為進行精準個性化保舉的?的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    裕民县| 油尖旺区| 永昌县| 登封市| 图们市| 江津市| 日喀则市| 淳安县| 黄骅市| 大埔区| 红河县| 鄂伦春自治旗| 中阳县| 榆林市| 虹口区| 保康县| 温泉县| 宜兴市| 防城港市| 内丘县| 定边县| 罗平县| 咸阳市| 牙克石市| 邻水| 巴东县| 资溪县| 南通市| 红桥区| 锡林郭勒盟| 遂昌县| 将乐县| 新源县| 瑞昌市| 沙田区| 资中县| 延寿县| 栾川县| 澄迈县| 梧州市| 札达县|