當前位置：首頁 > 新聞資訊 > 機器人知識 > 微信提出推薦中的深度反饋網絡，在“看一看”數據集上達到SOTA

微信提出推薦中的深度反饋網絡，在“看一看”數據集上達到SOTA

來源：AI科技大本營編輯：創澤時間：2020/5/22 主題：其他 [加盟]

在推薦係統中，用戶的顯式反饋、隱式反饋、正反饋和負反饋都能夠反映用戶對於被推薦物品的偏好。這些反饋信息在推薦係統中十分有用。然而，現在的大規模深度推薦模型往往以點擊為目標，隻看重以用戶點擊行為為代表的隱式正反饋，而忽略了其它有效的用戶反饋信息。

作者在本文中關注用戶多種顯式/隱式和正/負反饋信息，學習用戶的無偏興趣偏好。具體地，作者提出了一個Deep Feedback Network (DFN)模型，綜合使用了用戶的隱式正反饋（點擊行為）、隱式負反饋（曝光但未點擊的行為）以及顯式負反饋（點擊不感興趣按鈕行為）等信息。

DFN模型使用了internal feedback interaction component抓住用戶行為序列中的細粒度的行為級別的交互，然後通過external feedback interaction component，使用精確但稀少的隱式正反饋和顯式負反饋作為監督，從噪音較多的隱式負反饋中進一步抽取用戶的正負反饋信息。在實驗中，作者基於微信看一看的數據，進行了豐富的離線和在線實驗，模型與baseline相比均取得顯著提升。

1、模型背景與簡介

推薦係統在日常生活中被廣泛使用，為用戶獲取信息與娛樂提供便利。推薦係統算法往往基於用戶與係統的交互，這些交互行為可以大致分為以下兩類：顯式反饋與隱式反饋。顯式反饋從用戶對於物品的直接態度中獲取，例如評論中的一星到五星，或者微信看一看係統中的“不感興趣”按鈕。這類反饋能夠直接表達用戶的正向以及負向偏好，但是這類反饋的數量往往不多。隱式反饋從用戶的行為中間接獲得，例如用戶的點擊/不點擊行為。這些信息在推薦係統中往往是海量的，但是這些信息有著較多噪聲（用戶點擊的並不一定是他真正喜歡的）。另外，隱式反饋通常是以正反饋的形式出現，推薦中的隱式負反饋存在巨大噪聲（未展現信息或者未點擊信息並不一定意味著用戶不喜歡這些內容）。

在近期的深度推薦係統中，CTR導向的目標受到極大關注。因此，模型不可避免地隻關注和目標緊密相關的用戶點擊行為，忽略了其它用戶行為中蘊含的豐富信息。僅考慮CTR導向目標的推薦模型往往會遇到以下兩個問題：（1）CTR導向目標隻關注用戶喜歡什麼，沒有關注用戶不喜歡什麼。這樣，模型的推薦結果容易同質化和趨熱化，損害用戶體驗。因此，負反饋信息是必要的。（2）用戶除了被動地接受係統推薦的物品，有時也需要能夠主動和即時的反饋機製。用戶希望能夠高效和準確地告知係統自己喜歡或者不喜歡什麼。另外，用戶的顯式和隱式反饋之間也會存在割裂（用戶點擊的並不一定是他真正喜歡的）。因此，顯式反饋也是必要的。顯式信息和隱式信息能夠作為彼此的補充，相輔相成。已有工作通過使用用戶的未點擊/未曝光行為作為用戶的隱式負反饋，這樣會引入極大的噪聲。另外一些工作嚐試使用用戶的顯式負反饋信息。這些信息固然精確，但是也往往比較稀疏。

為了解決這些問題，綜合使用用戶多種顯式/隱式和正/負反饋信息學習更好的無偏用戶表示，作者提出了一個Deep Feedback Network (DFN)模型。圖1中給出了在微信看一看場景中的三種用戶反饋。DFN通過internal feedback interaction component抓住用戶行為序列中的細粒度行為級別的交互，然後通過external feedback interaction component，使用精確但稀少的隱式正反饋和顯式負反饋作為監督，從噪音較多的隱式負反饋中進一步抽取用戶的正負反饋信息。這些反饋特征會和其他用戶/物品特征混合，並行使用FM、Deep和Wide層進行特征交互，最後進行CTR預估。

作者基於微信看一看推薦係統，設計了離線和線上實驗，在多個指標上具有顯著提升。這篇工作的主要貢獻如下：

1、作者第一次融合隱式正反饋（點擊行為）、隱式負反饋（曝光但未點擊的行為）、顯式負反饋（點擊不感興趣按鈕行為）和它們之間的交互信息進行用戶行為建模；

2、作者提出了一個全新的Deep Feedback Network (DFN)模型，能夠學習到用戶無偏的興趣偏好；

3、模型在離線和在線任務上都得到了顯著提升，具有工業級實用價值。論文中也提出了一個feed流中的顯式負反饋預測任務。

2、模型結構

DFN模型主要分為三個階段：首先，deep feedback interaction module以用戶的多種反饋行為作為輸入，輸出用戶的反饋特征。然後，Feature Interaction Module進一步考慮用戶的其它特征和物品特征，使用FM、Deep和Wide層進行特征交互。最後，輸出層使用CTR作為訓練目標。圖2給出了DFN的整體結構。

deep feedback interaction module是模型的主要創新點。它包括了兩個組成部分：Internal Feedback Interaction Component和External Feedback Interaction Component。圖3給出了deep feedback interaction module的結構。

首先，在Internal Feedback Interaction Component中，用戶的隱式正反饋、隱式負反饋和顯式負反饋序列和target item一起，通過一個transformer層，得到了在各個序列內部細粒度的item-level的交互信息，然後經過average層得到三種反饋的特征表示，其中隱式正反饋特征中蘊含高質量的用戶正向偏好，顯式負反饋特征中蘊含高質量的用戶負向偏好。

第二步，在External Feedback Interaction Component中，隱式負反饋序列往往是三種行為中最多的行為，但也是噪聲最大的行為。作者把高質量的和target item交互後的隱式正反饋特征和顯式負反饋特征看作一種高質量指導，從用戶未點擊序列中挖掘用戶或許喜歡/不喜歡的物品，補充用戶的正向負向偏好。作者使用了一個attention層得到了兩種用戶弱正向/負向反饋特征。這兩種弱反饋特征和第一步的三種反饋特征拚接後成為最終的用戶反饋特征。

第三步，在Feature Interaction Module中，作者使用了FM、Wide和Deep層，對用戶其它特征、物品特征和用戶反饋特征等進行低階/高階特征交互。這一個模塊是為了充分利用各種特征輔助推薦，使得模型在真實工業級任務上達到最好的效果。使用Wide層主要是為了給潛在的特征工程留下接口。

最後，作者基於CTR loss進行訓練。除去傳統的正例和未點擊負例，作者還增加了一項預測用戶負反饋點擊的loss。由於在實際推薦係統中，用戶給出主動顯式負反饋的次數極少，顯式負反饋中的負向信息也極其強烈，所以作者單獨在loss中強調了這一項，並且給予了較大的訓練權值。

3、實驗結果

離線和線上實驗均在微信看一看上進行，離線數據集包含千萬級用戶在百萬級物品上的億級行為。模型離線CTR預估結果如圖4：

4、總結

在本文中，作者初步研究了推薦係統中的多種顯式/隱式和正/負反饋之間的協同合作機製。DFN模型能夠基於多種反饋信息即時學習到用戶的無偏的正負向興趣，在點擊預估和不感興趣預估等多個任務上均有提升效果。直觀而有效的模型也使得DFN能成功在工業級推薦係統中得到部署和驗證。我們預測用戶的顯式反饋，特別是顯式負反饋的信息將會未來推薦係統中起到更加重要的作用，在發掘推薦係統可解釋性同時提升用戶體驗。

	創澤智能機器人中國智能服務機器人領軍企業，涵蓋商用、家庭、特種等多用途的智能機器人產品體係，十幾年行業應用解決方案提供商