[Notes] (SIGIR2022) Is News Recommendation a Sequential Recommendation Task?

12 min readJun 15, 2022

Paper Link

https://arxiv.org/pdf/2108.08984.pdf

Observation

News recommendation is often modeled as a sequential recommendation task, which assumes that there are rich short-term dependencies over historical clicked news.
However, in news recommendation scenarios users usually have strong preferences on the temporal diversity of news information and may not tend to click similar news successively, which is very different from many sequential recommendation scenarios such as e-commerce recommendation.

作者在本文提出一個觀察：他認為新聞的推薦與那些商業系統的推薦並不具有相同的特性，新聞推薦場景中的使用者，user 通常對新聞信息的時間多樣性有很強的偏好，可能不會傾向於連續點擊相似的新聞（本文重要假設）。對此，作者設計了一些實驗來挑戰 News Rec 並非 Sequential Rec，我們接著往下看。

Idea

在過去的那些模型中，像是 NRMS, LSTUR, GRU4Rec，方法的一個核心假設是對 historical behaviors 有豐富的 short-term dependency，未來的行為也可能與最近的 historical behaviors 相關。儘管這個假設被許多順序推薦場景廣泛使用，如電子商務推薦、電影推薦，但作者發現它在新聞推薦場景中可能無效，因為用戶對新聞信息的時間多樣性 / temporal diversity (i.e., novelty) 的偏好。

A general framework of sequential news recommendation.

怎麼說呢？作者有提出數據作佐證：MIND 新聞資料集中，只有 7.2% 的 adjacently clicked news 是屬於相同主題的。如果我們隨機點擊的話，比例則是 7.9%。此外，只有 0.04% 的 adjacently clicked news 有至少一個相同的 entity。這樣的數據顯示 News Rec 的特性是 Diverse 而並非 Similar，這就與過去模型的 Sequential Rec 假設相互牴觸。因此作者認為如果把 News Rec 視為一個 Sequential Rec 的問題所得到的解會是 Suboptimal 的。

作者嘗試解決這樣的問題，提出了一個模型稱為 TempRec: Temporal diversity-aware news recommendation method。這個模型傾向於推薦那些跟近期點擊的新聞不同主題的 Candidate news。

更具體地說，作者使用 shared order-agnostic Transformer 從所有歷史新聞點擊中學習 Global interest embedding，並從幾個最近的點擊中學習 Recent interest embedding。Click score 是通過 Candidate News 和 Global interest embedding 之間的 Positive relevance 以及 Candidate News 和 Recent interest embedding 之間的 Negative relevance，透過 Learnable weight 加權求和而得的。實驗結果顯示 TempRec 可以勝過許多現有的新聞推薦方法。

Datasets

首先我們先了解一下實驗的資料及有哪些，還有他各自對應的 Statistics。

第一個 Dataset 是在近期做 News Rec 大家熟知的 MIND。第二個資料集則是 News，他是從微軟官方自己商業新聞平台裡面撈出來的 100萬條 news impression logs，從 2020.10.17 到 2021.01.29 的資料。

Experimental Details

在作者的實驗中，都使用 Glove Word Embedding 進行初始化。所有模型的 hidden dimension 都是 400，並使用 Adam (lr=1e-4) 作為 Optimizer。而只指標的部分使用 AUC、MRR、nDCG@5 和 nDCG@10，並將實驗獨立進行五次取平均。

Performance Comparison

本文的實驗分成兩大塊，首先第一部份是要用實驗證明 News Rec 不是 Sequential Rec。

這邊使用三個 Baseline model: (1) LSTUR — 用 GRU 對 Short-term interest 進行建模，並使用 User ID embedding 對 Long-term interest 建模。(2) DAN — 用 LSTM 和 Casual self-attention network 的組合來模擬 User interest。(3) NRMS，用 MHA 來模擬 User interest。

其中在 NRMS 的部分，模型的設計並不包含 Positional Encoding。對此，作者在 NRMS 上面多做了兩個變形，分別為 NRMS+PE(Positional Encoding) & NRMS+CM(Casual self-attention Mask)。

為了進一步探討 Sequential information 是否有利於 News rec，作者比較了所有使用 inverse 反向以及 random 隨機打亂 clicked news sequence 這兩種變形。

Performance of different methods. PE denotes position embedding and CM denotes casual mask.

從上方圖表中可以得到一些小結論。

首先，與 Order-agnostic NRMS 模型相比，結合 Positional Encoding 不會使效能增加，且 Casual self-attention 不如 Bidirectional self-attention (其實這部分我是無法看出來QAQ)。這樣的現象表示 Positional Information 在 News Rec 場景中對於 User interest 的建模並不是很重要，對點擊的新聞序列中的過去和未來信息進行完全建模才會有比較好的效果。

第二，作者發現使用 inverse clicked news sequence 並不會導致顯著的效能差異。由於在 RNN 模型中通常來講會更注重於 Current steps，現在卻出現此現象代表在新聞推薦中，latest clicked news 在預測 future clicks 時，並沒有比 earlier clicks 提供更多 information，這可能是由於 users’ temporal diversity preferences 及 users’ stable long-term interest。

此外，有趣的是，隨機打亂點擊序列甚至可以稍微提高順序敏感模型的效果。這可能是因為模型可以更好地從打亂序列中捕獲 Global user interest，以幫助更準確地預測未來的點擊。

其實從以上這些結果應該不難看出：News Rec 可能不適用於 Sequential Rec 建模，因為 sequential information & short-term dependency 在新聞推薦中都沒有起重要作用。

TempRec Model Architecture

從上個部分的實驗結果與分析可以知道 News Rec 並不適用 Sequential Rec。因此，作者提出一個 novel temporal diversity-aware news recommendation method (TempRec)，來嘗試建模，模型可以考慮新聞推薦的 temporal diversity 時間多樣性，以做出更準確的推薦結果。TempRec 的架構如下圖。

[Step1] 先把 Clicked News [D1, …, DN] 過 News Encoder 得到 [r1, …, rN]。同時間 Candidate News 也會過 News Encoder 得到 Candidate news embedding, rc。

[Step2] TempRec 中有兩個 Order-agnostic Transformers。一個用於處理整個 clicked news sequence 來捕捉 Global user interest，另外一個會處理最近的 K 個 clicked news 來捕捉 Recent user interest。我們把透過這兩個 Transformers 作用後得到的 Hidden news representation 表示為 H = [h1, h2, …, hN ] 以及 H’ = [h’_N-K+1, …, h’N ]。

[Step3] 分別使用各自的 Attention network 來選擇這兩個 Sequence (i.e. H, H’) 重要的 News clicks，並以 Attention Pooling 得到 Global user interest embedding, ug 以及 Recent user interest embedding, ur。

[Step4] 由於 Future news clicks 可能與 Recent news clicks 不同，作者提出了一個 temporal diversity-aware click prediction method 來協助更精準的預測。首先會算出 (a) Global Relevance Score — yg_hat = ug·rc，表示 Candidate news 跟 Global user interest 的匹配程度，以及 (b) Recent Relevance Score — yr_hat = ur·rc，表示 Candidate news 跟 Recent news clickes 之間的相關性。

(b) Recent Relevance Score

[Step5] 把 yg_hat & yr_hat 做 Linear Combination 的到 Unified Click Score。(W is learnable)

通過這種方式，模型會鼓勵推薦與最近點擊新聞不同的新聞，從而更好地滿足用戶對新聞信息 temporal diversity 時間多樣性的需求。

TempRec Experiments

接著看看本文實驗的第二塊，這部分在驗證 TempRec 的有效性。

由於 TempRec 是一個 General framework 且與許多不同的 News encoder 兼容，因此作者通過使用與 LSTUR、DAN 和 NRMS 相同的 News encoder 來比較 TempRec 的性能。下圖是把 TempRec 運用在兩個不同 Datasets 上的結果。

從上圖能發現 TempRec 可以提高各種不同方法的效果，且進一步的 t-test 表示改進是 Significant (p < 0.05)。這些結果表示：考慮用戶新聞點擊行為的 Temporal diversity 可以幫助更準確地預測 Future news clicks。此外，我們在 MIND 和 News 數據集上發現參數 w 分別為 0.075 和 0.083，這表示 Recent news clicks 與 Future news clicks 有輕微的負相關。

作者也研究了 Hyper-parameters K 對模型效能的影響，如上圖，發現 K = 3 是兩個數據集的最適選擇。這可能是因為當 K 太小時無法對 future and past clicks 的 Temporal diversity 完全建模，而當 K 太大時，Relevant clicks 可能無法有效匹配。

Conclusion

Whether news recommendation is suitable to be modeled as sequential recommendation?

針對上面這個問題，我想答案呼之欲出。透過這篇論文，我認為 News Rec 應該會掀起一個很大的變革。

This article will be updated at any time! Thanks for your reading. If you like the content, please clip the “clap” button. You can also press the follow button to track new articles. Feel free to connect with me via LinkedIn or email.