乾貨 | 個性化推薦系統五大研究熱點之深度學習(一)
【編者按】在這個科技高速發展、資訊爆炸的時代,毫不誇張地說,推薦系統已經完全融入了我們的生活。我們去哪一家餐館、買哪一件衣服、瀏覽哪一類資訊、觀看哪一種視訊,很大程度上都取決於背後的推薦系統。
在本文中,微軟亞洲研究院社會計算組的研究員們從深度學習、知識圖譜、強化學習、使用者畫像、可解釋性推薦等五個方面,展望了未來推薦系統發展的方向。全文已獲得微軟研究院AI頭條(ID:MSRAsia)授權轉載。文章乾貨較多,建議收藏!
“猜你喜歡”、“購買過此商品的使用者還購買過……”對於離不開社交平臺、電商、新聞閱讀、生活服務的現代網際網路使用者來說,個性化推薦已經不是什麼新鮮事兒。
隨著資訊科技和網際網路行業的發展,資訊過載成了人們處理資訊的挑戰。對於使用者而言,如何在以指數增長的資源中快速、準確地定位到自己需要的內容是一個非常重要且極具挑戰的事情。對於商家而言,如何把恰當的物品及時呈現給使用者,從而促進交易量和經濟增長,也是一件頗具難度的事情。推薦系統的誕生極大地緩解了這個困難。
推薦系統是一種資訊過濾系統,能根據使用者的檔案或者歷史行為記錄,學習出使用者的興趣愛好,預測出使用者對給定物品的評分或偏好。它改變了商家與使用者的溝通方式,加強了和使用者之間的互動性。
據報道,推薦系統給亞馬遜帶來了35%的銷售收入,給Netflix帶來了高達75%的消費,並且Youtube主頁上60%的瀏覽來自推薦服務。
因此,如何搭建有效的推薦系統意義深遠。我們將從深度學習的應用、知識圖譜的應用、強化學習的應用、使用者畫像和可解釋推薦等幾個方面,一起看看推薦系統的未來。本文將圍繞深度學習在推薦系統中的應用展開討論。
推薦系統與深度學習
近幾年深度學習的技術應用在語音識別、計算機視覺和自然語言理解等領域,取得了巨大的成功,如何將其應用到推薦系統是當前的研究熱點。深度推薦系統現階段的應用主要體現在如下三個層面:
- 提升表徵學習能力。深度神經網路的優勢在於其強大的表徵學習能力。因此,一種最直接的應用是,利用深度學習技術從複雜的內容資料中學習出有效的隱因子特徵表示,從而後續可以很方便地為推薦系統所用。
- 深度協同過濾。經典的矩陣分解模型可以被描述為一種非常簡單的神經網路。我們可以通過拓展其中的結構,引入更多的非線性單元來加強推薦模型的功能。例如,在WWW 2017論文Neural collaborative filtering中,作者提出了加強版的矩陣分解模型。一方面,它彌補了兩個隱向量的樸素點積操作不能區分各維度之間重要性差別的弱點;另一方面,它額外引入了一個多層感知機模組,用來引入更多的非線性操作。除此之外,自動編碼機、卷積神經網路、記憶網路、注意力網路等深度學習相關技術也分別被應用在改進傳統的協同過濾模型中,取得了不錯的效果。
- 特徵間的深度互動。企業級的推薦系統為了儘量提高模型的準確性,往往會使用豐富的、甚至異構的內容資料。這些特徵從不同的維度展現了不同的資訊,而且特徵間的組合通常是非常有意義的。傳統的交叉特徵是由工程師手動設計的,這有很大的侷限性,成本很高,並且不能拓展到未曾出現過的交叉模式中。因此學者們開始研究用神經網路去自動學習高階的特徵互動模式,彌補人工特徵工程帶來的種種侷限性。這個層面相關的模型包括Wide&Deep、PNN、DeepFM、DCN、以及我們近期提出的xDeepFM模型(《xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems》,KDD 2018)等。
深度學習技術在推薦系統中的應用前景很廣闊。下面簡要介紹幾個未來可能的研究方向:
1. 效率與可拓展性
對於工業界推薦系統而言,不僅需要考慮模型的準確度,執行效率和可維護性也是非常重要 的方面。效率指的是當用戶發來一個請求時,推薦系統能夠以接近實時的速度返回結果,而不需讓使用者等待;可維護性指系統的部署簡便,能夠支援定期更新,或者增量式更新。眾所周知,複雜神經網路的計算量是龐大的,如何將它們更高效地應用在超大規模的推薦平臺上,是亟需解決的技術難點。
2. 多樣化資料融合
現實平臺中,使用者或者物品的資料往往是複雜多樣的。物品的內容可以包括文字、影象、類別等資料;使用者的行為資料可以來自多個領域,例如社交網路、搜尋引擎、新聞閱讀應用等;使用者的行為反饋也可以是豐富多樣的,例如電商網站中,使用者的行為可能有搜尋、瀏覽、點選、收藏、購買等。不僅如此,在這些不同的維度中,不同使用者或物品的資料分佈也千差萬別;使用者在不同的行為反饋上的資料量也不同,點選行為的資料量往往遠大於購買行為的資料量。因此,單一、同構的模型是不能有效地處理這些多樣化的資料的。如何深度融合這些複雜資料是一個技術難點。
3. 捕捉使用者長短期偏好
使用者的偏好大致可以分為長期和短期兩類。長期偏好往往指使用者的興趣所在,例如她是五月天的歌迷,那麼未來很長時間她都會對五月天的歌曲、演唱會門票感興趣;短期偏好指的是使用者在當前環境下的即時興趣,例如最近一週使用者比較喜歡聽抖音上的熱門歌曲,那麼推薦系統也應該捕捉到使用者的這個興趣,或者使用者在未來一個月有搬家的打算,那麼推薦系統可以適當地推送一些搬家公司的廣告。目前一些流行的做法是,將迴圈神經網路與深度協同過濾技術結合,從而達到兼顧長短期記憶的功能。如何結合情境因素的影響,將使用者的長期偏好與短期需求更緊密、有效地結合起來,也是一個研究熱點。
下一篇文章我們將圍繞“推薦系統與知識圖譜”的研究展開討論。想要了解關於推薦系統的更多研究熱點,還請持續關注,歡迎分享與收藏!