1. 程式人生 > >推薦系統的重點、難點問題

推薦系統的重點、難點問題

隨著近年來對推薦系統研究的開展,很多研究中的重點、難點問題得到研究者的關注和共識[7],主要包括:

1)特徵提取問題

雖然在資訊檢索中,文字等物件特徵的提取技術已經很成熟,但是推薦系統的物件不一定具有文字特徵或者文字不足以作為描述[1],此時特徵的選擇出現了問題。尤其是網路上廣泛存在的多媒體資料如音樂、視訊、影象等,自動化的特徵提取方法需要結合多媒體內容分析領域的相關技術。另一個問題是特徵的區分性問題,大規模資料情況下不同物件的特徵錯配會影響系統性能。

2)模型過擬合問題(可擴充套件性問題)

推薦系統中推薦演算法無法完全掌握使用者每個方面的興趣和需求,因為使用者之前沒有對足夠多類別的物件進行評價。過擬合現象是指系統推薦給使用者的物件與使用者剛剛看過的不是太相似,就是太不相關。模型過擬合(過學習)的問題本質上來自於資料的不完備性,這在實際應用中是無法完全避免的。在資訊檢索領域這類問題廣泛存在,解決的主要方法是引入隨機性,使演算法收斂到全域性最優或者逼近全域性最優。隨機方法包括遺傳演算法[51]等。Daily Learner相關的文獻[15,39]針對這個問題考察了被推薦的物件的相關性(relevant)和冗餘性(redundancy),認為被推薦的物件首先不能與使用者看過的物件重複(冗餘),其次必須有相關性以相互聯絡.推薦的多樣性是必不可缺的。

3)新使用者問題

系統沒有儲存或者儲存很少新使用者的資訊,包括檢視物件的歷史記錄和新使用者對物件的評分,基於模型的方法無法獲得訓練資料而基於規則的方法難以進行推理。近期一些研究特別針對這個問題提出瞭解決方法。文獻[52,53]利用物件熵(entropy)、受歡迎程度(popularity)、使用者個性屬性等來改進效果。

4)新物件問題

新使用者和新物件問題都屬於冷啟動問題。在推薦系統尤其是協同過濾系統中,新物件加入資料庫後必須等待一段時間才有使用者檢視並進行評價(點選、打分、評論等都是評價的手段)。在評價達到一定數量之前無法對此物件進行分析和推薦。不同於新使用者問題,這類問題一般考慮使用組合推薦的方法來應對。

5)稀疏問題

在任何大型的推薦系統中,對於一個使用者,總有大量的物件沒有經過使用者的評價或者檢視,而且這類資料常常比已經有此使用者評價的資料量更大[7]。使用者之間由於選擇的差異性非常大造成稀疏情況,即任意兩個使用者的評分差別都非常大。文獻[38]提出初步的解決方法,將使用者的年齡、國籍、性別等個人資訊增加作為使用者相似度計算的根據,稱為基於人口統計學的過濾方法(demographic filtering)。文獻[26,54]使用主分量分析(SVD)降維方法嘗試把稀疏的關係矩陣降維到低維,以得到使用者之間潛在的關係。