漫談推薦系統
作為一個畢業設計、或者作為一個興趣,往大了說作為一個事業。推薦系統從0開始構建,
確實是有很多問題需要解決,推薦系統本身涉及UI交互、線上服務、數據計算、模型構建,課
程設計或畢業設計沒有數據還需要進行數據抓取,確實有許許多多知識以及工作量就是花費很
多時間。
如果是真喜歡這個事,花費時間是很值得的,一是學到東西,一是能很好完成畢設或實現
自己一個興趣。
推薦系策略或者說算法核心是有兩塊一個是用戶協同推薦,一個是內容系統推薦。最近看
推薦系統書和互利網上文章,一個共同觀點是基於內容標簽或者商品品類推薦,會能讓用戶有
一定感知推薦原因但不能產生新穎性,其實如果基於內容也能推薦出高質量或者領域內經典內
容,也是對用戶有一定驚喜感覺。
基於用戶協同過濾或協同推薦能夠為用戶提供更多新鮮內容,基於社交關系或類似用戶興
趣進行擴展推薦,能夠推出新的內容,能給用戶比較多新鮮感。
用戶畫像,用戶畫像根據用戶歷史行為通過模型得出用戶長期、短期、實時喜好,比如關
註電腦、關註手機等電子產品、購買了很多IT書籍,根據這些得到你的抽象標簽,可以表述為
畫像。
根據用戶畫像與物品標簽,進行關聯關聯到一起的,可以將相應物品給用戶進行召回。
搜索內容推薦,用戶進行搜索,就說明用戶對商品或內容有特別強興趣,是一種比點擊、
瀏覽強很多一種行為,需要加權對待。
熱門內容推薦,雖然是個性化推薦系統,但熱門電視劇、娛樂新聞、IPhoneX會是所有
人都希望了解的,需要對他們進行加權推薦,知乎很多用戶應該都是通過熱門電影、諾貝爾
獎討論等熱門事件運營來到知乎,並慢慢成為知乎用戶的。百度搜索有個專門熱門專題新聞
報道聚合,在這個技術上比Google厲害很多,我看到的結果是這樣的。
推薦系統不是一個一簇而就的系統,是一個需要不斷優化系統。
白名單、黑名單機制,推薦系統經常會推薦出用戶不想看到用戶,而且老板經常會提各
種意見、建議。通過白名單、黑名單機制,既能滿足老板需要又不會花費很多時間,直接懟
老板不是明智做法呀。
性能監控要細,推薦系統因要做抽象化,那麽性能監控就很重要了,因為抽象化很多情
況會考慮不到,比如有些用戶分類偏好特別多召回集特別大會導致接口計算超過500ms請求
超時,這是最近線上遇到問題。越是引擎監控越要細不然會漏掉很多問題。
詳細日誌,日誌要細,推薦引擎是抽象化支持各個業務,定位問題困難也加大,這就需
要我們日誌要打的合理、是問題位置日誌詳盡有棧信息,能幫助我們快速第一時間定位以及
處理問題。
關鍵數據不存在日誌以及報警,這可以有效避免線上天窗,天窗是及其嚴重事件,使我
們要在線上進行避免的。
講的比較散,主要是記錄一下,最近研究一些內容、跟大家溝通、線上問題、以及為後
續推薦引擎深入做,做個記錄提前梳理一些問題,避免問題重復出現。
推薦系統是一個復雜系統,需要付出努力,方才能有所收獲。
微信搜索:debugme123
掃描二維碼關註:
漫談推薦系統