文字內容畫像&使用者畫像理解之最終版
首先,使用者畫像和內容畫像 等於 給使用者和文字貼標籤,即提取能代表該使用者和該文章的關鍵特徵。兩個畫像都構建完成之後,便是推薦演算法出場。
一、標籤的定義
標籤是對高維事務的降維理解,抽象出實物更具有代表性、更顯著的特點。
二、標籤產出方式:
內容和使用者兩種
在內容畫像層面,在文字處理中,對於給定的非結構化的一篇文章,內容畫像一共分為一下兩步:
2.1、對非結構的文字進行結構化處理,常用的有如下六種處理方法:
1. 關鍵詞提取:是最基礎的物品畫像的標籤來源,也為其他文字分析提供資料基礎,如TF-IDF,TextRank;
2. 實體識別:人、位置、地點、著作、影視劇、歷史事件和熱點事件等,最長基於詞典的方法結合CRF模型;類比分詞和詞性標註,實體識別是指對每一個分好的詞,識別為定義好的命名實體類集合之一。
3. 內容分類:將文字按照分類體系分類,用分類來表達較粗粒度的結構化資訊;SVM, FastText。
4. 文字聚類:在無人制定分類體系的前提下,無監督地將文字劃分成多個類簇也很常見,別看不是標籤,類簇編號也是使用者畫像的常見構成;
5. 主題模型:從大量已有文字中學習主題向量,然後再預測新的文字在各個主題上的概率分佈情況,也很實用,其實這也是一種聚類思想,主題向量也不是標籤形式,也是使用者畫像的常用構成;LDA主題模型,給出文章的topic。
6. 詞嵌入:也就是Word Embedding,從詞到篇章,無不可以學習這種嵌入表達。嵌入表達是為了挖掘出字面意思之下的語義資訊,並且用有限的維度表達出來。得到稠密的詞向量。
2.2、對結構化的文字資料提取、篩選特徵資訊,構建內容畫像
內容畫像是一組多維向量,有如下幾個標籤,標籤可以是文字已有的標籤,更多是通過機器學習演算法提取的標籤:
1、關鍵詞、實體詞;
2、主題;
3、分類,層級化;
4,文章基礎屬性:作者,字數等;
5,文字聚類;
6,嵌入向量。
在使用者畫像層面,分為靜態和動態兩部分
靜態:使用者的基礎屬性:年齡,居住地等,通過註冊資訊及相關途徑獲得。(便有一個問題,使用者的靜態屬性對文字使用者畫像的刻畫的作用在哪?)
動態:使用者的行為特徵:文章點選、閱讀、點贊、評論、轉發等,通過使用者網路日誌獲得。當用戶在某篇文章上有上述行為的時候,把文字內容畫像的標籤按一定權值賦值給使用者。
使用者畫像是一個向量,是推薦系統構築過程中的一個環節。有兩個關鍵:維度和量化。
在文字領域,使用者畫像就是對文章喜好的標籤。
得到的使用者畫像是一個使用者喜好的關鍵詞-喜好程度”這樣的Key-Value對。
兩者關係
內容畫像和使用者畫像是相互影響的迴圈關係
1、內容畫像決定使用者畫像
使用者畫像的構建,需要使用者瀏覽過的大量文字作為前提。比如評論、收藏、了很多某領域的文章,自然就是喜歡該領域的人。
2、人的畫像會影響內容畫像
基於使用者行為,對內容做出的後驗投票。在大體量視訊上傳體系中,放棄挨個打標籤,轉而利用使用者播放行為來試圖猜測內容屬於哪類。在實際工程應用中,由於內容的複雜性與多樣性,畫像遠不止於預設的標籤集合。在這種情況下,我們引入了聚類的方式來表徵內容。(所以產生了一個問題,使用者行為是否影響文字內容畫像?)
三、基於使用者畫像和文字內容畫像的推薦系統
四種推薦演算法:基於內容的推薦演算法、基於使用者/物品相似度的協同過濾、基於模型的推薦演算法、混合模型。
1、通過匹配使用者畫像和內容畫像的相似性,進行基於內容的推薦。
2、通過使用者畫像之間的相似性,進行基於使用者相似度的協同過濾。把和A使用者相似的B使用者的文章推薦給A。
3、通過物品畫像之間的相似性,進行基於物品相似度的協同過濾。把和A使用者剛才瀏覽過的某文章相似的文章推薦給A。
4、基於模型的推薦演算法:
在任何讀到推薦系統的地方,你都會發現一種分類方法:基於記憶的推薦系統與基於模型的推薦系統。
基於記憶的方法使用使用者之間(協同過濾)或物品之間(基於內容的推薦)的聯絡(相似性)這一資料(贊、投票、點選等等)來給使用者u推薦他從來沒見到的物品i。在協同過濾例子中,從與使用者u最相似的使用者組裡的物品集來推薦,因此物品是協同合作的。與此相反,基於內容的推薦嘗試比較物品的特性如電影型別、演員、原書的出版社等來推薦相似的新物品。簡單地說,基於記憶的方法嚴重地依賴簡單的相似性度量(比如餘弦相似性、皮爾森相關係數等)來把相似的使用者或物品匹配起來。如果有一矩陣,其中每一行是一個使用者,每一列代表一個物品,則基於記憶的方法對這一矩陣的行或列使用相似性度量來獲得一個相似度值。
另一方面基於模型的方法嘗試更進一步地填充上面說的矩陣,它們嘗試量化一個使用者會多麼的喜歡他們之前沒有遇到的物品。為達此目的,基於模型的方法使用一些機器學習演算法來對物品的向量(針對一個特定的使用者)來訓練,然後建立模型來預測使用者對於新的物品的得分。流行的基於模型的技術是貝葉斯網路、奇異值分解和隱含概率語義分析。