馬蜂窩使用者內容貢獻能力模型構建

阿新 • • 發佈：2019-06-10

在使用者個性化時代，垂直化、精細化的運營，被看作企業重要的競爭力。完整、清晰的使用者畫像體系，可以幫助企業從海量的使用者資訊中發掘每個使用者的行為特性、潛在能力及興趣等資訊，從而為使用者提供具有針對性的服務。

馬蜂窩擁有海量的使用者出行體驗資料，在成長和發展的過程中一直在探索如何通過基於海量 UGC 的資料探勘出每個使用者的基本特徵、對旅遊主題、目的地的偏好和潛在興趣，從而精準地定位和標記使用者，將優質的內容、商品和服務與使用者進行連線。

今天這篇文章，主要圍繞馬蜂窩使用者標籤體系中的「使用者貢獻能力」標籤，來介紹我們如何挖掘那些對馬蜂窩的 UGC 有貢獻能力的群體，這樣做的價值是什麼。

挖掘使用者內容貢獻能力的意義

鼓勵使用者分享原創內容、彼此借鑑旅遊資訊，是馬蜂窩得以持續吸引使用者的核心。這些使用者產生的原創內容不僅包括記錄自己旅遊體驗的攻略、遊記，也包括幫助其他使用者解決旅行疑惑的問答、點評等。通過這種互享型的內容互動模式，越來越多存在個性化旅行需求的使用者在馬蜂窩完成旅遊消費決策的閉環。

為了更好地幫助使用者提升決策效率，我們需要挖掘出那些擁有豐富的自由行經驗，並且具有一定內容生產能力的旅行者，圍繞內容增長、使用者活躍制定相關策略。

如果只通過使用者的等級劃分來評估該使用者的影響力，顯然是存在問題的。我們都知道，使用者等級作為使用者激勵體系中的一種方式，是對使用者過往行為的認可，因此等級一般只會上升不會下降，這種特點導致：

使用者核心輸出能力無法得到有效量化：使用者只要每天進行打卡、回覆、評論等簡單行為也會慢慢升級到高級別；
使用者升級以後等級固化：例如使用者很長時間沒有登入，但從等級來看他的影響力依然很強；
無法感知使用者的內容輸出意願：即使使用者等級高且在近期有過登入行為，但對哪些話題感興趣、是否存在生產內容的意願我們無從感知。

為了解決以上問題，我們將內容貢獻能力作為使用者畫像標籤體系中的一個欄位進行挖掘，並應用到馬蜂窩很多業務當中，比如：

旅遊問答邀請

馬蜂窩問答可以看成是一種更快捷、簡短、個性化的旅遊攻略。我們可以圈定近期在該領域內容貢獻豐富的、以及內容受歡迎的相關使用者，推薦給提問者定向邀請回答，保證旅行者的問題能夠快速、準確地被解答。

馬蜂窩 KOL 挖掘

利用使用者內容貢獻能力標籤，我們可以更精準地挖掘活躍的、專業的、熱愛旅行並能生產高質量內容的 KOL，一方面可以在線上通過邀請入駐、內容推薦等方式，讓這些資深旅行者的優質內容得到更多曝光；另一方面，可以將 KOL 的力量組合起來，轉移到線下，用他們的親身經驗最簡單地帶動使用者的直觀認知，比如「馬蜂窩指路人」等。

圖：馬蜂窩旅行家專欄

圖：馬蜂窩指路人俱樂部

使用者內容貢獻能力模型

簡單來說，就是從使用者的的活躍度、在一定時間內的受歡迎度、輸出意願三個維度構建模型，從而對使用者貢獻能力進行測度，即：

使用者內容貢獻能力 = 使用者的輸出意願 + 使用者的活躍度 + 使用者的受歡迎程度

1. 使用者活躍度模型

RFM 模型我們很多人都不陌生，這是衡量使用者價值和使用者創利能力的經典工具。這裡我們基於馬蜂窩旅遊社區的場景，將 RFM 模型的三個因素調整為：

A（Activity）：使用者活躍度

e^(-αt)：最近一次訪問時間距今天的時間衰減，採用指數衰減，其中 α 為衰減係數。這裡利用指數衰減函式做為時間衰減因子，F*E 可以理解為使用者的活躍的熱度，時間衰減因子體現了使用者活躍的熱度隨著時間逐漸衰減的過程。在馬蜂窩場景下，通過對實際資料的調參，我們選擇當時間 t 為一年（365）的時候衰減為最小值 0.0001，此時帶入公式求出 α 的值。這裡考慮的是使用者一年未貢獻任何的內容則意願衰減至最低，求得 α 為 0.0189；

F（Frequency）：使用者在特定時間內的內容貢獻頻次。這裡也是基於場景包含對遊記、問答、攻略、筆記（圖、文、視訊結合）等所有型別內容的計算；

E（Engagements）：使用者最近一次貢獻內容的型別，不同型別的 UGC 對應的值不同。例如產出一篇遊記的難度以及內容的價值要高於回答一個使用者的問題，和以圖片、視訊為主的筆記。經過在馬蜂窩全站計算不同型別的文章在 UGC 數量佔比，得出如下結論：遊記的 E 值為 5，問答值為 2.5，筆記值為 3 。

2. 使用者受歡迎程度

無論是什麼形式的 UGC，被認可的方式通常基本都是通過其他使用者的點贊、評論、收藏、分享幾種方式。在馬蜂窩，遊記、問答、攻略、筆記等不同的文章形式歡迎度是不同的，比如以圖片、視訊形式為主要呈現形式的短內容（筆記）雖然曝光較多，但是被點贊、評論等認可度卻不如攻略或者遊記這樣的長文章。

因此這裡通過分析社群中游記、問答、筆記等不同內容的被贊情況進行分析，算出一個使用者歡迎程度最終綜合得分和平均分，如下：

以上，W 代表的是使用者受歡迎程度的綜合得分，α、β、χ 分別代表不同型別內容的權重因子。這裡通過計算全站不同形式的文章被讚的情況進行分析，得出 α:β:χ = 1:1.05:0.98 ，為了計算方便近似取 α、β、χ 均為1。

Travel 值表示遊記的受歡迎程度，計算方式是通過點贊、收藏、分享、回覆等相關特徵，作為衡量一篇文章是否受歡迎的特徵屬性，然後通過 logistic 迴歸模型訓練特徵權重，如下：

Y 表示訓練的文章是否是優質，W_i 代表權重，通過模型訓練得出權重的值，N 代表文章型別，vote代表點贊，Fav 代表收藏，Comment 代表評論，Share 代表分享。最後求得權重以通過權重計算 Travel 來評判一篇遊記受歡迎的程度。Answer、Note 的計算方式同上。經模型訓練的得出結果如下（這裡為了計算方便，四捨五入取值小數點後一位）：

遊記：w1：0.1，w2：0.5，w3：0.2，w4：0.4;

問答：w1：0.2，w2：0.9，w3：0.3，w4：0.6;

筆記：w1：0.1，w2：0.5，w3：0.3，w4：0.6;

3. 使用者分享意願

使用者分享意願是根據為使用者打標籤和 PageRank 來實現。將使用者貢獻內容標籤作為使用者興趣的代表，然後結合實際場景，根據 PageRank 計算模型來分析話題與使用者之間的關係，結合標籤相似度計算向用戶推薦其感興趣、分享意願高的內容。比如當用戶貢獻內容標籤與當前話題的標籤分類屬於同一類的時候，我們可以理解為使用者對當前同類標籤的話題輸出意願是比較強的。如果使用者還貢獻過當前話題標籤相類似的內容，使用者的分享意願會對應提高。如下：

D 代表使用者的內容寫作意願程度，d_i 代表使用者對某一型別的文章的貢獻意願（比如寫作遊記的意願）；

T_i 代表使用者在過去時間生產的某一型別內容佔用戶分享的所有內容比值，其中 T_1 代表遊記，T_2 代表問答，T_3 代表筆記；

C_i 代表使用者寫過的某一型別的文章其中出被評選為優質的數量，同理 C_1 為貢獻優質遊記的數量，C_2 為貢獻優質問答數量，C_3 為貢獻優質筆記數量。

N 代表阻尼係數，這裡預設 N 值為 0.85。

綜上，通過「使用者的輸出意願 + 使用者的活躍度 + 使用者的受歡迎程度」，我們就可以給出相應的使用者 UGC 等級，從而使使用者的內容貢獻能力得到客觀、有效地量化。

小結

使用者內容貢獻模型充分考慮了使用者等級設定中沒有突出使用者行為型別、時間衰減因素，以及沒有充分挖掘使用者興趣的三個問題，提出了一種新的模型視角，並在馬蜂窩的當前產品中充分應用。

未來，我們會繼續優化演算法，例如在模型中加入評論等多個維度的屬性；在內容影響力方面加入內容畫像的質量分+文章本身的得分，而不僅僅侷限於優質、蜂首、採納回答等等，來更加準確地挖掘使用者內容貢獻能力，完善馬蜂窩使用者標籤體系。

本文作者：於允飛 & 張陽，馬蜂窩推薦架構 & 使用者畫像研發工程師。

（題圖來源：網路）

關注馬蜂窩技術，找到更多你想要的

馬蜂窩使用者內容貢獻能力模型構建

挖掘使用者內容貢獻能力的意義