1. 程式人生 > 遊戲資訊 >idol manager 偶像經理人 個人開局賺錢文圖攻略

idol manager 偶像經理人 個人開局賺錢文圖攻略

推薦場景一般可以抽象為:內容(Item)和受眾(User),其中內容主要是指要推薦的Item,在購物場景中Item就是商品,歌曲推薦中Item就是歌曲,受眾是訪問當前場景的使用者,一般是自然行為人;推薦模型一般是計算不同的User-Item對的得分,這個得分反映的是使用者點選當前物品的概率,獲取得分最高的Top n的Item推薦給使用者,所以整個特徵關聯模型可以抽象為如下圖-1所示:

圖-1 推薦系統關係模型

其中,可以分解為如下幾部分:User-Item特徵、User特徵、Item特徵、User-Item屬性分佈特徵,下面具體闡述每種特徵的構造方法。

User-Item特徵:

User-Item特徵主要從三個維度來刻畫User對Item的“興趣”,如圖-2所示:

圖-2  User-Item型別的特徵構造

1)時間序列上的統計特徵:

統計特徵從四個角度(絕對值,相對值,是否感興趣和深度感興趣)來刻畫User對Item的“興趣”。比如,時間序列中User累積對某個Item的行為次數就是User對Item的絕對興趣值:如果時間序列分為:一天、三天、一週(實際中時間還需要繼續拉長一點來刻畫使用者長期的興趣),行為是“點選”。那麼這一個特徵構造語句就可以翻譯成三個不同的特徵:分別是最近一天,三天和七天使用者對每個Item的點選次數;時間序列上User對Item是否有重複的行為用來刻畫和區分哪些Item是對User有深度吸引力的,如果在一段時間上只發生了一次行為,那麼很可能User對這個Item並沒有興趣,只是隨便看看;時間序列上User對Item是否有行為,用來刻畫User過去某一段時間使用者的關注點在哪裡,對哪些是可能喜歡的,和上面的一條特徵的區別在於可以涵蓋使用者可能比較感興趣的Item並且這樣使用者興趣特徵也會更加豐富。

2)時間特徵:

時間特徵從三個角度(最近時間,行為頻度,行為穩定性)來刻畫使用者對於Item的興趣在不同時間上的活躍度。比如,User對Item的最後行為時間,可以翻譯成一個時間特徵,可以將這個時間進行歸一化為一個0---1的標量,越接近於1表示User對這個Item具有越強的新鮮度;User對某個Item的平均行為時間間隔用來刻畫User對Item的活躍頻率,時間間隔越小說明對使用者的吸引力越大。User對Item的行為時間間隔方差可以用來刻畫User對Item的喜好的穩定性。

3)趨勢特徵:

趨勢特徵主要刻畫使用者對某個Item的興趣趨勢。比如,User一天對Item的行為次數/User三天對Item的行為次數的均值,表示短期User對Item的熱度趨勢,大於1表示活躍逐漸在提高;三天User對Item的行為次數的均值/七天User對Item的行為次數的均值表示中期User對Item的活躍度的變化情況;七天User對Item的行為次數的均值/ 兩週User對Item的行為次數的均值表示“長期”(相對)User對Item的活躍度的變化情況。

User特徵:

User特徵主要包括使用者的屬性特徵以及從多個方面刻畫使用者的“活躍度”,User型別的特徵構造方法如圖-3所示:

圖-3  User型別的特徵構造

時間序列的統計特徵:

主要從三個維度(User總活躍,使用者深度活躍,使用者對於Item的覆蓋度)來刻畫使用者的活躍。比如,時間序列上User行為次數總和,在劃分成三個時間細粒度的情況下,可以翻譯成三個特徵,分別是一天,三天和七天User的行為總和,來表示User在當前時間段上的活躍。時間序列上User重複行為次數用來刻畫使用者真實的活躍深度。時間序列上User有行為的Item的數量,可以用來刻畫使用者的活躍廣度,來表示使用者是否有足夠的意願嘗試新的Item。

1)時間特徵:

主要從三個角度(最近時間,行為頻度,行為穩定性)來刻畫使用者的活躍度。比如,User最後行為時間,時間越接近當前時間說明User的活躍度越強;User的平均行為時間間隔用來刻畫User的活躍度,時間間隔越小說明User的活躍度越強。User的行為時間間隔方差可以用來刻畫User活躍的穩定性。

2)趨勢特徵:

趨勢特徵用來刻畫User的活躍趨勢。比如,User一天的行為次數/User三天的行為次數的均值,表示短期User活躍趨勢,大於1表示活躍逐漸在提高;三天User的行為次數的均值/七天User的行為次數的均值表示中期User的活躍趨勢;七天User的行為次數的均值/ 兩週User的行為次數的均值表示“長期”(相對)User的活躍趨勢。

3)屬性特徵:

主要用來刻畫使用者的一些屬性特徵包括性別、年齡、學歷以及使用機型等。

Item特徵

Item特徵主要包括Item的屬性特徵以及從多個方面刻畫Item的“熱度”,Item型別的特徵構造方法如圖-4所示:

圖-4  Item型別特徵構造

1)時間序列的統計特徵:

從三個維度(Item的行為熱度,熱度趨勢和時間間隔)來刻畫Item的熱度。比如,時間序列上Item行為次數總和,在劃分成三個時間細粒度的情況下,可以翻譯成三個特徵,分別是一天,三天和七天Item的行為總和,來表示Item在當前時間段上的熱度。時間序列上Item被重複點選次數用來刻畫Item真實的熱度深度,尤其在APP的推薦上,重複的使用或者點選說明當前APP對使用者的吸引力越強。時間序列上和當前Item發生行為的User的數量(去重)刻畫了Item的熱度的廣度。時間序列上Item的點選和曝光的比值(User不去重)---CTR,刻畫了Item在相同曝光下被點選的概率。時間序列上Item的點選和曝光的比值(User去重)---CTR,刻畫了Item在相同曝光下被點選的概率,剔除了某些特殊情況某個User對某個Item的行為過於集中的情況。

2)時間特徵:

主要從三個角度(最近時間,行為頻度,行為穩定性)來刻畫Item的熱度。比如,Item最後行為時間,表示Item的最近活躍;Item的平均行為時間間隔用來刻畫Item的熱度,時間間隔越小說明的熱度越高。Item的行為時間間隔方差可以用來刻畫Item熱度的穩定性。

3)趨勢特徵:

主要刻畫Item的熱度和CTR的趨勢。比如,Item一天的行為次數/Item三天的行為次數的均值,表示短期Item的熱度趨勢,大於1表示熱度逐漸在提高;三天Item的行為次數的均值/七天Item的行為次數的均值表示中期Item的熱度趨勢;七天Item的行為次數的均值/ 兩週Item的行為次數的均值表示“長期”(相對)Item的熱度趨勢。另外一種特徵表示CTR的趨勢:其中一天的Item的CTR / 三天Item的CTR表示“短期”Item的CTR趨勢資訊。

4)屬性特徵:

主要用來刻畫Item的一些屬性特徵主要包括所屬的類別。

User和Item之間的屬性分佈特徵:

主要通過計算在不同時間段上User和Item之間的行為的統計特徵:如果當前的User的屬性包括:性別、年齡和Device,Item的屬性包括:Item_id和類別,那麼特徵構造方法如圖-5所示:

圖-5  User和Item之間屬性分佈特徵構造

1)時間序列上Item在Age的分佈特徵:

通過計算Item在年齡段上的行為數量(User不去重和不去重)來刻畫Item在不同年齡段上的熱度;Item在年齡段上的行為數量/Item總的行為數量來表示User在年齡上的熱度分佈;Item在不同年齡段上的點選和Item在相應的年齡段上的曝光之間的比值來刻畫Item在不同的年齡段上的CTR。

2)時間序列上Item在Gender的分佈特徵:

通過計算Item在性別上的行為數量(User不去重和不去重)來刻畫Item在不同性別上的熱度;Item在性別上的行為數量/Item總的行為數量來表示User在性別上的熱度分佈;Item在不同性別上的點選和Item在相應的性別上的曝光之間的比值來刻畫Item在不同的性別上的CTR。

3)時間序列上Item在Device的分佈特徵:

通過計算Item在不同Device上的行為數量(User不去重和不去重)來刻畫Item在不同Device上的熱度;Item在不同Device上的行為數量/Item總的行為數量來表示User在Device上的熱度分佈;Item在不同Device上的點選和Item在相應的Device上的曝光之間的比值來刻畫Item在不同的Device上的CTR。

4)時間序列上User在ItemType上的分佈特徵:

通過計算User在不同的ItemType上的行為數量來刻畫Use對不同的ItemType的喜好,計算User在不同的ItemType上是否有行為來刻畫在時間段上User是否對當前的Item的型別感興趣,計算User的行為在不同的Item上的分佈來刻畫對不同的ItemType的喜好程度。User在一段時間內,是否在ItemType上有重複行為,來刻畫使用者是否對當前ItemType深度感興趣。

5)時間序列上ItemType在Age上的分佈特徵:

通過計算ItemType在不同年齡段上的行為數量(User不去重和不去重)來刻畫ItemType在不同年齡段上的熱度;ItemType在不同年齡段上的行為數量/ItemType在年齡段上的使用者數量來刻畫當前ItemType對這個年齡段的User的吸引程度;ItemType在不同年齡段上的點選和ItemType在相應的年齡段上的曝光之間的比值來刻畫ItemType在不同的年齡段上的CTR。

6)時間序列上ItemType在Gender上的分佈特徵:

通過計算ItemType在不同性別上的行為數量(User不去重和不去重)來刻畫ItemType在不同性別上的熱度;ItemType在不同性別上的行為數量/ItemType在當前性別上的行為使用者數量來刻畫當前ItemType對這個性別的User的吸引程度;ItemType在不同性別上的點選和ItemType在相應的性別上的曝光之間的比值來刻畫ItemType在不同的性別上的CTR。

上面列舉了一些常見屬性之間的分佈特徵,都是User針對Item或者Item針對User的統計分佈,這些只是大部分場景中會出現的場景,在具體的業務中可以根據實際可以獲取到的屬性結合和樣本之間的相關性來進行建模。

特徵選擇:

在實際的業務中,首先需要思考的是如何正確的構建樣本對,在恰當的樣本對構造的基礎上思考和樣本標籤具有相關性的因素,這些因素包括使用者和物品側,找到這些因素之後才是特徵構建,不同的場景和演算法情況下需要不同的特徵選擇:比如說遊戲推薦中活躍時長、付費意願很重要,而弱化了在性別上的分佈,因為遊戲屬於使用者粘性比較大的型別,在商品推薦中性別分佈和瀏覽、加購物車行為則同等重要,因為使用者的性別和使用者之間的興趣有很強的相關性;對於不同的演算法同樣也需要不同的特徵體系,對於邏輯迴歸這種解釋性很強的線性模型,通常需要根據建模場景選擇特徵的細粒度,然後生成和樣本具有相關性的特徵,獲取相關性最直接的方法是對特徵進行特徵交叉,而對於樹模型或者FM模型,理論上則不需要進行特徵交叉,因為模型本身就具有了特徵的交叉能力。總之,合適模型加上適配的特徵特徵體系才能獲得較好的效果。