Field-aware Factorization Machines for CTR Prediction簡介與程式碼實現

阿新 • • 發佈：2019-01-14

摘要

FM被廣泛應用在CTR，但是FFM在一些世界範圍的CTR競賽表現好於目前存在的模型。作者實現了相關程式碼，並與一些競爭模型進行了全面的分析。實驗證明FFM在某些分類問題上非常有用。

介紹

FFM

在這裡插入圖片描述

對於這個例子來說，FM的隱向量表示應該為：
在這裡插入圖片描述

在FM中，每個特徵只有一個隱向量來學習隱性的影響。拿ESPN來做例子， $w_{E S}$

P N w_{ESPN}

w_{E S P N}

被用來學習隱性的與Nike和Male的影響，但是因為Nike和Male是屬於不同的領域的，那麼使用同一個

w_{ESPN}

可能不太合適。

在FFM中，每個特徵都有一些隱性的向量，取決於其他特徵的所屬領域。比如對於上述例子，FFM的隱向量表示為：

在這裡插入圖片描述

所以其數學模型為：
在這裡插入圖片描述

在這裡插入圖片描述

整個演算法步驟：
在這裡插入圖片描述

優化

使用AdaGrad優化方法，自適應優化學習速率，對頻繁變化的引數以更小的步長進行更新，而稀疏的引數以更大的步長進行更新。

梯度：
在這裡插入圖片描述

AdaGrad：
在這裡插入圖片描述

G的初始值為1，避免分母為0，過大

缺陷

在這裡插入圖片描述

僅針對二次項，FM有nk個引數，而FFM有nfk個引數。而且FFM無法利用化簡，所以計算複雜度為 $O(kn^2)$ .所以這需要較大的硬體資源來提供運算。

Impact of Parameter

k值不需要太大，沒有什麼提升
$\lambda$ 和 $\alpha$ 需要著重調整

Early Stopping

防止過擬合

在這裡插入圖片描述

程式碼

import tensorflow as tf
import numpy as np
import os


input_x_size = 20
field_size = 2

vector_dimension = 3

# 使用SGD，每一個樣本進行依次梯度下降，更新引數
batch_size = 1

all_data_size = 1000

alpha = 0.01

MODEL_SAVE_PATH = "TFModel"
MODEL_NAME = "FFM"


def createTwoDimensionWeight(input_x_size,field_size,vector_dimension):          #初始化w2
    weights = tf.truncated_normal([input_x_size,field_size,vector_dimension])   #預設生成均值為0，標準差為1的[input_x_size,field_size,vector_dimension]維度的張量

    tf_weights = tf.Variable(weights)

    return tf_weights

def computation(input_x,input_x_field,TwoWeights):
    thirdValue=tf.Variable(0.0,dtype=tf.float32)
    input_shape=input_x_size
    for i in range(input_shape-1):
        featureIndex1 = i             #對應每個x1的特徵序號
        fieldIndex1 = int(input_x_field[i])         #對應特徵x1的field序號
        for j in range(i + 1, input_shape):
            featureIndex2 = j         #對應每個x2的特徵序號
            fieldIndex2 = int(input_x_field[j])        #對應特徵x2的field序號
            vectorLeft = tf.convert_to_tensor([[featureIndex1, fieldIndex2, i] for i in range(vector_dimension)])     #轉換成張量
            weightLeft = tf.gather_nd(TwoWeights, vectorLeft)         #取對應位置的值，只不過是在張量上
            weightLeftAfterCut = tf.squeeze(weightLeft)         #消除維度為1的shape

            vectorRight = tf.convert_to_tensor([[featureIndex2, fieldIndex1, i] for i in range(vector_dimension)])
            weightRight = tf.gather_nd(TwoWeights, vectorRight)
            weightRightAfterCut = tf.squeeze(weightRight)

            tempValue = tf.reduce_sum(tf.multiply(weightLeftAfterCut, weightRightAfterCut))

            indices2 = [i]
            indices3 = [j]

            xi = tf.squeeze(tf.gather_nd(input_x, indices2))
            xj = tf.squeeze(tf.gather_nd(input_x, indices3))

            product = tf.reduce_sum(tf.multiply(xi, xj))

            secondItemVal = tf.multiply(tempValue, product)

            tf.assign(thirdValue, tf.add(thirdValue, secondItemVal))

        return thirdValue

def gen_data():
    labels = [-1,1]
    y = [np.random.choice(labels,1)[0]for _ in range(all_data_size)]        #表示在【-1，1】中選擇一個數，後面加【0】是為了取值，而不是保持array型別
    x_field = [i // 10 for i in range(input_x_size)]
    x = np.random.randint(0,2,size=(all_data_size,input_x_size))

    return x,y,x_field

if __name__=='__main__':
    global_step = tf.Variable(0, trainable=False)
    trainx, trainy, trainx_field = gen_data()

    input_x = tf.placeholder(tf.float32, [input_x_size])
    input_y = tf.placeholder(tf.float32)

    lambda_v = tf.constant(0.001, name='lambda_v')

    weight = createTwoDimensionWeight(input_x_size,  # 建立二次項的權重變數
                                           field_size,
                                           vector_dimension)  # n * f * k

    y_ = computation(input_x, trainx_field, weight)

    l2_norm = tf.reduce_sum(tf.multiply(lambda_v, tf.pow(weight, 2)))

    loss = tf.log(1 + tf.exp(-input_y * y_)) + l2_norm

    train_step = tf.train.AdagradOptimizer(learning_rate=alpha,initial_accumulator_value=1).minimize(loss)

    saver = tf.train.Saver(max_to_keep=1)        #只保留最後的一個模型
    max_acc=100000
    is_train=False
    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())
        for j in range(10):
            if is_train:
                for t in range(all_data_size):
                    input_x_batch = trainx[t]
                    input_y_batch = trainy[t]
                    predict_loss, _, steps = sess.run([loss, train_step,global_step],
                                                        feed_dict={input_x: input_x_batch, input_y: input_y_batch})
                    print("After  {step} training   step(s)   ,   loss    on    training    batch   is  {predict_loss} "
                            .format(step=steps, predict_loss=predict_loss))
                    global_step+=1
                    if predict_loss<max_acc:
                        max_acc=predict_loss
                        saver.save(sess, os.path.join(MODEL_SAVE_PATH, MODEL_NAME), global_step=steps)
            else:
                model_file = tf.train.latest_checkpoint(MODEL_SAVE_PATH+'/')
                saver.restore(sess, model_file)
                for t in range(all_data_size):
                    val_loss, yhat = sess.run([loss, y_], feed_dict={input_x: trainx[t],input_y: trainy[t]})
                    print("loss on training batch is {predict_loss} ,prediction is {yhat},real y is {y}"
                          .format(predict_loss=val_loss,yhat=yhat,y=trainy[t]))

上述程式碼在重新匯入model以後，執行的所得到的yhat均不變，可能有一些問題，但是總體思路應該是沒錯的，如果有大佬能幫忙解決一下這個問題就更好了。

Field-aware Factorization Machines for CTR Prediction簡介與程式碼實現

摘要 FM被廣泛應用在CTR，但是FFM在一些世界範圍的CTR競賽表現好於目前存在的模型。作者實現了相關程式碼，並與一些競爭模型進行了全面的分析。實驗證明FFM在某些分類問題上非常有用。介紹 FFM 對於這個例子來說，FM的隱向量表示應該為：在FM中，每個

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction簡介與程式碼實現

論文簡介 Abstract 對於一個基於CTR預估的推薦系統，最重要的是學習到使用者點選行為背後隱含的特徵組合。在不同的推薦場景中，低階組合特徵或者高階組合特徵可能都會對最終的CTR產生影響。但是現存的方法總是忽視了高階或低階組合特徵的聯絡，或者要求專門的特徵工程，因此作者建立了

Factorization Machines簡介與程式碼實現

介紹 FM是聯合SVM與因式分解模型的優點所得。在有比較大的資料稀疏情況下，也能從中找出聯絡。FM可以線上性時間內優化。優點可以在非常稀疏的資料中進行合理的引數估計 FM模型的時間複雜度是線性的 FM是一個通用模型，它可以用於任何特徵為實值的

MD5簡介與程式碼實現

MD5簡介 md5的全稱是message-digest algorithm 5（資訊-摘要演算法），在90年代初由mit laboratory for computer science和rsa data security inc的ronald l. rivest開

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉（高階）特征學習提出的DeepFM是一個end-to-end模型，不需要像wide&deep那樣在wide端人工構造特征。網絡結構： sparse feature

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 論文閱讀總結

Abstract Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great

Uncertainty for CTR Prediction: One Model to Clarify Them All

In the first post of the series we discussed three types of uncertainty that can affect your model — data uncertainty, model uncertainty and mea

全國天氣預報資訊資料 API 功能簡介與程式碼呼叫實戰視訊

此文章對開放資料介面 API 之「全國天氣預報資訊資料 API」進行了功能介紹、使用場景介紹以及呼叫方法的說明，供使用者在使用資料介面時參考之用，並對實戰開發進行了視訊演示。 1. 產品功能介面開放了全國天氣預報資訊資料，你可以通過關鍵字查詢任意市或者區級別的位置程式碼，通過位置程式碼查詢最詳細的天氣預

模擬退火(Simulated Annealing, SA)演算法簡介與MATLAB實現

目錄演算法步驟演算法特點模擬退火演算法概述模擬退火演算法(Simulated Annealing，簡稱SA)的思想最早是由Metropolis等提出的。其出發點是基於物理中固體物質的退火過程與一般的組合優化問題之間的相似性。模擬退火法是一種

leveldb簡介與java實現demo

簡介 1.簡介 Leveldb是一個google實現的非常高效的kv資料庫，目前的版本1.2能夠支援billion級別的資料量了。在這個數量級別下還有著非常高的效能，主要歸功於它的良好的設計。特別是LSM演算法。 2特點 LevelDB 是單程序的服務，效能非常之高

並查集演算法的簡介與演算法實現

並查集（Union-find Sets）是一種非常精巧而實用的資料結構，它主要用於處理一些不相交集合的合併問題。一些常見的用途有求連通子圖、求最小生成樹的 Kruskal 演算法和求最近公共祖先（Least Common Ancestors, LCA）等。使用並查集時，首先會存在一組不相交的動態集合 S=

FM（Factorization Machine）因式分解機與 TensorFlow實現詳解

超參數 optimizer 梯度下降很多動態 print cor 數量 add 1，線性回歸（Linear Regression）線性回歸，即使用多維空間中的一條直線擬合樣本數據，如果樣本特征為： \[x = ({x_1},{x_2},...,{x_n})\] 模型假

Spring AOP簡介與底層實現機制——動態代理

AOP簡介 AOP (Aspect Oriented Programing) 稱為：面向切面程式設計，它是一種程式設計思想。AOP 是 OOP（面向物件程式設計 Object Oriented Programming)的思想延續 AOP採取橫向抽取機制，取代了傳統縱向繼承體系重複性程式碼的編寫方式（例如

CTR學習筆記&程式碼實現1-深度學習的前奏LR->FFM

CTR學習筆記系列的第一篇，總結在深度模型稱王之前經典LR，FM, FFM模型，這些經典模型後續也作為元件用於各個深度模型。模型分別用自定義Keras Layer和estimator來實現，哈哈一個是舊愛一個是新歡。特徵工程依賴feature_column實現，這裡做的比較簡單在後面的深度模型再好好搞。完整程

CTR學習筆記&程式碼實現2-深度ctr模型 MLP->Wide&Deep

## 背景這一篇我們從基礎的深度ctr模型談起。我很喜歡Wide&Deep的框架感覺之後很多改進都可以納入這個框架中。Wide負責樣本中出現的頻繁項挖掘，Deep負責樣本中未出現的特徵泛化。而後續的改進要麼用不同的IFC讓Deep更有效的提取特徵互動資訊，要麼是讓Wide更好的記憶樣本資訊 ##

CTR學習筆記&程式碼實現3-深度ctr模型 FNN->PNN->DeepFM

這一節我們總結FM三兄弟FNN/PNN/DeepFM，由遠及近，從最初把FM得到的隱向量和權重作為神經網路輸入的FNN，到把向量內/外積從預訓練直接遷移到神經網路中的PNN，再到參考wide&Deep框架把人工特徵互動替換成FM的DeepFM，我們終於來到了2017年。。。 FNN FNN算是把FM和

CTR學習筆記&程式碼實現5-深度ctr模型 DeepCrossing -> DCN

之前總結了PNN,NFM,AFM這類兩兩向量乘積的方式，這一節我們換新的思路來看特徵互動。DeepCrossing是最早在CTR模型中使用ResNet的前輩，DCN在ResNet上進一步創新，為高階特徵互動提供了新的方法並支援任意階數的特徵交叉。以下程式碼針對Dense輸入更容易理解模型結構，針對spar

CTR學習筆記&程式碼實現6-深度ctr模型後浪 xDeepFM/FiBiNET

xDeepFM用改良的DCN替代了DeepFM的FM部分來學習組合特徵資訊，而FiBiNET則是應用SENET加入了特徵權重比NFM，AFM更進了一步。在看兩個model前建議對DeepFM, Deep&Cross, AFM，NFM都有簡單瞭解，不熟悉的可以看下文章最後其他model的部落格連結。

5、AFM（Attention+FM）-----Attentional Factorization Machines:Learning the Weight of Feature Interactions via Attention Network

factor eat .com 問題架構機器 tran 權重 machine 1、摘要：提出一個Attentional FM，Attention模型+因子分解機，其通過Attention學習到特征交叉的權重。因為很顯然不是所有的二階特征交互的重要性都是一樣的，如何

Field-aware Factorization Machines for CTR Prediction簡介與程式碼實現

摘要

介紹

FFM

優化

缺陷

Impact of Parameter

Early Stopping

程式碼

相關推薦