【推薦演算法】因子分解機（Factorization Machines，FM）

阿新 • • 發佈：2021-06-30

因子分解機（Factorization Machines，FM）主要解決了LR的以下幾個痛點：

實現自動特徵交叉。LR只能只能手工設計特徵之間的交叉，依賴大量人力與業務知識，並且無法挖掘業務構建特徵的盲點；
在稀疏特徵上的效果更好。對LR進行暴力二階特徵交叉也能實現特徵自動交叉的效果（如POLY_v2），但是這樣的模型只能更新這個樣本對應的特徵pair。例如，某一個樣本擁有特徵A與B，該樣本只能更新A-B這個pair的權重，這個樣本對特徵A-C是沒有任何作用的。而FM對每一個特徵建立了一個隱向量（可以看做embedding），交叉特徵的權重等於兩個隱向量的內積。這樣，樣本對A-B可以同時更新特徵A與特徵B的隱向量，緩解了特徵稀疏的問題。

演算法

FM使用矩陣分解的方法，為每個特徵學習了一個隱權重向量。特徵交叉時，將兩個特徵對應的隱向量相乘，得到該交叉特徵的權重。與LR相比，多了個二階項。

\[\text{FM}(\mathbf{w, x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle x_{i} x_{j} \]

二次項可以化簡，訓練和推理的時間複雜度可以從\(O(kn^2)\)降到\(O(kn)\)，\(n\)為向量維度：

\[\begin{aligned} & \sum_{i=1}^{n} \sum_{j=i+1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle x_{i} x_{j} \\ =& \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle x_{i} x_{j}-\frac{1}{2} \sum_{i=1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{i}\right\rangle x_{i} x_{i} \\ =& \frac{1}{2}\left(\sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{f=1}^{k} v_{i, f} v_{j, f} x_{i} x_{j}-\sum_{i=1}^{n} \sum_{f=1}^{k} v_{i, f} v_{i, f} x_{i} x_{i}\right) \\ =& \frac{1}{2} \sum_{f=1}^{k}\left(\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right)\left(\sum_{j=1}^{n} v_{j, f} x_{j}\right)-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right) \\ =& \frac{1}{2} \sum_{f=1}^{k}\left(\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right)^{2}-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right) \end{aligned} \]

模型輸入

FM的一階部分可以直接複用LR，只需要額外實現特徵的二階交叉。首先，我們需要表示每個特徵的embedding向量：

class FeaturesEmbedding(torch.nn.Module):
    def __init__(self, field_dims, embed_dim):
        super().__init__()
        self.embedding = torch.nn.Embedding(sum(field_dims), embed_dim)
        self.offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
        torch.nn.init.xavier_uniform_(self.embedding.weight.data)

    def forward(self, x):
        """
        :param x: Long tensor of size ``(batch_size, num_fields)``
        """
        x = x + x.new_tensor(self.offsets).unsqueeze(0)
        return self.embedding(x)

根據上一節化簡後的公式，我們可以通過下面的程式碼計算二階交叉特徵：

class FactorizationMachine(torch.nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, x):
        """
        :param x: Float tensor of size ``(batch_size, num_fields, embed_dim)``
        """
        square_of_sum = torch.sum(x, dim=1) ** 2
        sum_of_square = torch.sum(x ** 2, dim=1)
        ix = square_of_sum - sum_of_square
        ix = torch.sum(ix, dim=1, keepdim=True)
        return 0.5 * ix

最後，構建完整的FM前向傳播鏈路：

class FactorizationMachineModel(torch.nn.Module):
    def __init__(self, field_dims, embed_dim=10):
        super().__init__()
        self.embedding = FeaturesEmbedding(field_dims, embed_dim)
        self.linear = FeaturesLinear(field_dims)
        self.fm = FactorizationMachine(reduce_sum=True)

    def forward(self, x):
        x = self.linear(x) + self.fm(self.embedding(x))
        return torch.sigmoid(x.squeeze(1))

模型效果

設定：
資料集：ml-100k
優化方法：Adam
學習率：0.003

效果：
收斂epoch：10
train logloss: 0.51644
val auc: 0.77954
test auc: 0.78550

【推薦演算法】因子分解機（Factorization Machines，FM）

演算法

模型輸入

模型效果

【推薦演算法】因子分解機（Factorization Machines，FM）

【推薦演算法】邏輯迴歸（Logistic Regression，LR）

【推薦演算法】基於使用者協同過濾演算法

【推薦演算法】Wide & Deep

【推薦演算法】DeepFM

【多重揹包】B001_AW_劃分大理石（二進位制優化 / 貪心+dp）

【圖論】B001_AW_團伙頭目（dfs+字串整形對映）

【矩陣乘法】生成樹計數（luogu 2109/NOI 2007）

【K8s網路】部署Flannel網路（不支援網路策略）

【題解】CF1054D Changing Array（異或，貪心）

【滾動更新】C++ 八股文選集（沒程式碼，純應試）

LS演算法最小二乘法（ＬｅａｓｔＳｑｕａｒｅｓ，ＬＳ）對線性時不變系統響應的估計應用

1722整數因子分解問題（分治演算法）

【優化演算法】蝴蝶優化演算法（MBO）【含Matlab原始碼 952期】

【優化演算法】蝗蟲優化演算法（GOA）【含Matlab原始碼 936期】

【優化演算法】多目標蝗蟲優化演算法（MOGOA）【含Matlab原始碼 937期】

【優化演算法】頭腦風暴優化演算法（BSO）【含Matlab原始碼 497期】

【優化演算法】黑洞模擬演算法（MVO）【含Matlab原始碼 479期】

【優化演算法】螢火蟲優化演算法（FA）【含Matlab原始碼 482期】

【優化演算法】海洋捕食者演算法（MPA）【含Matlab原始碼 478期】

【推薦演算法】因子分解機（Factorization Machines，FM）

演算法

模型輸入

模型效果

相關推薦