FFM原理及公式推導
上一篇講了FM(Factorization Machines),今天說一說FFM(Field-aware Factorization Machines )。
回顧一下FM:
\begin{equation}\hat{y}=w_0+\sum_{i=1}^n{w_ix_i}+\sum_{i=1}^n{\sum_{j=i+1}^n{v_i\cdot v_jx_ix_j}}\label{fm}\end{equation}
$\cdot$表示向量的內積。樣本$x$是$n$維向量,$x_i$是第$i$個維度上的值。$v_i$是$x_i$對應的長度為$K$的隱向量,$V$是模型引數,所以所有樣本都使用同一個$V$,即$x_{1,1}$與$x_{2,1}$都使用$v_1$。
在FFM(Field-aware Factorization Machines )中每一維特徵(feature)都歸屬於一個特定和field,field和feature是一對多的關係。比如
field | field1年齡 | field2城市 | field3性別 | |||
feature | x1年齡 | x2北京 | x3上海 | x4深圳 | x5男 | x6女 |
使用者1 | 23 | 1 | 0 | 0 | 1 | 0 |
使用者2 | 31 | 0 | 0 | 1 | 0 | 1 |
1. 對於連續特徵,一個特徵就對應一個Field。或者對連續特徵離散化,一個分箱成為一個特徵。比如
field | field1年齡 | |||
feature | 小於20 | 20-30 | 30-40 | 大於40 |
使用者1 | 0 | 23 | 0 | 0 |
使用者2 | 0 | 0 | 31 | 0 |
2. 對於離散特徵,採用one-hot編碼,同一種屬性的歸到一個Field
不論是連續特徵還是離散特徵,它們都有一個共同點:同一個field下只有一個feature的值不是0,其他feature的值都是0。
FFM模型認為$v_i$不僅跟$x_i$有關係,還跟與$x_i$相乘的$x_j$所屬的Field有關係,即$v_i$成了一個二維向量$v_{F\times K}$,$F$是Field的總個數。FFM只保留了(\ref{fm})中的二次項.
\begin{equation}\hat{y}=\sum_{i=1}^n{\sum_{j=i+1}^n{v_{i,fj}\cdot v_{j,fi}x_ix_j}}\label{ffm}\end{equation}
以上文的表格資料為例,計算使用者1的$\hat{y}$
$$\hat{y}=v_{1,f2}\cdot v_{2,f1}x_1x_2+v_{1,f3}\cdot v_{3,f1}x_1x_3+v_{1,f4}\cdot v_{4,f1}x_1x_4+\cdots$$
由於$x_2,x_3,x_4$屬於同一個Field,所以$f2,f3,f4$可以用同一個變數來代替,比如就用$f2$。
$$\hat{y}=v_{1,f2}\cdot v_{2,f1}x_1x_2+v_{1,f2}\cdot v_{3,f1}x_1x_3+v_{1,f2}\cdot v_{4,f1}x_1x_4+\cdots$$
我們來算一下$\hat{y}$對$v_{1,f2}$的偏導。
$$\frac{\partial{\hat{y}}}{\partial{v_{1,f2}}}=v_{2,f1}x_1x_2+v_{3,f1}x_1x_3+v_{4,f1}x_1x_4$$
等式兩邊都是長度為$K$的向量。
注意$x_2,x_3,x_4$是同一個屬性的one-hot表示,即$x_2,x_3,x_4$中只有一個為1,其他都為0。在本例中$x_3=x_4=0, x_2=1$,所以
$$\frac{\partial{\hat{y}}}{\partial{v_{1,f2}}}=v_{2,f1}x_1x_2$$
推廣到一般情況:
\begin{equation}\frac{\partial{\hat{y}}}{\partial{v_{i,fj}}}=v_{j,fi}x_ix_j\label{par}\end{equation}
$x_j$屬於Field $fj$,且同一個Field裡面的其他$x_m$都等於0。實際專案中$x$是非常高維的稀疏向量,求導時只關注那些非0項即可。
你一定有個疑問:$v$是模型引數,為了求$v$我們採用梯度下降法時需要計算損失函式對$v$的導數,為什麼這裡要計算$\hat{y}$對$v$的導數?看看分割線下方的內容你就明白了。
在實際預測點選率的專案中我們是不會直接使用公式(\ref{ffm})的,通常會再套一層sigmoid函式。公式(\ref{ffm})中的$\hat{y}$我們用$z$來取代。
$$z=\phi(v,x)=\sum_{i=1}^n{\sum_{j=i+1}^n{v_{i,fj}\cdot v_{j,fi}x_ix_j}}$$
由公式(\ref{par})得
$$\frac{\partial{z}}{\partial{v_{i,fj}}}=v_{j,fi}x_ix_j$$
用$a$表示對點選率的預測值
$$a=\sigma(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\phi(v,x)}}$$
令$y=0$表示負樣本,$y=1$表示正樣本,$C$表示交叉熵損失函式。根據《神經網路調優》中的公式(1)(2)可得
$$\frac{\partial C}{\partial z}=a-y=\left\{\begin{matrix}-\frac{1}{1+e^z} & if\ y是正樣本 \\ \frac{1}{1+e^{-z}} & if\ y是負樣本\end{matrix}\right . $$
$$\frac{\partial C}{\partial{v_{i,fj}}}=\frac{\partial C}{\partial z}\frac{\partial{z}}{\partial{v_{i,fj}}}$$
$$\kappa=\frac{\partial C}{\partial z}=\frac{-y}{1+e^{yz}}$$