機器學習入門 05 RFM模型聚類分析客戶價值

阿新 • • 發佈：2022-04-11

資料在這裡RFM聚類分析_demo.xlsx
程式碼如下

'''
    RFM模型聚類分析客戶價值

    業務週期：1個月 s
    R = dt - 最近一次投資時間【時差】
    F = 投資總次數 / 使用者投資時長（月）   【每個月頻率】
    M = 投資總金額 / 使用者投資時長（月）
'''
from math import ceil

import pandas as pd

if __name__ == '__main__':
    df = pd.read_excel(r"D:\ \python-sk\0411study\RFM聚類分析_demo.xlsx",index_col="使用者編碼")

    pd.set_option("display.max_columns",None)

    # print(df)

    # 1.計算 R 【時差】
    from datetime import datetime
    dt = datetime(2021,7,20)
    df['R'] = df['最近一次投資時間'].map(lambda x:(dt-x).days)
    print(df.head())

    # 2.計算 F【月均投資次數】ceil上取整
    df['evert_mounth'] = df['R'].map(lambda x:ceil(x/30))
    print(df.head())

    # dataframe.apply(function,axis)對一行或一列做出一些操作（axis=1遍歷行，axis=0遍歷列）
    df['F'] = df.apply(lambda x:x['總計投標總次數']/x['evert_mounth'],axis=1)
    print(df.head())

    # 3.計算 M 【月均投資金額】
    df['M'] = df.apply(lambda x:x['總計投資總金額']/x['evert_mounth'],axis=1)
    print(df.head())

    # 拿到想要的欄位
    df_filiter = df.filter(items=['使用者編碼','R','F','M'])
    print(df_filiter.head())

    #4.k-means 聚類分析 =》 類別
        #資料標準化 ： (數值 - 數值的平均值) / 資料的標準差
    data = (df_filiter - df_filiter.mean()) / df_filiter.std()
    print(data.head())

    # 呼叫api
    from sklearn.cluster import KMeans
    # n_clusters 是 KMeans 中的 k，表示著我們告訴模型我們要分幾類

    # n_jobs設定工作的core數量 等於-1的時候，表示cpu裡的所有core進行工作
    # 用幾個核並行的意思，設定成 2 就是兩個核並行訓練，你可以看一下你的 CPU 佔用率

    # max_iter 最大迭代次數，預設值=300 如果資料集不是凸集，可能很難收斂
    # 此時可以通過指定最大的迭代次數讓演算法可以及時退出迴圈

    # random_state：整型或 numpy.RandomState 型別，可選
    kmodel = KMeans(n_clusters=4, n_jobs=4, max_iter=100, random_state=0)
    # fit 計算KMeans聚類
    kmodel.fit(data)

    # 獲取分類結果
    print(kmodel.labels_)

    data_res = pd.concat([df_filiter,pd.Series(kmodel.labels_,index=df_filiter.index)],axis=1)
    print(data_res.head())

    #修改 拼接後的列名
    data_res.columns = list(df_filiter.columns)+["類別"]
    print(data_res.head())


    #按照類別進行結果統計
    agg_res = data_res.groupby(by="類別").agg("mean")
    print(agg_res.head())

機器學習入門 05 RFM模型聚類分析客戶價值

資料在這裡RFM聚類分析_demo.xlsx 程式碼如下 \'\'\' RFM模型聚類分析客戶價值業務週期：1個月 s

SLS機器學習最佳實戰：日誌聚類+異常告警 —— 這個就是splunk SQL+機器學習結合產物啊

SLS機器學習最佳實戰：日誌聚類+異常告警悟冥2019-05-1411142瀏覽量簡介：圍繞日誌，挖掘其中更大價值，一直是我們團隊所關注。在原有日誌實時查詢基礎上，今年SLS在DevOps領域完善了如下功能： - 上下文查詢 - 實

scikit基礎與機器學習入門（8） sklearn主要解決的三類問題——分類，迴歸和聚類

其實這篇沒啥內容，就是在熟悉一下程式碼\\((*^_^*)\\) 分類模型的訓練——以決策樹為例

寫給程式設計師的機器學習入門 (七) - 雙向遞迴模型 (BRNN) - 根據上下文補全單詞

這一篇將會介紹什麼是雙向遞迴模型和如何使用雙向遞迴模型實現根據上下文補全句子中的單詞。

scilit基礎和機器學習入門（12）模型的優化

超引數的取值和搜尋超引數是不直接在估計器內學習的引數。在 scikit-learn 包中，它們作為估計器類中建構函式的引數進行傳遞。典型的例子有：用於支援向量分類器的 C 、kernel 和 gamma ，用於Lasso的 alpha等。

scikit基礎與機器學習入門（10）模型的評估

除了使用estimator的score函式簡單粗略地評估模型的質量之外，在sklearn.metrics模組針對不同的問題型別提供了各種評估指標並且可以建立使用者自定義的評估指標

機器學習入門：極度舒適的GBDT原理拆解

機器學習入門：極度舒適的GBDT拆解本文旨用小例子+視覺化的方式拆解GBDT原理中的每個步驟，使大家可以徹底理解GBDT

寫給程式設計師的機器學習入門 (八) - 卷積神經網路 (CNN) - 圖片分類和驗證碼識別

這一篇將會介紹卷積神經網路 (CNN)，CNN 模型非常適合用來進行圖片相關的學習，例如圖片分類和驗證碼識別，也可以配合其他模型實現 OCR。

資料分析之兩種使用者分群方法（RFM和聚類）

本文由於沒有現成的資料，就自己生成了一些商品訂單資料，基於該資料進行了RFM和聚類的構建

python機器學習 | 入門介紹

最近在接觸機器學習這一塊的內容，不知道能學到哪個程度。先簡單地介紹它到底是什麼？

物件識別 RCNN 與 Fast-RCNN，寫給程式設計師的機器學習入門

圖片分類與物件識別在前面的文章中我們看到了如何使用 CNN 模型識別圖片裡面的物體是什麼型別，或者識別圖片中固定的文字 (即驗證碼)，因為模型會把整個圖片當作輸入並輸出固定的結果，所以圖片中只能有一個主要的物

基於ray的分散式機器學習（二）——模型並行/parameter server

1、定義模型 class ConvNet(nn.Module): \"\"\"Small ConvNet for MNIST.\"\"\" def __init__(self): super(ConvNet, self).__init__()

機器學習入門--------matplotlib學習

學習目標目標瞭解什麼是matplotlib 為什麼要學習matplotlib matplotlib簡單圖形的繪製

機器學習入門：多變數線性迴歸

摘要：給大家簡單介紹了多變數線性迴歸，還附贈在處理梯度下降過程中通用的兩個小技巧。

scikit基礎與機器學習入門（1）背景介紹

scikit基礎與機器學習入門（1）第一章僅對概念進行大略地描述，具體演算法的具體原理後續再說

scikit基礎與機器學習入門（4） sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法型別獲取方式自帶的小資料集 sklearn.datasets.load_ 線上下載的資料集 sklearn.datasets.fetch_

scikit基礎與機器學習入門（3）機器學習任務的一般流程——以鳶尾花分類為例

機器學習任務的一般流程本文以鳶尾花資料集為例，對機器學習人物的一般步驟進行了梳理

scikit基礎與機器學習入門（5）歸一化，標準化和正則化，二值化

歸一化，標準化和正則化，二值化概念和含義資料歸一化：將資料集中某一列數值特徵的值縮放到0-1區間內

scikit基礎與機器學習入門（7）特徵的選擇

選擇特徵有以下兩方面依據：特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。

scikit基礎與機器學習入門（6）編碼，增加多項式特徵和缺失值處理

分類特徵編碼_獨熱編碼為了解決這個問題，我們可以使用一種叫做\"one-of-K\"或稱做\"one-hot\"（獨熱）的編碼方式。即兩