《資料分析實戰》--用R做聚類分析《資料分析實戰》–用R做聚類分析

阿新 • • 發佈：2021-06-29

《資料分析實戰》–用R做聚類分析

背景： 針對某公司的產品，現目前需要服務好已有的使用者，針對不同的使用者群體設計並推廣不同的營銷策略。

現狀： 目標使用者不明確。

預期： 明確目標使用者群。

讀取資料

讀取Dau資料：

    > dau <- read.csv('dau.csv',header = T,stringsAsFactors = F)
    > head(dau)
        log_date app_name user_id
    1 2013-05-01  game-01  608801
    2 2013-05-01  game-01  712453
    3 2013-05-01  game-01  776853
    4 2013-05-01  game-01  823486
    5 2013-05-01  game-01  113600
    6 2013-05-01  game-01  452478
[/code]

讀取Dpu資料：

```code
    > dpu <- read.csv('dpu.csv',header = T,stringsAsFactors = F)
    > head(dpu)
        log_date app_name user_id payment
    1 2013-05-01  game-01  804005     571
    2 2013-05-01  game-01  793537      81
    3 2013-05-01  game-01  317717      81
    4 2013-05-01  game-01  317717      81
    5 2013-05-01  game-01  426525     324
    6 2013-05-01  game-01  540544     243
[/code]

讀取使用者行為資料：

```code
    > user.action <- read.csv('action.csv',header = T,stringsAsFactors = F)
    > head(user.action)
        log_date app_name user_id A1 A2 A3 A4 A5 A6  A7    A8  A9 A10 A11 A12 ... A54
    1 2013-10-31  game-01  654133  0  0  0  0  0  0   0  0.00   0   0   0   0 ...  46
    2 2013-10-31  game-01  425530  0  0  0  0 10  1 233 58.25 288 230  19   2 ...  71
    3 2013-10-31  game-01  709596  0  0  0  0  0  0   0  0.00   0   0   0   0 ...   2
    4 2013-10-31  game-01  525047  0  2  0  0  9  0   0  0.00 177 160   0   0 ... 109
    5 2013-10-31  game-01  796908  0  0  0  0  0  0   0  0.00   5  30   0   0 ...  64
    6 2013-10-31  game-01  776120  0  0  0  0  9  0   0  0.00 325 195  38   8 ... 312
[/code]

其中列A1 ~ A54 表示各種行為的編碼，這些行為的編碼和行為日誌名稱是通過另外一份資料表來管理的。

* * *

##  資料處理

1.將Dau和Dpu合併：

```code
    # 合併消費額資料
    > dau2 <- merge(dau, dpu[, c("log_date", "user_id", "payment"), ],
                    by = c("log_date", "user_id"), all.x = T)
    # 新增消費額標誌位
    > dau2$is.payment <- ifelse(is.na(dau2$payment), 0, 1)
    
    # 將無消費記錄的消費額設為0
    > dau2$payment <- ifelse(is.na(dau2$payment), 0, dau2$payment)
    > head(dau2)
        log_date user_id app_name payment is.payment
    1 2013-05-01    1141  game-01       0          0
    2 2013-05-01    1689  game-01       0          0
    3 2013-05-01    2218  game-01       0          0
    4 2013-05-01    3814  game-01       0          0
    5 2013-05-01    3816  game-01       0          0
    6 2013-05-01    4602  game-01       0          0
[/code]

2.按月統計：

```code
    # 增加一列表示月份
    > dau2$log_month <- substr(dau2$log_date,1,7)
    # 按月統計
    > mau <- ddply(dau2,
    +              .(log_month,user_id),
    +              summarize,
    +              payment = sum(payment),
    +              access_days=length(log_date))
    > head(mau)
      log_month user_id payment access_days
    1   2013-05      65       0           1
    2   2013-05     115       0           1
    3   2013-05     194       0           1
    4   2013-05     426       0           4
    5   2013-05     539       0           1
    6   2013-05     654       0           1
[/code]

* * *

##  資料分析

現狀我們通過聚類來對資料進行分析：

1.確定類的個數：  
可以使用k-means 方法，將排行榜得分作為變數，把使用者分為3 個類。  
k-means 方法可以通過kmeans 函式來執行，但該方法的缺點是結果不穩定。ykmeans 程式包中的ykmeans 函式，在內部將kmeans
函式執行了100 次，因此能夠獲得穩定的結果。

```code
    > library(ykmeans)
    > library(ggplot2)
    > library(scales)
    # A47為排行榜得分
    > user.action2 <- ykmeans(user.action,"A47", "A47", 3)
    # 每個類的人數
    > table(user.action2$cluster)
    
       1    2    3 
    2096  479   78 
[/code]

對確定好的類進行畫圖：

```code
    # 排行榜得分的分佈
    > ggplot(arrange(user.action2,desc(A47)),
    +        aes(x=1:length(user_id),y=A47,
    +            col=as.factor(cluster),
    +            shape=as.factor(cluster)))+
    +   geom_line()+
    +   xlab("user")+
    +   ylab("Ranking point")+
    +   scale_y_continuous(labels = comma)+
    +   ggtitle("Ranking point")+
    +   theme(legend.position = "none")
[/code]

![這裡寫圖片描述](https://img-
blog.csdn.net/20180604160236934?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NvY2FpbmVfYmFp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

2.限定排名考前的使用者：

```code
    > user.action.h <- user.action2[user.action2$cluster >= 2,names(user.action)]
[/code]

3.進行主成分分析：  
行為日誌裡儲存著使用者所有行為的記錄，可能存在各個行為之間相互影響的情況。另外，由於使用者有的行為並沒有發生，因此值為0
的行為記錄有很多。所以我們實際上拿到的資料並不會像教科書中的資料那樣工整。在這種情況下，很有可能無法執行k-means 方法，因此我們要將數值大都為0
的變數和相關性較高的變數刪除掉，然後利用主成分分析進行正交變換。

```code
    # 用於機器學習的庫
    # 利用庫中包含的函式進行資料的前期處理
    > library(caret)
    > user.action.f <- user.action.h[, -c(1:4)]
    > row.names(user.action.f) <- user.action.h$user_id
    > head(user.action.f)
    # 刪除那些資訊量小的變數
    > nzv <- nearZeroVar(user.action.f)
    > user.action.f.filterd <- user.action.f[,-nzv]
    # 刪除那些相關性高的變數
    > user.action.cor <- cor(user.action.f.filterd)
    > highly.cor.f <- findCorrelation(user.action.cor,cutoff=.7)
    > user.action.f.filterd <- user.action.f.filterd[,-highly.cor.f]
    # 進行主成分分析
    # pca
    > user.action.pca.base <- prcomp(user.action.f.filterd, scale = T)
[/code]

4.進行聚類：

```code
    > user.action.pca <- data.frame(user.action.pca.base$x)
    > keys <- names(user.action.pca)
    > user.action.km <- ykmeans(user.action.pca, keys, "PC1", 3:6)
    > table(user.action.km$cluster)
    
      1   2   3   4   5 
     23 228  88 164  54 
[/code]

結果如下圖：

```code
    > ggplot(user.action.km,
    +        aes(x=PC1,y=PC2,col=as.factor(cluster), shape=as.factor(cluster))) +
    +   geom_point()
[/code]

![這裡寫圖片描述](https://img-
blog.csdn.net/2018060417034743?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NvY2FpbmVfYmFp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

5.形成雷達圖：

```code
    df.filterd <- createRadarChartDataFrame(scale(df.filterd))
    names(df.filterd)
    
    radarchart(df.filterd, seg = 5, plty = 1:5, plwd = 4, pcol = rainbow(5))
    legend("topright", legend = 1:5, col = rainbow(5), lty = 1:5)
[/code]

![這裡寫圖片描述](https://img-
blog.csdn.net/20180604171147708?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0NvY2FpbmVfYmFp/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

具體結果如上圖，至此，資料分析結束~

* * *


![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20210608151750993.gif)

拓端tecdat：R語言RStan MCMC：NUTS取樣演算法用LASSO 構建貝葉斯線性迴歸模型分析職業聲望資料

原文連結：http://tecdat.cn/?p=24456 原文出處：拓端資料部落公眾號如果你正在進行統計分析：想要加一些先驗資訊，最終你想要的是預測。所以你決定使用貝葉斯。但是，你沒有共軛先驗。你可能會花費很長時間編寫 M

用R語言對城管事件資料分析

作者：夏爾康 https://ask.hellobi.com/blog/xiaerkang/3975 這次使用主成分分析主要目的並不是降維，而是分析城管資料中的事件類別之間是否存在關係，當然，城管事件型別有好幾百，這裡就只選取從去年九月到目前發生

用Python 爬取貓眼電影資料分析《無名之輩》

前言作者：羅昭成 PS：如有需要Python學習資料的小夥伴可以加點選下方連結自行獲取

YOLOv3中K-Means聚類出新資料集的Anchor尺寸

參考部落格：聚類kmeans演算法在yolov3中的應用 https://www.cnblogs.com/sdu20112013/p/10937717.html

r語言提取cvs資料_乾貨|R語言生物資訊大資料分析基礎入門

技術標籤：r語言提取cvs資料 R是一個自由、免費、開放的軟體。具有強大的資料處理能力，越來越多的科研工作者也開始使用R語言處理科研資料，發表論文、文章。

YOLOV5——使用 k-means 聚類 anchorbox 資料

訓練的標註資料格式如下： [ { \"name\": \"235_2_t20201127123021723_CAM2.jpg\", \"image_height\": 6000,

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

主管發話：一週搞不定用友U8 ERP跨業務資料分析，明天就可以“畢業”了

隨著月末來臨，又到了彙報總結的時刻。（圖片來自網路）到了這個特殊時期，你的老闆就一定想要檢視企業整體的運轉情況、銷售業績、客戶實況分析、客戶活躍度、Top10 sales、產品情況、訂單處理情況等資訊。

用python爬取歷史天氣資料的方法示例

某天氣網站（www.數字.com）存有2011年至今的天氣資料，有天看到一本爬蟲教材提到了爬取這些資料的方法，學習之，並加以改進。

用python3讀取python2的pickle資料方式

問題一：TypeError: a bytes-like object is required,not \'str\' 解決：該問題屬於Python3和Python2的字串相容問題，資料檔案是在Python2下序列化的，使用Python3讀取時，需要將‘str\'轉化為\'bytes\'。

Python上下文管理器類和上下文管理器裝飾器contextmanager用法例項分析

本文例項講述了Python上下文管理器類和上下文管理器裝飾器contextmanager用法。分享給大家供大家參考，具體如下：

淺談用Go構建不可變的資料結構的方法

共享狀態是比較容易理解和使用的，但是可能產生隱晦以至於很難追蹤的 bugs。尤其是在我們的資料結構只有部分是通過引用傳遞的。切片就是這麼一個很好的例子。後續我會作出更加詳細的講解。

使用Django實現把兩個模型類的資料聚合在一起

Django中想要把模型類聚合得到想要的資料可以用F物件。比如有模型類A和B，A和B之間有外來鍵關聯在一起，A是子表，B是父表（反過來沒試過。。因為大部分資料都是用子表的，我想是可以的），那麼可以這樣查：

JAVA如何使用Math類操作資料

Math 類位於 java.lang 包中，包含用於執行基本數學運算的方法， Math 類的所有方法都是靜態方法，所以使用該類中的方法時，可以直接使用類名.方法名，如： Math.round();

Java—包裝類/System類/Math類/Arrays類/大資料運算/Collection介面/Iterator迭代器

基本型別包裝類　　8種基本型別對應的包裝類如: 　　將字串轉成基本型別：

基本型別包裝類,,,System類,,,Math類,,,Arrays類,,,大資料運算

基本資料型別物件包裝類：java將基本資料型別值封裝成了物件。 8種基本型別對應的包裝類：

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

用python給csv裡的資料排序的具體程式碼

1、使用argparse元件，獲取命令列引數；使用re元件，獲取需要查詢的字串所在行

資料庫（二）自動增長列，新增表資料，修改資料，刪除資料，where條件，%萬用字元，is，查詢資料(查詢全表，指定列查詢，排序查詢)，聚合查詢（平均、最大、最小、行數、求和）

通過選中表進行匯入、到處操作進行資料表備份自動增長列：資料表的主鍵應具備唯一性，每次寫入不同主鍵值會比較麻煩，使用自動增長列替換主鍵值是常用的方式

網路程式設計-Netty-writeAndFlush方法原理分析以及 close以後是否還能寫入資料？

前言在上一講網路程式設計-關閉連線（2）-Java的NIO在關閉socket時，究竟用了哪個系統呼叫函式？中，我們做了個實驗，研究了java nio的close函式究竟呼叫了哪個系統呼叫，答案是close，但在真實的測試程式碼中，其實

《資料分析實戰》--用R做聚類分析《資料分析實戰》–用R做聚類分析

《資料分析實戰》–用R做聚類分析

讀取資料

相關推薦