R語言中的資料探勘演算法

阿新 • • 發佈：2018-12-30

R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

——百度百科

由於R語言可以很好地進行統計計算等工作，提供了一系列對聚類、分類演算法實現的包，所以對於資料探勘等工作有很大的幫助。

一、基於密度的DBSCAN演算法

在進行呼叫DBSCAN演算法的介面之前，需要使用命令安裝依賴庫，命令如下：

install.packages("fpc", dependencies = TRUE)

在R語言的fpc包中提供了實現DBSCAN聚類演算法並進行視覺化的函式，如下：

    dbscan(data, eps, MinPts, scale, method, seeds, showplot, countmode)

data：進行聚類的資料（可以是原始資料矩陣，也可以是一個距離矩陣）；

eps：密度(掃描半徑)；

MinPts:最小包含點數；

scale：是否對data標準化（T/F）；

mehtod：三個可選引數如下，

raw：將data視為原始資料，並避免計算距離矩陣（儲存儲存器，也可以是慢）；

dist：將data視為距離矩陣（比較快，但記憶體價格昂貴）；

hybrid：計算部分距離矩陣（適度的記憶體需求，非常快）；

seeds:T/F；

showplot:是否畫聚類結果圖（三個可選引數：0，不畫：1，每次迭代畫；2，每次子迭代畫）；

countmode:NULL或者一個用於報告進度的向量。

樣例程式碼如下：

new1 <- c(0,5183.328938,11420.98223,21320.32421,16989.59236,14899.47468,18480.556186,10386.55199,9236.277226,10180.589785)
new2 <- c(5183.328938,0,12360.82514,22350.72344,16893.23695,20657.25945,11074.88822,11074.88822,9924.613457,9591.926128)
new3 <- c(11420.98223,12360.82514,0,2090.117679,21019.15289,21105.79131,12360.82514,12360.82514,12360.82514,11031.75103)
new4 <- c(21320.32421,22350.72344,2090.117679,0,21019.15289,21105.79131,12360.82514,12360.82514,13603.98286,12071.69154)
new5 <- c(16989.59236,16893.23695,21019.15289,21019.15289,0,5183.328938,17945.32085,15775.28119,20562.67213,20268.02825)
new6 <- c(14899.47468,20657.25945,21105.79131,21105.79131,5183.328938,0,21674.62059,21674.62059,16989.59236,16694.94848)
new7 <- c(18480.556186,11074.88822,12360.82514,12360.82514,17945.32085,21674.62059,0,5576.559036,11954.7204,13959.63176)
new8 <- c(10386.55199,11074.88822,12360.82514,12360.82514,15775.28119,21674.62059,5576.559036,0,11954.7204,13959.63176)
new9 <- c(9236.277226,9924.613457,12360.82514,13603.98286,20562.67213,16989.59236,11954.7204,11954.7204,0,6782.135558)
new10 <- c(10180.589785,9591.926128,11031.75103,12071.69154,20268.02825,16694.94848,13959.63176,13959.63176,6782.135558,0)
X <- rbind(new1,new2,new3,new4,new5,new6,new7,new8,new9,new10)
#X <- scale(X)  #標準化
X #距離矩陣
Y <- as.dist(X)
#Y
par(bg="white")
model <- dbscan(X,MinPts=2,eps=7000,scale=F,showplot=2,method="dist")
model 
plot(model,X,main="DBSCAN聚類結果",ylab="",xlab="")

二、層次聚類（hierarchicalclustering）

在R語言中提供了hcluster(data，method)函式進行層次聚類，具體引數不再詳細分析。

樣例程式碼如下：

new1 <- c(0,5183.328938,11420.98223,11420.98223,16989.59236,14899.47468,8480.556186,10386.55199,9236.277226,8180.589785)
new2 <- c(5183.328938,0,12360.82514,12360.82514,16893.23695,20657.25945,11074.88822,11074.88822,9924.613457,9591.926128)
new3 <- c(11420.98223,12360.82514,0,2090.117679,21019.15289,21105.79131,12360.82514,12360.82514,12360.82514,11031.75103)
new4 <- c(11420.98223,12360.82514,2090.117679,0,21019.15289,21105.79131,12360.82514,12360.82514,13603.98286,12071.69154)
new5 <- c(16989.59236,16893.23695,21019.15289,21019.15289,0,5183.328938,17945.32085,15775.28119,20562.67213,20268.02825)
new6 <- c(14899.47468,20657.25945,21105.79131,21105.79131,5183.328938,0,21674.62059,21674.62059,16989.59236,16694.94848)
new7 <- c(8480.556186,11074.88822,12360.82514,12360.82514,17945.32085,21674.62059,0,5576.559036,11954.7204,13959.63176)
new8 <- c(10386.55199,11074.88822,12360.82514,12360.82514,15775.28119,21674.62059,5576.559036,0,11954.7204,13959.63176)
new9 <- c(9236.277226,9924.613457,12360.82514,13603.98286,20562.67213,16989.59236,11954.7204,11954.7204,0,6782.135558)
new10 <- c(8180.589785,9591.926128,11031.75103,12071.69154,20268.02825,16694.94848,13959.63176,13959.63176,6782.135558,0)
X <- rbind(new1,new2,new3,new4,new5,new6,new7,new8,new9,new10)
Y <- as.dist(X)
Y
out.hclust <- hclust(Y,"single")   #最短距離法
cbind(hc1$merge,hc1$height)
rownames(S)=paste("new",1:10,"")
plclust(out.hclust,sub="",xlab="",ylab="",main="層次聚類結果圖")       #對結果畫圖  
#rect.hclust(out.hclust,k=5)                   #用矩形畫出分為5類的區域
out.id=cutree(out.hclust,k=5)                 #得到分為5類的數值
out.id

更多細節：

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/Hierarchical_Clustering

R語言與資料探勘學習筆記(1)：資料探勘相關包的介紹

今天發現一個很不錯的部落格(http://www.RDataMining.com)，博主致力於研究R語言在資料探勘方面的應用，正好近期很想系統的學習一下R語言和資料探勘的整個流程，看了這個部落格的內容，心裡久久不能平靜。決定從今天開始，只要晚上能在11點之前把碗洗好，就花一個小時的時間學習部落格上的內容，並把

R資料探勘技術-基於R語言的資料探勘和統計分析技術

培訓要點網際網路點選資料、感測資料、日誌檔案、具有豐富地理空間資訊的移動資料和涉及網路的各類評論，成為了海量資訊的多種形式。當資料以成百上千TB不斷增長的時候，我們在內部交易系統的歷史資訊之外，需要一種基於大資料分析的決策模型和技術支援。目前對大資料的分析工具，有Had

大資料環境下整合R語言的資料探勘平臺之介紹、資料上傳與資料預處理

這個整合R語言的資料探勘平臺是當時為中國軟體杯比賽做的一個系統，由於時間太緊，當時開發只用了一週的時間，不過前前後後用了大半年來學習和熟悉R語言，深深感覺到R語言真的是資料分析的一個利器，內建的各種分析包大大簡化了資料分析的過程，只需要傳參呼叫即可，再也不需要讀

R語言中的資料探勘演算法

R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。

資料探勘演算法與現實生活中的應用案例

如何分辨出垃圾郵件”、“如何判斷一筆交易是否屬於欺詐”、“如何判斷紅酒的品質和檔次”、“掃描王是如何做到文字識別的”、“如何判斷佚名的著作是否出自某位名家之手”、“如何判斷一個細胞是否屬於腫瘤細胞”等等，這些問題似乎都很專業，都不太好回答。但是，如果瞭解一點點資

資料探勘演算法跟資料結構中的演算法有區別嗎

學習資料探勘演算法也有一段時間了，某天小夥伴問我，你學的這個跟我們之前學校學的資料結構演算法有什麼區別嗎。我很快回答：當然有區別啊。其實過後細想，究竟有啥區別。就是因為這個問題，才有了今天這篇文章。那麼在我們開始前，可以先暫停閱讀一分鐘，回憶下已瞭解資料結構的演算法還有資料探勘演算法，思考下這兩種演算法有

資料探勘演算法之K_means演算法

轉載地址：https://blog.csdn.net/baimafujinji/article/details/50570824 聚類是將相似物件歸到同一個簇中的方法，這有點像全自動分類。簇內的物件越相似，聚類的效果越好。支援向量機、神經網路所討論的分類問題都是有監督的學習方式

資料探勘演算法有哪些

聚類：K均值（Kmeans）、最近鄰演算法（KNN）、期望最大值演算法（EM）、隱含狄利克雷分佈（LDA）分類：支援向量機（SVM）、邏輯迴歸（LR）、梯度下降樹（GBDT）、隨機森林（RF）、樸素貝葉斯（NB）、深層神經網路（DNN）、卷積神經網路（CNN

【十大經典資料探勘演算法】EM

1.極大似然極大似然（Maximum Likelihood）估計為用於已知模型的引數估計的統計學方法。比如，我們想了解拋硬幣是正面（head）的概率分佈；那麼可以通過最大似然估計方法求得。假如我們拋硬幣1010次，其中88次正面、22次反面；極大似然估計引

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

圖說十大資料探勘演算法(一)K最近鄰演算法

用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項（也就是上面所說的K個鄰居），這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如果你之前沒有學習過K最近鄰演算法，那今天幾張圖，讓你明白什麼是K最近鄰

專注於資料探勘演算法研究和應用

開宗明義，B樹是為磁碟或其他直接存取輔助裝置而設計的一種平衡查詢樹。一般設計的簡單資料結構都是面向主存而設計的，主存讀取速度快但容量小；而磁碟讀取速度慢而容量大，於是針對磁碟而設計的資料結構就不同於為主存而設計的。就樹結構上來說，紅黑樹的二叉性質和高深度適合主存，而B樹正是

常見資料探勘演算法和Python簡單實現

1、K近鄰演算法原理：計算待分類樣本與每個訓練樣本的距離，取距離最小的K個樣本，這k個樣本，哪個類別佔大多數，則該樣本屬於這個類別。優點：1、無需訓練和估計引數，2、適合多分類，3、適合樣本容量比較大的問題缺點：1、對測試樣本記憶體開銷大，2、可解釋性差，無法

資料探勘演算法之Apriori和FP-growth

1、基本概念支援度（support）：資料集中包含該項集的記錄所佔比例置信度或可信度（confidence）:主要是針對莫以具體的關聯規則進行定義的，如：{尿布}->{啤酒}的可信度可以被定義為：支援度{尿布、葡萄酒}/支援度{尿布} 2、Apr

18大經典資料探勘演算法小結

本文所有涉及到的資料探勘程式碼的都放在了我的github上了。大概花了將近2個月的時間，自己把18大資料探勘的經典演算法進行了學習並且進行了程式碼實現，涉及到了決策分類，聚類，連結挖掘，關聯挖掘，

十大經典資料探勘演算法：SVM

SVM（Support Vector Machines）是分類演算法中應用廣泛、效果不錯的一類。《統計學習方法》對SVM的數學原理做了詳細推導與論述，本文僅做整理。由簡至繁SVM可分類為三類：線性可分（linear SVM in linearly separable

資料探勘演算法之聚類分析（二）canopy演算法

canopy是聚類演算法的一種實現它是一種快速，簡單，但是不太準確的聚類演算法 canopy通過兩個人為確定的閾值t1，t2來對資料進行計算，可以達到將一堆混亂的資料分類成有一定規則的n個數據堆由於canopy演算法本身的目的只是將混亂的資料劃分成大概的幾個類別，所以它

資料探勘演算法之關聯規則挖掘（二）FPGrowth演算法

之前介紹的apriori演算法中因為存在許多的缺陷，例如進行大量的全表掃描和計算量巨大的自然連線，所以現在幾乎已經不再使用在mahout的演算法庫中使用的是PFP演算法，該演算法是FPGrowth演算法的分散式執行方式，其內部的演算法結構和FPGrowth演算法相差並不是

資料探勘演算法之-關聯規則挖掘(Association Rule)

在資料探勘的知識模式中，關聯規則模式是比較重要的一種。關聯規則的概念由Agrawal、Imielinski、Swami 提出，是資料中一種簡單但很實用的規則。關聯規則模式屬於描述型模式，發現關聯規則的演算法屬於無監督學習的方法。一、關聯規則的定義和屬性考察一

R語言中的資料探勘演算法

一、基於密度的DBSCAN演算法

二、層次聚類（hierarchicalclustering）

相關推薦