1. 程式人生 > >數據挖掘隨筆1

數據挖掘隨筆1

好用 mea rfi 界面 targe analysis ttr ann physical

----------------------------------------------------------------------------

概覽:

為什麽需要數據挖掘:

  Data Rich Information Poor

數據挖掘的一些資料:

  搜索文章最好用google

  WEKA是新西蘭研發的一款開源的免費的數據挖掘的軟件,用戶友好,可視化

  UCI有數據挖掘需要的一些數據集

  MATLAB各種各樣軟件包

  KDnuggets大型的數據挖掘的網站,一些information

---------------------------------------------------------------------------------

幾個定義:

Data(Logical,Physical)

Big data(數據多,產生快,方方面面,數據類型越來越多)(大到傳統意義的方法無法存儲)

大數據及數據分析數據挖掘這些的應用:

Public Security(通過可視化直觀看到規律,比如通過預測劫匪會搶劫的位置,在劫匪搶劫之前將其制止,降低犯罪率)

Health Care Application(Personalized Madicine通過對DNA的分析,將換同樣疾病的人使用不同的藥物醫治)

Location Data:Urban Planning(城市規劃),Mobile User(家長知道孩子在哪裏),Shopper(通過購物車RIFD射頻標簽獲得購物者的軌跡,停留時間)

Retail Data:Targeted Marketing目標客戶(分析喜好),Sentiment Analysis(情感分析,買完了以後的感受,識別出評價的一段話的開心或者不開心)

Social Network

Sports(Moneyball okaland點球成金)

Attractiveness Mining(怎麽樣的是女神,最有吸引力,把所有的信息都收集起來)

-----------------------------------------------------------------------------------------------------------------------------

分類問題Classification(打標簽)(我之前通過訓練告訴是貓是狗,訓練出一個模型,後來給它餵一張圖,它就知道是貓是狗):

Algorithm:

Decision Tree 決策樹

K-Nearest Neighbours KNN

Neural Netwoks 神經網絡

Support Vector Machines 支持向量機

分界面:

防止Overfitting,過擬合

Cross Validation(數據分為訓練和測試兩部分)

Confusion Matrix(混淆矩陣)

TP FP

FN TN

Receiver Operating Characteristic(ROC)

AUC越接近於1越好

Cost Sensitive Learning(帶著權重來考慮,錯誤的代價不同)

Lift Analysis提升度(把最有可能購買的客戶分析出來,進行打電話詢問,會比隨機的效果好很多)

聚類和其他數據挖掘問題

Clustering(是沒有標簽的!沒有事先的人為的標簽)

不是我告訴它要聚成怎麽樣的,而是在這一個group裏之間的距離比較接近自動聚為一組,不同group之間的差異是比較大的

Distance Merics:

Euclidean Distance歐式距離

Manhattan Diatance

Manalanobis Distance

Algorithms聚類算法:

K-Means

Saquential Leader

Affinity Propagation

Applications:

Market Research

Image Segmentation

Social Network Analysis

_

層次型聚類

Association Rule(關聯規則,買了一個就可能買另一個)

Regression(線性回歸,最終可以是曲線,也要防止Overfitting過擬合)

Seeing is Knowing(可以做一個可視化)

Performance Dashboard(將數據用一些圖表,柱狀圖這些可以清晰的展示出來)

有一些可視化軟件是非常有價值的,會看起來高大上一些(就不用自己來寫軟件了)

數據預處理(real data are ofen dirty)

數據挖掘隨筆1