數據挖掘隨筆1
----------------------------------------------------------------------------
概覽:
為什麽需要數據挖掘:
Data Rich Information Poor
數據挖掘的一些資料:
搜索文章最好用google
WEKA是新西蘭研發的一款開源的免費的數據挖掘的軟件,用戶友好,可視化
UCI有數據挖掘需要的一些數據集
MATLAB各種各樣軟件包
KDnuggets大型的數據挖掘的網站,一些information
---------------------------------------------------------------------------------
幾個定義:
Data(Logical,Physical)
Big data(數據多,產生快,方方面面,數據類型越來越多)(大到傳統意義的方法無法存儲)
大數據及數據分析數據挖掘這些的應用:
Public Security(通過可視化直觀看到規律,比如通過預測劫匪會搶劫的位置,在劫匪搶劫之前將其制止,降低犯罪率)
Health Care Application(Personalized Madicine通過對DNA的分析,將換同樣疾病的人使用不同的藥物醫治)
Location Data:Urban Planning(城市規劃),Mobile User(家長知道孩子在哪裏),Shopper(通過購物車RIFD射頻標簽獲得購物者的軌跡,停留時間)
Retail Data:Targeted Marketing目標客戶(分析喜好),Sentiment Analysis(情感分析,買完了以後的感受,識別出評價的一段話的開心或者不開心)
Social Network
Sports(Moneyball okaland點球成金)
Attractiveness Mining(怎麽樣的是女神,最有吸引力,把所有的信息都收集起來)
-----------------------------------------------------------------------------------------------------------------------------
分類問題Classification(打標簽)(我之前通過訓練告訴是貓是狗,訓練出一個模型,後來給它餵一張圖,它就知道是貓是狗):
Algorithm:
Decision Tree 決策樹
K-Nearest Neighbours KNN
Neural Netwoks 神經網絡
Support Vector Machines 支持向量機
分界面:
防止Overfitting,過擬合
Cross Validation(數據分為訓練和測試兩部分)
Confusion Matrix(混淆矩陣)
TP FP
FN TN
Receiver Operating Characteristic(ROC)
AUC越接近於1越好
Cost Sensitive Learning(帶著權重來考慮,錯誤的代價不同)
Lift Analysis提升度(把最有可能購買的客戶分析出來,進行打電話詢問,會比隨機的效果好很多)
聚類和其他數據挖掘問題
Clustering(是沒有標簽的!沒有事先的人為的標簽)
不是我告訴它要聚成怎麽樣的,而是在這一個group裏之間的距離比較接近自動聚為一組,不同group之間的差異是比較大的
Distance Merics:
Euclidean Distance歐式距離
Manhattan Diatance
Manalanobis Distance
Algorithms聚類算法:
K-Means
Saquential Leader
Affinity Propagation
Applications:
Market Research
Image Segmentation
Social Network Analysis
_
層次型聚類
Association Rule(關聯規則,買了一個就可能買另一個)
Regression(線性回歸,最終可以是曲線,也要防止Overfitting過擬合)
Seeing is Knowing(可以做一個可視化)
Performance Dashboard(將數據用一些圖表,柱狀圖這些可以清晰的展示出來)
有一些可視化軟件是非常有價值的,會看起來高大上一些(就不用自己來寫軟件了)
數據預處理(real data are ofen dirty)
數據挖掘隨筆1