Data Mining 入門
一、association 關聯規則挖掘
一個事件與另一個事件之間的一來關係。
關聯規則演算法:Apriori 演算法:首先從事件中尋找所有頻繁出現的事件子集,然後再這些頻繁事件子集中發現可信度比較搞的規則。
二、聚類:聚類就是將資料物件劃分成若干個子類,在同一類中的物件具有較高的相似度,而不同類中的物件差異較大。
聚類演算法:劃分方法、層次聚類方法
k-Means:把n個數據物件劃分成k 個類,使每個類中的資料點到該類中心的距離平方和最小
k-Medoids:
和 聚集、分裂演算法
層次方法:(Hierarchical Method ) 這種方法按照資料分層簡歷簇,形成一顆以簇為節點的樹。如果自底向上進行層次聚集,則稱為凝聚(Aggalomerative)的 層次聚類; 如果按照自定向下進行層次分解,成為裂法(Divisive)的層次聚類。
視覺聚類演算法:
聚類的基本原則:相似率、連續率、閉合率、近鄰率和對稱率。
三、預測
資料探勘預測是通過對反映了事物輸入與輸出之間的關聯性的學習,得到預測模型,在利用該模型對未來資料進行預測的過程。
典型的機器學習:決策樹方法,人工神經網路、支援向量機、正則化方法。
決策樹:ID3 、 C4.5 用資訊增益比率作為選擇標準;合併連續屬性的值;可以處理具有缺少屬性值的訓練樣本;運用不同的剪枝技術來避免決策樹的過擬合現象;K次交叉驗證等。
剪枝:預剪枝 :簡歷規則限制決策樹的充分生長。 後剪枝:等決策樹生長完畢後剪去不具有一般性的葉子或者分支。
人工神經網路:
支援向量機(Support Vector Machines):
正則化方法::Lasso 模型 、 L1/2正則化模型及其迭代閾值演算法。
四、序列和時間序列
資料探勘工具軟體的效能測試報告:http://www.datamininglab.com