1. 程式人生 > >Data Mining 入門

Data Mining 入門

一、association 關聯規則挖掘

    一個事件與另一個事件之間的一來關係。

    關聯規則演算法:Apriori 演算法:首先從事件中尋找所有頻繁出現的事件子集,然後再這些頻繁事件子集中發現可信度比較搞的規則。

二、聚類:聚類就是將資料物件劃分成若干個子類,在同一類中的物件具有較高的相似度,而不同類中的物件差異較大。

    聚類演算法:劃分方法、層次聚類方法

    k-Means:把n個數據物件劃分成k 個類,使每個類中的資料點到該類中心的距離平方和最小

    k-Medoids:

     和 聚集、分裂演算法

    層次方法:(Hierarchical Method ) 這種方法按照資料分層簡歷簇,形成一顆以簇為節點的樹。如果自底向上進行層次聚集,則稱為凝聚(Aggalomerative)的 層次聚類; 如果按照自定向下進行層次分解,成為裂法(Divisive)的層次聚類。

    視覺聚類演算法:

    聚類的基本原則:相似率、連續率、閉合率、近鄰率和對稱率。

三、預測

    資料探勘預測是通過對反映了事物輸入與輸出之間的關聯性的學習,得到預測模型,在利用該模型對未來資料進行預測的過程。

    典型的機器學習:決策樹方法,人工神經網路、支援向量機、正則化方法。

    決策樹:ID3 、 C4.5 用資訊增益比率作為選擇標準;合併連續屬性的值;可以處理具有缺少屬性值的訓練樣本;運用不同的剪枝技術來避免決策樹的過擬合現象;K次交叉驗證等。

    剪枝:預剪枝 :簡歷規則限制決策樹的充分生長。 後剪枝:等決策樹生長完畢後剪去不具有一般性的葉子或者分支。

    人工神經網路:

    支援向量機(Support Vector Machines): 

    正則化方法::Lasso 模型 、 L1/2正則化模型及其迭代閾值演算法。

四、序列和時間序列



資料探勘工具軟體的效能測試報告:http://www.datamininglab.com