《Python資料分析與挖掘實戰》筆記(五):資料建模
阿新 • • 發佈:2019-01-24
分類與預測
主要分類與預測演算法
迴歸分析 確定預測值與其他變數關係。線性、非線性、Logistic、嶺迴歸、主成分迴歸等
決策樹 自頂向下分類
人工神經網路 用神經網路表示輸入與輸出之間的關係
貝葉斯網路 又稱信度網路,是不確定知識表達和推理領域最有效的理論模型之一
支援向量機 將低維非線性可分轉化為高維線性可分進行分析
主要回歸模型分類
線性迴歸 因/自變數是線性關係 對一個或多個自/因變數線性建模,用最小二乘法求係數
非線性迴歸 因/自變數是非線性 非線性建模
Logistic迴歸 因變數為0或1 廣義線性迴歸特例,利用Logistic函式將因變數控制0-1內表示取值為1的概率
嶺迴歸 參與建模的自變數間具有多重共線性 改進的最小二乘法
主成分迴歸 同上 根據PCA提出,是引數估計的一種有偏估計
邏輯迴歸——Scikit-Learn
決策樹——sklearn.tree;輸出一個tree.dot檔案,許安裝Graphviz進行視覺化
人工神經網路——keras
BP神經網路 資訊正傳播,誤差逆傳播
LM神經網路 給予梯度下降法和牛頓法的多層前饋神經網路,迭代次數少,收斂塊,精度高
RBF徑向基神經網路 能以任意精度逼近任意連續函式,輸入層-隱含層是非線性,隱含層-輸出成是線性,特別適合解決分類問題
FNN模糊神經網路 具有模糊權係數或輸入訊號是模糊兩的神經網路,匯聚NN和模糊系統的有點
GMDH神經網路 也稱多項式網路,網路結構在訓練中變化
ANFIS自適應神經網路 NN鑲嵌在一個全模糊的結構中,自動產生、修正、高度概括出最佳隸屬函式和模糊規則
SVM——sklearn.svm
隨機森林——sklearn.ensemble
樸素貝葉斯——sklearn.naive_bayes
建模的第一步都是建立一個空白的物件,然後設定模型引數,利用fit進行巡林啊,最後用predict方法預測結果,之後進行一些評估如score等
誤差評價:絕對誤差、相對誤差、平均絕對誤差、均方誤差、均方根誤差、平均絕對百分誤差、Kappa統計、識別準確度、識別精確率、反饋率、ROC曲線、混淆矩陣
聚類分析
常用方法:劃分方法、層次分析方法、基於密度的方法、基於網格的方法、給予模型的方法
常用演算法:K-Means、K-中心點、系統聚類(多層次聚類)
評價方法:purity評價法(正確的比例)、RI評價法、F值評價法
聚類視覺化工具——TSNE
關聯規則:也稱為購物籃分析,目標是找出各項之間的關係
常用演算法:Apriori、FP-Tree、Eclat演算法、灰色關聯法
時序模式:給定一個已被觀測的時間序列,預測該序列的未來值
常用模型:平滑法、趨勢你合法、組合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生
python主要時序演算法函式:acf自相關,plot_acf畫自相關係數圖、pacf計算偏相關係數、plot_pacf畫偏相關係數圖、adfuller對觀測值序列進行單位根檢驗、diff差分計算、ARIMA建立ARIMA時序模型、summary或summaty2給出ARIMA模型報告、aic/bic/hqic計算ARIMA模型的指標值、forecast預測、acorr_ljungbox檢驗白噪聲
離群點檢測
成因:資料來源不同、自然變異、測量和收集誤差
型別:全域性離群點和區域性離群點;數值型離群點和分型別離群點;一維離群點和多維離群點
檢測方法:基於統計、基於鄰近度、基於密度、基於聚類