《python資料探勘》和《python資料探勘入門與實踐》兩本書讀後感
阿新 • • 發佈:2019-02-01
這些天花了很多時間來學習資料探勘這門課程,有很多心得和感悟,所以寫下這篇部落格來表達自己讀完這兩本書的感受!
首先推薦大家通過這兩本書來入門資料探勘這個領域,python資料探勘這本書較容易,還花了很大的篇幅來講python基礎,而python資料探勘入門與實踐則直接從例項講起,需要讀者有一定的python基礎。
資料探勘主要是通過python或者R語言來實現的,因為這兩門語言有它們獨特的優勢,比如包含大量的函數語言程式設計介面,高效的模組等等,這些都使它們非常適合用來進行資料探勘和資料分析。所以都要求程式設計者要有這方面的知識體系。但是,說到底語言只是一個工具,真正要在一門領域取得建樹,還是要靠程式設計者的思維能力和實踐能力,比如演算法水平和編碼或者debug(專案)能力。不過,對python這個強大工具有很深入的瞭解,會對資料探勘的學習有事半功倍的效果。
推薦使用anaconda作為python的編譯庫,裡面包括了大量的實用模組,比如numpy(科學計算,如矩陣,二維陣列,與表格最為相似的資料結構),pandas(資料分析,如資料框(虛擬記憶體資料庫),系列),Scipy(科學計算,向量化思想,包括符號計算和函式向量化),scikit-learn(用於機器學習,資料探勘,資料分析,六大功能:分類,迴歸,聚類,降維,模型選擇,預處理),Matplotlib,Bokeh(資料分析及視覺化)等等。這些都有助於進行資料探勘和資料分析。
資料探勘和資料分析等領域包含了大量的演算法,比如K-Means,DBSCAN,Apriori,kNN,樸素貝葉斯,BP神經網路,CART,決策樹等演算法,這對程式設計者的演算法能力和思維能力產生了極大的挑戰。只有掌握了這些演算法,才能更好地,更高效地,更快速地實現目標。如果有ACM經驗的話,學起來應該會更加快速和適應。這些演算法,我覺得結合實際例子來學習可能更加容易理解,比如用決策樹來預測獲勝球隊,使用樸素貝葉斯進行社會媒體挖掘,用神經網路破解驗證碼,用深度學習方法為影象中的物體進行分類
最後給大家推薦後續的學習路線,可以去kaggle上參加資料探勘比賽,或者參考學習別人的優秀專案。還可以去coursera上面學習資料探勘的相關課程,進一步提高自己的能力和拓展自己的視野。