從零開始學習Python用於資料科學,Python比你想象的要強大!
為什麼是Python?
Python是一種多用途的程式語言,廣泛應用於資料科學,被稱為本世紀最性感的工作。資料科學家通過大資料集挖掘,以獲得洞察力並做出有意義的資料驅動決策。Python是一種通用的程式語言,用於Web開發、網路建設、科學計算等領域。我們將進一步討論python中的一系列令人敬畏的庫,例如用於資料操作和爭論的numpy、ciply和大熊貓,以及用於資料視覺化的matplotlib、seABON和bokeh。
不管你你用Python做什麼,首先你必須要入門Python,所以小編準備了一份Python入門學習資料,進群:943752371即可獲取!
從零開始學習Python用於資料科學,Python比你想象的要強大!
因此,Python&R只是用作資料科學的工具,但作為資料科學家,您需要更多地瞭解資料的統計和數學方面,而且除了所有方面之外,還必須具備良好的領域知識。
在我的這篇文章中,我將為用Python學習資料科學鋪平道路,並將分享一些有用的資源來學習它。記住,資料科學的學習需要時間,不可能在一個月左右完成,它需要大量的實踐、奉獻和自信。所以永遠不要放棄和快樂的學習。
步驟1:學習python的基礎知識
Python是一種很容易開始使用的語言,但是掌握這些成語需要時間,就像任何其他語言一樣。因此,作為新手,首先您需要了解語言的所有基礎知識,一個良好的開端是遵循以下教程:
補習點
&
Google Python類
一旦完成了本教程,那麼是時候邁出更大的一步,瞭解更復雜、更實時的python用法了,最好是少讀一些書和部落格文章:
書籍:
a)學習Python的硬道
b)用Python實現鏜孔的自動化
部落格:
a)前20位Python部落格
b)我最喜歡的部落格之一 : 丹巴德
第二步:基本統計與數學
強烈建議學習統計資料,並將重點放在編寫示例上,最好是在Python或R.
最著名的是統計學習系列。這是一個很好的入門統計建模/機器學習與應用,在R.閱讀ISLR之前,首先跳到ESLR。
(A)統計學習簡介
b)統計學習的要素
如果你想要一件Python重的東西,請看這本書“思考統計”(ThinkStats)。
這是一個很好的MOOC來學習資料科學所需的基本統計資料:
— R專業化統計
利用這個可怕的可汗學院系列來複習你的高中統計和數學知識:
高中統計
步驟3:用於資料分析的Python
一旦你完成了第一步和第二步,那麼是時候用一些真正的東西弄髒你的手了,首先你需要安裝Anaconda
Anaconda下載
Anaconda的優勢:
a)使用者級安裝所需的python版本
(B)能夠完全獨立於系統庫或管理特權來安裝/更新軟體包
(C)附帶Numpy、Sciy、PyQt、SpyderIDE等。或者在Minimal/alacarte版本(Miniconda)中,您可以在需要時安裝您想要的東西。
這是Anaconda附帶的工具:
a)木星筆記本IPython筆記本現在被稱為木星筆記本。它是一個互動式的計算環境,在這個環境中,您可以將程式碼執行、富文字、數學、情節和豐富的媒體結合在一起。
您可以在本地使用此筆記本進行資料分析和繪圖,並將資料視覺化並最終共享。
- 安裝Anaconda之後,從終端開啟IPython筆記本:
從零開始學習Python用於資料科學,Python比你想象的要強大!
- 在預設瀏覽器中開啟筆記本:
從零開始學習Python用於資料科學,Python比你想象的要強大!
- 在筆記本單元格中執行Python程式碼
從零開始學習Python用於資料科學,Python比你想象的要強大!
(B)Numpy
NumPy是Python用於科學計算的基本包。除其他外,其中包括:
1)一個強大的N維陣列物件。
2)精密(廣播)功能
3)C/C+和Fortran程式碼整合工具
4)有用的線性代數、傅立葉變換和隨機數能力
URL:Numpy
c)熊貓
熊貓是一個為Python程式語言編寫的用於資料操作和分析的軟體庫。
檢視我在那裡的位置,獲得關於Pandas的簡單而簡短的介紹。
URL:熊貓
書:用於資料分析的Python
d)Matplotlib
Matplotlib是一個Python2D繪相簿,它以各種硬拷貝格式和跨平臺互動環境生成出版物質量數字。Matplotlib可以用於Python指令碼、Python和IPython shell、jupyter筆記本、Web應用伺服器和四個圖形使用者介面工具包。
URL:Matplotlib
檢視我的位置,獲得關於matplotlib的簡單而簡短的介紹。
e)海運
Seborn是一個基於matplotlib的Python視覺化庫。它為繪製有吸引力的統計圖形提供了一個高階介面。
URL:海航
請檢視使用上述所有庫進行資料分析的木星膝上型電腦的以下數字:
(A)使用PADAS匯入資料:
從零開始學習Python用於資料科學,Python比你想象的要強大!
(B)資料分析和清理:
從零開始學習Python用於資料科學,Python比你想象的要強大!
(C)使用Ploly繪製圖表(或者,還可以使用matplotlib和海運)
從零開始學習Python用於資料科學,Python比你想象的要強大!
c)在木星筆記本上繪製方框圖、條形圖和熱圖
第4步:機器學習
機器學習是一門讓計算機在不被明確程式設計的情況下行動的科學。機器從大量的培訓資料中學習,並幫助對新的資料集進行預測或分類。
它分為以下兩類:
(I)監督學習(引數/非引數演算法、支援向量機、核、神經網路)。
(2)無監督學習(聚類、降維、推薦系統、深度學習)。
安裝PythonScikit學習朱庇特筆記本中機器學習練習圖書館。它有非常好的檔案可循:
從零開始學習Python用於資料科學,Python比你想象的要強大!
最佳MOOC首先:
a)斯坦福機器學習
b)基於Udacity的機器學習介紹
關於這個問題有很多書可讀,而且都寫得很好,所以我不想特別推薦任何一本書。所有的書都同樣適合閱讀和閱讀。
第五步:實踐與實踐
最後但並非最不重要的是,練習和艱苦的工作是關鍵,很多次我在Reddit&Quora上看到了一些問題,所以我可以從哪裡獲得用於分析的開源資料。我們是在2017年,到處都是豐富的資料,只是你需要挑選這些資料,並開始玩弄它。我個人最喜歡練習的是卡格爾。在這裡,您可以自己學習,並檢視核心,以檢視一些最好的資料科學家的工作。