介紹幾個Python很冷門的庫,用起來卻很實用
Python是一種很棒的程式語言。事實上,它還是世界上發展最快的程式語言之一。它一次又一次證明了它在資料科學職位中的實用性。整個Python及其庫的生態系統使其成為全世界使用者(初學者和高階)的合適選擇。
在本文中,我們將介紹一些用於資料科學方面的Python庫,它們並不像pandas、scikit-learn 和 matplotlib那麼知名,但一樣非常實用的庫。
更多Python視訊、原始碼、資料加群960410445免費獲取
1、Wget
提取資料,尤其是從網路上提取資料,是資料科學家的主要任務之一。Wget是一個免費的實用程式,用於從Web上進行非互動式檔案下載。它支援HTTP,HTTPS和FTP協議,以及通過HTTP代理進行檢索。由於它是非互動式的,即使使用者沒有登入也可以在後臺執行。因此,如果你需要下載一個網站或頁面中的所有圖片時,wget 就可以幫到你
安裝:
$ pip install wget
示例:
2、Pendulum
如果你還在苦惱Python中時間日期的處理,那麼你需要Pendulum。它是一個Python包,用於簡化datetime操作。它是Python原生類的一個臨時替代。
安裝:
$ pip install pendulum
例子:
3、Imbalanced-learn
大多數分類演算法在每個類的樣本數量幾乎都是一樣的情況下是最有效的,但實際工作中大多數是不平衡的資料集,這些資料集對機器學習演算法的學習階段和後續預測都可能有影響。幸運的是,創imbalance -learn庫可以解決這個問題。它與scikit-learn相容,是scikit- learning -contrib專案的一部分。下次遇到不平衡的資料集的情況,請別忘了它。
安裝:
4、FlashText
在自然語言處理(NLP)任務中清理文字資料通常需要替換關鍵字或從句子中提取關鍵字。通常,這樣的操作可以用正則表示式來完成,但是如果要搜尋的詞彙量達到數千,那麼這些操作就會變得很繁瑣。
Python的FlashText模組基於FlashText演算法,為這種情況提供了合適的替代方案。FlashText最棒的地方是,它的執行與你的搜尋量無關。
安裝:
$ pip install flashtext
例子:
1)提取關鍵詞
2)替代關鍵詞
5、FuzzyWuzzy
這個名稱聽起來很奇怪,但是在字串匹配方面,FuzzyWuzzy是一個非常有用的庫。它可以方便地實現字串匹配率等操作。它還可以方便地匹配儲存在不同資料庫中的記錄。
安裝:
$ pip install fuzzywuzzy
例子:
6、PyFlux
時間序列分析是機器學習中最常見的問題之一。PyFlux是Python中的一個開源庫,它是為處理時間序列問題而構建的。該庫擁有一系列很優秀的現代時間序列模型,諸如ARIMA、GARCH和VAR模型等。簡而言之,PyFlux提供了一種時間序列建模的概率方法。
安裝:
pip install pyflux
7、IPyvolume
資料科學很重要的一部分就是交流結果,視覺化結果顯示可以給你提供一個巨大的優勢。IPyvolume是一個Python庫,用於視覺化Jupyter筆記本中的3D容量和符號(例如3D散點圖),只需少量的配置。
安裝 :
例子:
繪製
8、Dash
Dash是一個用於構建web應用程式的高效Python框架。它基於FlaskPlotty.js 和 Response.js 之上。將下拉選單和圖形等UI元素與Python分析程式碼捆綁在一起,而不需要使用JavaScript。Dash非常適合構建可以在web瀏覽器中呈現的資料視覺化應用程式。
安裝:
例子:
下面的示例顯示了具有下拉功能的高度互動式圖。當用戶在下拉選單中選擇一個值時,應用程式程式碼將動態地將資料從Google Finance 匯出到panda DataFrame。
9、Gym
Gym是開發和對比強化學習演算法的工具,它相容任何資料科學庫,如TensorFlow或Theano。是一個測試問題的集合,也叫環境,你可以用它來計算強化學習演算法。這些環境有一個共享介面,允許使用者編寫通用演算法。
安裝:
pip install gym
例子:
以下示例將在 CartPole-v0環境中,執行 1000 次,在每一步渲染環境。