1. 程式人生 > >GitHub Python資料科學聚焦:推薦5個開源資料科學專案!

GitHub Python資料科學聚焦:推薦5個開源資料科學專案!

這篇文章重點介紹了5個數據科學專案,這些專案都是開源的,並且存在於GitHub儲存庫中,側重於高階機器學習庫和低階支援工具。

本文將通過GitHub repos重點介紹一組精選的開源Python資料科學專案。

之前的文章包括一些涵蓋AutoML、自然語言處理、資料視覺化、機器學習工作流程的庫。這一次,我們將看看另一個選擇的資料科學專案及其GitHub回購,重點關注那些在一端提供有用的抽象層的專案,以及那些在較低層次上支援活動的專案。

該列表顯然是主觀的,由我遇到的程式碼組成,並且由於某種原因而發現這些程式碼有趣或有用。對於每個條目,我都包含指向各自的回購、文件、入門指南或類似內容的連結,以及文件中的描述性摘錄。

坐下來享受一下您可能熟悉或不熟悉的專案,希望您能找到可以在自己的工作中使用的東西。

GitHub Python資料科學聚焦:推薦5個開源資料科學專案!

 

1. fastai

儲存庫:https://github.com/fastai/fastai/

文件:http://docs.fast.ai/

入門:http://course.fast.ai/

該庫位於PyTorch v1(今天釋出的預覽版)之上,為最重要的深度學習應用程式和資料型別提供了一致的API。fast.ai最近的研究突破嵌入在軟體中,與其他深度學習庫相比,其準確性和速度顯著提高,同時需要的程式碼大大減少。您可以立即從conda、pip或GitHub上下載它,或在Google Cloud Platform上使用它。AWS支援即將推出。

2.textacy

儲存庫:https://github.com/chartbeat-labs/textacy

文件:https://chartbeat-labs.github.io/textacy/

入門:https://chartbeat-labs.github.io/textacy/getting_started/quickstart.html

textacy是一個Python庫,用於執行基於高效能spacy庫的各種自然語言處理(NLP)任務。通過基本原理- 標記化、詞性標註、依賴性解析等- 委託給另一個庫,textacy專注於之前和之後的任務。

3. pycobra

儲存庫:https://github.com/bhargavvader/pycobra

文件:https://modal.lille.inria.fr/pycobra/

入門:https://github.com/bhargavvader/pycobra/tree/master/docs/notebooks

pycobra是一個用於整合學習的python庫。它可以作為使用這些整合機器進行迴歸和分類的工具包,也可以用於視覺化新機器和組成機器的效能。在這裡,當我們說機器時,我們指的是任何預測器或機器學習物件- 它可以是LASSO迴歸器,甚至是神經網路。它與scikit-learn相容,適合現有的scikit-learn生態系統。

4. Termgraph

儲存庫,文件和入門:https://github.com/mkaz/termgraph

一個python命令列工具,它在終端中繪製基本圖形。

支援的圖表型別:

  • 條形圖
  • 彩色圖表
  • 多變數
  • 堆積圖表
  • 水平或垂直
  • 表情符號!

大多數結果可以在任何地方複製和貼上,因為它們使用標準塊字元。但是顏色圖表不會顯示,因為它們使用終端轉義碼來表示顏色。

5.repo2docker

儲存庫:https://github.com/jupyter/repo2docker

文件:https://repo2docker.readthedocs.io/en/latest/

入門:https://repo2docker.readthedocs.io/en/latest/usage.html

jupyter-repo2docker是一個工具,用於從通過Jupyter伺服器執行的原始碼儲存庫構建,執行和推送Docker映象。

repo2docker獲取儲存庫(例如,從GitHub或其他位置)並基於儲存庫中找到配置檔案構建容器映像。它可以用於通過構建和執行儲存庫的構建映像來本地瀏覽儲存庫,或者作為構建推送到Docker登錄檔的映像的方法。