GitHub Python資料科學聚焦:推薦5個開源資料科學專案!
這篇文章重點介紹了5個數據科學專案,這些專案都是開源的,並且存在於GitHub儲存庫中,側重於高階機器學習庫和低階支援工具。
本文將通過GitHub repos重點介紹一組精選的開源Python資料科學專案。
之前的文章包括一些涵蓋AutoML、自然語言處理、資料視覺化、機器學習工作流程的庫。這一次,我們將看看另一個選擇的資料科學專案及其GitHub回購,重點關注那些在一端提供有用的抽象層的專案,以及那些在較低層次上支援活動的專案。
該列表顯然是主觀的,由我遇到的程式碼組成,並且由於某種原因而發現這些程式碼有趣或有用。對於每個條目,我都包含指向各自的回購、文件、入門指南或類似內容的連結,以及文件中的描述性摘錄。
坐下來享受一下您可能熟悉或不熟悉的專案,希望您能找到可以在自己的工作中使用的東西。
1. fastai
儲存庫:https://github.com/fastai/fastai/
文件:http://docs.fast.ai/
入門:http://course.fast.ai/
該庫位於PyTorch v1(今天釋出的預覽版)之上,為最重要的深度學習應用程式和資料型別提供了一致的API。fast.ai最近的研究突破嵌入在軟體中,與其他深度學習庫相比,其準確性和速度顯著提高,同時需要的程式碼大大減少。您可以立即從conda、pip或GitHub上下載它,或在Google Cloud Platform上使用它。AWS支援即將推出。
2.textacy
儲存庫:https://github.com/chartbeat-labs/textacy
文件:https://chartbeat-labs.github.io/textacy/
入門:https://chartbeat-labs.github.io/textacy/getting_started/quickstart.html
textacy是一個Python庫,用於執行基於高效能spacy庫的各種自然語言處理(NLP)任務。通過基本原理- 標記化、詞性標註、依賴性解析等- 委託給另一個庫,textacy專注於之前和之後的任務。
3. pycobra
儲存庫:https://github.com/bhargavvader/pycobra
文件:https://modal.lille.inria.fr/pycobra/
入門:https://github.com/bhargavvader/pycobra/tree/master/docs/notebooks
pycobra是一個用於整合學習的python庫。它可以作為使用這些整合機器進行迴歸和分類的工具包,也可以用於視覺化新機器和組成機器的效能。在這裡,當我們說機器時,我們指的是任何預測器或機器學習物件- 它可以是LASSO迴歸器,甚至是神經網路。它與scikit-learn相容,適合現有的scikit-learn生態系統。
4. Termgraph
儲存庫,文件和入門:https://github.com/mkaz/termgraph
一個python命令列工具,它在終端中繪製基本圖形。
支援的圖表型別:
- 條形圖
- 彩色圖表
- 多變數
- 堆積圖表
- 水平或垂直
- 表情符號!
大多數結果可以在任何地方複製和貼上,因為它們使用標準塊字元。但是顏色圖表不會顯示,因為它們使用終端轉義碼來表示顏色。
5.repo2docker
儲存庫:https://github.com/jupyter/repo2docker
文件:https://repo2docker.readthedocs.io/en/latest/
入門:https://repo2docker.readthedocs.io/en/latest/usage.html
jupyter-repo2docker是一個工具,用於從通過Jupyter伺服器執行的原始碼儲存庫構建,執行和推送Docker映象。
repo2docker獲取儲存庫(例如,從GitHub或其他位置)並基於儲存庫中找到配置檔案構建容器映像。它可以用於通過構建和執行儲存庫的構建映像來本地瀏覽儲存庫,或者作為構建推送到Docker登錄檔的映像的方法。