GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

阿新 • • 發佈：2019-01-01

這篇文章重點介紹了5個數據科學專案，這些專案都是開源的，並且存在於GitHub儲存庫中，側重於高階機器學習庫和低階支援工具。

本文將通過GitHub repos重點介紹一組精選的開源Python資料科學專案。

之前的文章包括一些涵蓋AutoML、自然語言處理、資料視覺化、機器學習工作流程的庫。這一次，我們將看看另一個選擇的資料科學專案及其GitHub回購，重點關注那些在一端提供有用的抽象層的專案，以及那些在較低層次上支援活動的專案。

該列表顯然是主觀的，由我遇到的程式碼組成，並且由於某種原因而發現這些程式碼有趣或有用。對於每個條目，我都包含指向各自的回購、文件、入門指南或類似內容的連結，以及文件中的描述性摘錄。

坐下來享受一下您可能熟悉或不熟悉的專案，希望您能找到可以在自己的工作中使用的東西。

1. fastai

儲存庫：https：//github.com/fastai/fastai/

文件：http：//docs.fast.ai/

入門：http：//course.fast.ai/

該庫位於PyTorch v1（今天釋出的預覽版）之上，為最重要的深度學習應用程式和資料型別提供了一致的API。fast.ai最近的研究突破嵌入在軟體中，與其他深度學習庫相比，其準確性和速度顯著提高，同時需要的程式碼大大減少。您可以立即從conda、pip或GitHub上下載它，或在Google Cloud Platform上使用它。AWS支援即將推出。

2.textacy

儲存庫：https：//github.com/chartbeat-labs/textacy

文件：https：//chartbeat-labs.github.io/textacy/

入門：https：//chartbeat-labs.github.io/textacy/getting_started/quickstart.html

textacy是一個Python庫，用於執行基於高效能spacy庫的各種自然語言處理（NLP）任務。通過基本原理- 標記化、詞性標註、依賴性解析等- 委託給另一個庫，textacy專注於之前和之後的任務。

3. pycobra

儲存庫：https：//github.com/bhargavvader/pycobra

文件：https：//modal.lille.inria.fr/pycobra/

入門：https：//github.com/bhargavvader/pycobra/tree/master/docs/notebooks

pycobra是一個用於整合學習的python庫。它可以作為使用這些整合機器進行迴歸和分類的工具包，也可以用於視覺化新機器和組成機器的效能。在這裡，當我們說機器時，我們指的是任何預測器或機器學習物件- 它可以是LASSO迴歸器，甚至是神經網路。它與scikit-learn相容，適合現有的scikit-learn生態系統。

4. Termgraph

儲存庫，文件和入門：https：//github.com/mkaz/termgraph

一個python命令列工具，它在終端中繪製基本圖形。

支援的圖表型別：

條形圖
彩色圖表
多變數
堆積圖表
水平或垂直
表情符號！

大多數結果可以在任何地方複製和貼上，因為它們使用標準塊字元。但是顏色圖表不會顯示，因為它們使用終端轉義碼來表示顏色。

5.repo2docker

儲存庫：https：//github.com/jupyter/repo2docker

文件：https：//repo2docker.readthedocs.io/en/latest/

入門：https：//repo2docker.readthedocs.io/en/latest/usage.html

jupyter-repo2docker是一個工具，用於從通過Jupyter伺服器執行的原始碼儲存庫構建，執行和推送Docker映象。

repo2docker獲取儲存庫（例如，從GitHub或其他位置）並基於儲存庫中找到配置檔案構建容器映像。它可以用於通過構建和執行儲存庫的構建映像來本地瀏覽儲存庫，或者作為構建推送到Docker登錄檔的映像的方法。

GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

1. fastai

2.textacy

3. pycobra

4. Termgraph

5.repo2docker

GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

GitHub Python數據科學聚焦：推薦5個開源數據科學項目！

達觀資料王子豪：這5個例子，小學生都能秒懂分類演算法

好玩的黑科技app：推薦5款功能逆天的黑科技應用！

Python每日一題：第5題

推薦5個機器學習Python 庫，國內外評價超高

推薦5個值得關注的Python開源專案

Python爬蟲練習之一：抓取美團資料

推薦5個國內外評價超高的機器學習Python 庫

Python 刷題日記：LeetCode 5&9&516- Longest Palindromic Substring 題集合

推薦5個國內外評價超高的機器學習Python 庫，實用！

C語言：有5個學生，每個學生有3門課的成績，從鍵盤輸入學生資料，計算平均成績

資料遊戲Round1：預測5月15號招商銀行的股價

推薦 5 個免費高品質的圖片資源網站

每個人都在經歷淘寶的“大資料殺熟”，這5個辦法巧妙避開

資料科學家需要知道的5個基本統計學概念

Excel辦公必備：這5個不起眼的Excel快捷鍵，職場人士必須要會！

Nginx縮圖和Fastdfs整合以及image_filter配置，7點經驗結論和5個參考資料

工業大資料漫談3：什麼是工業大資料？

【C語言】用結構體陣列完成：有5個學生（包括學號，姓名，成績），要求按照成績高低輸出學生資訊.

GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

1. fastai

2.textacy

3. pycobra

4. Termgraph

5.repo2docker

相關推薦