1. 程式人生 > >會玩這18個免費的探索性資料分析工具,你才是資料分析家!

會玩這18個免費的探索性資料分析工具,你才是資料分析家!

每個人都有各自的天賦,發現它們並開始相信我們自己只是時間的問題。我們都有侷限,但是我們應該止步不前嗎?答案是不。

當我開始用R程式設計的時候,我很糾結。有時候不止一個人曾經這麼想過。因為我在這一生中從未編碼過。我的情況就像是一個從來沒學過游泳的人在被強行踹進深海後用盡力氣讓自己不沉下去但是卻喝了好多口鹹鹹的海水。

現在,當我回過頭看,我笑了。你知道為什麼嗎?因為,我本可以選擇不需要會程式設計就可以使用的資料分析工具並避免那些痛苦。

資料探勘是預測建模不可缺少的一部分。除非你知道過去發生了什麼否則你無法做出預測。掌握資料探勘最重要的技能就是好奇心,它是免費的卻不是每個人都擁有的東西。

我寫這篇文章是為了幫助你們瞭解可用於探索性資料分析的各種免費工具。時下,在市場中可以找到非常多的免費且有趣的工具來幫助我們工作。這些工具不需要你較精確仔細地編寫程式碼,只需要你點點滑鼠就能完成工作。

在這裡給大家推薦一個python系統學習q群:250933691有免費開發工具以及初學資料,(資料分析,爬蟲,AI,  機器學習,神經網路)每天有老師給大家免費授課,歡迎一起交流學習

無需程式設計即可用來資料分析的工具/軟體

1

 Excel / Spreadsheet

http://www.openoffice.org/download/

無論你正準備步入資料科學領域還是已經在這個領域小有建樹,你會知道過去這麼多年以來,excel 一直以來都是資料分析領域不可缺少的一部分(最常用的工具之一)。哪怕是在今天,有很大一部分需要資料分析的專案都依賴與excel去完成。由於來自於社群,輔導教程,免費資源的幫助越來越多,學習excel已經變得越來越簡單。

excel 基本上支援了最常用的資料分析功能:用來概述(總結)資料特徵,資料視覺化,對資料轉型(去除噪音資料)從而得到新的資料集用來分析等。這些工具足夠強大到讓我們可以重新從多個方面審視資料。無論你知道有多少其它的資料分析工具,你一定要學會用excel。儘管Microsoft excel這個軟體是付費的,但你可以用其替代品,例如open office, google docs!

2

Trifacta

https://www.trifacta.com/start-wrangling/

Trifacta的Wrangler工具正在挑戰傳統的資料清理和操作方法。因為excel在資料大小上有限制,但這個工具沒有這樣的侷限,您可以安全地用它處理大資料集。這個工具有令人難以置信的特性,如圖表推薦、內建演算法、分析洞察力,您可以使用這些特性在任何時間內生成報告。這是一種智慧工具,專注於更快地解決業務問題,從而使我們在與資料相關的練習中更有效率。

這些開源工具的提供讓我們感到更加自信和支援,世界各地也有優秀的人在為使我們的生活更好而努力工作。

3

Rapid Miner

https://rapidminer.com/

這一工具作為高階分析的領導者出現在2016Gartner Magic Quadrant。是的,它不僅僅是一個數據清理工具。它在建立機器學習模型方面的具有專業性。是的,它包含了我們經常使用的所有ML演算法。不僅僅是GUI,它還對使用Python&R構建模型的人提供了支援。

它以其非凡的能力繼續吸引著全世界的人們。最重要的是,它能閃電般的快速水平上提供分析經驗。他們的生產線上有幾個為大資料、視覺化、模型部署而構建的產品,其中一些產品(企業)包括訂閱費。簡而言之,我們可以說,它對於任何從資料載入到模型部署的需要執行AI操作的業務,都是一個完備的工具。

4

Rattle GUI

https://cran.r-project.org/bin/windows/base/

如果你試著使用R語言,但卻找不到訣竅的情況下,Rattle應該是你的第一選擇。這個GUI基於R語言構建,通過在R語言中鍵入安裝包("rattle") ,然後輸入庫(rattle),然後鍵入RTACK(),即可啟動。因此,要使用Rattle,您必須安裝R語言。它也不僅僅是資料探勘工具。Rattle支援各種ML演算法,如樹演算法、支援向量機演算法、Booting演算法、神經網路演算法、生存演算法線性模型演算法等。

現在它已經被廣泛使用。據克拉恩,rattle每月被安裝10000次。它提供了足夠的選項來探索、轉換和建模資料,只是很少有人點選。然而,它在統計分析方面的選擇比SPSS少。但是,SPSS是一個付費工具。

5

Qlikview

http://global.qlik.com/us/landing/go-sm/qlikview/download-qlikview

QlikView是全球商業情報行業更受歡迎的工具之一。這個工具所做的就是獲得商業洞察力並以一種極具吸引力的方式將其呈現出來。有了它較先進的視覺化功能,你會驚訝於你在處理資料時所得到的控制量。它有一個內建的推薦引擎,可以不時地更新有關較佳視覺化的資訊。

然而,這不是一個統計軟體。QlikView在探索資料、趨勢、洞察力方面是不可思議的,但它無法從統計學上證明任何事情。在這種情況下,您可能需要檢視其他軟體。

6

Weka

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/weka-gui-learn-machine-learning/

使用Weka的一個優點是它很容易學習。作為一個機器學習工具,它的介面是足夠直觀的,你可以迅速完成工作。它為資料預處理、分類、迴歸、聚類、關聯規則和視覺化提供了選擇。您所想到的建模過程中的大部分步驟都可以使用Weka來完成。它建立在Java之上。

它最初是為瓦卡託大學的研究目的而設計的,但後來被世界各地越來越多的人所接受。然而,這麼久了我還沒看到一個能像R和Python一樣熱情的weka交流社群。下面列出的教程將幫助您更多。

7

KNIME

https://www.knime.org/knime-analytics-platform

與RapidMiner類似,KNIME提供了一個開放原始碼的分析資料的平臺,以後可以使用其他支援KNIME的產品進行部署。該工具在資料融合、視覺化和先進的機器學習演算法等方面具有豐富的特點。是的,你也可以使用這個工具建立模型。雖然,關於這個工具的討論還不夠多,但是考慮到它的設計技術,我認為它很快就會很快就會引起人們的注意。

此外,在他們的網站上有快速培訓課程,可以讓你現在就開始使用這個工具。

8

Orange

http://orange.biolab.si/

這個工具正如它聽起來很酷那樣,它的目的是產生互動式資料視覺化和資料探勘任務。YouTube上有足夠的教程來學習這個工具。它有一個廣泛的資料探勘任務庫,包括所有的分類、迴歸、聚類方法。同時,在資料分析過程中形成的多功能視覺化使我們能夠更緊密地理解這些資料。

要構建任何模型,您將需要建立流程圖。這很有趣,因為它將幫助我們進一步瞭解資料探勘任務的確切過程。

9

Tableau Public

https://public.tableau.com/s/

Tableau是一個數據視覺化軟體。我們可以說,Tableau和QlikView是商業智慧海洋中最強大的鯊魚。優勢的比較是永無止境的。這是一個讓我們快速探索資料的視覺化軟體,每一次觀察都可使用各種可能的圖表。它是一種由自己計算出資料型別、可用的較佳方法等的智慧演算法。

如果您想實時理解資料,tableau可以完成這個工作。從某種意義上說,tableau賦予了豐富多彩的資料生活,讓我們與他人分享我們的工作。

10

Data Wrapper

這是一個閃電般的快速視覺化軟體。下一次,當您的團隊中有人被分配到BI工作時,他/她對該做什麼毫無頭緒的話,可以考慮選擇這個軟體。視覺化桶由線條圖、條形圖、列圖、餅圖、疊加條形圖和地圖組成。因此,這是一個基本的軟體,無法與像Tableau和QlikView這樣的巨人相提並論。此工具啟用瀏覽器,不需要任何軟體安裝。

11

Data Science Studio (DSS)

http://www.dataiku.com/dss/trynow/

它是一個旨在連線技術,業務和資料的強大工具。它可分為兩部分:編碼和非編碼。它對任何旨在發展,建立,在網路上部署和擴充套件模型的組織來說都是一個完整的軟體包。DSS也足夠強大去建立智慧資料應用程式來解決現實世界的問題。它包含了一些特性,這些特性促進了專案上的團隊整合。在所有特性中,最有趣的部分是,您可以在DSS中再現您的工作,因為系統中的每個操作都是通過整合的GIT儲存庫進行版本化的。

12

OpenRefine

http://openrefine.org/download.html

它開始於谷歌的精益求精,但似乎谷歌因為不清楚的原因而大幅縮減了這個專案。但是,這個工具仍然可用,改名為Open Refine。在眾多開放原始碼的工具中,Open Refine專門研究混亂的資料;為預測建模目的而清理、轉換和塑造資料。有趣的是,在在建模過程中,分析師80%的時間都用於資料清理。不是那麼愉快,但這是事實。使用Open Refine進行改進,分析人員不僅可以節省時間,還可以將其用於生產工作。

13

Talend

http://openrefine.org/download.html

如今,決策主要是由資料驅動的。管理者和專業人士不再做基於直覺的決定。他們需要一種能迅速幫助他們的工具。Talend可以幫助他們探索資料並支援他們做出決策。確切地說,它是一種資料協作工具,能夠清理、轉換和視覺化資料。

此外,它還提供了一個有趣的自動化特性,您可以在新的資料集上儲存和重做以前的任務。這個特性是獨特的,在許多工具中還沒有找到。而且,它能自動發現,為使用者提供增強資料分析的智慧建議。

14

Data Preparator

http://www.datapreparator.com/downloads.html

這個工具建立在Java上,能夠幫助我們進行資料的開發、清理和分析。它包括用於離散化、數字、縮放、屬性選擇、缺失值、離群值、統計、視覺化、平衡、抽樣、行選擇的各種內建包,以及幾個其他任務。它的GUI能夠直觀簡單地理解。一旦你開始使用這個,我相信你不會花很多時間來弄清楚該如何使用。

這個工具的一個獨特的優點是,用於分析的資料集不會儲存在計算機記憶體中。這意味著您可以在大型資料集上工作,而不會出現任何速度或記憶體問題。

15

DataCracker

https://www.datacracker.com/Plans

這是一個專門研究調查資料的資料分析軟體。許多公司確實進行了調查,但他們很難對其進行統計分析。調查資料從不清楚。它包含了大量的缺失和不恰當的內容。這個工具減少了我們的痛苦,增強了我們處理凌亂資料的經驗。該工具的設計使得它可以從所有主要的網際網路調查程式(如surveymonkey, survey gizmo等)中載入資料。有幾個有助於更好地理解資料的互動功能。

16

Data Applied

http://www.data-applied.com/Web/TryNow/Overview.aspx

這個強大的互動工具被設計用來構建、共享、設計資料分析報告。在大型資料集上建立視覺化有時會很麻煩。但是這個工具在使用樹狀地圖視覺化大量資料方面是很強大的。與上面所有其他工具一樣,它具有資料轉換、統計分析、異常檢測等功能。總之,它是一個多用途的資料探勘工具,能夠自動從原始資料中提取有價值的知識(訊號)。您會驚訝地發現,這種非程式設計工具在資料分析方面不差於R或Python。

17

Tanagra Project

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

因為老式的UI,你可能不喜歡它,但這個免費的資料探勘軟體是設計出來建立機器學習模型的。Tanagra專案是作為學術研究的免費軟體啟動的。作為一個開源專案,它為您提供了足夠的空間來設計自己的演算法和貢獻。

除了有監督的學習演算法外,它還具有聚類、階乘分析、引數和非引數統計、關聯規則、特徵選擇和構造等範例。它的一些侷限性包括:無法獲得廣泛的資料來源、直接訪問資料倉庫和資料庫、資料清理、互動利用等。

18

H2o

http://www.h2o.ai/download/h2o/choose

H2O是當今分析行業最流行的軟體之一。在短短的幾年裡,該組織成功地在世界各地分析界傳播開來。這個開源軟體帶來了照明快速分析的經驗,這是API程式語言的進一步擴充套件使用。不僅是資料分析,而且您可以在任何時候建立先進的機器學習模型。基於強勁的社群支援,學習這個工具是不擔心的。

額外獎勵

除了上面那些很棒的工具之外,我還發現了一些我認為您可能感興趣的工具。然而,這些工具並不是免費的,但您仍然可以試用它們:

Data Kleenr http://chi2innovations.com/datakleenr/

Data Ladder http://dataladder.com/

Data Cleaner https://datacleaner.org/

WinPure http://www.winpure.com/cleanmatch.html

最後說明

一旦您開始使用這些工具(你選擇的),你就會明白,瞭解預測建模的程式設計並不是什麼好事。您可以使用這些開源工具完成相同的任務。因此,如果你直到現在還對自己缺乏非編碼感到失望的話,現在是你將你的熱情注入到這些工具上的時候了。

我觀察到這些工具(其中一些)的限制是缺乏社群支援。除了很少的工具,他們中的幾個沒有一個社群來尋求幫助和建議。不過,值得一試!

在這裡給大家推薦一個python系統學習q群:250933691有免費開發工具以及初學資料,(資料分析,爬蟲,AI,  機器學習,神經網路)每天有老師給大家免費授課,歡迎一起交流學習