1. 程式人生 > >Kaggle大資料競賽平臺入門

Kaggle大資料競賽平臺入門

轉載自http://www.cnblogs.com/zhao441354231/p/6061363.html

大資料競賽平臺,國內主要是天池大資料競賽和DataCastle,國外主要就是Kaggle.Kaggle是一個數據挖掘的競賽平臺,網站為:https://www.kaggle.com/.很多的機構,企業將問題,描述,期望釋出在Kaggle上,以競賽的方式向廣大的資料科學家徵集解決方案,體現了集體智慧這一思想.每個人在網站上註冊後,都可以下載感興趣專案的資料集,分析資料,構造模型,解決問題提交結果.按照結果的好壞會有一個排名,成績優異者還可能獲得獎金/面試機會等.

圖1展示了進入Kaggle官網後顯示的正在進行的比賽,這些比賽的型別是不同的,可以進行篩選顯示,有All Categories,Faatured,Recruitment,Research,Playground,Getting Started,In Class這7個選項.顯示為Featured

的比賽(左側有粉紅色條條)一般獎金比較豐厚,競爭也比較大;顯示為Research的比賽(左側有黃色條條),獎金少一些;顯示為Recruitment的比賽,雖然沒有獎金,但是卻可以獲得釋出專案公司的實習/面試機會,這也給企業招聘人才提供了另外一種方式.顯示為Playground的為練習賽,主要用於初學者練手,對於初學者,建議從這裡開始.Getting Started裡面手把手教你一步一步地進行資料探勘,是很好的入門教程.除了這些公開比賽,Kaggle還會想活躍的參與者提供私下的比賽,以及為大學團體提供Kaggle-In-Class專案.Kaggle的部落格No Free Hunch也是一個好的學習去處,提供了Data Science News,Kaggle News,Kernels,Tutorials,以及Winner's Interviews這些欄目.

圖1 Kaggle首頁

比賽流程:

1.進去感興趣的競賽專案,下載資料集(csv格式),資料集中一般包括訓練資料集和測試資料集,檢視資料描述和任務描述,明確需求;

2.用你擅長的任何語言或者演算法來構建模型,用訓練集來訓練,然後用訓練好的模型推測測試集的labels,生成一個測試集labels作為最終的提交檔案;

3.系統會從所提交檔案中選取25%的資料進行初評,根據評測結果得到準確率和排名.在比賽結束時,採用剩下的75%的資料進行終評,作為最後的準確率.

Kernels:

Kernels提供了資料分析的環境,資料集,程式碼和輸出樣式,點選進去是下面這樣的: 這類似於Jupyper Notebook.在這裡面可以直接編譯python,可以在code和markdown之間自由切換,可以很方便地復現和分享.還有一點就是你可能不需要將資料集下載下來,也不需要配置本地的python以及各種庫(比如pandas,numpy等),直接在網頁上進行資料探勘.Kernel上還可以分享程式碼(初學者好的學習去處),在Forum(論壇)回答問題還可以積分.

參考文獻: