1. 程式人生 > >kaggle實戰之房價預測(一)

kaggle實戰之房價預測(一)

一、kaggle簡介

kaggle主要為開發商和資料科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享程式碼的平臺,kaggle已經吸引了80萬名資料科學家的關注。是學習資料探勘和資料分析一個不可多得的實戰學習平臺,上面還有許多的專案有鉅額的獎金,有許多的獲獎選手都會分享他們的程式碼並分析和挖掘資料的經驗。

二、房價預測

三、如何參加比賽


1、Data選項

Data主要由三個檔案組成分別是sample_submission.csv、test.csv、train.csv和資料組成介紹,可以通過旁邊的download按鈕下載這些檔案。其中sample_submission.csv是提供一個提交資料的組成模板,模板的格式一般的組成形式都是ID+預測結果,我們先通過train.csv中的資料訓練出一個模型,然後通過這個模型來預測test.csv中的資料,我們將預測的結果按照提交模板的格式提交資料,提交完成之後你就可以在kaggle的排行榜上檢視自己的排名。在Data選項下,我們往下滑動就可以看見資料的介紹


2、kernels選項


kernels裡面有很多的選手會分享他們的程式碼和經驗,以及如何來做資料分析、資料探勘、特徵工程等。對於top10+0.2kaggle會給出金牌、前5%會給出銀牌、前10%為銅牌。可以根據旁邊的選項對kernels進行排序。

3、排行榜(Leaderboard)選項


排行榜分為public Leaderboard和private Leaderboard,兩個排行榜的排名方式略有不同。

4、提交結果


點選submit predictions按鈕(需要登入之後才能看見按鈕),按照模板的形式排列預測結果,點選upload submission file上傳自己的結果檔案,就可以獲取排名。如果提交失敗,檢視自己的格式是否有問題或嘗試再次重新提交。

這篇文章主要介紹了kaggle,以及如何提交自己的結果檢視排名,在後面文章將以房價預測專案開始介紹如何來實現一個房價預測模型以及如何做特徵工程和資料分析。