1. 程式人生 > 其它 >機器學習實戰-端到端的機器學習專案

機器學習實戰-端到端的機器學習專案

1、明確業務目標?

2、詢問當前的解決方案?為什麼不滿足要求?

加州住房價格為例:

1、回答框架問題:監督學習,迴歸,線上學習更好(批量學習就可以勝任)。

多重回歸問題:利用多個特徵進行預測。

一元迴歸問題:預測每個區域的單個值。

2、選擇效能指標:(這裡和範數表達差不多)(0範數:非零個數 無窮範數:最大絕對值)

選擇RMSE(均根方誤差) 2範數

選擇MAE(平均絕對誤差) 1範數

選擇MSE(均方誤差)

注意:鐘形分佈很適合使用RMSE

3、檢查假設:和下游任務進行充分的溝通,例如:最後你估計出來價格之後,下游任務還得轉化成廉價、中等、昂貴,那你豈不是做了很多無用工作。 最終這裡還是預測價格

4、獲取資料:

最好windows開啟管理員shell進行操作比較方便咯。!

python -m # 作為一個模組進行執行

pip install --user --upgrade pip # --user獲取user許可權

python -m virtualenv my_env

.\my_env\Scripts\activate

housing = pd.csv(path)
housing.head()  
housing.info()
housing["A"].value_counts()  # 查詢分類值
housing.describe()
%matplotlib inline
import matplotlinb.pyplot as plt
housing.hist(bins=50,figsize=(20,15))
plt.show()

  

由此課件,median_house_val & age受限,需要重新搜尋相關資料。並且將不是鐘形分佈的轉變為鐘形分佈。

這裡專門提到:測試集的分佈應該和總體的分佈應該某些維度是相同的。

大體資訊視覺化,地理資訊視覺化,尋找相關性,實驗不同資料組合

5.資料準備...