機器學習實戰-端到端的機器學習專案
阿新 • • 發佈:2021-10-02
1、明確業務目標?
2、詢問當前的解決方案?為什麼不滿足要求?
加州住房價格為例:
1、回答框架問題:監督學習,迴歸,線上學習更好(批量學習就可以勝任)。
多重回歸問題:利用多個特徵進行預測。
一元迴歸問題:預測每個區域的單個值。
2、選擇效能指標:(這裡和範數表達差不多)(0範數:非零個數 無窮範數:最大絕對值)
選擇RMSE(均根方誤差) 2範數
選擇MAE(平均絕對誤差) 1範數
選擇MSE(均方誤差)
注意:鐘形分佈很適合使用RMSE
3、檢查假設:和下游任務進行充分的溝通,例如:最後你估計出來價格之後,下游任務還得轉化成廉價、中等、昂貴,那你豈不是做了很多無用工作。 最終這裡還是預測價格
4、獲取資料:
最好windows開啟管理員shell進行操作比較方便咯。!
python -m # 作為一個模組進行執行
pip install --user --upgrade pip # --user獲取user許可權
python -m virtualenv my_env
.\my_env\Scripts\activate
housing = pd.csv(path) housing.head() housing.info() housing["A"].value_counts() # 查詢分類值 housing.describe()
%matplotlib inline import matplotlinb.pyplot as plt housing.hist(bins=50,figsize=(20,15)) plt.show()
由此課件,median_house_val & age受限,需要重新搜尋相關資料。並且將不是鐘形分佈的轉變為鐘形分佈。
這裡專門提到:測試集的分佈應該和總體的分佈應該某些維度是相同的。
大體資訊視覺化,地理資訊視覺化,尋找相關性,實驗不同資料組合
5.資料準備...