1-端到端機器學習專案

阿新 • • 發佈：2021-10-22

資料準備及洞察>>資料預處理>>特徵工程>>模型選擇、訓練及評估>>模型儲存及載入（基於sklearn，流程學習）

資料獲取

import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = 'https://raw.githubusercontent.com/ageron/handson-ml2/master/'
HOUSING_PATH = os.path.join('datasets', 'housing')
HOUSING_URL = DOWNLOAD_ROOT + 'datasets/housing/housing.tgz'

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, 'housing.tgz')
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
fetch_housing_data()

import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, 'housing.csv')
    return pd.read_csv(csv_path)

housing = load_housing_data()
housing.head()

資料洞察

housing.info()

housing['ocean_proximity'].value_counts()

%matplotlib inline
import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20, 15))
plt.show()

分層抽樣劃分訓練集和測試集

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)  # 分一組train/test
for train_index, test_index in split.split(housing, housing['income_cat']):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

# housing為訓練集副本
housing = strat_train_set.copy()

# 下載加利福尼亞州地圖
images_path = os.path.join(PROJECT_ROOT_DIR, 'images', 'end_to_end_project')
DOWNLOAD_ROOT = 'https://raw.githubusercontent.com/ageron/handson-ml2/master/'
filename = 'california.png'
print('Downloading', filename)
url = DOWNLOAD_ROOT + 'images/end_to_end_project/' + filename
urllib.request.urlretrieve(url, os.path.join(images_path, filename))

import matplotlib.image as mpimg
california_img = mpimg.imread(os.path.join(images_path, filename))
ax = housing.plot(kind='scatter', x='longitude', y='latitude', figsize=(10, 7), s=housing['population']/100, 
                 label='population', c='median_house_value', cmap=plt.get_cmap('jet'), colorbar=False, alpha=0.4)
plt.imshow(california_img, extent=[-124.55, -113.80, 32.45, 42.05], alpha=0.5, cmap=plt.get_cmap('jet'))
plt.ylabel('Latitude', fontsize=14)
plt.xlabel('Longitude', fontsize=14)
prices = housing['median_house_value']
tick_values = np.linspace(prices.min(), prices.max(), 11)
cbar = plt.colorbar(ticks=tick_values/prices.max())
cbar.ax.set_yticklabels(['$%dk'%(round(v/1000)) for v in tick_values], fontsize=14)
cbar.set_label('Median House Value', fontsize=16)
plt.legend(fontsize=16)
plt.show()

corr_matrix = housing.corr()
corr_matrix['median_house_value'].sort_values(ascending=False)

from pandas.plotting import scatter_matrix

attributes = ['median_house_value', 'median_income', 'total_rooms', 'housing_median_age']
scatter_matrix(housing[attributes], figsize=(12, 8))
save_fig('scatter_matrix_plot')

資料準備及預處理

housing = strat_train_set.drop('median_house_value', axis=1)  # drop labels for training set
housing_labels = strat_train_set['median_house_value'].copy()
housing_num = housing.drop('ocean_proximity', axis=1)

from sklearn.base import BaseEstimator, TransformerMixin

# 列索引
rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room=True):  # no *args or **kwargs
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self  # nothing else to do 
    def transform(self, X):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

# 構建一個用於預處理數值屬性的管道
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('attribs_addr', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler()),
])

'''
ColumnTransformer()在Python的機器學習庫scikit-learn中，可以選擇地進行資料轉換。例如，它允許將特定的轉換或轉換序列僅應用於數字列，而將單獨的轉換序列僅應用於類別列。要使用ColumnTransformer，必須指定一個轉換器列表。每個轉換器是一個三元素元組，用於定義轉換器的名稱，要應用的轉換以及要應用於其的列索引，例如：（名稱，物件，列）
'''

from sklearn.compose import ColumnTransformer

num_attribs = list(housing_num)
cat_attribs = ['ocean_proximity']
full_pipeline = ColumnTransformer([
    ('num', num_pipeline, num_attribs),
    ('cat', OneHotEncoder(), cat_attribs),
])
housing_prepared = full_pipeline.fit_transform(housing)

模型選擇及訓練

def dispaly_scores(scores):
    print('Scores:', scores)
    print('Mean:', scores.mean())
    print('Standard deviation:', scores.std())

# 線性迴歸
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

lin_reg = LinearRegression()
# lin_reg.fit(housing_prepared, housing_labels)
# housing_predictions = lin_reg.predict(housing_prepared)
# lin_mse = mean_squared_error(housing_labels, housing_predictions)
# lin_rmse = mean_squared_error(housing_labels, housing_predictions, squared=False)  # 68628.19819848923
# lin_mae = mean_absolute_error(housing_labels, housing_predictions)
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels, scoring='neg_mean_squared_error', cv=10)
lin_rmse_scores = np.sqrt(-lin_scores)
dispaly_scores(lin_rmse_scores)

# 決策樹迴歸
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(random_state=42)
scores = cross_val_score(tree_reg, housing_prepared, housing_labels, scoring='neg_mean_squared_error', cv=10)
tree_rmse_scores = np.sqrt(-scores)

# 隨機森林迴歸
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor(n_estimators=100, random_state=42)
forest_scores = cross_val_score(forest_reg, housing_prepared, housing_labels, scoring='neg_mean_squared_error', cv=10)
forest_rmse_scores = np.sqrt(-forest_scores)
dispaly_scores(forest_rmse_scores)

from sklearn.model_selection import GridSearchCV

# 如果bootstrap==True，將每次有放回地隨機選取樣本，自助法
param_grid = [
    # try 12 (3*4) combinations of hyperparameters
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    # then try 6 (2*3) combinations with bootstrap set as Fasle
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
]
forest_reg = RandomForestRegressor(random_state=42)
# 5折網格搜尋
grid_search = GridSearchCV(forest_reg, param_grid, cv=5, scoring='neg_mean_squared_error', return_train_score=True)
grid_search.fit(housing_prepared, housing_labels)

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {
    'n_estimators': randint(low=1, high=200),
    'max_features': randint(low=1, high=8),
}
forest_reg = RandomForestRegressor(random_state=42)
rnd_search = RandomizedSearchCV(forest_reg, param_distributions=param_distribs, n_iter=10, cv=5,
                               scoring='neg_mean_squared_error', random_state=42)
rnd_search.fit(housing_prepared, housing_labels)

cvres = rnd_search.cv_results_
for mean_score, params in zip(cvres['mean_test_score'], cvres['params']):
    print(np.sqrt(-mean_score), params)

feature_importances = grid_search.best_estimator_.feature_importances_
extra_attribs = ['rooms_per_hhold', 'pop_per_hhold', 'bedrooms_per_room']
cat_encoder = full_pipeline.named_transformers_['cat']
cat_one_hot_attribs = list(cat_encoder.categories_[0])
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attributes), reverse=True)

final_model = grid_search.best_estimator_

X_test = strat_test_set.drop('median_house_value', axis=1)
y_test = strat_test_set['median_house_value'].copy()

X_test_prepared = full_pipeline.transform(X_test)
final_predictions = final_model.predict(X_test_prepared)

final_rmse = mean_squared_error(y_test, final_predictions, squared=False)  # 47730.22690385927

RMSE 的95%置信區間

interval=stats.t.interval(a,b,mean,std)
- t分佈的置信區間
- a：置信水平
- b:檢驗量的自由度
- mean:樣本均值
- std:樣本標準差

模型儲存及載入

import joblib

full_pipeline_with_predictor = Pipeline([
    ('preparation', full_pipeline),
    ('rf', final_model)
])
full_pipeline_with_predictor.fit(housing, housing_labels)

joblib.dump(my_model, 'my_model.pkl')
my_model_loaded = joblib.load('my_model.pkl')
# my_model_loaded.predict(some_data)

機器學習實戰-端到端的機器學習專案

1、明確業務目標？ 2、詢問當前的解決方案？為什麼不滿足要求？加州住房價格為例：

1-端到端機器學習專案

資料準備及洞察>>資料預處理>>特徵工程>>模型選擇、訓練及評估>>模型儲存及載入（基於sklearn，流程學習）

使用 TensorFlow 構建機器學習專案中文版·翻譯完成

原文：Building Machine Learning Projects with TensorFlow 協議：CC BY-NC-SA 4.0 不要擔心自己的形象，只關心如何實現目標。——《原則》，生活原則 2.3.c

第三門課結構化機器學習專案-筆記

正交化（Orthogonalization）正交化的概念是指，你可以想出一個維度，這個維度你想做的是控制轉向角，還有另一個維度來控制你的速度，那麼你就需要一個旋鈕儘量只控制轉向角，另一個旋鈕，在這個開車的例子裡其實是

1.使用Express建立Web專案服務端的詳細教程

自用傻瓜式教程（doge）小知識：【node】 Node.js 是一個基於 Chrome V8 引擎的 JavaScript 執行環境。

拓端tecdat：Python整合機器學習：用AdaBoost、決策樹、邏輯迴歸整合模型分類和迴歸和網格搜尋超引數優化

原文連結：http://tecdat.cn/?p=24231 原文出處：拓端資料部落公眾號 Boosting 是一類整合機器學習演算法，涉及結合許多弱學習器的預測。

Java後端高頻知識點學習筆記1---Java基礎

Java後端高頻知識點學習筆記1---Java基礎參考地址：牛_客_網 https://www.nowcoder.com/discuss/819297

Java後端高頻知識點學習筆記5---JVM（Java虛擬機器）

Java後端高頻知識點學習筆記5---JVM（Java虛擬機器）參考地址：牛_客_網 https://www.nowcoder.com/discuss/819307

Spring MVC4.1伺服器端推送實現過程解析

這篇文章主要介紹了Spring MVC4.1伺服器端推送實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

【機器學習】數值分析（1）—— 任意方程求根

任意方程求根簡介方程和函式是代數數學中最為重要的內容之一，從初中直到大學，我們都在研究著方程與函式，甚至我們將圖形代數化，從而發展出了代數幾何、解析幾何的內容。而在方程與函式中，我們研究其性質最多的

1-機器學習-機器學習基礎

sklearn的資料集資料集劃分資料集介面介紹資料集劃分前提：機器學習就是從資料中自動分析獲得規律，並利用規律對未知資料進行預測。換句話說，我們的模型一定是要經過樣本資料對其進行訓練，才可以對未知資

SpringBoot Vue 前後端分離測試demo專案

上一篇寫了直接從url地址下載圖片到本地，最近在學springboot,就試寫了一個springboot和vue前後端分離展示的demo，簡單來說就是後端返回Json資料，前端Vue通過axios請求來獲取解析。

《機器學習 caffe 環境搭建——redhat7.1 和 caffe 的 python 介面編譯》

機器學習 caffe 環境搭建——redhat7.1 和 caffe 的 python 介面編譯相信看這篇文章的都知道 caffe 是幹嘛的了，無非就是深度學習、神經網路、計算機視覺、人工智慧這些，這個我就不多介紹了，下面說說我

機器學習-文字分類（1）之獨熱編碼、詞袋模型、N-gram、TF-IDF

1、one-hot 一般是針對於標籤而言，比如現在有貓：0，狗：1，人：2，船：3，車：4這五類，那麼就有：

Electron – 基礎學習(1): 環境安裝、建立專案及入門

這幾天到年底了，公司也沒啥事，閒著就到處瞅瞅。記得上一家公司的時候用 Electron+ng1 寫過專案，只是那個時候專案框架都是別人搭的，自己只負責寫功能，對Electron沒啥認識。這幾天想著反正閒著也是閒著，就撿起來

【機器學習與R語言】1-機器學習簡介

目錄1.基本概念2.選擇機器學習演算法3.使用R進行機器學習 1.基本概念機器學習：發明演算法將資料轉化為智慧行為

使用python機器學習和深度學習的5個很棒的計算機視覺專案創意

專案構想(Project Ideas) Computer Vision is a field of artificial intelligence that deals with images and pictures to solve real-life visual problems. The ability of the computer to r

Python機器學習預測分析核心演算法1

最近在學習Michael Bowles著的《Python 機器學習預測分析核心演算法》，記錄一下學習過程。

李巨集毅機器學習筆記1：Regression

損失函式梯度下降隨機初始化起始位w0在w0處對損失函式求導（偏導）w1=w0-學習率*w0處的倒數一直重複計算，直到導數為0，或者達到最大迭代次數。

1-端到端機器學習專案

資料獲取

資料洞察

資料準備及預處理

模型選擇及訓練

RMSE 的95%置信區間

模型儲存及載入

相關推薦