預測模型筆記

阿新 • • 發佈：2018-01-13

kernel ans 加載數據 san fun 行為交通 params erro

預測模型

1、簡介

預測建模（Predictive modeling）是一種用來預測系統未來行為的分析技術，它由一群能夠識別獨立輸入變量與反饋目標關聯關系的算法構成。根據觀測值創建一個數學模型，然後用這個模型去預測未來發生的事情。
預測模型是用若幹個可能對系統行為產生影響的特征構建的，當處理系統問題時，需要先判斷哪些因素可能會影響系統的行為，然後在訓練模型之前將這些因素添加進特征中。

2、用SVM建立線性分類器

SVM是用來構建分類器和回歸器的監督學習模型，SVM通過對數學方程組求解，可以找出兩組數據之間的最佳分割邊界。下面先使用第2章的創建簡單分類器將數據分類並畫出。

# 1、加載數據
import numpy as np
import matplotlib.pyplot as plt
input_file = ‘data_multivar.txt‘

def load_data(input_file):
    X = []
    y = []
    with open(input_file, ‘r‘) as f:
        for line in f.readlines():
            data = [float(x) for x in line.split(‘,‘)]
            X.append(data[:-1])
            y.append(data[-1])
    X=np.array(X)
    y = np.array(y)
    return X,y
X,y=load_data(input_file)

# 2、分類
class_0=np.array([X[i] for i in range(len(X)) if y[i]==0])
class_1=np.array([X[i] for i in range(len(X)) if y[i]==1])
print(class_0)
# 3、畫圖
plt.figure()
plt.scatter(class_0[:,0],class_0[:,1],facecolor=‘black‘,edgecolors=‘black‘,marker=‘s‘)
plt.scatter(class_1[:,0],class_1[:,1],facecolor=‘none‘,edgecolors=‘black‘,marker=‘s‘)
plt.show()

# 定義畫圖函數
def plot_classifier(classifier, X, y):
    # 獲取x，y的最大最小值，並設置余值
    x_min, x_max = min(X[:, 0]) - 1.0, max(X[:, 0] + 1.0)
    y_min, y_max = min(X[:, 1]) - 1.0, max(X[:, 1] + 1.0)
    # 設置網格步長
    step_size = 0.01
    # 設置網格
    x_values, y_values = np.meshgrid(np.arange(x_min, x_max, step_size), np.arange(y_min, y_max, step_size))
    # 計算出分類器的分類結果
    mesh_output = classifier.predict(np.c_[x_values.ravel(), y_values.ravel()])
    mesh_output = mesh_output.reshape(x_values.shape)
    # 畫圖
    plt.figure()
    # 選擇配色方案
    plt.pcolormesh(x_values, y_values, mesh_output, cmap=plt.cm.gray)
    # 畫點
    plt.scatter(X[:, 0], X[:, 1], c=y, s=80, edgecolors=‘black‘, linewidths=1, cmap=plt.cm.Paired)
    # 設置圖片取值範圍
    plt.xlim(x_values.min(), x_values.max())
    plt.ylim(y_values.min(), y_values.max())
    # 設置x與y軸
    plt.xticks((np.arange(int(min(X[:, 0]) - 1), int(max(X[:, 0]) + 1), 1.0)))
    plt.yticks((np.arange(int(min(X[:, 1]) - 1), int(max(X[:, 1]) + 1), 1.0)))
    plt.show()

如圖：

技術分享圖片

從上面的結果可以看出，空心和實心分別為不同類。下面使用SVM將不同類分開。結果如下圖：

技術分享圖片
代碼如下：

# 使用SVM
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=5)
params = {‘kernel‘: ‘linear‘}
classifier = SVC(**params)
# 訓練線性SVM分類器，並查看結果邊界
classifier.fit(X_train, y_train)
plot_classifier(classifier, X_train, y_train)
# 測試數據集
y_test_pred = classifier.predict(X_test)
plot_classifier(classifier, X_test, y_test)
# 查看數據的精準性，訓練數據集的分類報告
from sklearn.metrics import classification_report
print(classification_report(y_train,classifier.predict(X_train),target_names=[‘Class-‘+str(int(i)) for i in set(y)]))
# 測試數據集的分類報告
print(classification_report(y_test,classifier.predict(X_test),target_names=[‘Class-‘+str(int(i)) for i in set(y)]))

3、用SVM建立非線性分類器

從上面的分類報告可知，我們的分類情況並不理想，而且，最開始的數據可視化也可看出，實心完全被空心包圍著，所以，我們需要嘗試非線性分類器。
SVM為建立非線性分類器提供了許多選項，需要用不同的核函數建立費線性分類器。為了簡單起見，考慮一下兩種情況。

3.1、多項式函數

直接將線性中的params={‘kernel‘:‘linear‘}替換成params={‘kernel‘:‘poly‘,‘degree‘:3}，其中degree表示三次多項式，隨著次數增加，可讓曲線變得更彎，但是訓練時間也會越長，計算強度越大。結果如下圖：

技術分享圖片

3.2、徑向基函數（Radial Basis Function，RBF）

直接將線性中的params={‘kernel‘:‘linear‘}替換成params={‘kernel‘:‘rbf‘}，結果如下圖：

技術分享圖片

4、解決類型數量不平衡問題

在現實生活中，我們得到的數據可能會出現某類數據比其他類型數據多很多的情況，在這種情況下分類器會有偏差，邊界線也不會反應數據的真實性，所以需要對數據進行調和。
換一個數據，以上面線性SVM為例，將數據換成data_multivar_imbalance.txt之後，顯示為

技術分享圖片

由圖可知，沒有邊界線，這是因為分類器不能區分這兩種類型，所以，將參數改為params={‘kernel‘:‘linear‘,‘class_weight‘:‘balanced‘}即可。結果如下：

技術分享圖片

5、提取置信度

當一個信的數據點被分類為某一個已知類別時，我們可訓練SVM來計算輸出類型的置信度。

input_datapoints = np.array([[2, 1.5], [8, 9], [4.8, 5.2], [4, 4], [2.5, 7], [7.6, 2], [5.4, 5.9]])

for i in input_datapoints:
    print(i, ‘-->‘, classifier.decision_function(i)[0])# 測量點到邊界的距離

params = {‘kernel‘: ‘rbf‘, ‘probability‘: True}
classifier = SVC(**params)
classifier.fit(X_train, y_train)

for i in input_datapoints:
    print(i, ‘-->‘, classifier.predict_proba(i)[0])# 這裏要求params中probability必須為True，計算輸入數據點的置信度

plot_classifier(classifier, input_datapoints, [0]*len(input_datapoints))

6、尋找最優超參數

超參數對分類器的性能至關重要。尋找步驟如下：

# 1、加載數據，通過交叉驗證
parameter_grid = [{‘kernel‘: [‘linear‘], ‘C‘: [1, 10, 50, 600]},
                  {‘kernel‘: [‘poly‘], ‘degree‘: [2, 3]},
                  {‘kernel‘: [‘rbf‘], ‘gamma‘: [0.01, 0.001], ‘C‘: [1, 10, 50, 600]},
                  ]

metrics = [‘precision‘, ‘recall_weighted‘]

from sklearn import svm, grid_search, cross_validation
from sklearn.metrics import classification_report
# 2、為每個指標搜索最優超參數
for metric in metrics:
    classifier = grid_search.GridSearchCV(svm.SVC(C=1), parameter_grid, cv=5, scoring=metric)# 獲取對象
    classifier.fit(X_train, y_train)# 訓練
    for params, avg_score, _ in classifier.grid_scores_:# 看指標得分
        print(params, ‘-->‘, round(avg_score, 3))
    print(‘最好參數集：‘,classifier.best_params_)# 最優參數集
    y_true, y_pred = y_test, classifier.predict(X_test)
    print(classification_report(y_true, y_pred))# 打印一下性能報告

7、建立時間預測器

這個例子和之前的差不多,主要是記住步驟。

# 1、讀取數據
input_file=‘building_event_multiclass.txt‘
# input_file=‘building_event_binary.txt‘

X=[]
y=[]
with open(input_file,‘r‘) as f:
    for line in f.readlines():
        data=line[:-1].split(‘,‘)
        X.append([data[0]]+data[2:])
X=np.array(X)
# 2、編碼器編碼
from sklearn import preprocessing
label_encoder=[]
X_encoder=np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit():
        X_encoder[:,i]=X[:,i]
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoder[:,i]=label_encoder[-1].fit_transform(X[:,i])
X=np.array(X_encoder[:,:-1]).astype(int)
y=np.array(X_encoder[:,-1]).astype(int)
# 3、進行分類
from sklearn.svm import SVC
params={‘kernel‘:‘rbf‘,‘probability‘:True,‘class_weight‘:‘balanced‘}
classifier=SVC(**params)
classifier.fit(X,y)
# 4、交叉驗證
from sklearn.model_selection import cross_val_score
accuracy=cross_val_score(classifier,X,y,scoring=‘accuracy‘,cv=3)
print(‘accuracy:‘,accuracy.mean())
# 5、對新數據進行驗證
input_data = [‘Tuesday‘, ‘12:30:00‘,‘21‘,‘23‘]
input_data_encoder=[-1]*len(input_data)
count=0

for i,item in enumerate(input_data):
    if item.isdigit():
        input_data_encoder[i]=int(input_data[i])
    else:
        label=[]
        label.append(input_data[i])
        input_data_encoder[i]=label_encoder[count].transform(label)
        count=count+1

result=int(classifier.predict(np.array(input_data_encoder)))
print(‘result:‘,label_encoder[-1].inverse_transform(result))

8、估算交通流量

在之前的SVM都是用作分類器，現在展示一個回歸器的例子：

# 1、獲取數據
X=[]
input_file=‘traffic_data.txt‘
with open(input_file,‘r‘) as f:
    for line in f.readlines():
        data=line[:-1].split(‘,‘)
        X.append(data)

X=np.array(X)

# 2、編碼
from sklearn import preprocessing
label_encoder=[]
X_encoder=np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit():
        X_encoder[:,i]=X[:,i]
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoder[:,i]=label_encoder[-1].fit_transform(X[:,i])

X=X_encoder[:,:-1].astype(int)
y=X_encoder[:,-1].astype(int)

# 3、線性回歸
from sklearn.svm import SVR
# params = {‘kernel‘: ‘rbf‘, ‘C‘: 10.0, ‘epsilon‘: 0.2}
params={‘kernel‘:‘rbf‘,‘C‘:10.0,‘epsilon‘:0.2}# C表示對分類的懲罰，參數epsilon表示不使用懲罰的限制
regressor=SVR(**params)
regressor.fit(X,y)
# 4、驗證
from sklearn.metrics import mean_absolute_error
y_pred=regressor.predict(X)
print(‘mean_absolute_error:‘,mean_absolute_error(y,y_pred))
# 5、預測新值
input_data = [‘Tuesday‘, ‘13:35‘, ‘San Francisco‘, ‘yes‘]
input_data_encoder=[-1]*len(input_data)
count=0
for i,item in enumerate(input_data):
    if item.isdigit():
        input_data_encoder[i]=int(input_data[i])
    else:
        label=[]
        label.append(input_data[i])
        input_data_encoder[i]=int(label_encoder[count].transform(label))
        count=count+1
        
result=regressor.predict(input_data_encoder)
print(result)

預測模型筆記

kernel ans 加載數據 san fun 行為交通 params erro 預測模型 1、簡介預測建模（Predictive modeling）是一種用來預測系統未來行為的分析技術，它由一群能夠識別獨立輸入變量與反饋目標關聯關系的算法構成。根據觀測值創建一個數學

學習筆記：【案例】財政收入影響因素分析及預測模型

6.0 pearson end 4.5 pandas 問題特征 ase max() 案例來源：《Python數據分析與挖掘實戰》第13章案例背景與挖掘目標輸入數據：《某市統計年鑒》（1995-2014）挖掘目標：梳理影響地方財政收入的關鍵特征，分析、識別影響地

灰色預測模型的學習筆記（MATLAB 包含模型的建立求解及檢驗）

本博文是本人在學習灰色預測模型時所做的筆記，原理及程式碼部分都是基於學習各位大佬的博文，詳見後面的參考，一、實操，利用灰色預測模型預測未來十年湖南的人口數量二、具體實現，從國家統計局獲取湖南省過去十年的人口資料，作為原始資料，見Excel檔案，利用MAT

[ML]keras波士頓房價預測模型

ets close 方法 valid seq same layer n) 預測 from keras.datasets import boston_housing from keras.models import Sequential from keras.layers

《python機器學習—預測分析核心算法》：構建預測模型的一般流程

定性標識貢獻任務表現 style 工程重要提取參見原書1.5節構建預測模型的一般流程問題的日常語言表述->問題的數學語言重述重述問題、提取特征、訓練算法、評估算法熟悉不同算法的輸入數據結構：1.提取或組合預測所需的特征2.設定訓練目標3.訓練模型4

（原創）競賽-關於房價預測模型的數據預分析1

ria 另一個 sns 相同 kernel fmt com image 6.5 註：該部分參考kaggle房價模型的大神Pedro Marcelino提供的kernel 在我們拿到數據後，應該預先分析一下數據。 1、總覽數據 import numpy as np impor

sklearn中預測模型的score函數

ESS 最好的 near sample spa lan urn eight 期望 sklearn.linear_model.LinearRegression.score score(self, X, y, sample_weight=None) Returns the

數學建模-預測模型優缺（搬運）

pad 關系 blog 乘法 rbf 獨立 .net 測量 erl 本文內容來自：不鳴則已…… 基於數學建模的預測方法種類繁多，從經典的單耗法、彈性系數法、統計分析法，到目前的灰色預測法。當在使用相應的預測方法建立預測模型時，我們需要知道主要的一些預測方法的研究

數學建模——預測模型簡介

使用廣泛圖像 ble 訪問相關關系方式種類系統在數學建模中，常常會涉及一些預測類問題。預測方法種類繁多，從經典的單耗法、彈性系數法、統計分析法，到現在的灰色預測法、專家系統法和模糊數學法、甚至剛剛興起的神經元網絡法、優選組合法和小波分析法等200余種算法。下面

用遞歸神經網絡簡要介紹序列預測模型

數組 lstm 感知器例如創建有效變量單個單詞作者：傑森·布朗利於 2017 年 7月17日在長期短期記憶網絡中序列預測是涉及使用歷史序列信息來預測序列中的下一個或多個值的問題。序列可以是諸如句子中的字母之類的符號，也可以是諸如價格的時間序列中的實際

【腫瘤預測模型系列】如何在R軟體中求一致性指數( Harrell'concordance index:C-index)？

今晚收到一封醫生好友的郵件，諮詢如何求Harrell的C-index？曾在丁香園論壇裡遇到過朋友求助，自己也嘗試回答過，論壇裡回答的言簡意賅，針對問題論問題，沒有詳細的原理說明，今天趁回覆朋友郵件的機會，就大致總結下自己對C-index的理解以及在R軟體中的計算過程。所謂C-index，英文名全稱conc

R語言-預測海藻數量2（獲取預測模型，提高模型準確性）

獲取預測模型因為海藻數量基本是數值型資料，所以考慮進行迴歸分析（多元線性迴歸模型），一個變數和一組解釋變數的關係 clean.algae <- knnImputation(algae,k = 10) >lm.a1 <- lm(a1 ~ . ,data =

H264預測模式筆記

目錄亮度Luma預測模式 4x4亮度塊預測 16x16亮度塊預測 8x8的色度塊預測幀內預測模式的選擇 4x4亮度塊的預測模式編碼 H.264標準中提出按塊進行計算，一個巨集塊是16x16畫素，然後它可以分成子塊，最小是4x4的（這個大小是對於亮

【電腦科學】【2018.02】【含原始碼】一種目標分類的深度學習預測模型

本文為荷蘭代爾夫特理工大學（作者：N.E. Sahla）的碩士論文，共58頁。在過去的十年，全球倉儲自動化市場迅速而顯著地增長。最大的挑戰在於識別和處理不同的物件。本研究旨在探討物件特徵，例如大小或形狀與條形碼位置之間是否存在可用的關係，從而穩健地辨識儲存箱中的物件。在MATLA

OSI七層網路模型筆記

osi七層網路模型 Open System Interconnection，開放式系統互聯七層分為：一，物理層，處於osi的第一層，也是最底層。它的作用是通過物理媒介進行訊號傳輸。物理層的傳輸媒介有光纖和無線電等，分有線和無線兩類。這一層，資料的單位是位元。二，資料鏈路層，

C++物件模型筆記1

C++類中的函式不會佔用類本身的記憶體，而是類的宣告的非行內函數只會誕生一個函式體。C++在佈局和存取時間上主要的額外負擔由virtual引起： virtual function機制執行期動態繫結 virtual base class機制多次繼承中，單一的基類被共享

個人貸款違約預測模型練習

重點為分類模型的資料理解與資料準備資料介紹賬戶表（Accounts）:每條記錄描述一個賬戶的靜態資訊顧客資訊表（Clients）:每條記錄描述一個客戶的特徵資訊許可權分配表（Disp）：每條記錄描述顧客和賬戶之間的關係，以及客戶操作賬戶的許

吳裕雄資料探勘與分析案例實戰（6）——線性迴歸預測模型

# 工作年限與收入之間的散點圖# 匯入第三方模組import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt # 匯入資料集income = pd.read_csv(r'F:\\python_Data_analysis_and

吳裕雄數據挖掘與分析案例實戰（6）——線性回歸預測模型

img rcp 圖例 his sha bubuko 數量 xlsx drop # 工作年限與收入之間的散點圖# 導入第三方模塊import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt #

長短期記憶（LSTM）系列_2.1~2.3、用遞迴神經網路簡要介紹序列預測模型

前置課程 https://machinelearningmastery.com/sequence-prediction/ https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-network

預測模型筆記

預測模型

1、簡介

2、用SVM建立線性分類器

3、用SVM建立非線性分類器

3.1、多項式函數

3.2、徑向基函數（Radial Basis Function，RBF）

4、解決類型數量不平衡問題

5、提取置信度

6、尋找最優超參數

7、建立時間預測器

8、估算交通流量

相關推薦