資料探勘-分類與預測-神經網路演算法

阿新 • • 發佈：2019-01-31

程式碼來源：Python資料分析與挖掘實戰

# -*- coding: utf-8 -*-
# 使用神經網路演算法預測銷量高低

import sys
reload(sys)
sys.setdefaultencoding('utf-8')    #匯入sys，重新設定編碼格式主要是為了解決執行程式碼報：UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 129: ordinal not in range(128)
import pandas as pd
from keras.models import Sequential    #順序模型
from keras.layers.core import Dense, Activation
from cm_plot import *

inputfile = '../data/sales_data.xls'
data = pd.read_excel(inputfile, index_col=u'序號')

data[data==u'好'] = 1
data[data==u'是'] = 1
data[data==u'高'] = 1
data[data!=1] = 0

x = data.iloc[:,:3].as_matrix().astype(int)
y = data.iloc[:,3].as_matrix().astype(int)

model = Sequential()    #建立模型後可以使用.add來堆疊模型
model.add(Dense(input_dim=3, output_dim=10))    #建立的神經網路有3個輸入節點、10個隱藏節點,新增輸入層(3節點)到隱藏層(10節點)的連線
model.add(Activation('relu'))    #用relu函式作為啟用函式，能夠大幅提供準確度
model.add(Dense(input_dim=10, output_dim=1))    #新增隱藏層(10節點)到輸出層(1節點)的連線
model.add(Activation('sigmoid'))    #由於是0-1輸出，用sigmoid函式作為啟用函式

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])   #crossentropy: 交叉熵； 使用的優化器是'adam'
#變異模型。由於我們做的是二元分類，所以我們指定損失函式為binary_crossentropy, 以及模式為binary
#另外常見的損失函式還有mean_squared_error、categorical_crossentropy等
#求解方法我們指定用adam，還有sgd，rmsprop等可選

model.fit(x, y, nb_epoch=1000, batch_size=10)    #訓練模型，學習一千次
yp = model.predict_classes(x).reshape(len(y))    #分類預測；predict_classes()只能用於序列模型來預測，不能用於函式式模型
cm_plot(y, yp).show()    #顯示混淆矩陣視覺化結果

cm_plot.py

#-*- coding: utf-8 -*-

def cm_plot(y, yp):
  from sklearn.metrics import confusion_matrix    #匯入混淆矩陣函式
  cm = confusion_matrix(y, yp)    #混淆矩陣
  import matplotlib.pyplot as plt
  plt.matshow(cm, cmap=plt.cm.Greens)     #畫混淆矩陣圖，配色風格使用cm.Greens
  plt.colorbar()    #顏色標籤
  
  for x in range(len(cm)):    #資料標籤
    for y in range(len(cm)):
      plt.annotate(cm[x,y], xy=(x, y), horizontalalignment='center', verticalalignment='center')
  
  plt.ylabel('True label')    #座標軸標籤
  plt.xlabel('Predicted label')    #座標軸標籤
  return plt

輸出：

資料探勘-分類與預測-神經網路演算法

程式碼來源：Python資料分析與挖掘實戰 # -*- coding: utf-8 -*- # 使用神經網路演算法預測銷量高低 import sys reload(sys) sys.setdefau

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

ionosphere.data下載地址：http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載 https://github.com/xxg1413/MachineLea

Python資料探勘入門與實踐---用決策樹預測獲勝球隊

參考書籍：《Python資料探勘入門與實踐》 1.載入資料集：使用pandas載入資料集，有1319行資料， 8個特徵，檢視前5項資料集，並查詢是否有重複資料 #coding=gbk #使用決策樹來預測獲勝球隊 import time start =

Python資料探勘入門與實踐------鳶尾花分類

import numpy as np from sklearn.datasets import load_iris dataset = load_iris() #print(dataset.DESCR) #檢視資料集 X = dataset.d

分享《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼

下載：https://pan.baidu.com/s/1J7DOGrjoF7HnaSZ8LvFh_A更多資料分享：http://blog.51cto.com/3215120 《Python資料探勘入門與實踐》高清中文版+高清英文版+原始碼高清中文版PDF，251頁，帶目錄和書籤，能夠複製貼上；高清英文版

【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP

本課件的主要內容包括：上次課程回顧：多元線性分類器決策邊界形狀識別重要電子郵件 Sigmoid函式最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi

Python資料探勘入門與實戰:第一章

程式碼來源於：https://github.com/hLvMxM/Learning_Data_Mining_with_Python/blob/master/Chapter 1/ch1_affinity.ipynb 其中註釋是在自己學習中加上去的，便於初學者看懂分析文字為：affinity

python資料探勘入門與實踐----------特徵值，主成分分析

#http://archive.ics.uci.edu/ml/machine-learning-databases/adult/ import os import pandas as pd adult_filename ="adult.data" adult = pd.read_csv(adu

python資料探勘入門與實踐-----------通過親和力分析推薦電影（Apriori）

嚶~本節程式碼比著書上的原始碼看了一遍並加上了自己的理解註釋，但並沒有執行成功，因為他執行警告，我還不會改錯親和力分析：從頻繁出現的商品中選取共同出現額商品組成頻繁項集，生成關聯規則 import os import pandas as pd import sys #資料讀取 rating

python資料探勘入門與實踐--------轉換器（資料與處理）與流水線

y=MinMaxScaler().fit_transform(x) y與x為同型矩陣，y每列值的值域為0到1 sklearn.preprocessing.Normalizer 每條資料各特徵值的和為1 sklearn.preprocessing.StandardScaler 各特

《資料探勘概念與技術》學習筆記

1.Chapter1 引論： (1) OLTP 和 OLAP 概念: OLTP(on-line transaction processing) 聯機事物處理，就是我們經常說的關係資料庫的主要應用，主要是基本的、日常的事務處理，例如銀行交易。例如：mysql OLAP(on

基於R的資料探勘方法與實踐（3）——決策樹分析

決策樹構建的目的有兩個——探索與預測。探索方面，參與決策樹聲場的資料為訓練資料，待樹長成後即可探索資料所隱含的資訊。預測方面，可以藉助決策樹推匯出的規則預測未來資料。由於需要考慮未來資料進入該模型的分類表現，因此在基於訓練資料構建決策樹之後，可以用測試資料來衡量該模型的穩健

基於R的資料探勘方法與實踐（1）——資料準備

1、資料檢查資料檢查是資料探勘的第1步，從不同的維度檢查資料，找出其中有問題的資料以便對其進行修正。 1.1 資料型別檢視資料的構成與形態，尤其是各列的屬性。 > library(MASS) > data(ChickWeight) > str(Chic

資料探勘實踐與我的想法之特徵工程

從一個最近的天池資料探勘比賽，記錄部分特徵工程實踐內容。比賽連結商鋪定位本人渣渣，排名TOP21。本部落格採用二分類XGBOOST模型，同時涉及部分的多分類模型。重點介紹業務特徵，對於一些科技特徵，就私藏了。簡單分析比賽資料給了三部分：

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性：基本概念和方法（編緝中）

頻繁模式是頻繁地出現在資料集中的模式（如項集、子序列或子結構）。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子，想象全域是商店中商品的集合，每種商品有一個布林變數，表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量，得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示

python資料探勘入門與實戰——學習筆記（第3、4章）

chapter 3 決策樹預測獲勝球隊 pandas載入資料集 import pandas as pd dataset = pd.read_csv('filepath+filename') 資料清洗，可在讀入時清洗 dataset = pd.read_csv('filen

tensorflow計算模型資料模型會話模型與簡單神經網路樣例

** １．tf計算模型——計算圖 ** ＃定義兩個不同的圖，說明不同圖中張量無關 import tensorflow as tf g1 = tf.Graph() with g1.as_default(): v = tf.get_variable("v", [1], i

Python資料探勘入門與實踐--用轉換器抽取特徵

所使用的資料是描述人及其所處的環境，背景及其生活狀況，挖掘目標是：預測一個人是否年收入要多於5 萬美元 1.特徵抽取：特徵抽取是資料探勘中最為重要的一個環節，一般而言，它最終的結果影響要高於資料探勘演算法本身。不幸的是，關於如何選取好的特徵，還

資料探勘分類演算法詳解

今天看了研究者July的文章，講的是最恨對一個問題了解而不深入 ~ ~。切記，戒之。在這篇文章中，我準備對資料探勘的常用分類演算法進行一一介紹，它們的實現，原理和適用問題及對比。首先補充一下監督學習，非監督學習和半監督學習的。

資料探勘-分類器的ROC曲線及相關指標（ROC、AUC、ACC）詳解

關於ROC曲線有幾篇老部落格。有一篇是一位博士寫的，不過不知道為什麼，那篇文章老是有迷之錯誤，從13年開始，一直訂正到17年，依舊存在錯誤，如舉例有問題、概念混淆（因為其文章包含了太多的概念，導致文法上的指代不清）。 >ROC（Receiver Operating

資料探勘-分類與預測-神經網路演算法

相關推薦