1. 程式人生 > >python資料分析與挖掘實戰 第九章 拓展練習

python資料分析與挖掘實戰 第九章 拓展練習

這一章的拓展練習感覺是比較簡單的。基本上沒有太多讓人糾結的地方。沒有特徵提取和資料規約,讓事情簡單了不少。當然不包括寫出C4.5的決策樹,我也沒有那麼寫。

  1. 讀取資料,劃分訓練集和測試集,不用多說。
    這裡寫圖片描述

  2. 雖然題目要求的使用決策樹,不過我依然使用了SVC做了一次。很巧合的是,同樣也是要把train放大,我這裡放大了30倍,但好像這不是我測試中效果最好的一次,不過就這一把,有興趣各位可以再試。結果如下:
    這是訓練集:
    這裡寫圖片描述

    這是測試集:
    這裡寫圖片描述
    大概看看,感覺效果不是特別好,不過我也有做到過效果很好的結果。

3.決策樹方法
由於題目要求的是c4.5演算法,但是sklearn並沒有c4.5的資訊增益率的演算法,所以我做了另外兩個,也就是對應的ID3演算法和CART演算法的結果。如果有可以使用c4.5演算法的辦法,請告知我。
先看ID3演算法的結果。
訓練集(和上面SVC採用的是相同的訓練集和測試集):
這裡寫圖片描述

測試集:
這裡寫圖片描述

視覺化結果:
這裡寫圖片描述

再看一下CART演算法的結果:
訓練集:
這裡寫圖片描述

測試集:
這裡寫圖片描述

決策樹視覺化:
這裡寫圖片描述

結論:
由此看出決策樹在分類過程中,雖然過程不同,但結果相似。
而我多次的試驗中發現,ID3和CART兩個演算法下,結果也不是絕對相同的,也出現過分類結果不同的情況。請加以注意。
而SVC和決策樹演算法相比,效果就差了不少。當然,我這裡給出的結果中,決策樹法好像訓練集是全部正確的結果,但這只是偶然結果,多數時候並不會全部正確。但總體而言,正確率是高於SVC的。
而SVC影響正確率有一個關鍵就是資料值的放大倍數,合適的放大倍數會使得結果的準確率提高很多。

相關推薦

python資料分析挖掘實戰 拓展練習

這一章的拓展練習感覺是比較簡單的。基本上沒有太多讓人糾結的地方。沒有特徵提取和資料規約,讓事情簡單了不少。當然不包括寫出C4.5的決策樹,我也沒有那麼寫。 讀取資料,劃分訓練集和測試集,不用多說。

python資料分析挖掘實戰 拓展思考

企業偷漏稅識別模型 1、資料探索 偷漏稅企業分佈 首先生成data import pandas as pd inputfile = r'E:\Download\百度雲\圖書配套資料、程式碼\chapter6\拓展思考\tax.xls' data =

python資料分析挖掘實戰 拓展思考

流失客戶分類模型 1 資料預處理 如果動手做過的人可能面臨的第一個問題就是,這資料讀進pandas怎麼弄編碼結果都是錯的。如果你存在這樣的問題,那麼我建議你使用NotePad++載入檔案以後,改成無BOM的UTF-8編碼,然後就可以正常讀取了。 資料預處理部

python資料分析挖掘實戰-拓展偷漏稅使用者識別

第六章分別使用了LM神經網路和CART 決策樹構建了電力竊漏電使用者自動識別模型,章末提出了拓展思考--偷漏稅使用者識別。專案要求:汽車銷售行業在稅收上存在多種偷漏稅情況導致政府損失大量稅收。汽車銷售企業的部分經營指標能在一定程度上評估企業的偷漏稅傾向,附件資料提供了汽車銷售

Python資料分析挖掘實戰7——kmeans

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第七章的資料——《航空公司客戶價值分析》做的分析。旨在補充原文中的細節程式碼,並給出文中涉及到的內容的完整程式碼。 1)在資料預處理部分增加了屬性規約、資料變換的程式碼2)在模型構建的部分增加了一個畫出雷達圖的函式程式碼

Python資料分析挖掘實戰13——迴歸+DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第13章的資料——《財政收入影響因素分析及預測模型》做的分析。旨在補充原文中的細節程式碼,並給出文中涉及到的內容的完整程式碼。在作者所給程式碼的基礎上增加的內容包括: 1)探索了灰色預測的原理 2)畫出預測結果圖3)由於

Python資料分析挖掘實戰15——文字挖掘

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第15章的資料——《電商產品評論資料情感分析》做的分析。旨在回顧對評論文字資料的處理和建模方法。1 挖掘背景與目標    對京東平臺上的熱水器評論進行文字挖掘分析,挖掘建模如下:1)分析某一個品牌熱水器的使用者情感傾向2

Python資料分析挖掘實戰挖掘建模

# coding:utf-8 """ logistic 迴歸, 自動建模 """ import pandas as pd # 引數初始化 filename = r"C:\learning\DataMining\Book\Python_DataMining\Data\cha

python資料分析挖掘實戰筆記二:99頁神經網路訓練出現的錯誤'Some keys in session_kwargs are not supported at this time: %s'

在使用神經網路模型預測銷量高低時,系統指出模型訓練時出現錯誤: ValueError Traceback (most recent call last) <ipython-input-20-e46e29b76a5e> in <module&g

Python資料分析挖掘實戰10(上)——DNN

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第10章的資料——《家用電器使用者行為分析與事件識別》做的分析。旨在補充原文中的細節程式碼,並給出文中涉及到的內容的完整程式碼;另外,原文中的資料處理部分排版先後順序個人感覺較為凌亂,在此給出梳理。在作者所給程式碼的基礎

Python資料分析挖掘實戰8——Apriori關聯規則

本文是基於《Python資料分析與挖掘實戰》的實戰部分的第八章的資料——《中醫證型關聯規則挖掘》做的分析。旨在補充原文中的細節程式碼,並給出文中涉及到的內容的完整程式碼。主要有:1)將原始資料按照聚類結果進行標記類別1 背景與目標分析    此專案旨在根據相關資料建模,獲取中

Python資料分析挖掘實戰學習拓展——偷漏稅使用者識別

本文是繼上一篇文章中上機實驗之後的拓展思考部分的練習記錄。此拓展思考部分主要目標是依據附件所提供的汽車銷售企業的部分經營指標,來評估汽車銷售行業納稅人的偷漏稅傾向,建立偷漏稅行為識別模型。 本次拓展思考練習分以下幾個步驟進行: 資料初步探索分析 資料預處理

Python資料分析挖掘實戰學習-關聯規則Apriori

《Python資料分析與挖掘實戰》這本書其實已經在暑假結束的時候就已經基本上過了一遍,但是卻一直沒有堅持著記錄。最近幾天想著將之前的學習內容整理一遍,因此,再做記錄。 全文分為以下三個部分: Apriori演算法 Apriori的python實現 總結

菜鷄日記——《Python資料分析挖掘實戰》實驗6-1 拉格朗日插值法

實驗6-1 用拉格朗日插值法 題目描述:用拉格朗日插值法對missing_data.xls中表格的空值進行填補。 # p1, lab6 # Fill all of the null values with Lagrange's interpolation # Data file name i

Python資料分析挖掘實戰 pdf下載

Python資料分析與挖掘實戰是10餘位資料探勘領域資深專家和科研人員,10餘年大資料探勘諮詢與實施經驗結晶。從資料探勘的應用出發,以電力、航空、醫療、網際網路、生產製造以及公共服務等行業真實案例為主線,深入淺出介紹Python資料探勘建模過程,實踐性極強。 本書共15章,分兩個部分:基礎

推薦書籍《Python資料分析挖掘實戰》附下載連結

“10餘位資料探勘領域資深專家和科研人員,10餘年大資料探勘諮詢與實施經驗結晶。從資料探勘的應用出發,以電力、航空、醫療、網際網路、生產製造以及公共服務等行業真實案例為主線,深入淺出介紹Python資料探勘建模過程,實踐性極強。 本書共15章,分兩個部分:基礎

Python資料分析挖掘實戰》筆記(一):資料探勘基礎

一、資料探勘的基本任務 利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法,幫助企業提取資料中蘊含的商業價值,提升企業的競爭力。 二、資料探勘建模過程 定義挖掘目標:任務目標和完

Python資料分析挖掘實戰挖掘建模

常用的分類與預測演算法 1迴歸模型分類 1線性迴歸---自變數因變數線性關係,最小二乘法求解 2非線性迴歸--自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic迴

Python資料分析挖掘實戰(Pandas,Matplotlib常用方法)

作業系統:Windows Python:3.5 歡迎加入學習交流QQ群:657341423 上節講到資料分析和挖掘需要的庫,其中最主要的是Pandas,Matplotlib。 Pandas:主要是對資料分析,計算和統計,如求平均值,方差等。 Matplotl

Python資料分析挖掘實戰程式碼糾錯 程式碼3-1

我是通過這本書來開始學習資料探勘和分析,在目前學的內容中,發現了書上的程式碼有些地方是錯誤了,在此希望分享下我除錯好的程式碼,供大家參考,相互學習。 1、程式碼清單3-1 餐飲銷額資料異常值檢測程式碼 書上的程式碼如下: #-*- coding: utf-