Python數據挖掘—回歸—邏輯回歸

阿新 • • 發佈：2018-10-04

dsl type near vid sselect pan input dia 取數

概念

針對因變量為分類變量而進行回歸分析的一種統計方法，屬於概率型非線性回歸

　　優點：算法易於實現和部署，執行效率和準確度高

　　缺點：離散型的自變量數據需要通過生成虛擬變量的方式來使用

在線性回歸中，因變量是連續性變量，那麽線性回歸能根據因變量和自變量存在的線性關系來構造回歸方程，因變量變成分類變量後就不存在這種關系了，需通過對數變換來進行處理（Sigmoid函數）

步驟：

1、讀取數據；

import pandas
from pandas import read_csv

data=read_csv(
    "C:\\Users\\Jw\\Desktop\\python_work\\Python數據挖掘實戰課程課件\\4.4\\data.csv 
",
    encoding="utf-8")

data=data.dropna()

dummyColumns=()

data.shape

2、處理字符型和大小無關的字段，如果字段有可比性，可進行大小比較，然後調用map一一映射，將離散型數據轉化為數值型數據

　　首先處理字符類型和大小無關的字段

#首先處理字符類型和大小無關的字段
dummyColumns=[
    ‘Gender‘,‘Home Ownership‘,
    ‘Internet Connection‘, ‘Marital Status‘,
    ‘Movie Selector‘, ‘Prerec Format 
‘, ‘TV Signal‘]
    
for column in dummyColumns:
    data[column]=data[column].astype(‘category‘)
    

dummiesData=pandas.get_dummies(
        data,
        columns=dummyColumns,
        prefix=dummyColumns,
        prefix_sep=" ",  #列名和屬性值之間的分割符號
        drop_first=True)  #根據特征列建模，為避免模型共軛，只選取一列

data.Gender.unique()    
#去重

dummiesData.columns   #獲取所有列

　　處理字符類型和大小有關的字段，然後使用map一一映射

#有可比性，可進行大小比較
educationLevelDict={
    ‘Post-Doc‘: 9,
    ‘Doctorate‘: 8,
    ‘Master\‘s Degree‘: 7,
    ‘Bachelor\‘s Degree‘: 6,
    ‘Associate\‘s Degree‘: 5,
    ‘Some College‘: 4,
    ‘Trade School‘: 3,
    ‘High School‘: 2,
    ‘Grade School‘: 1
    }
    
#調用map一一映射，將離散型數據轉化為數值型數據
dummiesData["Education Level Map"]=dummiesData[‘Education Level‘].map(educationLevelDict)


freqMap={
    ‘Never‘:0,
    ‘Rarely‘: 1,
    ‘Monthly‘: 2,
    ‘Weekly‘: 3,
    ‘Daily‘: 4}
    
dummiesData[‘PPV Freq Map‘]=dummiesData[‘PPV Freq‘].map(freqMap)
dummiesData[‘Theater Freq Map‘] = dummiesData[‘Theater Freq‘].map(freqMap)
dummiesData[‘TV Movie Freq Map‘] = dummiesData[‘TV Movie Freq‘].map(freqMap)
dummiesData[‘Prerec Buying Freq Map‘] = dummiesData[‘Prerec Buying Freq‘].map(freqMap)
dummiesData[‘Prerec Renting Freq Map‘] = dummiesData[‘Prerec Renting Freq‘].map(freqMap)
dummiesData[‘Prerec Viewing Freq Map‘] = dummiesData[‘Prerec Viewing Freq‘].map(freqMap)

3、選取自標量和因變量，縣選取所有列，然後一一查看選擇

 1 #選取自變量和因變量
 2 dummiesData.columns
 3 
 4 #先選取所有列，然後一一查看選擇
 5 dummiesSelect = [
 6     ‘Age‘, ‘Num Bathrooms‘, ‘Num Bedrooms‘, ‘Num Cars‘, ‘Num Children‘, ‘Num TVs‘, 
 7     ‘Education Level Map‘, ‘PPV Freq Map‘, ‘Theater Freq Map‘, ‘TV Movie Freq Map‘, 
 8     ‘Prerec Buying Freq Map‘, ‘Prerec Renting Freq Map‘, ‘Prerec Viewing Freq Map‘, 
 9     ‘Gender Male‘,
10     ‘Internet Connection DSL‘, ‘Internet Connection Dial-Up‘, 
11     ‘Internet Connection IDSN‘, ‘Internet Connection No Internet Connection‘,
12     ‘Internet Connection Other‘, 
13     ‘Marital Status Married‘, ‘Marital Status Never Married‘, 
14     ‘Marital Status Other‘, ‘Marital Status Separated‘, 
15     ‘Movie Selector Me‘, ‘Movie Selector Other‘, ‘Movie Selector Spouse/Partner‘, 
16     ‘Prerec Format DVD‘, ‘Prerec Format Laserdisk‘, ‘Prerec Format Other‘, 
17     ‘Prerec Format VHS‘, ‘Prerec Format Video CD‘, 
18     ‘TV Signal Analog antennae‘, ‘TV Signal Cable‘, 
19     ‘TV Signal Digital Satellite‘, ‘TV Signal Don\‘t watch TV‘
20 ]
21 
22 inputData=dummiesData[dummiesSelect]   #自變量
23 
24 
25 outputData=dummiesData[["Home Ownership Rent"]]   #因變量

4、建模、訓練、評分

1 #建模、訓練
2 from sklearn import linear_model
3 
4 lrModel=linear_model.LogisticRegression()
5 
6 lrModel.fit(inputData,outputData)
7 
8 lrModel.score(inputData,outputData)

5、預測（因為邏輯回歸所用的參數是經過虛擬變量處理過的，所以新數據也許通過處理才能進行預測）

 1 #因為邏輯回歸所用的參數是經過虛擬變量處理過的，需對新的數據進行預測，要先處理新數據
 2 newData=read_csv(
 3     "C:\\Users\\Jw\\Desktop\\python_work\\Python數據挖掘實戰課程課件\\4.4\\newData.csv",
 4     encoding="utf-8")
 5 
 6 for column in dummyColumns:
 7     newData[column]=newData[column].astype(
 8         "category",
 9         categories=data[column].cat.categories)
10     
11 newData=newData.dropna()
12 
13 
14 newData[‘Education Level Map‘] = newData[‘Education Level‘].map(educationLevelDict)
15 newData[‘PPV Freq Map‘] = newData[‘PPV Freq‘].map(freqMap)
16 newData[‘Theater Freq Map‘] = newData[‘Theater Freq‘].map(freqMap)
17 newData[‘TV Movie Freq Map‘] = newData[‘TV Movie Freq‘].map(freqMap)
18 newData[‘Prerec Buying Freq Map‘] = newData[‘Prerec Buying Freq‘].map(freqMap)
19 newData[‘Prerec Renting Freq Map‘] = newData[‘Prerec Renting Freq‘].map(freqMap)
20 newData[‘Prerec Viewing Freq Map‘] = newData[‘Prerec Viewing Freq‘].map(freqMap)
21 
22 
23 dummiesNewData=pandas.get_dummies (
24         newData,
25         columns=dummyColumns,
26         prefix=dummyColumns,
27         prefix_sep=" ",
28         drop_first=True)
29 
30 inputNewData = dummiesNewData[dummiesSelect]
31 
32 lrModel.predict(inputData)

Python數據挖掘—回歸—邏輯回歸

dsl type near vid sselect pan input dia 取數概念針對因變量為分類變量而進行回歸分析的一種統計方法，屬於概率型非線性回歸　　優點：算法易於實現和部署，執行效率和準確度高　　缺點：離散型的自變量數據需要通過生成虛擬變量的方式來使用

Python數據挖掘—回歸—一元非線性回歸

python 顯示 mil source 地址 false eight 數據集 for 1、使用scatter_matrix判斷個特征的數據分布及其關系散步矩陣(scatter_matrix) Pandas中散步矩陣的函數原理 1 def scatter_matrix(

Python數據挖掘—回歸—神經網絡

format 數據挖掘 school dsl iat pri sch ora view 概念：神經網絡：全稱為人工神經網絡，是一種模仿生物神經網絡（動物的中樞神經系統，特別是大腦）的結構和功能的數學模型或計算模型生物神經網絡：神經細胞是構成神經系統的基本單元，稱為生物神

Python數據挖掘—回歸—貝葉斯分類

方程分享圖片 users pytho afr port code ike 設置 pandas之get_dummies 方法：pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=

R語言數據挖掘中的，“回歸分析”是如何操作的？

r數據挖掘分析技術高級公開課回歸分析是對多個自變量(又稱為預測變量)建立一個函數來預測因變量(又稱為響應變量的值)。例如，銀行根據房屋貸款申請人的年齡、收入、開支、職業、負擔人口，以及整體信用限額等因素，來評估申請人的房貸風險。線性回歸線性回歸是利用預測變量的一個線性組合函數，來預測響應變量

python 第一周（第一天）我的python成長記一個月搞定python數據挖掘！

__name__ -c pass class port .py contact 成長 class a python代碼的組織方式： .py 文件模塊文件樣式： #!/usr/bin/python#-*-coding:utf8-*- """@author: yugengde

python 第一周（第三天）我的python成長記一個月搞定python數據挖掘！(04)

數字 date .get raw dict 元素 upd 轉換成 efault 字符串 str 和 unicode str 字節流 unicode 字符流 (中文，英文，等等) => 如何轉換成計算機中的01代碼呢？　　出現了編碼 ascii, iso8859

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(14)

num print 數據 span python rate string spa rom from lxml import etreedoubanhtml = ‘‘‘‘‘‘doc = etree.fromstring(doubanhtml)for eachbook in d

python 第二周（第八天）我的python成長記一個月搞定python數據挖掘！(15)

center project ron 高層 web 快速 art start mes scrapy爬蟲企業級爬蟲：python開發的一個快速，高層次的web抓取框架，用於抓取web站點並從頁面提取結構化的數據。 scrapy用途廣泛，可用於數據挖掘，數據監測和自動化測試

python 第二周（第十一天）我的python成長記一個月搞定python數據挖掘！(19) -scrapy + mongo

msg 步驟 [0 ssi xtra tin perl overflow tab mongoDB 3.2之後默認是使用wireTiger引擎在啟動時更改存儲引擎：　　mongod --storageEngine mmapv1 --dbpath d:\data\db 這

Python數據挖掘與機器學習技術入門實戰

機器學習摘要：什麽是數據挖掘？什麽是機器學習？又如何進行Python數據預處理？本文將帶領大家一同了解數據挖掘和機器學習技術，通過淘寶商品案例進行數據預處理實戰，通過鳶尾花案例介紹各種分類算法。課程主講簡介：韋瑋，企業家，資深IT領域專家/講師/作家，暢銷書《精通Python網絡爬蟲》作者，阿裏雲社區技術

python數據挖掘

自己 .data 表示 print nts 集合方法 child lse 數據挖掘旨在讓計算機根據已有數據做出決策。數據挖掘的第一步一般是創建數據集，數據集能夠描述真實世界的某一方面。數據集主要包括1.表示真實世界中物體的樣本。2.描述數據集中樣本的特征接下來是調整算

python數據挖掘（從數據集中抽取特征）

lec 刪除 nsf clas 世界創建模型 efault TP join 大多數數據挖掘算法都依賴於數值或類別型特征，從數據集中抽取數值和類別型特征，並選出最佳特征。特征可用於建模，模型以機器挖掘算法能夠理解的近似的方式來表示現實特征選擇的另一個優點在於：降低真實

Python數據挖掘(爬蟲強化)

雙擊分享圖片 tex .org ima 登錄 value 什麽事屬性（我喜歡雨天，因為雨天我可以回到童年踩水花！哈！） 2018年 --7月--12日：多雲又暴雨 T—T 前言我要把爬蟲的終極利器介紹一下，這個只要是我們肉眼能看到的，就算在

Python數據挖掘-中文分詞

index 一個 ins 模塊字典 pytho 漢字 font afr 將一個漢字序列切分成一個一個單獨的詞安裝分詞模塊： pip install jieba 分詞在特殊場合的實用性，調用add_word()，把我們要添加的分詞加入jieba詞庫高效方法：將t

Python數據挖掘-詞頻統計-實現

pytho row str dict err 金庸 nump 由於 dir 詞頻：某個詞在該文檔中出現的內容 1、語料庫搭建 import jieba jieba.load_userdict("D:\\Python\\Python數據挖掘\\Python數據挖掘實戰課

Python數據挖掘-詞雲

pen agg val nump columns 背景 sort wordcloud 分享圖片詞雲繪制 1、語料庫的搭建、分詞來源、移除停用詞、詞頻統計使用方法：os.path.join(path,name) #連接目錄與文件名或目錄結果為path/name

Python數據挖掘-詞雲美化

round edge ner hit 數據 odin fit segments content 1、語料庫構建由於不像之前是對很多個文件進行詞頻統計，所以不需要使用os.walk()方法遍歷每一個文件；只需使用codecs.open()打開相應的文件，(記得close)

Python數據挖掘-相關性-相關分析

bsp 相關系數 div 相關性公式 nbsp font style afr 所需模塊 numpy、pandas 相關系數計算首先使用numpy.mean()方法求出均值，Xsd=numpy.std()方法求出標準差；然後在通過(X-Xmean)/Xsd公式求出z分數

Python數據挖掘—特征工程—特征選擇

from res 6.2 最好的 python features import 方差過多如何選擇特征根據是否發散及是否相關來選擇方差選擇法先計算各個特征的方差，根據閾值，選擇方差大於閾值的特征方差過濾使用到的是VarianceThreshold類，該類有個參數t

Python數據挖掘—回歸—邏輯回歸

概念

步驟：

1、讀取數據；

2、處理字符型和大小無關的字段，如果字段有可比性，可進行大小比較，然後調用map一一映射，將離散型數據轉化為數值型數據

3、選取自標量和因變量，縣選取所有列，然後一一查看選擇

4、建模、訓練、評分

5、預測（因為邏輯回歸所用的參數是經過虛擬變量處理過的，所以新數據也許通過處理才能進行預測）

相關推薦