Python資料科學：方差分析！

阿新 • • 發佈：2018-12-29

之前已經介紹的變數分析：

①相關分析：一個連續變數與一個連續變數間的關係。
②雙樣本t檢驗：一個二分分類變數與一個連續變數間的關係。

本次介紹：

方差分析：一個多分類分類變數與一個連續變數間的關係。

其中分類個數大於兩個，分類變數也可以有多個。

當分類變數為多個時，對分類個數不做要求，即可以為二分分類變數。

一、數理統計技術

數理統計分為頻率和貝葉斯兩大學派。

描述性統計分析，描述性分析就是從總體資料中提煉變數的主要資訊，即統計量。

描述性分析的難點在於對業務的瞭解和對資料的尋找。

統計推斷和統計建模，建立解釋變數與被解釋變數之間可解釋的、穩定的、最好是具有因果關係的表示式。

在模型運用時，將解釋變數(自變數)帶入表示式中，用於預測被解釋變數(因變數)的值。

現階段，我學習的就是統計推斷與建模的知識...

二、方差分析

方差分析用於檢驗多個樣本的均值是否有顯著差異。

探索多於兩個分類的分類變數與連續變數的關係。

比如說「淺談資料分析崗」中薪水與教育程度之間的關係，教育程度為一個多分類的分類變數。

01 單因素方差分析

單因素方差分析的前提條件：

①變數服從正態分佈(薪水符合)。
②觀測之間獨立(教育程度符合)。
③需驗證組間的方差是否相同，即方差齊性檢驗。

組間誤差與組內誤差、組間變異與組內變異、組間均方與組內均方都是方差分析中的衡量標準。

如果組間均方明顯大於組內均方，則說明教育程度對薪水的影響顯著。

那麼需要大多少才能確定結論呢?

這裡組間均方與組內均方的比值是服從F分佈，下面貼出F分佈曲線圖。

Python資料科學：方差分析！

其中橫座標為F值，即組間均方與組內均方的比值。

當F值越大時，即組間均方越大、組內均方越小，說明組間的變異大。

並且對應的P值也越小(縱軸)，便可以拒絕原假設(原假設為無差異)。

下面以「淺談資料分析崗」中薪水與教育程度為例。

Python資料科學：方差分析！

這裡我們只是直觀的看出薪水隨學歷的增長而增長，並沒有實實在在的東西。

接下來就用數字來說話!!!

程式碼如下，需要清洗資料。

from scipy import stats 
import pandas as pd 
import pymysql 
# 獲取資料庫資料 
conn = pymysql.connect(host='localhost', user='root', password='774110919', port=3306, db='lagou_job', charset='utf8mb4') 
cursor = conn.cursor() 
sql = "select * from job" 
df = pd.read_sql(sql, conn) 
# 清洗資料,生成薪水列 
dom = [] 
for i in df['job_salary']: 
 i = ((float(i.split('-')[0].replace('k', '').replace('K', '')) + float(i.split('-')[1].replace('k', '').replace('K', ''))) / 2) * 1000 
 dom.append(i) 
df['salary'] = dom 
# 去除無效列 
data = df[df.job_education != '不限'] 
# 生成不同教育程度的薪水列表 
edu = [] 
for i in ['大專', '本科', '碩士']: 
 edu.append(data[data['job_education'] == i]['salary']) 
# 單因素方差分析 
print(stats.f_oneway(*edu)) 
# 得到的結果 
F_onewayResult(statistic=15.558365658927576, pvalue=3.0547055604132536e-07)

得出結果，F值為15.5，P值接近於0，所以拒絕原假設，即教育程度會顯著影響薪水。

02 多因素方差分析

多因素方差分析檢驗多個分類變數與一個連續變數的關係。

除了考慮分類變數對連續變數的影響，還需要考慮分類變數間的互動效應。

這裡由於我的資料滿足不了本次操作，所以選擇書中的資料。

即探討信用卡消費與性別、教育程度的關係。

首先考慮無互動效應，程式碼如下。

import statsmodels.formula.api as smf 
import statsmodels.api as sm 
import pandas as pd 
# 讀取資料,skipinitialspace:忽略分隔符後的空白,dropna:對缺失的資料進行刪除 
df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True) 
df = df.dropna(how='any') 
# smf:最小二乘法,構建線性迴歸模型, 
ana = smf.ols('avg_exp ~ C(edu_class) + C(gender)', data=df).fit() 
# anova_lm:多因素方差分析 
print(sm.stats.anova_lm(ana))

輸出結果。

Python資料科學：方差分析！

可以看到教育程度的F值為31.57，P值趨近於0，拒絕原假設，即教育程度與平均支出有顯著差異。

性別的F值為0.48，P值為0.48，無法拒絕原假設，即性別與平均支出無顯著差異。

接下來考慮有互動效應，程式碼如下。

# 消除pandas輸出省略號情況 
pd.set_option('display.max_columns', 5) 
# smf:最小二乘法,構建線性迴歸模型 
anal = smf.ols('avg_exp ~ C(edu_class) + C(gender) + C(edu_class)*C(gender)', data=df).fit() 
# anova_lm:多因素方差分析 
print(sm.stats.anova_lm(anal))

輸出結果。

Python資料科學：方差分析！

這裡可以看出，考慮互動效應後，與教育程度及性別對應的F值和P值都發生了微小的改變。

其中教育程度和性別的互動項對平均支出的影響也是顯著的，F值為2.22，P值為0.09。

上面這個結論是書中所說的，那麼顯著性水平取的是0.1嗎???

這算是我理解不了的一部分。

下面是帶互動項的多元方差分析的迴歸係數，表格中所有資料都是以男性及研究生學歷作為基準去比對。

# 生成資料總覽 
print(anal.summary())

輸出結果。

Python資料科學：方差分析！

可以看出第一種教育程度的女性較男性研究生，信用卡消費的影響較顯著，P值為0.05。

原假設為無差異，拒絕原假設。

進群：960410445 即可獲取數十套PDF！

那麼這裡的顯著性水平取的也是0.1嗎???

第二種教育程度的女性較男性研究生，信用卡消費的影響顯著，P值為0.001。

第三種缺失，沒有引數估計。

三、總結

這裡總結一下各個檢驗的原假設。

單樣本t檢驗原假設：總體均值與假設的檢驗值不存在顯著差異(無差異)。
雙樣本t檢驗原假設：兩個樣本均值(二分變數下的均值)不存在顯著差異(無差異)。
方差分析原假設：多個樣本均值(多分變數下的均值)不存在顯著差異(無差異)。

說明原假設都是假設變數關係無顯著差異。

Python資料科學：方差分析！

之前已經介紹的變數分析： ①相關分析：一個連續變數與一個連續變數間的關係。 ②雙樣本t檢驗：一個二分分類變數與一個連續變數間的關係。本次介紹：方差分析：一個多分類分類變數與一個連續變數間的關係。其中分類個數大於兩個，分類變數也可以有多個。當分類變

精通Excel資料統計和分析 - 摘要（第4章：方差分析）

一、方差分析 4.1 簡介原因：方差分析又稱“變異數分析”，用於兩個及兩個以上的樣本的均數的差別的顯著性檢驗，由於各種因素的影響，研究所得的資料呈現波動狀，造成波動的原因分為兩類：不可控的隨機因素，研究中施加的可控因素。目的：方差分析的目的是通過資料分析找出對該

python做單因素方差分析

方差分析的主要功能就是驗證兩組樣本，或者兩組以上的樣本均值是否有顯著性差異，即均值是否一樣。這裡有兩個大點需要注意：①方差分析的原假設是：樣本不存在顯著性差異（即，均值完全相等）；②兩樣本資料無互動作用（即，樣本資料獨立）這一點在雙因素方差分析中判斷兩因素是否獨立時用。原理：方差分析的原理就一個方程：S

Python資料科學：Pandas Cheat Sheet

Key and Imports In this cheat sheet, we use the following shorthand: df | Any pandas DataFrame object s | Any pandas Series obje

GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

這篇文章重點介紹了5個數據科學專案，這些專案都是開源的，並且存在於GitHub儲存庫中，側重於高階機器學習庫和低階支援工具。本文將通過GitHub repos重點介紹一組精選的開源Python資料科學專案。之前的文章包括一些涵蓋AutoML、自然語言處理、資料視覺化、機器學習工作流程的庫。這一次，我們

python資料科學入門與分析

python資料科學入門與分析第二章資料科學的Python核心基本的內建str函式 1.print("hello".capitalize());將第一個字元轉化為大寫，其他字元轉化為小寫 2.print("hello world ".strip());

維基百科中的資料科學：手把手教你用Python讀懂全球最大百科全書

編譯：狗小白、李佳、張弛、魏子敏沒人否認，維基百科是現代最令人驚歎的人類發明之一。幾年前誰能想到，匿名貢獻者們的義務工作竟創造出前所未有的巨大線上知識庫？維基百科不僅是你寫大學論文時最好的資訊渠道，也是一個極其豐富的資料來源。從自然語言處理到監督式機器學習，維

資料探勘之方差分析實驗

本部落格根據非常好的excel資料而編寫，使用python語言操作，預計使用一週的時間更新完成。需要《非常好的excel資料》word文件，歡迎發郵件給[email protected]，免費發放。這篇部落格對應《非常好的excel資料》裡的第5章節。 1.1 單因素方差分析

SPSS：T檢驗、方差分析、非參檢驗、卡方檢驗的使用要求和適用場景

一、T檢驗 1.1 樣本均值比較T檢驗的使用前提正態性；（單樣本、獨立樣本、配對樣本T檢驗都需要）連續變數；（單樣本、獨立樣本、配對樣本T檢驗都需要）獨立性；（獨立樣本T檢驗要求）方差齊性；（獨立樣本T檢驗要求） 1.2 樣本均值比較T

Python 資料科學入門教程：Matplotlib

Matplotlib 入門教程第一章 Matplotlib 簡介歡迎閱讀 Python 3+ Matplotlib 系列教程。在本系列中，我們將涉及 Matplotlib 資料視覺化模組的多個方面。 Matplotlib 能夠建立多數型別的

Python 資料科學入門教程：Pandas

Python 和 Pandas 資料分析教程大家好，歡迎閱讀 Python 和 Pandas 資料分析系列教程。 Pandas 是一個 Python 模組，Python 是我們要使用的程式語言。Pandas 模組是一個高效能，高效率，高水平的資料分析庫。

Covariance 協方差分析

images var .cn htm baidu ima tps 分析 ges PDF文檔 https://wenku.baidu.com/view/1ad38cacc850ad02df80415d.html Covariance 協方差分析

方差分析法

分析法 tar 需要 strong tlab tla 不同類工程 tro 前言工程實現的過程中需要對提取的特征指標進行有效性分析，評價各個特征指標與不同類別的顯著性關系，篩選出對不同類別判別貢獻率最佳的指標，為設計分類器等提供支持。本文主要針對單因子方差分析法。實現

R語言-方差分析

評估 car 方差 bsp rac 一個 grey pla span 方差分析指的是不同變量之間互相影響從而導致結果的變化 1.單因素方差分析: 　　案例:50名患者接受降低膽固醇治療的藥物,其中三種治療條件使用藥物相同(20mg一天一次,10mg一天兩次,5mg一天四次)

數字特征：方差

變量怎樣部分 sigma 標準期望 1.4 密度 QQ 【引入】有一批燈泡，知其平均壽命是 $E(X)=1000$ （小時）。僅由這一指標我們還不能判定這批燈泡的質量好壞。事實上，有可能其中絕大部分燈泡的壽命都在950~1050小時；也有可能其中約有一半是高質量

Python大數據：信用卡逾期分析

OS odi tuple his cat 歷史 true .py ade # -*- coding:utf-8 -*- # 數據集成 import csv import numpy as np import pandas as pd import matp

ANOVA | 方差分析

href IE .com pap 現在 tps www 問題使用老早就看見過ANOVA這個單詞了，也沒去查是什麽意思，今天要用了，一百度居然是方差分析。統計學基礎：假設檢驗可以用於比較單組、兩組之間的均值和方差的差異，那到三組及以上怎麽辦？那就是方差分析了，最最

SPSS-方差分析

沒有差異基本概念控制 src 研究 color ima 檢驗方差分析（單因素方差分析、多因素方差分析、協方差分析）基本概念：進行兩組以上均數的比較，檢驗兩個或兩個以上樣本均數差別的顯著性（T檢驗主要是檢驗兩個樣本均數差別的顯著性

Python——資料儲存：JSON操作

　　JSON格式的資料格式廣泛使用在各種應用中，比XML格式更輕量級，所以現在很多應用都選擇JSON格式儲存資料，尤其是需要通過網路傳輸（如socket傳輸）資料時，這對於移動應用更具有優勢。JSON格式資料比XML格式的資料量更小，所以傳輸速度更快，也更節省資料流量（省錢），因此，在移動APP應用中，幾乎都

《Python資料科學手冊》高清中文版PDF+高清英文版PDF+原始碼

下載：https://pan.baidu.com/s/1RDTQxG3vjG2xGsX4Mx-5KA 最新出版的《Python資料科學手冊》。《Python資料科學手冊》高清中文版PDF+高清英文版PDF+原始碼高清中文版PDF，474頁，帶目錄和書籤，能夠複製貼上；高清英文版PDF，548頁，帶目

Python資料科學：方差分析！

相關推薦