單因子分析 python 實現

阿新 • • 發佈：2019-01-05

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np

## 讀取資料
df = pd.read_csv("./HR.csv", header=0)

# 檢視資料結構
summary = df.describe()

# 求均值
row_mean = df.mean(axis=1)
col_mean = df.mean()

# 選擇資料
## 列
print(df["satisfaction_level"].head())
print(df[0:3])

## 標籤
print(df.loc[0:3])
print(df.loc[0, ["satisfaction_level"]])


### 1
### 異常值分析
### 空值處理
sl_l = df["satisfaction_level"]
df[df['satisfaction_level'].isnull()]
#print(sl_l.isnull())
print(sl_l.isnull().sum())
print(sl_l[sl_l.isnull()])
## 對空值的填充
#print(sl_l.fillna(value=5))

## 對空值的丟棄
#print(sl_l.dropna(how="any"))
sl_l = sl_l.dropna(how="any")


### 2
### 資料過大、過小異常處理
le_s = df['last_evaluation']
le_s[le_s.isnull()]
le_s.isnull().sum()

## 偏度
le_s.skew()
## 峰度
le_s.kurt()

## 連續異常值處理方式(取四分位上下界)
#（1） le_s = le_s[le_s <= 1]
q_low = le_s.quantile(q=0.25)
q_high = le_s.quantile(q=0.75)
q_interval = q_high - q_low
k = 1.5

### 資料篩選
le_s = le_s[le_s<q_interval+k*q_interval][le_s>q_low-k*q_interval]

### 分佈情況
np.histogram(le_s.values,bins=np.arange(0.0, 1.1,0.1 ))

### 3
## 排序
np_s = df['number_project']
np_s.value_counts(normalize=True).sort_index()

### 4 分佈情況
pl5_s = df['promotion_last_5years']
pl5_s.value_counts()
pl5_s.value_counts(normalize=True)

## 5 條件篩選
s_s = df['salary']
s_s.where(s_s!=="nme").dropna()


### 總結 
# 去空值
df = pd.read_csv("./HR.csv", header=0)
df = df.dropna(axis=0,how='any')

df[df['last_evaluation']<=1][df['salary']!='nme']
le_s = df['last_evaluation']
q_low = le_s.quantile(q=0.25)
q_high = le_s.quantile(q=0.75)
q_interval = q_high - q_low
k=1.5
le_s = le_s[le_s<k*q_interval+q_high][le_s>k*q_interval-q_low]
df[le_s<k*q_interval+q_high][le_s>k*q_interval-q_low][df['salary']!='nme']
簡單對比分析
df.groupby("department").mean()

待續。。。

單因子分析 python 實現

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import pandas as pd import numpy as np ## 讀取資料 df = pd.read_csv("./HR.csv", header=0) # 檢視資料結構 summar

PCA主成分分析Python實現

more 公式最大最重要的例如好的 mina details args 作者：拾毅者出處：http://blog.csdn.net/Dream_angel_Z/article/details/50760130 Github源代碼：https

資料探勘之推薦分析--python實現

# # FILTERINGDATA.py # # Code file for the book Programmer's Guide to Data Mining # http://guidetodatamining.com # Ron Zacharski # #

House Robbing演算法分析-Python實現

問題描述 Money robbing A robber is planning to rob houses along a street. Each house has a certain amount of money stashed, the only constrai

數值分析Python實現系列—— 一、拉格朗日插值法

spa [] matplot rabl func 例子 imp 基函數 tools 一、拉格朗日插值法 1.原理: 拉格朗日插值法:給定n個觀測值(xk,yk)找到一組(n個)基函數 lk(x) , 使得L(x) 為這組基函數的線性組合,並且使得L(x)是經過這些點的多項

數值分析Python實現系列—— 二、逐次超松弛叠代法(SOR)

nump display count 每一個 pre matrix imp 記錄 nal 二、超松弛叠代法(SOR) 1.原理: ? 回顧: ? 在一般情況下 : 收斂過慢甚至不收斂的\(B\)與\(f\),經過對系數矩陣\(A\)分裂成\(A = M - N\)的形式,

[Python資料分析] 2-單因子探索分析與視覺化

I.理論部分 1)概念相關：集中趨勢：均值，中位數，眾數，分位數離中趨勢：標準差，方差資料分佈：偏度係數，峰度係數，正態分佈，三大分佈抽樣理論：抽樣誤差(確定樣本量)、抽樣精度 2)資料分類定類(類別)：根據事物離散，無差別屬性進行的分類。性別，民族定序(

【機器學習算法-python實現】PCA 主成分分析、降維

pre gre text iss 主成分分析 int 找到 nts 導入 1.背景 PCA(Principal Component Analysis)，PAC的作用主要是減少數據集的維度，然後挑選出基本的特征。 PCA的主要思想是移動坐標軸，找

python實現綠色軟件的升級，包括單文件升級和多文件升級

odi dev argv odin txt 註意 store isf out # coding:utf-8 import sys, os, time import zipfile import shutil def print_usage(): print ‘

Python 實現單例模式

python 單例模式 Python 實現單例模式 # 使用Python實現單例模式 # 方法一: 使用__new__方法 class SingleTon(object): def __new__(cls, *args, **kwargs): if not ha

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

python-實現3級菜單（作業課）

大頁 max 退出廣州 += 2級菜單 span -- 顯示 1 #任務： 2 #顯示3級菜單 3 #1級菜單#顯示 3個城市 => 1北京 2上海 3廣州 4 #2級菜單 #顯示選擇1 北京 => B1 B2 B3 5 #2級菜單 #顯示

python實現單例模式

一次 color 中大我們浪費 python實現判斷內存 () 有這麽一種場景，我們把數據封裝到類體或類的某個方法裏，然而我們new出這個類只是為了拿到這部分數據，那麽當多次這樣調用的時候，每次都來拿數據並放到內存中大大浪費了內存。那我們就可以想，我們拿到一次數據

Google雙因子認證python最好的實現

.sh 最好 object nop key dom src sel pla 這個版本應該是最好的實現，在這個上面增加四個時間點，可以用in方式進行判斷避免出錯。 @代碼的註釋其實就是最好的說明 class _GoogleTwoSetpAuth(object): ‘

常用排序算法的python實現和性能分析

pos 算法復雜度信息環比數組長度暫時並且直接排序 win 作者：waterxi 原文鏈接一年一度的換工作高峰又到了，HR大概每天都塞幾份簡歷過來，基本上一天安排兩個面試的話，當天就只能加班幹活了。趁著面試別人的機會，自己也把一些基礎算法和一些面試題整了一

編譯原理實驗：實驗一簡單詞法分析程序設計（必修）(Python實現)

it is 括號 ali 鍵盤輸入優化沒有 mce constant 是否一、實驗目的了解詞法分析程序的基本構造原理，掌握詞法分析程序的手工構造方法。二、實驗內容 1、了解編譯程序的詞法分析過程。 2、根據PASCAL語言的說明語句形式，用手工方法構造一個對說明語

利用Python實現的一個自動群發或單發郵件的小腳本！（SMTP協議）

成功負責 mail 發現腳本服務器編碼 SM 比較 python3、利用SMTP實現自動發送郵件！　　首先聲明，這個是偶然從別人的博客裏發現的，覺得比較有趣，就自身親自嘗試了一番，在此做了點兒比較詳細的整理和一點點小小的優化！此處為原博客的鏈接地址！　　http

python實現歸並排序，歸並排序的詳細分析

運行歸並 right www. 添加 and 但是追加分析學習歸並排序的過程是十分痛苦的。它並不常用，看起來時間復雜度好像是幾種排序中最低的，比快排的時間復雜度還要低，但是它的執行速度不是最快的。很多朋友不理解時間復雜度低為什麽運行速度不一定快，這個不清楚的

Python實現三級菜單

append google 取出 Go 依次 utf article spa 退出需求：可依次選擇進入各子菜單可從任意一層往回退到上一層可從任意一層退出程序所需新知識點：列表、字典只用一個while循環 1 #! -*-

Python設計模式中單例模式的實現及在Tornado中的應用

實例類變量 attribute rap all wrap 線程 ++ 出現單例模式的實現方式將類實例綁定到類變量上 class Singleton(object): _instance = None def new(cls, *args): if not isinst

單因子分析 python 實現

相關推薦