利用pandas的box_plot來去除異常值

阿新 • • 發佈：2018-12-14

#-*- coding:utf-8 _*-  
""" 
@author:Administrator
@file: standard_process.py
@time: 2018/8/9
"""
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sys
import os
import seaborn as sns
from sklearn.preprocessing import StandardScaler
'''
通過box_plot(盒圖來確認）異常值
'''

# 獲取專案根目錄
input_data_path = os.path.dirname(os.path.dirname(os.getcwd())) + '/input/'
print(input_data_path)

# 獲取資料得位置
month_6_train_path = input_data_path +'month_6_1.csv'
month_6_test_path = input_data_path + 'test_data_6_1.csv'

# 讀取資料
data_train = pd.read_csv(month_6_train_path)
data_test = pd.read_csv(month_6_test_path)

# print(data_train.head())
# print(data_test.head())

# 暫時不考慮省份城市地址
# 月份只有一個月，暫時不考慮
# bedrooms 需要看成分型別得資料
# 只取出longitude，latitude，price，buildingTypeId,bedrooms,daysOnMarket


# 取出這些資料；
# train = data_train[['longitude', 'latitude', 'price', 'buildingTypeId', 'bedrooms', 'daysOnMarket']]
# train= train.dropna()
train = data_test[['longitude', 'latitude', 'price', 'buildingTypeId', 'bedrooms', 'daysOnMarket']]
print(train.head())
# print(test.head())
# print(train.isna().sum())
# sns.pairplot(train)
# # sns.pairplot(test)
# plt.show()


# 特徵清洗：異常值清理用用箱圖；
# 分為兩步走，一步是單列異常值處理，
# 第二步是多列分組異常值處理
def remove_filers_with_boxplot(data):
    p = data.boxplot(return_type='dict')
    for index,value in enumerate(data.columns):
        # 獲取異常值
        fliers_value_list = p['fliers'][index].get_ydata()
        # 刪除異常值
        for flier in fliers_value_list:
            data = data[data.loc[:,value] != flier]
    return data

print(train.shape)
train = remove_filers_with_boxplot(train)
print(train.shape)

'''
以上得異常值處理還不夠完善，
完善的異常值處理是分組判斷異常值，
也就是他在單獨這一列種,還有一種情況是多餘不同的分類，他是不是存在異常
所以就需要用到分組獲取資料再箱圖處理掉異常資料；
'''
train = train[pd.isna(train.buildingTypeId) != True]
print(train.shape)

print(train['bedrooms'].value_counts())
'''
3.0    8760
2.0    5791
4.0    5442
1.0    2056
5.0    1828
6.0     429
0.0     159
7.0      82
由於樣本存在不均衡得問題：所以只採用12345資料：也就是說去掉0，7，6，到時候測試資料也要做相同得操作；
還有一種是通過下采樣或者是上取樣的方式進行，這裡暫時不考慮；
'''
# 只取bedrooms 為1，2，3，4，5 得資料
train = train[train['bedrooms'].isin([1,2,3,4,5])]
print(train.shape)


# 利用pivot分組後去掉異常點
def use_pivot_box_to_remove_fliers(data,pivot_columns_list,pivot_value_list):
    for column in pivot_columns_list:
        for value in pivot_value_list:
            # 獲取分組的dataframe
            new_data = data.pivot(columns=column,values=value)
            p = new_data.boxplot(return_type='dict')
            for index,value_new in enumerate(new_data.columns):
                # 獲取異常值
                fliers_value_list = p['fliers'][index].get_ydata()
                # 刪除異常值
                for flier in fliers_value_list:
                    data = data[data.loc[:, value] != flier]
    return data


# train = use_pivot_box_to_remove_fliers(train,['buildingTypeId','bedrooms'],['price','daysOnMarket','longitude','latitude'])
print(train.shape)
# print(train.isna().sum())

# 以上就不考慮longitude和latitude的問題了；應為房屋的型別以及房間個數和經緯度關係不大,但是也不一定，
# 實踐了一下加上longitude和latitude之後樣本資料並沒有減少；

# sns.pairplot(train)
# plt.show()

# 先進一步做處理將緯度小於40的去掉
train = train[train.latitude>40]

# --------------------------------》》》
# 對於數值型別得用均值填充，但是在填充之前注意一些原本就是分型別資料得列
# def fill_na(data):
#     for column in data.columns:
#         if column.dtype != str:
#             data[column].fillna(data[column].mean())
#     return data

# 以上是異常值，或者是離群點的處理，以及均值填充資料
# 下面將根據catter圖或者是hist圖來處理資料


# # 標準化資料
# train = StandardScaler().fit_transform(train)
# # 標準化之後畫圖發現數據分佈並沒有變
#
# sns.pairplot(pd.DataFrame(train))
# plt.show()

'''
1:迴圈遍歷整個散點圖用剛才寫好的演算法去除點；
'''

# 獲取
# def get_outlier(x,y,init_point_count ,distance,least_point_count):
#     x_outliers_list = []
#     y_outliers_list = []
#     for i in range(len(x)):
#         for j in range(len(x)):
#              d =np.sqrt(np.square(x[i]-x[j])+np.square(y[i]-y[j]))
#              # print('距離',d)
#              if d <= distance:
#                 init_point_count +=1
#         if init_point_count <least_point_count+1:
#             x_outliers_list.append(x[i])
#             y_outliers_list.append(y[i])
#             print(x[i],y[i])
#         init_point_count =0
#     return x_outliers_list,y_outliers_list
#
# def circulation_to_remove_outliers(data,list_columns=['longitude','latitude','price','daysOnMarket',]):
#     for column_row in list_columns:
#         for column_col in list_columns:
#             if column_row != column_col:
#                 x = list(data[column_row])
#                 y = list(data[column_col])
#                 x_outliers_list ,y_outliers_list = get_outlier(x,y,0,0.01,2)
#                 for x_outlier in x_outliers_list:
#                     data = data[data.loc[:, column_row] != x_outlier]
#                 for y_outlier in y_outliers_list:
#                     data = data[data.loc[:, column_col] != y_outlier]
#     return data
#
# train = circulation_to_remove_outliers(train)
#
# print(train.shape)






# def get_outlier(x,y,init_point_count ,distance,least_point_count):
#     for i in range(len(x)):
#         for j in range(len(x)):
#              d =np.sqrt(np.square(x[i]-x[j])+np.square(y[i]-y[j]))
#              # print('距離',d)
#              if d <= distance:
#                 init_point_count +=1
#         if init_point_count <least_point_count+1:
#             print(x[i],y[i])
#         init_point_count =0
#
# get_outlier(train['longitude'],train['latitude'],0,0.3,1)








# sns.pairplot(train)
# plt.show()
# train = train.dropna()
# print(train.tail())
# train.to_csv('./finnl_processing_train_data_6_no_remove_outliers_test.csv',index=False)

利用pandas的box_plot來去除異常值

#-*- coding:utf-8 _*- """ @author:Administrator @file: standard_process.py @time: 2018/8/9 """ import pandas as pd import numpy as np import matplo

IIS7下php運行環境的搭建（巧妙利用phpmanger來搭建php）

msvc png 環境 php5.6 eight php .dll 新的過程　　最近在window server2008上開發php項目，web服務器就用了win上內置的IIS服務器來搭建，可是一路坑，搭了幾次都不成功。翻閱網上資料，原來IIS 上可以利用phpmang

C#利用反射來判斷對象是否包含某個屬性的實現方法

是否 npr nbsp pro bsp str return ram ret 本文實例展示了C#利用反射來判斷對象是否包含某個屬性的實現方法，對於C#程序設計人員來說有一定的學習借鑒價值。具體實現代碼如下： 1 /// <summary> 2 /// 利

利用JS來改變div的高度

eight get block tex font lec textarea style cnblogs var contextBlockHeight = document.getElementById(‘contextBlock‘).clientHeight; if (

Android應用利用超聲波來獲取用戶隱私

android 軟件開發超聲波谷歌北京時間5月8日上午消息，德國布倫瑞克工業大學研究人員近期發表的一篇論文顯示，谷歌應用商店中的200多款應用利用人耳無法聽見的超聲波去追蹤用戶。這些應用被累計下載了數百萬次，可能對用戶的隱私構成威脅。近1年前，應用開發商SilverPush曾在電視廣告中

利用STM32CubeMX來生成USB_HID_Mouse工程【添加ADC】（1）

page perf stm32cube ets lar hid data before variable 現在原來的基礎上添加ADC的功能。現在(利用STM32CubeMX來生成USB_HID_Mouse工程)基礎上新增硬件 JoyStick Shield 遊戲搖桿擴展板

利用.pbk來實現ADSL開機自動撥號

ras 利用 ros 提示 net 下載 name 實現 dial 當你新建撥號連接或者VPN連接之後在你的電腦裏會創建一個.pbk的文件這個.pbk的文件可以說是一個集合，將你電腦的所有連接都保存在一起。同時你還可以將此連接復制起來傳給其他人。系統默認的.pbk的

利用pyusb來查詢當前所以usb設備

python idv use usr stdout == span inf 情況具體代碼如下 #!/usr/bin/python import sys import usb.core # find USB devices dev = usb.core.find(find

利用STM32CubeMX來生成USB_HID_host工程

stm32 mage ges 技術分享 img deb 分享 nbsp es2017 修改時鐘(備註這邊使用25mhz的主晶振) 選擇debug_level等級為3 利用STM32CubeMX來生成USB_HID_host工程

[05] 利用private來封裝

調用方法必須屬性和方法 src 隱藏發的屬性 if語句可能我們知道，面向對象開發的三大特點是：封裝性、繼承性、多態性所謂封裝性，實際上是表達了一種信息隱藏。從表面上來闡述，就是使用private修飾符來對屬性或者方法進行信息隱藏，而使用public的方法控制訪問

利用async和await異步操作解決node.js裏面fs模塊異步讀寫，同步結果的問題

地獄一個 cnblogs resolv 我們瀏覽器問題分開不容易 async await 解決異步問題，這兩個關鍵字是es7提出的，所以測試，node和瀏覽器版本提高一些 async await 操作基於promise實現的 async await這兩個關鍵字

利用反射來自動生成簡單的接口文檔

oid null ttr 自動 get 接口測試 hashmap obj exception 一：簡介以前做項目提供接口時，每一個接口文檔都是手寫，手寫接口文檔有很多不足，比如:寫接口文檔比較消耗時間，參數首字母是小寫，如果將參數直接復制到word文檔,第一個

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素

利用URLConnection來發送POST和GET請求

出現異常 spa 一個 tle span new 發送緩沖 all URL的openConnection()方法將返回一個URLConnection對象，該對象表示應用程序和 URL 之間的通信鏈接。程序可以通過URLConnection實例向該URL發送請求、讀取URL

利用eval()來“欺騙”JavaScript詞法作用域

代碼 rip foo 如果 color 動態 clas pos 不同的我們知道，所謂“詞法作用域”就是按照代碼書寫時的樣子內部函數可以訪問函數外部的變量，如果函數外存在函數內所具有的同名變量，則函數內部要獲取該同名變量的值會屏蔽掉函數外的同名變量（本來就是兩個不同的變量，

在Angular中利用trackBy來提升性能

trac () str -m return info 新的第一個大量在Angular的模板中遍歷一個集合（collection）的時候你會這樣寫： <ul> <li *ngFor="let item of collection">{{ite

【Python】學習筆記5-利用flask來mock接口

入口輸出端口號 delet app file log asc conf # 1、mock接口# import flask #python的輕量級的開發框架# # 接口，後臺服務的開發# # 在瀏覽器運行http://127.0.0.1:8080/get_user即可，或

利用Gpg4win來打造一個安全的加密文件

也不能剛才工具是我沒有自己 tar aaa 一定的出於工作需要，最近我在研究文件加密，正好找個工具說一說。加密工具簡述加密工具基於算法模式，一般分兩類，一類是對稱加密，一種是非對稱加密。前者加密和解密使用一套密鑰，常用於密碼式加密；後者非對稱加密，加密和解密

利用guava來實現本地的cache緩存

end 時間 ini pan ogl 代碼 ret print get guava是谷歌提供的工具類，功能強大，舉個例子，我我想把數據存到本地，該咋辦？我們想到的只有是全局的Map和session中。如果我們想實現這個容器的大小呢？時間呢？不好搞吧。 guava就有這樣的

springboot集成springsession利用redis來實現session共享

turn ges setattr work key session IE dmi server 轉：https://www.cnblogs.com/mengmeng89012/p/5519698.html 這次帶來的是spring boot + redis 實現sessi

利用pandas的box_plot來去除異常值

相關推薦