【Pandas-Cookbook】07：資料清洗

阿新 • • 發佈：2019-02-17

# -*-coding:utf-8-*-

#  by kevinelstri
#  2017.2.17

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# ---------------------
# Chapter 7 - Cleaning up messy data.ipynb  清理垃圾資料
# ---------------------

requests = pd.read_csv('../data/311-service-requests.csv')
# print requests.head() 


'''
    7.1 How do we know if it's messy?
'''
zip = requests['Incident Zip'].unique()  # unique()用於檢視所有的值
# print zip
'''
    zip中存在的問題：
        1、資料型別問題，有些是字串型，有些是浮點型
        2、有一些值不存在nan
        3、有些值不正確 83  29616-0759
        4、有N/A值，pandas不能夠識別，'N/A','NO CLUE'
    處理方法：
        1、使'N/A','NO CLUE'變成規則的nan
        2、使所有格式都變成字串
''' 


'''
    7.3 Fixing the nan values and string/float confusion
'''
na_value = ['N/A', 'NO CLUE', 'O', 'nan']
requests = pd.read_csv('../data/311-service-requests.csv', na_values=na_value, dtype={'Incident Zip': str})
# 讀取csv檔案時，將異常值設定為空值，將資料型別全部轉換為字串型別
zip = requests['Incident Zip'].copy()
# print zip.unique() 


'''
    7.4 What's up with the dashes? 處理數字之間的橫槓29616-0759
'''
row_with_dashs = requests['Incident Zip'].str.contains('-').fillna(False)  # 將帶橫槓的全部提取出來
# print len(requests[row_with_dashs])
# print requests[row_with_dashs]

requests['Incident Zip'][row_with_dashs] = np.nan  # 將帶橫槓的全部轉換為空值
# print requests['Incident Zip'].unique()

long_zip_codes = requests['Incident Zip'].str.len() > 5
# print requests['Incident Zip'][long_zip_codes].unique()

requests['Incident Zip'] = requests['Incident Zip'].str.slice(0, 5)  # slice()獲取字串的指定長度
# requests['Incident Zip'] = requests['Incident Zip'].str[0:5]
# print requests['Incident Zip'].unique()

# requests[requests['Incident Zip']] == '00000'

zero_zips = requests['Incident Zip'] == '00000'
requests.loc[zero_zips, 'Incident Zip'] = np.nan

unique_zips = requests['Incident Zip'].unique()
unique_zips.sort()  # 排序
print unique_zips

zips = requests['Incident Zip']
is_close = zips.str.startswith('0') | zips.str.startswith('1')  # zip以0或1開頭
is_far = ~(is_close) & zips.notnull()

print zips[is_far]

print requests[is_far][['Incident Zip', 'Descriptor', 'City']].sort('Incident Zip')

print requests['City'].str.upper().value_counts()  # 城市名轉換為大寫的，並且統計城市的數量

'''
    7.5 Putting it together
'''
# 異常值處理及csv檔案的讀取
na_values = ['NO CLUE', 'N/A', '0']
requests = pd.read_csv('../data/311-service-requests.csv',
                       na_values=na_values,
                       dtype={'Incident Zip': str})


# 將郵政編碼的位數固定為5位
def fix_zip_codes(zips):
    zips = zips.str.slice(0, 5)

    zero_zips = zips == '00000'
    zips[zero_zips] = np.nan

    return zips


requests['Incident Zip'] = fix_zip_codes(requests['Incident Zip'])
print requests['Incident Zip'].unique()

【Pandas-Cookbook】07：資料清洗

# -*-coding:utf-8-*- # by kevinelstri # 2017.2.17 import pandas as pd import numpy as np import matplotlib.pyplot as plt # ---

【Pandas-Cookbook】09：載入SQL資料庫資料

# -*-coding:utf-8-*- # by kevinelstri # 2017.2.17 # --------------------- # Chapter 9 - Loading data from SQL databases.ipynb #

【Pandas-Cookbook】04：分組、聚集

# -*-coding:utf-8-*- # by kevinelstri # 2017.2.16 # --------------------- # Chapter 4: Find out on which weekday people bike th

【Pandas + Matplotlib】初體驗：讀取資料檔案 + 繪製資料散點圖

Pandas ：納入大量庫和一些標準資料模型，是一款高效的資料處理工具。Matplotlib：Python中最常用的視覺化工具之一，可以非常方便地建立海量型別地2D圖表和一些基本的3D圖表。下面我自己建立的一個Excel檔案，利用Pandas來讀取資料，Matplot來顯示資

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

【每週一本書】之《資料視覺化與資料探勘》：基於Tableau和SPSS Modeler圖形介面

資料猿導讀】大資料時代正在改變著我們的生活、工作和思維，要讓大資料發揮出最大價值，最重要的手段

【Vue.js學習筆記】3：資料繫結,事件繫結

資料繫結使用Vue時在Vue物件的el欄位中要指定一下根容器，這裡用id選擇器。這個例子同時學習了data和methods的基本用法。資料繫結（data-binding）可以將Vue物件中的data的值繫結到HTML標籤中的某些位置，則修改時只需要修改物件中相應data的值即

【深度學習】8：CNN卷積神經網路與sklearn資料集實現數字識別

前言：這個程式碼是自己閒暇無事時候寫的。因為CNN卷積神經網路用MNIST資料集、sklearn資料集程式碼很多部分都很相似，這一篇就不附詳細說明，原始碼最下。CNN卷積神經網路的工作原理，請詳情參考——【深度學習】5：CNN卷積神經網路原理、MNIST資料

【面試題】統計產量資料：難點（分組彙總列轉行查詢結果插入)

題目：有一張資料產量表如下YearMonthdata2016150020162600.........201712300編寫SQL，產生如下資料，並儲存到tab2,其中S1 S2 S3 S4代表4個季度YearS1S2S3S4201612003000600080002017

【觀世界】百家爭鳴：全球2019大資料預測

90年前，法國詩人保羅·瓦勒裡(Paul Valery)曾寫道:“明日非同往昔。”對於始於20世紀中期的大資料趨勢來說，這句話同樣適用。如今的我們並不像多數人曾經設想的那樣，但在很多方面，未來要比現在許多人想象的更有趣。隨著新年開啟，我們邁向了新的征程，這是個推陳出新的

【深度學習】5：CNN卷積神經網路原理、識別MNIST資料集

前言：先坦白的說，深度神經網路的學習在一開始對我造成的困擾還是很大的，我也是通過不斷地看相關的視訊資料、文獻講解嘗試去理解記憶。畢竟這些內容大多都是不可查的，我們看到的都只是輸入輸出的東西，裡面的內部運作以及工作原理，都需要沉心靜思。這篇CNN卷積神經網路的

【聊天機器人】1：DeepQA使用自己的資料集做chatbot

前言：這篇部落格主要是依賴網上開源的DeepQA專案，詳細介紹其使用的方法，以及需要注意的地方，並沒有做較多的改進。這個專案實現簡單，操作方便，對於想了解如何實現聊天機器人的夥伴們，是個不錯的入門之選，其後也附有我的效果展示和原始碼。 –—-—-—-—-—-—

【深度學習】6：RNN遞迴神經網路原理、與MNIST資料集實現數字識別

前言：自己學習研究完CNN卷積神經網路後，很久的一段時間因為要完成自己的畢業設計就把更新部落格給耽擱了。瞎忙了這麼久，還是要把之前留的補上來。因為“種一棵樹最好的時間是在十年前，其次就是現在！” –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—

【深度學習】3：BP神經網路與MNIST資料集實現手寫數字識別

前言：這是一篇基於tensorflow框架，建立的只有一層隱藏層的BP神經網路，做的圖片識別，內容也比較簡單，全當是自己的學習筆記了。 –—-—-—-—-—-—-—-—-—-—-—-—–—-—-—-—-—-—-—-——-—-—-—-—-—-—-—-—-—-—-

【資料庫索引】mysql更新資料報錯：Duplicate entry 'XXX' for key 'XXX'

經查：資料庫表索引型別設定問題導致，unique：約束資料庫表中的每一條資料唯一。補充： 1.UNIQUE(要求列唯一) 和 PRIMARY KEY(主鍵唯一) 約束均為列或列集合提供了唯一性的保證。 PRIMARY KEY (主鍵)擁有自動定義的 UNIQUE

【面試心得】演算法和資料結構：查詢和排序

演算法和資料結構在面試中備受面試官的青睞，其中排序和查詢是面試中考察演算法的重點。在準備面試的時候，我們應該重點掌握二分查詢、快速排序和歸併排序，做到能隨時正確、完整地寫出程式碼。查詢和排序都是在程式設計中常用到的演算法。關於查詢演算法應該掌握：順序查詢、二分查詢、雜

【Hive】HiveQL：資料操作

本篇主要演示Hive的資料操作，包括向表中裝載資料、插入資料、建立表以及匯出資料。一向表中裝載資料1 語法結構LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRIT

【程式48】題目：某個公司採用公用電話傳遞資料，資料是四位的整數，在傳遞過程中是加密的，加密規則如下：每位數字都加上5, 然後用和除以10的餘數代替該數字，再將第一位和第四位交換，第二位

/* 2017年3月13日11:46:14 java基礎50道經典練習題例48 Athor: ZJY Purpose: 【程式48】題目：某個公司採用公用電話傳遞資料，資料是四位

【MongoDB學習筆記】6：資料備份(mongodump)與恢復(mongorestore)流程

備份資料要備份某個DB中的全部Collection，相當於備份RDBMS中某個Schema下的全部Table。比如想要備份這個DB： > show dbs admin 0.000GB config 0.000GB local 0.000

【程序5】題目：利用條件運算符的嵌套來完成此題：學習成績>=90分的同學用A表示，60-89分之間的用B表示，60分以下的用C表示。 1.程序分析：(a>b)?a:b這是條件運算符的基本例子。

window code 例子 prompt 利用學習 amp text span if…else語句相對比較多，但是容易理解 1 var scroe = window.prompt("請輸入1-100之間的數") 2 scroe = parseInt

【Pandas-Cookbook】07：資料清洗

相關推薦