python進行資料處理——pandas的drop函式

阿新 • • 發佈：2018-12-30

刪除表中的某一行或者某一列更明智的方法是使用drop，它不改變原有的df中的資料，而是返回另一個dataframe來存放刪除後的資料。本文出處主要來源於必備工具書《利用python進行資料分析》。

—————————————————————————————————————————————————————

清理無效資料

df[df.isnull()]  #返回的是個true或false的Series物件（掩碼物件），進而篩選出我們需要的特定資料。
df[df.notnull()]

df.dropna()     #將所有含有nan項的row刪除
df.dropna(axis=1,thresh=3 
)  #將在列的方向上三個為NaN的項刪除
df.dropna(how='ALL')        #將全部項都是nan的row刪除

此處：print data.dropna() 和 print data[data.notnull()] 結果一樣

填充無效值

df.fillna(0)
df.fillna({1:0, 2:0.5})         #對第一列nan值賦0，第二列賦值0.5
df.fillna(method='ffill')   #在列方向上以前一個值作為值賦給NaN

drop函式的使用

（1）drop函式的使用：刪除行、刪除列

print frame.drop 
(['a'])
print frame.drop(['Ohio'], axis = 1)

drop函式預設刪除行，列需要加axis = 1

（2）drop函式的使用：inplace引數

採用drop方法，有下面三種等價的表示式：

1. DF= DF.drop('column_name', axis=1)；
2. DF.drop('column_name',axis=1, inplace=True)
3. DF.drop([DF.columns[[0,1, 3]]], axis=1, inplace=True)   # Note: zero indexed

注意：凡是會對原陣列作出修改並返回一個新陣列的，往往都有一個 inplace可選引數。如果手動設定為True（預設為False），那麼原陣列直接就被替換。也就是說，採用inplace=True之後，原陣列名（如2和3情況所示）對應的記憶體值直接改變；

而採用inplace=False之後，原陣列名對應的記憶體值並不改變，需要將新的結果賦給一個新的陣列或者覆蓋原陣列的記憶體位置（如1情況所示）。

（3）drop函式的使用：資料型別轉換

df['Name'] = df['Name'].astype(np.datetime64)

DataFrame.astype() 方法可對整個DataFrame或某一列進行資料格式轉換，支援Python和NumPy的資料型別。

python進行資料處理——pandas的drop函式

刪除表中的某一行或者某一列更明智的方法是使用drop，它不改變原有的df中的資料，而是返回另一個dataframe來存放刪除後的資料。本文出處主要來源於必備工具書《利用python進行資料分析》。 ———————————————————————————————

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

下面用“|”字元來分隔各行資料。這將生成一個RDD,其中每一個記錄對應一個Python列表,各列表由使用者ID(user ID)、年齡(age)、性別(gender)、職業(occupation)和郵編(ZIP code)五個屬性構成。4之後再統計使用者、性別、職業和郵編的數目。這可通過如下程式碼

利用Python進行資料分析_Pandas_處理缺失資料

申明：本系列文章是自己在學習《利用Python進行資料分析》這本書的過程中，為了方便後期自己鞏固知識而整理。 1 讀取excel資料 import pandas as pd import numpy as np file = 'D:\example.xls' df = pd.DataFr

【利用python進行資料分析——基礎篇】利用Python處理和分析Excel表中資料實戰

作為一個學習用Python進行資料分析的新手來說，通過本文來記錄分享一些我在用Python中的pandas、numpy來分析Excel表中資料的資料清洗和整理的工作，目的是熟悉numpy以及pandas基礎操作，所有操作利用Excel均可以方便實現。備註：本文中使用的是ipy

Sublime text3 搭建python環境進行資料處理

對比不少python環境，sublime編輯器以小巧輕快著稱，同時也是文字編輯的利器。但是作為一個小白，剛剛接觸sublime配置python時，也走了不少彎路。現在將過程記錄下，免得再忘了，也給大家做個參考！安裝sunlime和python 這點不用多講

用python進行資料預處理，過濾特殊符號，英文和數字。（適用於中文分詞）

要進行中文分詞，必須要求資料格式全部都是中文，需求過濾掉特殊符號、標點、英文、數字等。當然了使用者可以根據自己的要求過濾自定義字元。實驗環境：python、mysql 實驗目的：從資料庫讀取資料，

量化金融基礎篇 [ python 量化資料處理比較常用函式]

1. lambda函式，這個有點類似於C中的巨集定義函式。邏輯複雜的函式定義建議不要使用lambda函式宣告。add = lambda x,y : x+y #結果為3 print(add(1,2)) 2. map()函式，根據提供的函式對指定的序列做對映，將函式作用在指定序

Python使用Pandas對大型csv檔案進行資料處理

今天接到一個新的任務,要對一個140多M的csv檔案進行資料處理,總共有170多萬行,嘗試了匯入本地的MySQL資料庫進行查詢,結果用Navicat匯入直接卡死....估計是XAMPP套裝裡面全預設配置

python對於資料處理所會用到得一般操作

xlsx檔案轉為csv import pandas as pd#需要用到的包 import numpy as np#需要用到的包 path = "/home/public/GFQ/math_model/"#路徑 filepath_poi = path + "data.xlsx"#路徑+檔名 da

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

資料基礎---《利用Python進行資料分析·第2版》第12章 pandas高階應用

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。前面的章節關注於不同型別的資料規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展，pandas發展出了更多適

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第4章 NumPy基礎：陣列和向量計算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 NumPy（Numerical Python的簡稱）是Python數值計算最重要的基礎包。大多數提供科學計算的包都是用Nu

資料基礎---《利用Python進行資料分析·第2版》第11章時間序列

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。時間序列（time series）資料是一種重要的結構化資料形式，應用於多個領域，包括金融學、經濟學、生態學、神經科學、物

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

資料基礎---《利用Python進行資料分析·第2版》第5章 pandas入門

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 pandas是本書後續內容的首選庫。它含有使資料清洗和分析工作變得更快更簡單的資料結構和操作工具。pandas經常和其它工

python json資料處理

1.　　python 轉 json 　　　import json 　　　data={ 　　　　"name":"haha", 　　　　"age" : 1,"list_1":[1,2,3], 　　　　"tu":(1,2,3), 　　　　"bo": True, 　　　　"kong":None 　　　

python進行資料處理——pandas的drop函式

清理無效資料

填充無效值

drop函式的使用

（1）drop函式的使用：刪除行、刪除列

（2）drop函式的使用：inplace引數

（3）drop函式的使用：資料型別轉換

相關推薦