pandas(資料框部分03)

阿新 • • 發佈：2019-01-01

上一期我們使用pandas模組實現觀測的篩選、變數的重新命名、資料型別的變換、排序、重複觀測的刪除、和資料集的抽樣，這期我們繼續介紹pandas模組的其他新知識點。包括頻數統計、缺失值處理、資料對映、資料彙總。

一、頻數統計

我們以被調查使用者的收入資料為例，來談談頻數統計函式value_counts。

頻數統計，顧名思義就是統計某個離散變數各水平的頻次。

這裡統計的是性別男女的人數，是一個絕對值，如果想進一步檢視男女的百分比例，可以通過下面的方式實現：

而在R語言中，table函式就是起到頻數統計的作用，另外還提供了更加靈活的prop.table函式，可以直接求出比例。

如上是單變數的頻數統計，如果需要統計兩個離散變數的交叉統計表

，該如何實現？不急，pandas模組提供了crosstab函式，我們來看看其用法：

R語言的話，任然使用table函式即可。

二、缺失值處理

在資料分析或建模過程中，我們希望資料集是乾淨的，沒有缺失、異常之類，但面臨的實際情況確實資料集很髒，例如對於缺失值我們該如何解決？一般情況，缺失值可以通過刪除或替補的方式來處理。首先是要監控每個變數是否存在缺失，缺失的比例如何？這裡我們藉助於pandas模組中的isnull函式、dropna函式和fillna函式。

首先，我們手工編造一個含缺失值的資料框：

其次，使用isnull函式檢查資料集的缺失情況：

最後，對缺失資料進行處理：

刪除法

dropna函式，有兩種刪除模式

，一種是對含有缺失的行(任意一列)進行刪除，另一種是刪除那些全是缺失(所有列)的行，具體如下：

由於df資料集不存在行全為缺失的觀測，故沒有實現刪除。

替補法

fillna函式提供前向替補、後向替補和函式替補的幾種方法，具體可參見下面的程式碼示例：

再來看看R語言是如何重現上面的操作的：

不幸的是，R中沒有刪除每行元素都是缺失的觀測，我們自定義個函式也可以實現：

關於缺失值的替補，在R語言中可以使用Hmisc包中的impute函式，具體操作如下：

三、資料對映

大家都知道，Python和R在做迴圈時，效率還是很低的，如何避開迴圈達到相同的效果呢？這就是接下來我們要研究的對映函式apply。該函式的目的就是將使用者指定的函式運用到資料集的縱軸即各個變數或橫軸即各個行。

例如以上面的統計資料集df各行和各列是否存在缺失為例，原先是這樣的：

現在通過對映函式可以這樣簡介而快速的實現：

再如，需要計算每個學生的總成績，或各科的平均分，也可以用apply函式實現：

在R語言中，實現上述對映操作的函式有很多，這裡就以sapply和apply兩個函式為例：

如圖所示，如果需要統計資料集每行的某個值，需要先將數值型的資料框轉化為矩陣，然後基於矩陣使用apply函式。

四、資料彙總

如果你想要做類似SQL中的聚合操作，pandas也提供了實現該功能的函式，即groupby函式與aggregate函式的搭配使用，我們以上面的收入資料集為例作為演示：

以上結果，預設會對所有數值型變數作性別的均值統計。

學會使用Python的pandas模組對資料進行聚合了，那接下來看看R語言又是如何實現的：

R語言的實現資料的聚合操作需要下載dplyr包，並結合group_by函式和summarize函式。

今天我們的內容就介紹到這邊，歡迎大家拍磚。下期我們來聊聊pandas模組的資料框DataFrame第四部分。主要涉及多個數據集之間的合併和連線、啞變數生成和連續數值的區間化操作。

每天進步一點點2015

學習與分享，取長補短，關注小號！

長按識別二維碼馬上關注

pandas(資料框部分03)

上一期我們使用pandas模組實現觀測的篩選、變數的重新命名、資料型別的變換、排序、重複觀測的刪除、和資料集的抽樣，這期我們繼續介紹pandas模組的其他新知識點。包括頻數統計、缺失值處理、資料對映、資料彙總。一、頻數統計我們以被調查使用者的收入資料為例，來談談頻數統計函式

pandas(資料框部分02)

接著上一期的pandas模組介紹與應用，今天我們來聊聊如何藉助於pandas模組進行資料的預處理，內容包括資料集變數與觀測的篩選、變數的重新命名、資料型別的變換、排序、重複觀測的刪除、和資料集的抽樣。一、資料篩選以iris資料集為例，想從資料集中取出某列（序列物件）或某幾列該

pandas(資料框部分04)

上一期我們使用pandas模組實現頻數統計、缺失值處理、資料對映和資料彙總 4個知識點，這期我們再來聊聊關於pandas如何實現資料合併、資料連線、建立啞變數和連續數值的區間化的操作。前兩個操作在資料庫中是非常常用的，即將多個數據集縱向合併和橫向的擴充套件；後兩個操作在資

pandas(資料框部分01)

作為從事資料相關工作的我們，平時接觸的更多的是一張有板有眼的資料表格，在這裡我們就叫作資料框。在Python中可以通過pandas模組的DataFrame函式構造資料框，而R語言則是data.frame建立資料框。接下來我們將對比Python和R語言如下幾個方面的應用：1、資料框的構造在Python中,可以藉

Pandas資料框索引函式 iloc、loc和ix學習使用

在資料科學領域python逐漸火熱起來，超越了原有R的地位，這裡豐富的第三方包的貢獻功不可沒，數值計算中Numpy和Pandas絕對是必備的神器，最近使用到Pandas來做資料的操作，今天正好有時間就簡單地總結記錄一點自己學習使用Pandas的體會，主要是對幾個主要的資料

Pandas 資料框增、刪、改、查、去重、抽樣基本操作

總括 pandas的索引函式主要有三種： loc 標籤索引，行和列的名稱 iloc 整型索引（絕對位置索引），絕對意義上的幾行幾列，起始索引為0 ix 是 iloc 和 loc的合體 at是loc的快捷方式 iat是iloc的快捷方式建立測試資料

python pandas 資料框條件選取行列資料

一、選取幾列組成新的dataframe：　　df = df[['A列列明', 'S列列明', 'H列列明']] 二、選取某列'STATUS'裡面元素為"ACTIVE"的行，即刪掉列STATUS元素不是ACTIVE的行　　df = df[df['STATUS'] == "ACTIVE"] 　（

從零開始學Python學習筆記---之--pandas資料框(1)

作為從事資料相關工作朋友，平時接觸的更多的可能是一張有板有眼的資料表格，在這裡我們就叫作資料框。在Python中可以通過pandas模組的DataFrame函式構造資料框。 1、資料框的構造在Python中,可以藉助於列表、元組、字典進行手工構建資料框，我們用例子說明：

從零開始學Python學習筆記---之--pandas資料框(3)

在pandas資料框(2)我們使用pandas模組實現觀測的篩選、變數的重新命名、資料型別的變換、排序、重複觀測的刪除、和資料集的抽樣，這期我們繼續介紹pandas模組的其他新知識點。包括頻數統計、缺失值處理、資料對映、資料彙總。一、頻數統計我們以被調查使用者的收入資料

pandas資料框，統計某列或者某行資料元素的個數

在《pandas資料框，統計某列資料與其他檔案對應關係的個數》之後，我發覺簡單版的元素個數統計問題沒有說清楚，就在這裡介紹兩個統計pandas資料框裡面列、行元素個數的方法：程式碼如下：import pandas as pd import numpy as np df =

pandas將DataFrame中的tuple分割成資料框的多列

通過apply(pd.Series)實現將tuple進行分列 df = pd.DataFrame({'a':[1,2], 'b':[(1,2), (3,4)]}) df['b'].apply(pd.Series) df[['b1', 'b2']] = df['b'].apply(pd.S

pandas之DataFrame資料框

DataFrame資料框 1.建立資料框 df = DataFrame({ 'age':[21,22,23], 'name':['zhangYafei','LiuGeliang','KangYue'] },index=['fir

【pandas】[3] DataFrame通過資料型別選擇子資料框

DataFrame.select_dtypes(include=None, exclude=None) Return a subset of the DataFrame’s columns based on the column dtypes. Parameters:

Pandas將列表（List）轉換為資料框（Dataframe）

Python中將列表轉換成為資料框有兩種情況：第一種是兩個不同列表轉換成一個數據框，第二種是一個包含不同子列表的列表轉換成為資料框。第一種：兩個不同列表轉換成為資料框 from pandas.

pandas dataframe 資料框基本概念

資料框是一個二維資料結構，類似於SQL中的表格。藉助字典，陣列，列表和序列等可以構造資料框； 1.字典建立資料框，則列的名稱為key的名稱； import pandas as pd d = {'one':pd.Series([1,2,3],index= ['a','b','c']),

【python pandas】資料框行轉列，列轉行

測試資料： context_id subject_gmt differtime browse_count click_count like_count commet_count reply_count score_value last1

[Pandas]資料選取/資料切片

在對資料做相應操作之前，我們要先篩選出所需的資料，pandas提供了一些方法方便我們選取資料，這裡主要講解dataFrame型別的資料選取，Series型別用法類似，可以查閱文件中的相關屬性。 pandas主要提供了三種屬性用來選取行/列資料：屬性名

pandas資料對齊

Pandas的對齊運算是資料清洗的重要過程，可以按索引對齊進行運算，如果沒對齊的位置則補NaN，最後也可以填充NaN Series的對齊運算 1. Series 按行、索引對齊示例程式碼： s1 = pd.Series(range(10, 20), index = range(1

◮ R語言筆記(四): 向量、陣列、矩陣與資料框 + 利用矩陣求解二維線性方程組

在筆記一中已經提到了向量，這篇文章主要介紹R語言中的四中常用的結構：向量：*傳送門* 陣列矩陣資料框然後在介紹如何利用矩陣求解二維線性方程組。 ***************************************************

點選某列表介面上的某按鈕時調出來另一個設計項的列表介面，選中被調出的列表介面上的值時彈出【資料框】能輸入資料的程式碼樣例

//例如：【出庫管理】設計項的列表介面上有一個【出庫】按鈕，點擊出庫按鈕時調出【入庫管理】設計項的列表介面，選中【入庫管理】列表介面上的一條記錄時，彈出輸入框，程式碼樣例如下 function(button, e) { debugger; // 中斷除錯指令，可以手動刪除它