pandas組隊學習：task2

阿新 • • 發佈：2020-12-19

一、檔案讀取和寫入

1. 檔案讀取

csv：pd.read_csv(filename)
txt ：pd.read_table(filename)
excle：pd.read_excel(filename)

示例：

import pandas as pd
df_csv = pd.read_csv('my_csv.csv')

Out[6]: 
   col1 col2  col3    col4      col5
0     2    a   1.4   apple  2020/1/1
1     3    b   3.4  banana  2020/1/2
2     6    c   2.5  orange  2020/1/5
3     5    d   3.2   lemon  2020/1/7

header=None表示第一行不作為列名，例如：

import pandas as pd
df_csv = pd.read_csv('my_csv.csv',header=None)			#原本一共4行，現在變成了5行
Out[9]: 
      0     1     2       3         4
0  col1  col2  col3    col4      col5
1     2     a   1.4   apple  2020/1/1
2     3     b   3.4  banana  2020/1/2
3     6     c   2.5  orange  2020/1/5
4     5     d   3.2   lemon  2020/1/7

usecols表示讀取指定列：（輸入為列的名稱）

import pandas as pd
df_csv = pd.read_csv('my_csv.csv',usecols=['col1'])		#讀取第一列
Out[13]: 
   col1
0     2
1     3
2     6
3     5

nrows表示讀取的行數：（輸入為整數）

import pandas as pd
df_csv = pd.read_csv('my_csv.csv',nrows=2)			#讀取兩行
Out[15]: 
   col1 col2  col3    col4      col5
0     2    a   1.4   apple  2020/1/1
1     3    b   3.4  banana  2020/1/2

2.檔案寫入

csv：data.to_csv(path, index = False) index=False表示將索引去除
excel：data.to_excel(path, index = False)
txt：data.to_csv(path,sep='\t', index=False)

二.基本資料結構

1.series

由四個部分組成，資料：data，索引：index，儲存型別：dtype，名稱：name；例如：

s = pd.Series(data = [1,10,100],index=[1,2,3],name = 'my_series')
Out[20]: 
1      1
2     10
3    100
Name: my_series, dtype: int64

訪問這些屬性可以分別用：資料：s.values，索引：s.index，型別：s.dtype，名稱：s.name訪問；

2.DataFrame

DataFrame在sreies的基礎上，將列進行了擴充套件，由原來的一維變為了二維。

建立方法和sries基本一致，增加列的索引名，例如：

In [33]: df = pd.DataFrame(data = {'col_0': [1,2,3], 'col_1':list('abc'),
   ....:                           'col_2': [1.2, 2.2, 3.2]},
   ....:                   index = ['row_%d'%i for i in range(3)])
   ....: 

In [34]: df
Out[34]: 
       col_0 col_1  col_2
row_0      1     a    1.2
row_1      2     b    2.2
row_2      3     c    3.2

可以按列索引，取出一列或者多列：

In [35]: df['col_0']				#取出某一列
Out[35]: 
row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [36]: df[['col_0', 'col_1']]			#取出多列
Out[36]: 
       col_0 col_1
row_0      1     a
row_1      2     b
row_2      3     c

三、常見基本函式

1.彙總函式

head函式表示返回表的前n行，tail返回後n行:

In [46]: df.head(2)
Out[46]: 
                          School     Grade            Name  Gender  Height  Weight Transfer
0  Shanghai Jiao Tong University  Freshman    Gaopeng Yang  Female   158.9    46.0        N
1              Peking University  Freshman  Changqiang You    Male   166.5    70.0        N

In [47]: df.tail(3)
Out[47]: 
                            School      Grade            Name  Gender  Height  Weight Transfer
197  Shanghai Jiao Tong University     Senior  Chengqiang Chu  Female   153.9    45.0        N
198  Shanghai Jiao Tong University     Senior   Chengmei Shen    Male   175.3    71.0        N
199            Tsinghua University  Sophomore     Chunpeng Lv    Male   155.7    51.0

info返回表的資訊概況， describe返回表中數值列對應的主要統計量：

In [48]: df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   School    200 non-null    object 
 1   Grade     200 non-null    object 
 2   Name      200 non-null    object 
 3   Gender    200 non-null    object 
 4   Height    183 non-null    float64
 5   Weight    189 non-null    float64
 6   Transfer  188 non-null    object 
dtypes: float64(2), object(5)
memory usage: 11.1+ KB

In [49]: df.describe()
Out[49]: 
           Height      Weight
count  183.000000  189.000000
mean   163.218033   55.015873
std      8.608879   12.824294
min    145.400000   34.000000
25%    157.150000   46.000000
50%    161.900000   51.000000
75%    167.500000   65.000000
max    193.900000   89.000000

2.統計函式

quantile：返回分位數

In [53]: df_demo.quantile(0.75)
Out[53]: 
Height    167.5
Weight     65.0
Name: 0.75, dtype: float64

count：返回非缺失值個數

In [54]: df_demo.count()
Out[54]: 
Height    183
Weight    189
dtype: int64

idxmax：返回最大值索引

In [55]: df_demo.idxmax() # idxmin是對應的函式
Out[55]: 
Height    193
Weight      2
dtype: int64

3.唯一值函式

主要用來統計表中類別的個數。

unique：統計類別的列表
nunique：統計類別的數目
value_counts：統計不同類別出現的次數

上面這幾個函式只能針對某一列使用，若對多列使用，應該用drop_duplicates函式，相當於是去除重複的值。

對於drop_duplicates函式中的keep引數：keep=first表示保留第一次出現的行，keep=last表示保留最後一次，False表示把重複的全都剔除。

4.替換函式

對映替換：replace
邏輯替換：where和mask； where 函式在傳入條件為 False 的對應行進行替換，而 mask 在傳入條件為 True 的對應行進行替換。
數值替換：round，四捨五入；abs，取絕對值；clip，上下邊界截斷。

5.排序函式

值排序：sort_values，其中ascending引數預設為True升序，false為降序 （按列值排）
索引排序：sort_index，索引用leve表示，排序順序是按字母的順序 （按行值排）

6.apply方法

有點像上一章的map方法，也是通過自定義函式來進行操作

四、視窗物件

pandas組隊學習：task2

一、檔案讀取和寫入 1. 檔案讀取 csv：pd.read_csv(filename) txt ：pd.read_table(filename) excle：pd.read_excel(filename)

pandas組隊學習：task4

一、分組Groupby 使用方式：df.groupby([分組的依據])[分組的資料] 例如，對不同學校和性別的學生身高分組：

pandas組隊學習：task5

一、變形 pivot 將長表變換為寬表，輸入有三個引數： index：變形後的行索引 columns：需要轉換到列索引的列

pandas組隊學習：task10

目錄一、時間戳1.Timestamp的構造和屬性2.Datetime序列的生成3.dt物件4.時間戳的切片和索引二、時間差1.Timedelta的生成2.時間差序列的生成3.Timedelta的運算

pandas組隊學習: task6

一、關係連線鍵連線在 pandas 中的關係型連線函式 merge 和 join 中提供了 how 引數來代表連線形式，分為左連線 left 、右連線 right 、內連線 inner 、外連線 outer 。現有如下兩個表格，下面基於這兩個表格

Datawhale 12 月組隊學習筆記（五）：pandas變形

技術標籤：python pandas思維導圖擴充練習一、現有一份關於美國非法藥物的資料集，其中 SubstanceName, DrugReports 分別指藥物名稱和報告數量：

Datawhale組隊學習(Pandas) task1-預備知識

技術標籤：datawhale組隊學習code 【1】第20期學習者手冊（Pandas）【2】第一章預備知識

DataWhale組隊學習pandas task02

技術標籤：python資料分析 DataWhale組隊學習pandas task02（下：練習）這次任務一共有兩個題目：

pandas學習：第一次作業

技術標籤：pandas資料分析文章目錄第一次作業一、企業收入的多樣性總結第一次作業

Datawhale組隊學習_Task04：詳讀西瓜書+南瓜書第5章

西瓜書and南瓜書第5章神經網路內容學習筆記第5章神經網路 5.1 神經元模型基本定義：神經網路是由具有適應性的簡單單元組成的廣泛並行互聯的網路，它的組織能夠模擬生物神經系統對真實世界物體所做出的互動

Maven學習：【使用IDEA搭建SSM聚合工程】

1.Maven聚合工程介紹 1.Maven聚合的特點： 1、經過一定的配置之後，每一次執行Maven命令都同時對子模組生效，大大減少重複的工作。

資料結構與演演算法學習：陣列和連結串列

陣列陣列是一個線性表資料結構。它用一段連續的記憶體地址空間，來儲存一些相同型別的資料。

學習：MySQL---》索引及其優化

1.索引：把新增索引的欄位全部放在一棵B+樹上，再次查詢的時候就會更加快速；

pandas資料選取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]

1 引言　　Pandas是作為Python資料分析著名的工具包，提供了多種資料選取的方法，方便實用。本文主要介紹Pandas的幾種資料選取的方法。

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

機器學習：支援向量機識別手寫英文字母 SMO演算法實現二元分類器

本文只構建一個能夠識別一種英文符號的SVM，在此選擇了C字元。一、SVM構建 import numpy as np

大話深度學習：B站Up主麥叔教你零程式碼實現影象分類神經網路

之前，我在B站釋出了“大話神經網路，10行程式碼不調包，聽不懂你打我！”的視訊後，因為簡單易懂受到了很多小夥伴的喜歡！

FPGA零基礎學習：SPI 協議驅動設計

本系列將帶來FPGA的系統性學習，從最基本的數位電路基礎開始，最詳細操作步驟，最直白的言語描述，手把手的“傻瓜式”講解，讓電子、資訊、通訊類專業學生、初入職場小白及打算進階提升的職業開發者都可以

kubernetes學習：CKA考試題

kubernetes學習：CKA考試題 1. 列出環境內所有的pv 並以 name欄位排序（使用kubectl自帶排序功能）

機器學習：Python中如何使用最小二乘法

之所以說”使用”而不是”實現”，是因為python的相關類庫已經幫我們實現了具體演算法，而我們只要學會使用就可以了。隨著對技術的逐漸掌握及積累，當類庫中的演算法已經無法滿足自身需求的時候

pandas組隊學習：task2

一、檔案讀取和寫入

1. 檔案讀取

2.檔案寫入

二.基本資料結構

三、常見基本函式

1.彙總函式

2.統計函式

3.唯一值函式

4.替換函式

5.排序函式

6.apply方法

相關推薦