Python資料分析Pandas庫之熊貓(10分鐘二)

阿新 • • 發佈：2018-12-17

pandas 10分鐘教程(二)

重點發法

分組 groupby('列名') groupby(['列名1','列名2',.........])

分組的步驟

(Splitting) 按照一些規則將資料分為不同的組,拆分
(Applying) 對於每組資料分別執行一個函式.'應用,申請'
(Combining) 將結果組合到一個數據結構, '組合/合併'

import pandas as pd
#根據A分組後求和
df.groupby('A').sum()
#分組,指定具體列的出來函式   #reset_index 重置索引
df.group(by=['列1','列2',....]).agg({'列名':['max','min']}).reset_index()

#agg/apply:指定具體的處理函式,,,可以 寫自定義函式

分組後的統計方法

size() = count()
max(),min(),mean() 最大最小,平均數
std()
median() 中位數
frist() ,last() 第一個和最後一個非NA值
prod 非NA值得積

以上統計函式,除了count()外,都會自動過濾非數字列!!!!

排重:duplicated
1. 檢查重複的資料:df.duplicated()
2. 檢查重複指定列名:df.duplicated(['列1','列2',....])
3. 刪除重複資料:df.drop_duolicates()
4. 刪除時指定保留的資料： df.drop_duplicates(['列1'，.......],keep='frist/last')
  - keep:儲存
  - frist:第一個，last:最後一個
資料透視表(和groupby()類似)
1. df.pibot_table(df,index=['列1','列2',...],values='列名',aggfunc=np.mean/sum)
  - index : 需要排序的列
  - values : 需要統計的列
  - aggfunc : 執行的統計函式,不寫預設統計平均值
分組替換: Categories 分組/分類,
1. 實現第二列分組比替換資料:
  - df['新列名'] = df['B'].astype('category');轉化為分類/分組型別
  - 分配列名: df['新列名'].cat.set_categories((值1,值2,.......))
  - 重新設定:　df['新列名'] = df['新列名'].cat_set_categories([值一，值二，...])

讀寫檔案
1. HDF5: 儲存打資料,方便和其他語言對接,
  - to_hdf()
  - read_hdf()
2. 表格:excel
  - read_excel('path',sheet_name='子頁名')
  - to_excel(path)

Python資料分析Pandas庫之熊貓(10分鐘二)

pandas 10分鐘教程(二) 重點發法分組 groupby('列名') groupby(['列名1','列名2',.........]) 分組的步驟 (Splitting) 按照一些規則將資料分為不同的組,拆分 (Applying) 對於每組資料分別

python資料分析處理庫-Pandas之Series結構及Series常用操作方法

我上上篇部落格說過：Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別。而構成DataFrame結構的每一

python資料分析處理庫-Pandas資料讀取、索引與計算

Pandas資料讀取、索引與計算 Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別 import p

python進行資料分析-----pandas入門之層次化索引

目錄層次化索引層次化索引層次化索引是pandas的一項重要功能，它使你在一個軸上擁有多個索引級別，可以是你以低維度的形式處理高維度的資料。 levels是索引集合和它的空間結構 labels是索引在levels中索引的集合 > from pan

資料分析---pandas庫

一、生成資料表 1、首先匯入pandas庫，一般都會用到numpy庫，所以我們先匯入備用： import numpy as np import pandas as pd 2、匯入CSV或者xlsx檔案： df = pd.DataFrame(pd.r

Python資料分析--Pandas知識點(二)

13. 簡單計算新建一個數據表df 1 import pandas as pd 2 3 df = pd.DataFrame({"地區": ["A區","B區", "C區"], 4 "前半年銷量": [3500, 4500,3800], 5

python資料分析與挖掘之資料清洗

資料探索的目的是及早發現數據的一些簡單規律或特徵,資料清洗的目的是留下可靠的資料,避免髒資料的干擾。這兩者沒有嚴格的先後順序,經常在一個階段進行。 &nb

Python資料分析-Pandas（Series與DataFrame）

Pandas介紹：　　pandas是一個強大的Python資料分析的工具包，是基於NumPy構建的。 Pandas的主要功能：　　1)具備對其功能的資料結構DataFrame、Series 　　2)整合時間序列功能　　3)提供豐富的數學運算和操作　　4)靈活處理缺失資料 pyhton裡面安裝、引

Python資料分析Numpy庫方法簡介(二)

資料分析圖片儲存:vg 　　1.儲存圖片:plt.savefig(path) 　　2.圖片格式:jpg,png,svg(建議使用,不失真) 　　3.資料儲存格式: excle,csv csv介紹　　csv就是用逗號隔開的純文字資訊!!會以表格的資訊開啟矩陣生成的相關屬性　　　　

python資料分析與挖掘之聚類kmeans演算法

聚類不指定類別進行分類（劃分（分裂）法，層次分析法、密度分析法）、網格法、模型法 Kmeans演算法屬於分裂法隨機選擇k各點作為聚類中心計算各個點到這K個點的距離將對應的點聚到與它最近的這個聚類中心重新

python資料分析與挖掘之貝葉斯演算法演算法實現

程式碼中有詳細的註釋訓練檔案： Txt檔案中為0，1矩陣，將圖片轉換為0，1矩陣見上一篇部落格方法 import numpy import operator from os import listdir class Bayes: def __init__(self):

Python資料分析numpy庫方法簡介（一）

Numpy功能簡介: 1.官網:www.numpy.org 2.特點:(1)高效的多維矩陣/陣列; 　　　(2);複雜的廣播功能　　　(3):有大量的內建數學統計函式矩陣(多維陣列): 一維陣列: ([ 值1,值2,值3]) 維維陣列:　([[1,2,3],[4,5,6]])

Python資料分析Numpy庫方法簡介(四)

Numpy的相關概念2 副本和檢視副本：複製三種情況屬於淺copy 賦值運算切片檢視：連結，運算元組是，返回的不是副本就是檢視 c =a.view().建立a的檢視/影子和切片一樣都是淺copy

Python-資料分析-Pandas統計分析基礎2

前些日子一直在忙實驗，結束後又去忙其他事情，看完了Pandas一直沒有時間寫筆記，今天忙裡偷閒再寫一篇Pandas DataFrame是最常用的Pandas物件，類似於Microsoft Office Excel表格，完成資料讀取後，DataFrame資

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

python資料分析 -- numpy庫初識

標籤（空格分隔）：王小草機器學習筆記 python的強大之處不但因為簡潔易學高效，還在於她有許多庫，可以方便我們得到想要的計算。比如今天講的numpy庫，為python提供了快速的多維陣列的處理能力。有人數，numpy庫的出現使得python可以像mat

小白學 Python 資料分析（17）：Matplotlib（二）基礎操作

![](https://cdn.geekdigging.com/python/spider-blog/Python_logo.jpg) > 人生苦短，我用 Python 前文傳送門： [小白學 Python 資料分析（1）：資料分析基礎](https://www.geekdigging.com/2020

Python 資料分析與展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記4 – Pandas 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： Numpy 官方文件（英文） Numpy 官方文件（中文） P

Python資料分析Pandas庫之熊貓(10分鐘二)

pandas 10分鐘教程(二)

重點發法

分組後的統計方法

相關推薦