pandas簡單教程1

阿新 • • 發佈：2020-08-26

pandas簡單教程1

Series

import pandas as pd
import numpy as np
s = pd.Series([1,3,6,np.nan,44,1])

print(s)
"""
0     1.0
1     3.0
2     6.0
3     NaN
4    44.0
5     1.0
dtype: float64
"""

Series的字串表現形式為：索引在左邊，值在右邊。由於我們沒有為資料指定索引。於是會自動建立一個0到N-1（N為長度）的整數型索引。

DataFrame

dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

print(df)
"""
                   a         b         c         d
2016-01-01 -0.253065 -2.071051 -0.640515  0.613663
2016-01-02 -1.147178  1.532470  0.989255 -0.499761
2016-01-03  1.221656 -2.390171  1.862914  0.778070
2016-01-04  1.473877 -0.046419  0.610046  0.204672
2016-01-05 -1.584752 -0.700592  1.487264 -1.778293
2016-01-06  0.633675 -1.414157 -0.277066 -0.442545
"""

DataFrame是一個表格型的資料結構，它包含有一組有序的列，每列可以是不同的值型別（數值，字串，布林值等）。DataFrame既有行索引也有列索引，它可以被看做由Series組成的大字典。

我們可以根據每一個不同的索引來挑選資料, 比如挑選 b 的元素:

DataFrame 的一些簡單運用

print(df['b'])

"""
2016-01-01   -2.071051
2016-01-02    1.532470
2016-01-03   -2.390171
2016-01-04   -0.046419
2016-01-05   -0.700592
2016-01-06   -1.414157
Freq: D, Name: b, dtype: float64
"""

我們在建立一組沒有給定行標籤和列標籤的資料 df1:

df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)

"""
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
"""

這樣,他就會採取預設的從0開始 index. 還有一種生成 df 的方法, 如下 df2:

df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo'})
                    
print(df2)

"""
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
"""

這種方法能對每一列的資料進行特殊對待. 如果想要檢視資料中的型別, 我們可以用 dtype 這個屬性:

print(df2.dtypes)

"""
df2.dtypes
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object
"""

如果想看對列的序號:

print(df2.index)

# Int64Index([0, 1, 2, 3], dtype='int64')

同樣, 每種資料的名稱也能看到:

print(df2.columns)

# Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

如果只想看所有df2的值:

print(df2.values)

"""
array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']], dtype=object)
"""

想知道資料的總結, 可以用 describe():

df2.describe()

"""
         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0
"""

如果想翻轉資料, transpose:

print(df2.T)

"""                   
0                    1                    2  \
A                    1                    1                    1   
B  2013-01-02 00:00:00  2013-01-02 00:00:00  2013-01-02 00:00:00   
C                    1                    1                    1   
D                    3                    3                    3   
E                 test                train                 test   
F                  foo                  foo                  foo   

                     3  
A                    1  
B  2013-01-02 00:00:00  
C                    1  
D                    3  
E                train  
F                  foo  

"""

如果想對資料的 index 進行排序並輸出:

print(df2.sort_index(axis=1, ascending=False))

"""
     F      E  D    C          B    A
0  foo   test  3  1.0 2013-01-02  1.0
1  foo  train  3  1.0 2013-01-02  1.0
2  foo   test  3  1.0 2013-01-02  1.0
3  foo  train  3  1.0 2013-01-02  1.0
"""

如果是對資料值排序輸出:

print(df2.sort_values(by='B'))

"""
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo
"""

實驗程式碼：

import pandas as pd
import numpy as np

if __name__ == '__main__':
    s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
    print(s)
    dates = pd.date_range('20200826', periods=6)
    df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=['a', 'b', 'c', 'd'])
    print(df)
    # 檢視某一列
    print(df['b'])
    df1 = pd.DataFrame(np.arange(12).reshape(3, 4))
    print(df1)
    df2 = pd.DataFrame({'A': 1.,
                        'B': pd.Timestamp('20130102'),
                        'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                        'D': np.array([3] * 4, dtype='int32'),
                        'E': pd.Categorical(["test", "train", "test", "train"]),
                        'F': 'foo'})
    print(df2)
    print(df2.dtypes)
    print(df2.index)
    print(df2.columns)
    print(df2.values)
    print(df2.describe())
    print(df2.T)
    print(df2.sort_index(axis=1, ascending=False))

pandas簡單教程1

pandas簡單教程1 Series import pandas as pd import numpy as np s = pd.Series([1,3,6,np.nan,44,1]) print(s)

Pandas系列教程（1）Pandas資料讀取

1. 下載安裝pandas pip install pandas pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

React簡單教程-3.1-樣式之使用 tailwindcss

前言本文是作為一個額外內容，主要介紹 tailwindcss 的用法 tailwindcss 是一個功能類優先的 CSS 框架，我在以前的文章裡有描述為什麼使用功能類優先：為什麼我在 css 裡使用功能類優先

輕鬆開啟win10系統html檔案的簡單教程

眾所周知，html是超文字標記語言或超文字連結標示語言，現在大部分網頁都是html格式，所以應用非常廣泛。不少小夥伴說自己在win10系統不知道怎麼開啟HTML檔案？想要開啟html檔案並不會複雜，如果你不清楚開啟方法，一

html基礎教程1

什麼是 HTML？ HTML 是用來描述網頁的一種語言。 HTML 指的是超文字標記語言 (Hyper Text Markup Language)

Python之Pandas使用教程

1.Pandas概述 Pandas是Python的一個數據分析包，該工具為解決資料分析任務而建立。

yolov5 簡單教程

該庫代表Ultralytics對未來物件檢測方法的開源研究，並結合了以前的YOLO庫https://github.com/ultralytics/yolov3在自定義資料集上訓練了數千個模型而得到的最佳實踐。所有程式碼和模型都在積極的開發中，如有修改或

Thingsboard 簡單教程：使用 ThingsBoard 檢視物聯網資料

好東西分享給大家 ========================================================== 什麼是ThingsBoard？

2020年7月最新|一分鐘永久啟用Win10系統超簡單教程|更多神奇功能

2020年7月最新|一分鐘永久啟用Win10系統超簡單教程|更多神奇功能北緯37度的大飛2020-07-13 12:54:09

jstree 許可權樹簡單教程

第一 :引用.略過第二 : 初始化: 1 //初始化載入 2window.onload = function () { 3//獲取樹資訊 todo

[醫療資訊化][DICOM教程]1.使用Java的DICOM基礎-理解DICOM檔案-DICOM Basics using Java - Making Sense of the DICOM File

部落格園隨機切換背景圖，超簡單教程

目錄一、前言二、準備工作三、實現程式碼四、結尾一、前言部落格園做的還是挺強大的，很多東西都支援自定義，比較適合喜歡瞎搗鼓的小夥伴。之前寫過一篇部落格園看板孃的教程，有興趣的小夥伴可以看一下：htt

在.NET Core中使用MongoDB明細教程(1):驅動基礎及文件插入

MongoDB，被歸類為NoSQL資料庫，是一個以類JSON格式儲存資料的面向文件的資料庫系統.MongoDB在底層以名為bson的二進位制編碼格式表示JSON文件，MongoDB bson實現是輕量級、快速和高度可遍歷的。這意味著MongoDB為使

MySQL教程1-校驗MySQL是否本地安裝成功以及如何啟動服務

注意: 不在介紹如何下載和安裝以及配置MySQL, 網上教程很多, 這裡不多贅述...

PyTorch教程 | 1 圖片資料建模流程範例

構建資料流程是實踐過程中核心環節。熟悉pipeline的的構建過程，有助於理解不同程式碼的結構，也是實現自主建立網路的第一步。

vuex簡單梳理1、state及輔助函式mapState

vuex可以理解為是一個vue提供的公共倉庫，裡面儲存裡多個元件都會用到的資料、方法等。

PANDAS: 新手教程一

作者|Ankit Goel 編譯|VK 來源|Towards Data Science Pandas是一個強大的開源資料分析和操作庫。它可以幫助你對資料進行各種操作，並生成有關它的不同報告。我將把這篇文章分成兩篇

IOS高階教程1:處理1000張圖片的記憶體優化

轉載請保留以下原文連結： http://my.oschina.net/taptale/blog/91894 一、專案需求在實際專案中，使用者在上傳圖片時，有時會一次性上傳大量的圖片。在上傳圖片前，我們要進行一系列操作，比如：旋轉圖片為正確方向

非常全面的Pandas入門教程

原始文章 pandas是基於NumPy的一種資料分析工具，在機器學習任務中，我們首先需要對資料進行清洗和編輯等工作，pandas庫大大簡化了我們的工作量，熟練並掌握pandas常規用法是正確構建機器學習模型的第一步。

Django 使用教程1 專案建立與執行

Django 使用教程1 專案建立與執行 1、首先安裝pip install django==1.8.2 # 使用命令安裝Django 可以指定版本 2、可以使用命令django-admin startproject 專案名 # 可以使用命令建立Django專案也可以在pyc

pandas簡單教程1

pandas簡單教程1

Series

DataFrame

DataFrame 的一些簡單運用

相關推薦