Pandas庫的基本使用 pip安裝 Series DataFrame
阿新 • • 發佈:2020-07-26
Pandas庫的基本使用 pip安裝 Series DataFrame
安裝pip
pip是Python的包管理工具,熟悉Linux的朋友應該對包管理工具很熟悉(yum),一些庫被整合在了pip中,因此我們需要安裝pip(win10)
- 在官方下載地址:https://pypi.org/project/pip/#files,下載.tar.gz包
- 在自定義位置解壓pip包
- 使用cmd進入自定義路徑,執行
python setup.py install
- 新增pip環境變數,在PATH後新增
Python安裝路徑/Scripts
- 新建cmd或者重啟Pycharm,輸入pip命令,出現使用說明則為配置成功
Pandas簡介
Pandas是基於Numpy構建的擁有更高階資料結構以及分析能力的工具包
兩個核心的資料結構:
- Series(一維序列)
- DataFrame(類似資料庫表,二維表結構,與json的鍥合度很高)
Pandas可以對資料進行匯入、清洗、處理、統計和輸出,對於不是很複雜的資料,使用幾句pandas程式碼就可以對資料進行規整
Series
Series 是定長的字典序列,相當於兩個ndarray,一列是資料,一列可以是索引
# Series 建立方式一 直接呼叫Series建立,可以手動指定索引(相當於字典的key) x1 = Series([1, 2, 3, 4]) x2 = Series(data=[1, 2, 3, 4], index=['a', 'b', 'c', 'd']) print(x1) print(x2) # Series 建立方式二 以字典方式建立Series,先以字典方式儲存,再呼叫Series s = {'a': 1, 'b': 2, 'c': 3, 'd': 4} x3 = Series(s) print(x3)
輸出
當前所使用的python版本是: 3.7.2
0 1
1 2
2 3
3 4
dtype: int64
a 1
b 2
c 3
d 4
dtype: int64
a 1
b 2
c 3
d 4
dtype: int64
DataFrame
DataFrame有行索引和列索引,可以看做是有相同索引組成的Series
# 在這裡,列索引是科目名稱,行索引是五虎上將的姓名 data = {'Chinese': [66, 95, 93, 90, 80], 'English': [65, 85, 92, 88, 90], 'Math': [30, 98, 96, 77, 90]} df1 = DataFrame(data) df2 = DataFrame(data, index=['Zhangfei', 'Guanyu', 'Zhaoyun', 'huangzhong', 'Machao']) print(df1) print(df2)
輸出
Chinese English Math
0 66 65 30
1 95 85 98
2 93 92 96
3 90 88 77
4 80 90 90
Chinese English Math
Zhangfei 66 65 30
Guanyu 95 85 98
Zhaoyun 93 92 96
huangzhong 90 88 77
Machao 80 90 90
說明不指定index的DataFrame和Series一樣,預設index都是0,1,2,3...
解決報錯
-
提示安裝xlrd
pip install xlrd
-
ModuleNotFoundError: No module named 'openpyxl'
pip install openpyxl