python 數據分析庫介紹
阿新 • • 發佈:2019-02-01
python 速度 變換 space 升級版本 行數 otl 子集 功能
1 引言
高效處理數據的python工具:
與外界進行交互:
讀寫各種文件格式和數據庫
準備:
對數據進行清理、修整、整合、規範化、重塑、切片切換、變形等處理以便進行分析
轉換:
對數據集做一些數學和統計運算以產生新的數據集。你如說,根據分組變量對一個大表進行聚合
建模和計算:
將數據進行統計模型、機器學習或其他計算工具聯系起來
展示:
創建交互式或靜態的圖片或文字摘要
2 重要的庫
(1)NumPy(Numerical Python)
菜鳥教程
numerical 英 /nju?‘mer?k(?)l/ 美 /n?‘m?r?kl/N
NumPy是python科學計算的基礎包
英 /n?m/ py
一維數組:[ ];二維數組:[ [ ],[ ] ];三維數組:[ [ [ ],[ ] ],[ [ ],[ ] ] ]
NumPy 是一個運行速度非常快的數學庫,主要用於數組計算,包含:
矩陣運算
一個強大的N維數組對象 ndarray
用於對數組執行元素級計算以及直接對數組執行數學運算的函數
用於毒血硬盤上基於數組的數據集個工具
整合 C/C++/Fortran 代碼的工具
線性代數、傅裏葉變換、隨機數生成等功能
import numpy as np
(2)pandas
pandas是numpy的升級版本
提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數
pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據庫(如SQL)靈活的數據處理功能。他提供了復雜的精細索引功能
以便便捷完成重塑、切片和切塊、聚合以及選取數據子集等操作
首先需要了解他主要兩個數據結構:Series和DataFrame。
(3)matplotlib數據可視化神器
[mæt‘pl?tlib] 美式讀音:[mæt‘plotlib]
是最流行的用於繪制數據圖表的Python庫
import matplotlib.pyplot as plt
線圖; 散點圖; 等高線圖; 條形圖; 柱狀圖; 3D 圖形, 甚至是圖形動畫等等.
python 數據分析庫介紹