10.11-10.15周總結
阿新 • • 發佈:2021-10-18
資料分析基本概要
資料分析工作流程
1.需求分析
2.資料採集
3.資料清洗
4.資料分析
5.資料報告
5.1.資料視覺化
資料分析三劍客:numpy pandas matplotlib
ipython模組:在終端提供一個更加方便的程式設計環境
jupyter模組:核心功能是notebook,jupyter分析環境
notebook快捷鍵:
命令列模式(藍色)與編輯模式(綠色) 命令列模式>>>編輯模式 滑鼠左鍵點選或者直接按enter 編輯模式>>>命令列模式 鍵盤esc鍵 ctrl+enter 運行當前單元格 shift+enter 運行當前單元格並切換到下面的單元格(無則新建) 如何編寫標題 方式1:編輯模式下先寫文字 然後切換到命令列模式按m+數字 方式2:命令列模式下先按m之後按照警號跟文字即可 如何建立單元格 命令列模式下按b鍵 命令列模式下按a鍵 任何刪除單元格 命令列模式下連續按兩下d鍵 如何撤銷刪除 命令列模式下按z鍵
檢視提示資訊
1.命令後加?
2.shift加tab
numpy模組:
一個用於科學計算的庫
numpy陣列概念:
一維陣列: np.array([1,2,33])
二維陣列:np.array([[1,2,30],[1,3,4,5]])
numpy常見屬性:
T 轉置
ndim 檢視陣列維數
dtype 檢視資料內元素資料型別
shape 檢視資料行列數(結果是一個元組)
numpy常見方法:
arange()
zero()
empty()
eyes()
numpy資料型別
1.由於numpy主要只用在科學計算 所以大部分都是數字型別 2.並且為了避免與python中資料型別關鍵字衝突有些型別後面加了下劃線 布林值 bool_... 整型 int_... 無符號整型 uint... 浮點型 float_... 複數 complex_...
numpy運算子與函式:
greater
greater_equal
less
less_equal
equal
not_equal
square
sqrt
min
max
sum
count
average
var
pandas模組簡介:
基於numpy構建 主要用於操作excel表格類相關資料
內部集成了很多功能 並且有兩大資料結構Series、DataFrame
資料型別 Series:
基於numpy陣列構建 import pandas as pd pd.Series([1,2,3,4]) # 預設行索引就是從0開始的數字 pd.Series([1,2,3,4],index=['a','b','c','d']) # 自定義行標籤 pd.Series({'name':'jason','pwd':123}) pd.Series(0,index=['a','b','c','d'])
缺失資料及處理方式:
缺失資料的關鍵字是NaN 該關鍵字屬於浮點型(float64) isnull() # 缺失資料項展示為True notnull() # 缺失資料項展示為False fillna() # 填充缺失資料(重要) dropna() # 刪除缺失資料項
布林值索引:
| # 或 & # 與
索引取值:
.loc[] # 根據行標籤取值 .iloc[] # 根據行索引取值
關於資料修改:
資料在執行一些操作之後如果直接展示了結果則表示原資料沒有被修改
資料在執行一些操作之後如果沒有展示結果則表示原資料被修改了