1. 程式人生 > >1.6 Navigating This Book(本書導航)

1.6 Navigating This Book(本書導航)

ati lock 跳過 orm tac 亂七八糟 http 知識 數據清洗

如果之前沒有接觸過Python,那麽你應該在第2章和第3章多花一些時間。這兩章介紹了Python語言的特性和IPython shell以及Jupyter notebooks。這些東西是本書的基本知識。如果已經有了相關經驗,可以直接跳過這些章節。

在第4章,會介紹一些Numpy的關鍵用法,高級用法的部分會放在附錄A。

第5章,介紹pandas。在剩余的章節,會使用pandas、numpy和matplotlib(可視化)。

本書的章節盡可能以遞增的形式組織,當然,有些知識是會跨章節的。

通常來說,一些任務可以歸為下面幾類:

  • Interacting with the outside world (與外界交互)

讀取和寫入各種文件格式,存儲數據

  • Preparation(準備)

數據清洗和處理,方便之後的建模或分析

  • Transformation(轉換)

對不同的數據進行分組,並使用一些數學或模型,來產生新的數據集(比如對一個大表格進行聚合操作)

  • Modeling and computation

把數據餵給統計模型,機器學習算法,或其他工具

  • Presentation

制作可交互的,或靜態的圖形可視化,或一些文本摘要

1 代碼範例

本書的大部分代碼由input和output組成,用IPython shell或Jupyter notebook呈現:

#code example
s=‘I love Python‘

#output
s
‘I love Python‘

可以看到上面一個cell左側有in和out的標識。

2 數據

本書中的數據可以從GitHub上下載(可以在datasets文件夾中找到)

3 Import Conventions(Import慣例)

import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 
import seaborn as sns 
import statsmodels as sm

4 Jargon(行話)

Munge/munging/wrangling

這個是用來描述把不結構化或亂七八糟的數據,變為結構化,幹凈形式的過程。

這個過程我基本使用數據清洗,數據處理來指代。

Pseudocode(偽代碼)

  • wiki:偽代碼
  • baidu:偽代碼

Syntactic sugar(語法糖)

在不添加新特征的前提下,讓代碼更方便易用的編程語法。

  • wiki:語法糖
  • baidu:語法糖

1.6 Navigating This Book(本書導航)