python機器學習之10分鐘掌握pandas

阿新 • • 發佈：2019-02-18

微信公眾號：資料探勘與分析學習

1.建立物件

通過傳遞值列表來建立Series，讓pandas建立一個預設的整數索引：

通過傳遞帶有日期時間索引和標記列的NumPy陣列來建立DataFrame：

通過傳遞可以轉換為類似series的物件的dict來建立DataFrame。

生成的DataFrame的列具有不同的dtypes。

2.檢視資料

以下是檢視frame的頂部和底部行的方法：

顯示索引，列和基礎NumPy資料：

Describe()方法顯示了資料的快速統計摘要：

資料轉置:

根據某個軸排序

3.資料選擇

選擇一列產生一個Series，相當於df.A.

通過[]選擇，對行進行切片。

根據標籤選擇

根據位置選擇：

布林型別索引

使用isin()方法過濾

設定值

4.缺失值

pandas主要使用值np.nan來表示缺失的資料。它預設不包含在計算中。

重建索引允許您更改/新增/刪除指定軸上的索引。這將返回資料的副本。

刪除含有缺失值的行

填充缺失值

獲取值為nan的布林掩碼。

5.操作

5.1 統計

操作通常排除丟失的資料。

執行描述性統計：

使用具有不同維度的物件進行操作並需要對齊。此外，pandas會自動沿指定維度進行廣播。

5.2 apply函式

將函式應用於資料：

5.3 Histogramming(直方圖化)

5.4 字串方法

Series在str屬性中配備了一組字串處理方法，可以輕鬆地對陣列的每個元素進行操作，如下面的程式碼片段所示。請注意，str中的模式匹配通常預設使用正則表示式（在某些情況下總是使用它們）。

6.合併(merge)

6.1 concat

pandas提供了各種工具，可以在連線/合併型別操作的情況下，輕鬆地將Series，DataFrame和Panel物件與索引和關係代數功能的各種設定邏輯組合在一起。

使用concat()連線pandas物件：

6.2 Join

6.3 Append

新增行到dataframe

7.Grouping

通過“group by”，我們指的是涉及以下一個或多個步驟的過程：

根據某些標準將資料拆分為組
將函式獨立應用於每個組
將結果組合到資料結構中

按多列分組形成分層索引，我們再次應用sum函式。

python機器學習之10分鐘掌握pandas

微信公眾號：資料探勘與分析學習 1.建立物件通過傳遞值列表來建立Series，讓pandas建立一個預設的整數索引：通過傳遞帶有日期時間索引和標記列的NumPy陣列來建立DataFrame：通過傳遞可以轉換為類似series的物件的dict來建立Data

Python 機器學習之開發環境

sta HR nta 命令行 make 語言 anaconda 使用總結 2.6 Python 數據分析庫 Python 編程語言 Pythong Tutorial: https://docs.python.org/3/tutorial/ NumPy 提供常用的數值數組、矩

Python機器學習之梯度提升樹

pri () 糾正 ensemble depth del gbrt 1.5 cer #和隨機森林一樣，基於決策樹，采用連續的方式構建樹，深度很小max_depth<5.重要的參數n_estimate和learning_rate,這兩個參數的y作用在於對模型過擬合化得調

pandas縱向學習之10 minutes to pandas（一）

10mins官方文件 10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立物件 pandas常用資料

Python機器學習之資料預處理

# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,

pandas縱向學習之10 minutes to pandas（四）

時間序列 resample函式的用法： In [14]: rng = pd.date_range('1/1/2012', periods=100, freq='S') In [15]: ts = pd.Series(np.random.randint(0, 500, len(rn

pandas縱向學習之10 minutes to pandas（三）

pandas縱向學習之10 minutes to pandas（二） pandas縱向學習之10 minutes to pandas（一）操作數學統計 df.mean() #檢視每列的平均值 df.mean(1) #檢視每行的平均值 #每一行減去一列

pandas縱向學習之10 minutes to pandas（二）

pandas縱向學習之10 minutes to pandas（一）布林值索引 df[df.A>0] A B C D 2013-01-02 0.356680 -0.468280 1.293093 -0.752251 2013-01-03 1.179930

panda縱向學習之10 minutes to pandas（一）

10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt

Python機器學習之特徵工程

import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.model_selection import

python機器學習之SMO演算法

SVM演算法計算到後面是一個帶約束條件的優化問題這裡的SMO(Sequential Minimal Optimization)序列最小化演算法就是一個二次規劃優化演算法，可以用來解決上面的問題。SMO演算法是由John C.Platt在1998年提出的。SMO演算法的目

python機器學習之--用凝聚層次聚類進行資料分組

1.什麼是層次聚類def perfrom_clustering(X,connectivity,title,num_clusters=3,linkage='ward'): plt.figure() model = AgglomerativeClustering(

Python & 機器學習之專案實踐

機器學習是一項經驗技能，經驗越多越好。在專案建立的過程中，實踐是掌握機器學習的最佳手段。在實踐過程中，通過實際操作加深對分類和迴歸問題的每一個步驟的理解，達到學習機器學習的目的。預測模型專案模板不能只通過閱讀來掌握機器學習的技能，需要進行大量的練習。

python機器學習之神經網路(二)

來自：http://blog.csdn.net/cui134/article/details/26823101 由於Rosenblatt感知器的侷限性，對於非線性分類的效果不理想。為了對線性分類無法區分的資料進行分類，需要構建多層感知器結構對資料進行分類，多層感

Python機器學習之決策樹案例

# -*- coding: utf-8 -*- __author__ = 'gerry' # 先匯入所有的class import xgboost from numpy import * from s

Python機器學習之XGBoost從入門到實戰(基本理論說明)

Xgboost從基礎到實戰 XGBoost:eXtreme Gradient Boosting * 應用機器學習領域的一個強有力的工具 * Gradient Booting Machines(GBM)的優化表現，快速有效 —深盟

Python機器學習之資料探索視覺化庫yellowbrick

背景介紹從學sklearn時，除了演算法的坎要過，還得學習matplotlib視覺化，對我的實踐應用而言，視覺化更重要一些，然而

Python機器學習之資料探索視覺化庫yellowbrick-tutorial

背景介紹從學sklearn時，除了演算法的坎要過，還得學習matplotlib視覺化，對我的實踐應用而言，視覺化更重要一些，然而matplotlib的易用性和美觀性確實不敢恭維。陸續使用過plotly、seaborn，最終定格在了Bokeh，因為它可以與Flask完美的結合，資料看板的開發難度降低了很多。

機器學習之python基礎10

“”" 操作檔案的步驟： 1開啟檔案2讀寫檔案3關閉檔案用到1個函式open3個方法read，write，close 先寫open，close在寫read和write “”" file=open(“readme.txt”)#預設是以只讀檔案的形式並且返回物件,resdme中不能含有中文否則

用Python開始機器學習（10：聚類演算法之K均值）

我們之前接觸的所有機器學習演算法都有一個共同特點，那就是分類器會接受2個向量：一個是訓練樣本的特徵向量X，一個是樣本實際所屬的型別向量Y。由於訓練資料必須指定其真實分類結果，因此這種機器學習統稱為有監督學習。然而有時候，我們只有訓練樣本的特徵，而對其型別一無所知。這種情況，我

python機器學習之10分鐘掌握pandas

微信公眾號：資料探勘與分析學習

1.建立物件

2.檢視資料

3.資料選擇

4.缺失值

5.操作

6.合併(merge)

7.Grouping

相關推薦