1. 程式人生 > >[資料視覺化]Pandas單變數畫圖

[資料視覺化]Pandas單變數畫圖

Pandas單變數畫圖

Bar Chat Line Chart Area Chart Histogram
df.plot.bar() df.plot.line() df.plot.area() df.plot.hist()
適合定類資料和小範圍取值的定序資料 適合定序資料和定距資料 適合定序資料和定距資料 適合定距資料

pandas庫是Python資料分析最核心的一個工具庫:“殺手級特徵”,使整個生態系統融合在一起。除了資料讀取、轉換之外,也可以進行資料視覺化。易於使用和富有表現力的pandas繪圖API是pandas流行的重要組成部分。

在本節中,我們將學習基本的“pandas”繪圖工具,從最簡單的視覺化型別開始:單變數或“單變數”視覺化。這包括條形圖和折線圖等基本工具。通過這些,我們將瞭解pandas繪製庫結構,並花一些時間檢查資料型別。

資料分類:

  1. Norminal Data 定類變數:變數的不同取值僅僅代表了不同類的事物。問卷的人口特徵中最常使用的問題,而調查被訪物件的“性別”,就是 定類變數。對於定類變數,加減乘除等運算是沒有實際意義的;
  2. Ordinal Data定序變數:變數的值不僅能夠代表事物的分類,還能代表事物按某種特性的排序,這樣的變數叫定序變數。問卷的人口特徵中最常使用的問題“教育程度“,以及態度量表題目等都是定序變數,定序變數的值之間可以比較大小,或者有強弱順序,但兩個值的差一般沒有什麼實際意義。
  3. Interval Data 定距變數:變數的值之間可以比較大小,兩個值的差有實際意義,這樣的變數叫定距變數。有時問卷在調查被訪者的“年齡”和“每月平均收入”,都是定距變數。
  4. Ratio Data 定比變數, 有絕對0點,如質量,高度。定比變數與定距變數在市場調查中一般不加以區分,它們的差別在於,定距變數取值為“0”時,不表示“沒有”,僅僅是取值為0。定比變數取值為“0”時,則表示“沒有”
import pandas as pd
reviews = pd.read_csv("../input/wine-reviews/winemag-data_first150k.csv", index_col=0)
reviews.head(3)

結果:

條形圖可以說是最簡單的資料視覺化。他們將類別對映到數字:例如,早餐(一類)消費的雞蛋數量;或者,世界葡萄酒產區(類別)與其生產的葡萄酒標籤數量(數量):

#取資料province特徵下前10個最常出現的類別:province省份--->出現次數;
reviews['province'].value_counts().head(10).plot.bar()

這個圖表告訴我們什麼?它說加州生產的葡萄酒遠遠超過世界上任何其他省份!我們可能會問,加州葡萄酒總量的百分之幾是多少?這個條形圖告訴了我們絕對數字,但知道相對比例會更有用:

#取province特徵,統計,取前10,計算比例,畫圖bar plot
(reviews['province'].value_counts().head(10)/len(reviews)).plot.bar()

加州生產葡萄酒佔雜誌評選到的葡萄酒的幾乎三分之一!

條形圖非常靈活:高度可以代表任何東西,只要它是一個數字。每個欄都可以代表任何東西,只要它是一個類別。

在這種情況下,類別是標稱類別nominal categories:“純”類別,類別排序沒有多大意義。標稱分類變數包括國家,郵政編碼,乳酪型別等。另一種是序數類別ordinal categories:類別見的排序是有意義,如地震震級,有一定數量公寓的住宅小區,以及當地熟食店的薯條大小。

或者,在我們的案例中,Wine Magazine分配的某個評分的評論數量[ordinal categories]:

#統計各個得分的數目,直接顯示:可以發現,第一個bar是87,第二個是88;按照數目多少排序的
reviews['points'].value_counts().plot.bar()

reviews['points'].value_counts().sort_index().plot.bar()

正如你所看到的,每個釀出的酒總分都在80到100之間。而且,如果我們相信葡萄酒雜誌是一個品味良好的仲裁者,那麼類別92就會比類別91更有意義地“更好”。

折線圖Line charts

葡萄酒評論記分卡有20個不同的獨特值可供填寫,我們的條形圖幾乎不夠。如果雜誌評價0-100的話,有100個不同的類別,該怎麼辦?類別太多了,不適合用條形圖處理!

在這種情況下,我們可以使用折線圖代替條形圖:

#統計各個得分的數目,將index排序-從小到大(顯示更合理)
reviews['points'].value_counts().sort_index().plot.line()

相關推薦

[資料視覺]Pandas變數畫圖

Pandas單變數畫圖 Bar Chat Line Chart Area Chart Histogram df.plot.bar()

資料分析:Pandas變數圖形分析

在資料分析過程中,常常會對每個或部分特徵變數進行資料分析,而圖形展示最為直觀。今天就來學習下,如何通過pandas實現單變數的統計圖。資料集依舊是Kaggle的Give Me Some Credits。 首先,讀取資料。 import pandas as pd import matplotl

《tableau資料視覺實戰》第二章建立變數圖表 Ashutosh Nandeshwar著學習總結

第二章 建立單變數圖表 主要包括:表格、條形圖、餅圖、直方圖、線圖、堆積條形圖、箱線圖 1、表格可以為使用者提供詳細的資料資訊。其中儀表盤可以將表格和圖表融為一體。 2、條形圖:水平方向稱為“條形圖”,垂直方向稱為“柱狀圖”。條形圖長度代表一個特定度量的量,適用於分類資

python pandas+matplotlib 簡化資料視覺

一、pandas中的繪圖函式 1.series繪製圖像 # 準備一個Series s = Series(np.random.randn(10),index=np.arange(10,110,10)) # 最簡單的畫個圖 s.plot() plt.show() 2.Data

【原】資料視覺之Matplotlib : pandas中的繪圖函式

Pandas有許多能夠利用DataFrame物件資料組織特點來建立標準圖表的高階繪圖方法,本文主要介紹的是pandas中的繪圖函式。 #coding:utf-8 import matplotlib.pyplot as plt import pandas as pd import numpy as np fr

Python資料分析之pandas資料視覺 python

Python資料視覺化常用的是matplotlib庫,matplotlib是底層庫,今天學了pandas的資料視覺化,相對於matplotlib庫來說,簡單許多。 折線圖 %matplotlib inline import numpy as np import

智聯Python相關職位的資料分析及視覺-Pandas&Matplotlib篇 python

Numpy(Numerical Python的簡稱)是Python科學計算的基礎包。它提供了以下功能: 快速高效的多維陣列物件ndarray。 用於對陣列執行元素級計算以及直接對陣列執行數學運算的函式。 用於讀寫硬碟上基於陣列的資料集的工具。 線性代數運算、傅立

python資料視覺: 使用 pandas

資料 連結 以下是本資料集的13個特徵變數的詳細說明: order_id:訂單ID,數字組合而成,例如4283851335。 order_date:訂單日期,格式為YYYY-MM-DD,例如2013-10-17。 order_time:訂單日期,格式為HH

Python--Pandas-資料視覺

1.Pandas 簡介 我們做資料視覺化,其實就是就資料進行分析,使用Python做資料分析的,我想pandas必然是一個利器,一個非常強大的資料分析工具包,也集成了資料視覺化的功能,一個集資料處理、分析、視覺化於一身的工具,非常強大好用。pandas中的資料

Python資料視覺-Matplotlib學習筆記(1)--折線圖為例畫圖入門

在使用Python做資料處理的時,大量的資料我們看起來並不是很直觀,有時候把它圖形化顯示反而更能容易的觀察資料的變化特徵等等。 Matplotlib是一個Python的2D繪相簿,它以各種硬拷貝格式和跨平臺的互動式環境生成出版質量級別的圖形。它提供了一整套

Python資料視覺:網易雲音樂歌

網易雲音樂2018年度聽歌報告—遇見你,真好。 相信有不少人在上週,應該已經看過自己網易雲音樂的年度報告了。 小F也是去湊湊熱鬧,瞅了一波自己的年度聽歌報告。 那麼你在雲村又聽了多少首歌,聽到最多的歌詞又是什麼呢? 2018年你的年度歌手又是誰,哪些又是你最愛的歌呢? 不過相比去

基於Python的資料視覺 matplotlib seaborn pandas

原文采用了kaggle上iris花的資料,資料來源從上面的網址上找噢 如果沒有seaborn庫 安裝方法如下 http://www.ithao123.cn/content-10393533.html 正式開始了~~~ # 首先載

matplotlib + pandas——資料視覺

利用pandas進行資料分析 + matplotlib進行視覺化展示 1 第一個繪圖 (原本在matplotlib中需要幾段程式碼,在pandas中只需要一行程式碼) i

python seaborn 共享x軸畫圖 資料視覺

最近實習資料分析需要畫兩個圖共享x軸, 我之前找到了matplotlib如何實現:http://www.developerq.com/article/1516290674 但是不知道如何移植到seaborn上,經過N次實驗終於找到方法了! 需求:折線圖和柱狀圖共享x軸,

掌握這25條小貼士,快速提升資料視覺能力!

視覺化不是單純的資料展示,其真正價值是設計出可以被讀者輕鬆理解的資料展示。設計過程中的每一個選擇,最終都應落地於讀者的體驗,而非設計者個人。 本文提到了一些常見錯誤,也是我們團隊總結出的一些技巧。這25條小貼士能夠快速提升和鞏固你的資料視覺化設計。一起來看看! 一、原則 1. 選擇可以講故事的圖表

首屆《資料視覺之星》大賽火熱開啟,誠邀各行業資料精英大展身手!

大資料時代,隨著各行各業的資料分析、資料探勘等領域的業務不斷增長,越來越多的資料通過資料視覺化分析技術,讓人們可以得到了直觀、清晰的呈現,從而為公司的管理和發展提供更加簡捷高效的意見和建議。為了能夠更好地促進資料視覺化興趣愛好者間的分享交流,推動資料視覺化分析技術的發展和各行業的廣

PoPo資料視覺週刊第6期

PoPo資料視覺化 聚焦於Web資料視覺化與視覺化互動領域,發現視覺化領域有意思的內容。不想錯過視覺化領域的精彩內容, 就快快關注我們吧 :) 本期視覺化精彩視訊請關注公眾號瀏覽 全天智慧獲Pre-A輪千萬融資 助力開啟全天候實時大資料視覺化模式 騰訊AI加速器二期專案全天智慧

PoPo資料視覺週刊第5期

PoPo資料視覺化 聚焦於Web資料視覺化與視覺化互動領域,發現視覺化領域有意思的內容。不想錯過視覺化領域的精彩內容, 就快快關注我們吧 :) World Wire 資料視覺化演示(視訊) IBM公司於2018年8月推出全球支付系統“World Wire” 珊瑚城市-全球10大最適宜居住的城

資料視覺:淺談熱力圖如何在前端實現

作者 個推開發工程師甄鑫 當我們需要用更直觀有效的形式來展現各類大資料資訊時,熱力圖無疑是一種很好的方式。作為一種密度圖,熱力圖一般使用具備顯著顏色差異的方式來呈現資料效果,熱力圖中亮色一般代表事件發生頻率較高或事物分佈密度較大,暗色則反之。 值得一提的是,熱力圖最終效果常常優於