R語言-ggplot初級

阿新 • • 發佈：2018-04-16

美國人自動升序 udacity farm 基礎浙江省圖形 black

ggplot2簡介:

　　　在2005年開始出現,吸取了基礎繪圖系統和lattice繪圖系統的優點,並利用一個強大的模型來對其進行改進,這一模型基於之前所述的一系列準則,

　　　能夠創建任意類型的統計圖形

1.導入包

library(maps)
library(maptools)
library(rgdal)
library(plyr)
library(MASS) 
library(dplyr)
library(ggplot2)

案例1:鉆石數據集

　　采用ggplot2自帶的鉆石數據集.

　　數據集變量簡介

## 主要變量
## price 價格
## color 顏色
## carat 重量 

## cut 切工

　　1.1 使用qplot進行簡單的快速作圖

set.seed(123)
# 從整個數據集取出100行進行分析
dsmall <- diamonds[sample(nrow(diamonds), 100), ]
dim(dsmall)

# 1.1.1根據x和y和數據集自動作圖
qplot(carat, price, data = diamonds)

# 1.1.2根據log x和log y和數據集,自動作圖
qplot(log(carat), log(price), data = diamonds)

# 1.1.3根據x和y和數據集按照color進行分類,自動作圖 

qplot(carat, price, data = dsmall, colour = color)

# 1.1.4根據x和y和數據集按照shape進行分類,自動作圖
qplot(carat, price, data = dsmall, shape = cut)

# 1.1.5根據x和y和數據集,指定作圖的類型,自動作圖
qplot(carat, price, data = dsmall, geom = c("point", "smooth"))

# 1.1.6根據x和y和數據集,做箱線圖
qplot(cut, price / carat, data = diamonds, geom = " 
boxplot")

# 1.1.7根據x和y和數據集,做條形圖
qplot(color, data = diamonds, geom = "bar")

# 1.1.8根據x和y和數據集,做直方圖
qplot(carat, data = diamonds, geom = "histogram")

# 1.1.9根據x和y和數據集,做核密度圖
qplot(carat, data = diamonds, geom = "density")

技術分享圖片

　　　　　　圖 1.1.1　　　　　　　　　　　　　　　　　　　　　　圖 1.1.2 圖 1.1.3

技術分享圖片

　　　　　　　　圖 1.1.4　　　　　　　　　　　　　　　　　　　　　　　　　　圖 1.1.5　　　　　　　　　　　　　　　　　　圖 1.1.6

技術分享圖片

　　　　　　圖 1.1.7　　　　　　　　　　　　　　　　　　　　　　　　　　圖 1.1.8　　　　　　　　　　　　　　　　　　　　圖1.1.9

　　1.2使用qplot進行分組

# 1.1.10 使用facets對需要分組的字段進行分組
qplot(carat, data = diamonds, facets = color ~ .,
      geom = "histogram", binwidth = 0.1, xlim = c(0, 3))

# 1.1.11 給圖形添加信息
qplot(
  carat, price, data = dsmall,
  xlab = "Price ($)", ylab = "Weight (carats)",
  main = "Price-weight relationship"
)

技術分享圖片

　　　　　　　　　　圖 1.1.10 按照不同的顏色對重量進行統計　　　　　　　　　　　　　　　　　　　　　　圖 1.1.11 添加和標題,X軸,Y軸解釋

案例2:地圖(不包含中國)

　　ggplot是基於圖層進行作圖的

df <- data.frame(x = rnorm(2000), y = rnorm(2000))
norm <- ggplot(df, aes(x, y))
norm  # 圖層1
norm + geom_point()  # 圖層2

# 改變點的大小和形狀
norm + geom_point(shape = 1) 
norm + geom_point(shape = ".")

技術分享圖片

　　　　　　　　　　圖層 1　　　　　　　　　　　　　　　　　　　　　　圖層 2　　　　　　　　　　　　　　　　　　　　　　　　圖層3

　　采用ggplot2自帶的美國城市數據集us.city

　　數據集變量簡介

## name 城市名稱
## country.etc 簡稱
## pop 人口數量
## lat 緯度
## lon 經度
## capital 是否是首府

　　2.1找出美國人口大於500000的城市

big_cities <- subset(us.cities, pop > 500000)
qplot(long, lat, data = big_cities) + borders("state", size = 0.5)

技術分享圖片

　　　　　　　　　　　　　　圖 2.1

　　2.2 做出德州地圖

tx_cities <- subset(us.cities, country.etc == "TX")
# 在使用map做地圖的時候,記住x和y一定指的是經緯度
ggplot(tx_cities, aes(long, lat)) +
  borders("county", "texas", colour = "grey70") +
  geom_point(colour = alpha("black", 0.5))

技術分享圖片

　　　　　　　　　　　　　　圖 2.2 德州地圖

　　2.3結合USAssert來做出美國各個州的犯罪率

# 從map中獲取洲數據
states <- map_data("state")
# 獲取犯罪數據
arrests <- USArrests
# 將犯罪的數據列名轉換為小寫
names(arrests) <- tolower(names(arrests))
# 獲取根據行名獲取區域數據
arrests$region <- tolower(rownames(USArrests))
# 將兩個數據集進行合並
choro <- merge(states, arrests, by = "region")
# 按犯罪率升序排列
choro <- choro[order(choro$order), ]
# 2.3.1 犯罪率的分布
qplot(long, lat, data = choro, group = group,fill = assault, geom = "polygon")
# 2.3.2 謀殺率的分布
qplot(long, lat, data = choro, group = group,
      fill = assault / murder, geom = "polygon")

技術分享圖片

　　　　　　　　圖 2.3.1 結論:越往東北犯罪率越低圖 2.3.2 結論:越往西北謀殺率越低

案例3:中國地圖

　　3.1 做出各個省份人口的數量

# 載入中國地圖數據集
china=readShapePoly(‘E:\\Udacity\\Data Analysis High\\R\\R_Study\\第一天數據\\bou2_4p.shp‘)
# 獲取數據      
x<-china@data
# 轉換為datafarme
xs<-data.frame(x,id=seq(0:924)-1)
# 將china轉換為datafarme
shapefile_df <- fortify(china)
# 組合成完整的dataframe
china_mapdata<-join(shapefile_df, xs, type = "full")

# 省份名稱
NAME<-c("北京市","天津市","河北省","山西省","內蒙古自治區","遼寧省","吉林省",
        "黑龍江省","上海市","江蘇省","浙江省","安徽省","福建省", "江西省","山東省","河南省",
        "湖北省", "湖南省","廣東省", "廣西壯族自治區","海南省", "重慶市","四川省", "貴州省",
        "雲南省","西藏自治區","陜西省","甘肅省","青海省","寧夏回族自治區","新疆維吾爾自治區", 
        "臺灣省","香港特別行政區")

# 各個省份的人口
pop<-c(7355291,3963604,20813492,10654162,8470472,15334912,9162183,13192935,8893483,25635291,20060115,19322432,11971873,11847841,30794664,26404973,
       17253385,19029894,32222752,13467663,2451819,10272559,26383458,10745630,
       12695396,689521,11084516,7113833,1586635,1945064,6902850,23193638,7026400)

# 組合成完整的d人口-省份的dataframe
pop<-data.frame(NAME,pop)

# 和中國的地圖信息相結合,組合成datdaframe
china_pop<-join(china_mapdata, pop, type = "full")

ggplot(china_pop, aes(x = long, y = lat, group = group,fill=pop))+
  geom_polygon( )+
  geom_path(colour = "grey40")

技術分享圖片

　　　　　　　　　　　　圖3.1 結論顏色越淺的的省份人口越多

　　3.2 做出上海市的地圖

# 使用subset來取出上海市的信息
SH<-subset(china_mapdata,NAME=="上海市")

ggplot(SH, aes(x = long, y = lat, group = group,fill=NAME))+
  geom_polygon(fill="lightblue" )+
  geom_path(colour = "grey40")+
  ggtitle("中華人民共和國上海市")+
  annotate("text",x=121.4,y=31.15,label="上海市")

技術分享圖片

　　　　　　　　　　　　　　　　圖 3.2

案例4:時間數據

　　采用ggplot2自帶的economics數據集

　　數據集變量簡介

## date 時間
## pop 人口
## uempmed 失業率
## unemploy 失業人數

　　4.1 通過時間查看失業率

ggplot(aes(x=date,y=uempmed),data=economics)+
  geom_line()

技術分享圖片

　　　　　　　　　　　　圖4.1 圖層1

　　4.2查看不同政黨執政時期的失業率

# 獲取失業率的折線圖 圖層1
(unemp <- qplot(date, unemploy, data=economics, geom="line",xlab = "", ylab = "No. unemployed (1000s)"))

# 由於是1970年開始,所以去掉前三行,從尼克松開始統計
presidential1 <- presidential[-(1:3), ]

#確定x和y的邊界
yrng <- range(economics$unemploy)
xrng <- range(economics$date)

# 圖層2
unemp + geom_vline(aes(xintercept = start), data = presidential)

# 圖層3
unemp + geom_rect(aes(NULL, NULL, xmin = start, xmax = end,
                      fill = party), ymin = yrng[1], ymax = yrng[2],
                  data = presidential1) + scale_fill_manual(values =
                                                              alpha(c("blue", "red"), 0.2))

技術分享圖片

　　　　　　　　　　　　4.2 圖層2　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖層 3

5.作圖其他設置

　　5.1 疊加多個圖形

# 美國5大湖之一的休倫湖數據集
huron <- data.frame(year = 1875:1972, level = LakeHuron)
ggplot(huron, aes(year)) +
  geom_line(aes(y = level - 5), colour = "blue") +
  geom_line(aes(y = level ), colour = "black") +
  geom_line(aes(y = level + 5), colour = "red")

技術分享圖片

　　　　　　　　　　　　　　圖5.1

　　5.2 顏色設置

# 使用mtcars數據集
# 制定樂填充色red和邊框色black
ggplot(birthwt, aes(x=bwt)) + geom_histogram(fill="red", colour="black")
# 將cyl轉變為因子
mtcars$cyl <- factor(mtcars$cyl) 
# 對不同的ctl進行繪圖
ggplot(mtcars, aes(x=wt, y=mpg, colour=cyl)) + geom_point()

技術分享圖片

　　　　　　　　　　　　圖 5.2.1　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖 5.2.2

　　5.3 圖例

# 采用的是植物數據集
p <- ggplot(PlantGrowth, aes(x=group, y=weight, fill=group)) + geom_boxplot()
# 5.3.1 默認的圖例放在右邊
p
# 5.3.2 不使用圖例
p + guides(fill=FALSE)

# 5.3.3 將圖例放在頂部
p + theme(legend.position="top")

# 5.3.4 指定圖例的位置
p + theme(legend.position=c(1,0), legend.justification=c(1,0))

技術分享圖片

　　　　　　圖 5.3.1　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖 5.3.2

技術分享圖片

　　　　　　　　　　圖 5.3.3　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　圖 5.4.4

github:https://github.com/Mounment/R-Project

R語言-ggplot初級

美國人自動升序 udacity farm 基礎浙江省圖形 black ggplot2簡介: 　　　在2005年開始出現,吸取了基礎繪圖系統和lattice繪圖系統的優點,並利用一個強大的模型來對其進行改進,這一模型基於之前所述的一系列準則, 　　　能夠創建任意類型的

R語言初級教程(04): 算術運算

cimage ima 意思 img rstudio 使用 mage 同學一個通過前面三篇博客的學習，我們應該知道如何搭建R編程環境了，也掌握了RStudio的使用，同時也了解了R的功能用途。好了，現在正式開始R之旅。 R的一個最簡單功能，是它可以充當計算器來用，而且

R語言初級教程(05): 關係運算、邏輯運算

在介紹關係運算和邏輯運算之前，先說下R的邏輯常量：TRUE和FALSE。在R中，TRUE和FALSE分別表示邏輯常量真和假，其值分別為1和0。 > TRUE + 0 [1] 1 > FA

R語言初級教程: NA、Inf、NaN、NULL 特殊值

作者介紹：楊光輝，R語言中文社群專欄作者，中科院近代物理研究所，科研工作者一枚。目前的研究方向是

R語言的多維視覺化方法(ggplot二維圖表現多維)

轉載自http://www.edvancer.in/create-a-multi-dimensional-visualisation-in-r/ 大意就是在二維圖的基礎上，用不同的符號，顏色，大小等表現多維 Aim of any visualisation is

R語言筆記

表示 emp 做的 ble subst spl asdfasdf 讀取csv文件數據文件近期做的幾個項目都是用R語言來完畢的。正如老師所說。學起來非常快。忘起來也非常快。整理一下放在這裏，方便以後查閱。安裝所需的包： install.packages("xxxx

R語言中如何使用最小二乘法

一次函數 python 散點圖博客如何這裏只是介紹下R語言中如何使用最小二乘法解決一次函數的線性回歸問題。代碼如下：(數據同上一篇博客)(是不是很簡單????)> x<-c(6.19,2.51,7.29,7.01,5.7,2.66,3.98,2.5,9.1

R語言鏈接數據庫

repl 關閉連接 nec user sql查詢操作方法 nbsp 數據操作選擇轉載自：http://blog.csdn.net/hongweigg/article/details/49779943 R語言連接數據庫常用的方法有2種： 1、使用R數據庫接口連接MyS

信用卡評分模型（R語言）

eric 線圖樣本 tag 匯總 lines lan 識別 param 信用卡評分一、數據準備 1、問題的準備　　? 目標：要完成一個評分卡，通過預測某人在未來兩年內將會經歷財務危機的可能性來提高信用評分的效果，幫助貸款人做出最好的決策。　　? 背景：　　　　–

R語言數據分析系列之五

r語來看 tab barplot code 繪制 ber map lib R語言數據分析系列之五 —— by comaple.zhang 本節來討論一下R語言的基本圖形展示,先來看一張效果圖吧。這是一張用R語言生成的，虛擬的wordcloud雲圖，詳細

R語言用nls做非線性回歸以及函數模型的參數估計

nes 線性 -s legend 最小值 fun des and start 非線性回歸是在對變量的非線性關系有一定認識前提下，對非線性函數的參數進行最優化的過程，最優化後的參數會使得模型的RSS（殘差平方和）達到最小。在R語言中最為常用的非線性回歸建模函數是nls，下面以

R語言使用RMySQL連接及讀寫Mysql數據庫

技術分享 fcm list adl 創建數據庫 package install sql安裝 packages 簡單說下安裝過程，一般不會有問題，重點是RMySQL的使用方式。系統環境說明 Redhat系統：Linux 460-42.6.32-431.29.2.el6.

R語言簡介

nbsp 函數 .cn 一點 csv ips 自帶關系加載概況： R是統計領域廣泛使用的誕生於1980年左右的S語言的一個分支。可以認為R是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和作圖的解釋型語言。作為一種統計分析

R語言平均值和加權平均值

div class logs ted cnblogs r語言 bsp eight style > a=c(70,80,60) > mean(a) #平均值 [1] 70 > wt=c(3,3,4) > weighted.mean(a,wt) #

R語言hist繪圖函數

填充 3.5 繪圖函數數據作用區間 density 分隔 req hist 用於繪制直方圖，下面介紹每個參數的作用； 1）x: 用於繪制直方圖的數據，該參數的值為一個向量代碼示例： data <- c(rep(1, 10), rep(2, 5), rep(3

R語言boxplot繪圖函數

情況標簽 name 繪圖效果圖 alt .cn r語運行 boxplot 用於繪制箱線圖，我們都知道boxplot 用於展示一組數據的總體分布，在R語言中，支持兩種輸入數據的方式第一種：x ，這個參數指定用於繪制箱線圖所用的數據，是一個向量代碼示例： boxp

R語言數據挖掘實戰系列（1）

數據挖掘建模分析 R語言數據挖掘實戰（1）一、數據挖掘基礎數據挖掘：從數據中“淘金”，從大量數據（包括文本）中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢，並用這些知識和規則建立用於決策支持的模型，提供預測性決策支持的方法、工具和過程。數據挖掘的任務利用分類與預測、聚類分析、關聯規

R語言：時間的轉化

origin 從數據需要 code mat 時間 for 忘記 clas 一般使用R從數據庫導出來的時間數據一般都不是我們能看的懂的（具體是什麽格式的我也忘記了），需要做如下轉化 1 as.Date(time,origin = ‘1970-01-01‘) 最近從網上爬

R語言統計分析技術研究——嶺回歸技術的原理和應用

gts 根據誤差 med 分享 jce not -c rt4 嶺回歸技術的原理和應用

R語言重要數據集分析研究——搞清數據的由來

pan .cn logs ges 語言 lang -1 r語 tex 搞清數據的由來作者：李雪麗資料來源：百度百科 R語言重要數據集分析研究——搞清數據的由來

R語言-ggplot初級

相關推薦