R語言資料處理60題

阿新 • • 發佈：2021-08-30

#author lee
#date 2021.8.26

library(tidyverse)
#1建立資料
df <- data.frame(
  "grammer" = c("Python","C","Java","GO",NA,"SQL","PHP","Python"),
  "score" = c(1,2,NA,4,5,6,7,10)
)
df
#2指定行提取
#df[which(df$grammer == 'Python'),]
df %>% filter(grammer == "Python")
#3提取列名
names(df)
#colnames(df)
#4資料修改，根據索引,方法1
#names(df)[2]<-paste("score")
#colnames(df)[2]<-"score"
#4資料修改，根據名稱,方法2
#names(df)[names(df)=="score"]<-"popularity"
#colnames(df)[names(df)=="score"]<-"popularity"
#4資料修改，更改列名,方法3
options(warn=-1)#忽視警告資訊
df<-df %>% rename(popularity = score)#修改後的在前
#5統計grammar每種程式語言中語言的次數
table(df$grammer)#行的形式
df %>% count(grammer)#列的形式
#7(篩選行)，提取popularity大於3的行
df %>% filter(popularity>3)
#8(資料去重複)，按照grammar列去除重複
df %>% distinct(grammer, .keep_all = TRUE)
#9(資料計算)計算popularity的平均值
df %>% summarise(popularity_avg=mean(popularity))
#10(格式轉換)將grammar列轉換為序列
df$grammer#R語言中，從資料框中提取出來就是字元向量
#11資料儲存，儲存為excel
writexl::write_xlsx(df,"filename.xlsx")
#12檢視資料的行數和列數
dim(df)
#13篩選行，篩選popularity大於3小宇7的行
df %>% filter(popularity >3 & popularity <7)
#14交換兩列的位置
df %>% select(popularity,grammer)
#15篩選行，提取popularity最大值所在的行
df %>% filter(popularity == max(popularity,na.rm = TRUE))#這裡由於一開始沒有對NA進行處理，所以報錯了，需要加上na.rm
df %>% top_n(1,popularity)
#16檢視最後幾行的資料
tail(df)
#17刪除最後一行資料
df %>% slice(-n())
#18修改資料，新增一行資料“perl”，6
newrow = tibble(grammer="perl",popularity=4)
df %>% bind_rows(newrow)
#19資料整理，對資料按照popularity列從大到小排序
df %>% arrange(desc(popularity))#不加desc，從小到大排序
#20統計grammar列每個字串的長度
df %>% mutate(str_grammar=str_length(grammer))
#21讀取本地excel資料
df<- readxl::read_xlsx("test.xlsx")
#22檢視資料的前幾行,後幾行，類似linux
head(df)
tail(df)
dim(df)
#23將salary列轉換為最大值與最小值的平均值
df<-df %>% separate(salary,into = c("low","high"),sep = "-") %>%
  mutate(salary=(parse_number(low)+parse_number(high))*1000/2) %>%
  select(-c(low,high))
#24分組彙總，根據學歷分組，並計算平均薪資
df %>% group_by(education) %>%
  summarise(salary_ave=mean(salary))
#26檢視資料結構資訊
str(df)
#27檢視資料彙總資訊,最小值，最大值，平均值
summary(df)
#28新增一列將salary離散成三水平
df<-df %>% mutate(class=case_when(salary>=0 & salary< 5000 ~"low",
                              salary>5000 & salary<15000 ~'middle',
                              TRUE~"high"))
#29按照salary進行降序排列
df %>% arrange(desc(salary)) %>%
  head()
#30提取第3行資料
df %>% slice(3)
#32繪製salary的頻率分佈直方圖
df %>% ggplot(aes(x=salary))+geom_histogram(bins = 10)
#33,繪製salary的頻率密度曲線圖
df %>% ggplot(aes(x=salary))+geom_density()
#34資料刪除，刪除最後一列class
df %>% select(-class) %>% head()
#35,36 將df的第一列與第二列合併為新的一列
df %>% unite("newcol",1:2,sep = "")
df %>% mutate(Newcol=paste(education,salary,sep = "-"))#transmute，只保留新列
#37資料計算
df %>% summarise(range=max(salary)-min(salary))
#38拼接第一行和最後一行
bind_rows(df[1,],df[nrow(df),])
#39將第3行新增到末尾
bind_rows(df,df[3,])
#40檢視每一列的資料型別
str(df)
#41將第一列設定為索引,distinct,用於去除重複，索引不能有重複
df %>% distinct(createTime,.keep_all = TRUE) %>%
  column_to_rownames("createTime") %>%
  head()
#42生成一個和df等長的隨機資料框
df1<-tibble(rnums=sample.int(10,nrow(df),replace = TRUE))
#43合併生成的資料框
df<-bind_cols(df,df1)
#44生成新列new，為salary減去隨機數列
df<- df %>% mutate(new=salary-rnums)
#45檢查缺失值，檢查資料中是否含有任何缺失值
anyNA(df)
anyNA(df$salary)
#46將salary列的型別轉換為浮點數
df %>% mutate(rnums=as.double(rnums)) %>%
  head()
#47計算salary列大於10000的次數
df %>% summarise(n=sum(salary>10000))
df %>% count(salary>10000)
#48統計每種學歷出現的次數
table(df$education)
df %>% count(education)
#49檢視education列共有幾種學歷
df %>% distinct(education)
#50提取salary與new列之和大於60000的最後三行
df %>% filter(salary+new >50000) %>%
  slice((n()-2):n())
df %>% filter(salary+new >50000) %>%
  slice_tail(n=3)
#51使用絕對路徑讀取本地EXcel資料
df<-readxl::read_xls("51-80.xls")
#52檢視資料框的前三行
df %>% head(3)
head(df,3)
#53檢視每列趨勢之狀況
anyNA(df)
if(!require("naniar")) install.packages("naniar")
library(naniar)
df %>% miss_var_summary()
#54檢視日期列含有缺失值的行
df %>% filter(is.na(日期))
#55檢視每列缺失值在哪些行
naIdx<-df %>% where_na() #返回na的行列索引
split(naIdx[,1], naIdx[,2])#提取對應的行列
#56刪除所有含有缺失值的行
df %>% drop_na()
#57繪製收盤價的折線圖
df %>% 
  ggplot(aes(日期, `收盤價(元)`)) +
  geom_line()
#58同時繪製開盤價與收盤價
df %>% 
  select(日期,`開盤價(元)`,`收盤價(元)`) %>%
  pivot_longer(-日期,names_to = "type",values_to = "price")%>%
  ggplot(aes(日期,price,col=type))+geom_line()
#59繪製漲跌幅的直方圖
df %>% ggplot(aes(`漲跌幅(%)`))+geom_histogram()
#60讓直方圖更細緻,bin更多
df %>% ggplot(aes(`漲跌幅(%)`))+geom_histogram(bins = 40)
#61用df的列名建立資料框
as_tibble(names(df))
#62輸出所有換手率不是數字的行
df %>% 
  mutate(`換手率(%)`= parse_number(`換手率(%)`)) %>%
  filter(is.na(`換手率(%)`))
#63輸出所有換手率為--的行
df %>% 
  filter(`換手率(%)` == "--")
#64充值df的行號
rownames(df) =NULL# R中無行號就是數字索引
#65刪除所有換手率不是數字的行
df %>% 
  mutate(`換手率(%)`= parse_number(`換手率(%)`)) %>%
  filter(!is.na(`換手率(%)`))
#66繪製換手率的密度圖
df %>%
  ggplot(aes(`換手率(%)`))+geom_density()

R語言資料處理60題

#author lee #date 2021.8.26 library(tidyverse) #1建立資料 df <- data.frame( \"grammer\" = c(\"Python\",\"C\",\"Java\",\"GO\",NA,\"SQL\",\"PHP\",\"Python\"),

中部：執具 | R語言資料分析（北京郵電大學）自整理筆記

第5章工欲善其事、必先利其器程式碼，是延伸我們思想最好的工具。第6章基礎程式設計——用別人的包和函式講述自己的故事

高階轉錄組分析和R語言資料視覺化第十二期（線上線下同時開課）

“ 福利公告：為了響應學員的學習需求，經過易生信培訓團隊的討論籌備，現決定安排擴增子16S分析、巨集基因組、Python課程線上直播課。報名參加線上直播課的老師可在1年內選擇參加同課程的一次線下課。期

妹子如何運用R語言資料分析選擇心儀的物件？

前提假設妹子們一生中可以遇到100個追求者，追求者的優秀程度符合正態分佈；

r語言 merge_R語言空間資料處理：sf package基礎應用

技術標籤：r語言 merge 之前做過兩個空間資料的疊加：微笑牛油果：R語言空間資料處理：intersectionzhuanlan.zhihu.com

R 語言缺失值處理並使用SMOTE處理不平衡資料集

（1）準備資料過程中，遇到了缺失值的問題。以往都是自己手動寫程式碼，用缺失值樣本所在類別的均值或者眾數替換掉，結果今天發現，DMwR2包就有處理缺失值的函式，而且思想一致【大哭】

用R語言實現對不平衡資料的四種處理方法

在對不平衡的分類資料集進行建模時，機器學習演算法可能並不穩定，其預測結果甚至可能是有偏的，而預測精度此時也變得帶有誤導性。那麼，這種結果是為何發生的呢？到底是什麼因素影響了這些演算法的表現？

tushare 金融資料獲取（R語言版）

在上次 tushare正確爬取指數資料文章後，看到後臺有人留言說是希望能分享一個R語言版，那麼好，你們要的R語言版今天來了。首先，R語言只支援tushare pro，不支援tushare，因此在使用tushare獲取資料之前，需要註冊後

R語言中使用subset函式對資料進行分類管理操作

我們在SCI論文中常常可以見到這樣的表格，是根據分類來做出統計結果的，如下圖，是根據患者是否存活把患者分成了兩類倖存的和死亡的做分別統計，然後得出各類統計結果那麼，R語言是怎麼做出這樣的表格呢？首

R語言進行Twitter資料視覺化

作者|Audhi Aprilliant 編譯|VK 來源|Towards Datas Science 概述對於這個專案，我們在2019年5月28-29日通過爬蟲來使用Twitter的原始資料。此外，資料是CSV格式（逗號分隔），可以在這裡下載。

R語言——多元資料直觀表示

X是一個類似矩陣的資料 1、星象圖簡單星象圖 stars(X)帶圖例的星象圖 stars(X,key.loc=(17,7))帶圖例、彩色的星象圖 stars(X,key.col(17,7),draw.segments=T)2、臉譜圖 faces(X) 用人臉的某個部位（頭髮

大資料分析R語言tidyverse資料清洗工具教程

　　凌亂的資料集無處不在。如果要分析資料，不可避免地需要清理資料。在大資料分析R語言tidyverse資料清洗工具教程中，我們將研究如何使用R和一些漂亮的tidyverse工具來做到這一點。

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

原文連結：http://tecdat.cn/?p=17950 在本文中，我們使用了邏輯迴歸、決策樹和隨機森林模型來對信用資料集進行分類預測並比較了它們的效能。資料集是

用Python來仿製一張R語言的資料視覺化圖

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

view函式_資料科學系列:資料處理(6)字串函式基於R(二)

技術標籤：view函式替代字串的某個字元特殊符號會被當做字串嗎承接R&Python Data Science系列:資料處理(5)--字串函式基於R(一)，繼續介紹R語言中的字串函式。

R語言面板資料分析 plm包實現（固定效應模型和組內模型）

這裡寫目錄標題 1.安裝plm包 2.問題描述 3.pool 模型 4.個體固定效應的Panel模型——不考慮時間差異，考慮公司差異的估計

r語言提取cvs資料_乾貨|R語言生物資訊大資料分析基礎入門

技術標籤：r語言提取cvs資料 R是一個自由、免費、開放的軟體。具有強大的資料處理能力，越來越多的科研工作者也開始使用R語言處理科研資料，發表論文、文章。

R語言2資料結構

生信技能樹R語言部分學習筆記 03 資料框、矩陣和列表 3.1 資料結構簡介 (1) Vector向量：一維

rm r語言保留變數_R語言入門之資料排序、合併、分類彙總

技術標籤：rm r語言保留變數 1. 資料排序在R中對資料框中的資料排序，我們通常使用order()函式,該函式預設是升序，但是在要排序的變數前加上減號（-）就相當於降序排列了。

R語言之讀取資料夾的資料

技術標籤：r語言讀取檔案路徑：一層目錄（“示例”）、二層目錄（“資料1”、“資料2”）下的表格資料。

R語言資料處理60題

相關推薦