R教材3 資料管理

阿新 • • 發佈：2018-11-26

根據原物件建立新變數，物件=transform(物件,新變數)
變數的重編碼variable[condition]<-expression，變數的下標運算子設定條件，當condition為T時則執行賦值；within(物件,{新變數[原變數的判斷條件]=新值})，建立新物件，{}內為執行語句
1. cut(列物件,breaks=quantile(列物件,probs=c(0.0,0.3,0.7,1.0)),include.lowest = T)，include.lowest是否包含最小值，數值變數離散化且轉化為因子
變數的重新命名names(物件)[]<-新命名，names通過下標運算子找到屬性名並修改
1. fix方法最直接
2. plyr包中的rename(dataframe,c(oldname="newname",……))
缺失值處理：NA缺失值、NaN異常值、Inf、-Inf正負無窮大；R中字元型和數值型資料使用的缺失值符號是相同的，這與SAS等程式不同；缺失值無法比較
1. 識別缺失資料
  1. 先把異常值重編碼為缺失值，is.nan()
  2. is.na檢驗每個資料是否為缺失值，返回相同大小的T和F的物件、complete.case檢驗每個觀測（行）是否為缺失值
  3. *mice包中的pattern方法：md.pattern()按行列合計缺失值資訊
  4. *圖象方法：VIM包中的aggr(資料,prop=F,number=TRUE)、matrixplot()
2. 處理缺失值
  1. 確定缺失值是否有業務含義
  2. 刪除
    1. 行刪除，直接清理檔案（可能只使用到完整列），na.omit()
    2. 配對刪除，檔案資料使用到時有缺失值才刪除行，cor(sleep,use="pairwise.complete.obs")求相關係數，自動去除有缺失值的記錄
  3. 替換mean(x,na.rm=T)，去除NA再計算；根據資料的分佈，正態分佈可用均值代替，偏態可用中位數代替，或者屬性之間的聯絡可以用迴歸推斷缺失值
日期值as.Date(物件,“讀入的格式”)，日期值一般以字串形式傳入R中，要轉化為日期變數
1. format(物件,format=“”)對日期物件修改其格式（其他物件也可以）
2. difftime(,,units="weeks")計算日期間隔，以周為單位
3. *這裡用到的是as.資料型別()，顯式轉換
型別轉換
1. 判斷is.資料型別()
2. 顯式轉換as.資料型別()
3. 隱式轉換c(1,T,'abc')，直接都轉換為character
4. factor()轉換為因子
資料排序，物件[order(排序屬性)]，在排序屬性前加-使其降序
資料集合並
1. 新增列merge(dataframe1,dataframe2,by=“連線屬性”,all.x=T)，即inner join，內聯接；即vlookup
2. cbind()，列聯合，必須有相同的行數和排序
3. 新增行rbind()，必須有相同的變數，順序不必一樣
提取子集
1. 保留變數，下標運算子選擇列[]
2. 丟棄變數
  1. 下標運算子[!names(資料框) %in% c(列名)]、[c(-8,-9)]去除8和9列
  2. 列<-NULL,，這裡的NULL和NA是不同的
3. 選擇行，物件[條件,]
4. 最簡單的選擇subset(物件,屬性條件,select=)，過濾出物件，其屬性條件，select特定列
5. 隨機抽樣
  1. sample(1:nrow(airquality),size=10,replace=T)，返回行號，nrow()計算行數，size抽取數，replace是否放回；dataframe[sample(),]
  2. set.seed，為偽隨機數設定種子
利用SQL語句sqldf包中的sqldf()
1. sqldf("sql語句",row.names=T)，保留行名

R教材3 資料管理

根據原物件建立新變數，物件=transform(物件,新變數) 變數的重編碼variable[condition]<-expression，變數的下標運算子設定條件，當condition為T時則執行賦值；within(物件,{新變數[原變數的判斷條件]=新值})，建立新物件，{}內

R語言基本資料管理

建立新變數並整合到原來的資料框中： my_data <- transform(my_data, sum_x = x1 + x2, mean_x = (x1 + x2)/2) 變數的重編碼： lead

R語言高階資料管理

數學函式函式描述 abs(x) 絕對值 sqrt(x) 平方根 ceiling(x) 不小於x的最小整數 flo

R教材4 高階資料管理

數值與字元處理函式數學函式，物件非單個數值時，會作用於每個數值絕對值abs() 平方根sqrt() 舍入小數round(,digits=) 對數 log(

習題 14.3 學校的人事部門儲存了有關學生的部分資料（學號、姓名、年齡、住址），教務部門也儲存了學生的另外一些資料（學號、姓名、性別、成績），兩個部門分別編寫了本部門的學生資料管理程式，其中都用。。

C++程式設計（第三版）譚浩強習題14.3 個人設計習題 14.3 學校的人事部門儲存了有關學生的部分資料（學號、姓名、年齡、住址），教務部門也儲存了學生的另外一些資料（學號、姓名、性別、成績），兩個部門分別編寫了本部門的學生資料管理程式，其中都用了Student作為類名。現在

QlikSense系列(3)——QlikSense管理資料

QlikSense管理資料在幫助中寫的比較清楚 https://help.qlik.com/zh-CN/sense/3.1/Subsystems/Hub/Content/LoadData/load-data.htm 下面主要就利用指令碼生成資料模型遇到的難題進行記錄：連線SQLServer取數發

易學筆記-第6章資料管理/6.3 利用資料卷容器遷移資料

利用資料卷容器遷移資料利用資料庫備份資料 [[email protected] ~]# docker run -it --name backdocker --volumes-from datadocker -v /backup docker.io/ubuntu:lat

大資料技術學習筆記之linux基礎3-軟體管理與shell指令碼開發

一、Linux軟體管理 -》壓縮檔案管理 -》常見壓縮格式 -

課時3.使用者管理-大資料與人工智慧實戰L1系列課程-小象學院

知識要點 1.新增新組 groupadd groupname 2.新增新使用者 useradd username 3.設定使用者密碼 passwd username 4.給使用者新增組 usermod -g groupname

R語言學習（五）高階資料管理

（一）數值和字元處理函式數學函式：統計函式：輸入help（）可以檢視函式的具體用法 z <- mean(x) z <- mean(x,trim=0.05,na.rm=TRUE) ;;丟棄最大最小百分之5後的截尾平均書均值與標準

利用R語言進行基本資料管理

####建立leadership資料框 manager <- c(1, 2, 3, 4, 5) date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09") country <- c("US", "US", "

第1章-資料探索(3)-資料預處理之R實現

簡介 R語言中，自身已經帶有了強大的資料處理、資料計算等方面的函式。雖然，對於大規模的資料集合，處理過程可能會不如Python快，但是小規模的資料處理，R語言使用起來仍然會更方便。值得注意的是，為了執行效率，我們要儘量避免在R語言中，使用迴圈函式，而是要運用向量化的處理函式，即R

R中的基本資料管理

目錄 1、引例 2、建立新變數 3、變數的重編碼 4、變數的重新命名 5、缺失值 6、日期值 7、資料排序 8、資料集的合併 9、資料取子集 1、引例現假設需要研究男性和女性在領導各自企業方式上的不同，為了很好地解答這個問題，我們可能需要各個方面的資

R語言與資料模型(3)-正態分佈

> x<-c(11,22,34,53,12,45,55,37,43,23,9) > dnorm(x,mean=mean(x),sd=sd(x)) [1] 0.011476566 0.020361888 0.023388233 0.010303998 0.

R入門<三>-R語言實戰第4章基本資料管理摘要

入門書籍：R語言實戰進度：1-4章摘要： 1）實用的包 forecast:用於做時間序列預測的，有auto.arima函式 RODBC:可以用來讀取excel檔案。但據說R對csv格式適應更加良好，相應的匯入匯出均較為方便（read.table, write等） reshape：目前用到ren

R語言︱大資料集下執行記憶體管理

如果建立一個filebacked.big.matrix，那麼需要指定backingfile的名稱和路徑+descriptorfile。可能多個big.matrix物件對應唯一一個descriptorfile，即如果descriptorfile改變，所以對應的big.matrix隨之改變；同樣，decripto

docker三劍客(3) swarm 管理工具 shipyard

effect 現在 rest curl rar png 方式 shipyard src 1，設置下載源 #docker默認下載源，下了一整天都沒下載下來，改成國內源分分鐘搞定 [email protected]/* */:~$ curl -sSL htt

基於Quartz.Net的任務管理平臺開發(3) —— 任務管理平臺

.cn utility tro 完成 get blog 工具 https http 有了之前對Quartz.Net的原理的理解和配置，現在需要實現對運行任務的監控和管理，完成了任務管理平臺的開發，相關代碼已經托管GitHub： https://github.com/Vice

3.分類管理

date_time IT 參數 ID name 職業 3.2 CA cat 3.分類管理接口 3.1.查詢分類樹查詢所有分類，返回一個樹形結構。請求 /catalog/all 響應 { "code": 0,

土木工程師資料管理系統EngineerCMS

p s http sys height 協同 one adding In soft 工程師的一輩子最值錢的是經驗和資料資源，活生生的資料，整合得好，應付工作得心應手。而一些大型的資料管理系統不適合單機使用。EngineerCMS這款是專門為工程師量身打造的，可用於單機，也可

R教材3 資料管理

相關推薦