1. 程式人生 > >R入門<三>-R語言實戰第4章基本資料管理摘要

R入門<三>-R語言實戰第4章基本資料管理摘要

入門書籍:R語言實戰

進度:1-4章

摘要:

1)實用的包

forecast:用於做時間序列預測的,有auto.arima函式

RODBC:可以用來讀取excel檔案。但據說R對csv格式適應更加良好,相應的匯入匯出均較為方便(read.table, write等)

reshape:目前用到rename函式,可以方便的對資料變數重新命名

fCalendar:在日期輸入處提及,據說對日期運算有奇效,但無具體示例。同理如lubridate

sqldf:在資料選取處提及,可代替subset以及各種where,即sql語句

2)資料匯入

data.frame(變數1,變數2,變數3)

attach/detach:一套使用,不必重複輸入資料框,直接輸入變數名即可定位/同理還有with

read.table(檔案路徑,header=TRUE,sep=","):這裡sep為分隔符

3)資料處理

is.na:判斷缺失值是否存在

transform: 在按需建立新變數,並儲存到資料框時,可用。舉例如

mydata<-transform(mydata,
                            sumx=x1+x2,
                            meanx=(x1+x2)/2)

邏輯運算子:見P68,內有!=,不等於,!x非x等等

變數分組賦值重編碼:先把所有數值賦值為NA,然後逐個判斷,並賦予新值

test<-within(資料,{
                            agecat<-NA
                            agecat[age>75]<-"Elder"
                            agecat[age>=55 & age <=76]<-"Middle")
                            }

within:如上例用於賦值,與with類似但允許修改資料框,另外有提及recode,recodevar等充電嗎

fix(資料):直接彈出互動式編輯器,可編輯資料

rename:用於重新命名,reshape包

is.na:用於判斷缺失值是否存在,缺失值為TRUE,非缺失值為FALSE(不能用==比較,因為預設缺失值不可比較)

na.rm=TRUE:用於在sum/avg等計算中,如果有缺失值時,忽略缺失值。否則函式會報錯

na.omit:用於刪除包含缺失值的行,一般資料量小時不建議使用

as.Date:表示將要輸入的資料是日期,預設為yyyy-mm-dd,但可通過format(具體見P73)修改,舉例如:

mydata《-as.Date("2014-10-12")

myformat<-"%m/%d/%y"
date<-as.Date(日期型變數,myformat直接引用之前的變數)

Sys.Date():輸入當天日期;

Date():輸入當前時間‘

format(x,format=輸入的日期):指定輸入什麼日期

difftime():計算時間間隔

1 today<-Sys.Date()
2 born<-as.Date("1999-11-11")
3 difftime(today,born,units="weeks"/"days"/"hours"/"months"...)

is/as.datetype:判斷,生成某個資料型別,如numeric, vector, logical等

order:資料排序,結合attach使用

merge():用by=變數名,來指定合併物件。這裡NA影響很大,具體看幫助裡的例項,可用incomparables去掉不要的觀測值

cbind:不管其他,直接橫向連線

rbind:總想合併,必須擁有相同的變數,順序可以不一樣

然後有提及一堆子集選取,但最好的是

subset/sqldf:用於資料提取。見P79-80

另外:

1:50,表示從第一個變數取到第50個變數

1-50:這裡表示第一個變數不取……

相關推薦

R入門<>-R語言實戰4基本資料管理摘要

入門書籍:R語言實戰 進度:1-4章 摘要: 1)實用的包 forecast:用於做時間序列預測的,有auto.arima函式 RODBC:可以用來讀取excel檔案。但據說R對csv格式適應更加良好,相應的匯入匯出均較為方便(read.table, write等) reshape:目前用到ren

Unity Shader入門精要學習筆記 - 4 學習 Shader 所需的數學基礎

旋轉矩陣 即使 模擬 能夠 一點 空間使用 虛擬 地板 金字塔 摘錄自 馮樂樂的《Unity Shader入門精要》 笛卡爾坐標系 1)二維笛卡爾坐標系 在遊戲制作中,我們使用的數學絕大部分都是計算位置、距離、角度等變量。而這些計算大部分都是在笛卡爾坐標系下進行的。 一個二

【機器學習實戰4:基於概率論的分類方法:樸素貝葉斯】程式碼報錯(python3)

1、報錯:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因:這是檔案編碼的問題,檔案中有非法的多位元組字元。 解決辦法:開啟Ch04\

《簡明Python教程》Swaroop, C. H. 著 4 基本概念

用戶 後者 style 指示 單獨 轉義 大小寫 single 面向 僅僅打印“Hello World”就足夠了嗎?你應該想要做更多的事——你想要得到一些輸入,然後做操作,再從中得到一些輸出。在Python中,我們可以使用常量和變量來完成這些工作。字面意義上的常量一個字面意

4 基本tcp套接字編程

選擇 drl 時間 子網 CP epoll 默認值 operation 完整 4.1 各種套接字api(重要) 4.1.1 socket() 用於創建一個套接字描述符,這個描述符指明的是tcp還是udp,同時還有ipv4還是ipv6 #include <sys/s

4資料和連結串列結構

資料結構是表示一個集合中包含的資料的一個物件 陣列資料結構 陣列是一個數據結構 支援按照位置對某一項的隨機訪問,且這種訪問的時間是常數 在建立陣列時,給定了用於儲存資料的位置的一個數目,並且陣列的長度保

RTthread學習筆記————4 執行緒管理

什麼是執行緒 執行緒,有時被稱為輕量級程序(Lightweight Process,LWP),是程式執行流的最小單元。一個標準的執行緒由執行緒ID,當前指令指標(PC),暫存器集合和堆疊組成。 RT-Thread 的執行緒排程器是搶佔式的,主要的工作

4 Python 資料結構

    本章知識點: 1、元組、列表和字典的建立和使用; 2、元組的遍歷; 5、字典特性; 3、元組和列表的"解包"操作; 4、列表的排序、查詢和反轉; 6、序列的含義; 4.1 元組的結構 4.1.1 元組的創 1 tuple = ("ap

讀書筆記之《Go程式設計語言》--- 複合資料型別

四種複合資料型別:陣列、slice、map和結構體,陣列和結構體長度是固定的,slice和map都是動態的 陣列 陣列是具有固定長度且擁有零個或者多個相同資料型別元素的序列 宣告 var q [3]int = [3]{1, 2, 3} 或 q := […]int{1,2,3} 知識點:

10 基本資料結構

10.1 棧和佇列 10.1-1 仿照圖10-1,畫圖表示依次執行操作PUSH(S,4)、PUSH(S,1)、PUSH(S,3)、POP(S)、PUSH(S,8)和POP(S)每一步的結果,棧S初始為空,儲存於陣列S[1..6]中。 10.1-2 在一個數組A[1

R語言實戰 2版 中文目錄

封面1 數字版權宣告2 作譯者介紹3 扉頁4 版權頁5 版權宣告頁6 對第1版的讚譽7 致謝8 前言10 關於本書12 關於封面圖片17 目錄18 第一部分 入門24 第1章 R語言介紹26 1.1 為何要使用R27 1.2 R的獲取和安裝29 1.3 R的使用29 1.3

R 語言實戰-Part 4 筆記

pool 測試 過度 二項分布 自動化 gen dict dia 流程 R 語言實戰(第二版) ## part 4 高級方法 -------------第13章 廣義線性模型------------------ #前面分析了線性模型中的回歸和方差分析,前提都是假設因變量服

[讀書筆記] R語言實戰 (四) 基本數據管理

mean 圖片 數值 函數 nbsp 一個 img order 分享 1. 創建新的變量 mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8)) #方法一 mydata$sumx<-mydata$x1+mydat

R數據挖掘入門》彩色插圖(9

14. 16px style src strong 分享 image 技術分享 9.png 圖9.5 圖9.9 《R數據挖掘入門》彩色插圖(第9章)

perl語言入門總結-4-子程序

操作 code per erl 入門 $max imu 最好 sta 子程序定義和返回值 sub sum{ print "調用了子程序\n"; $a + $b; #後一行為返回值 } $a=1; $b=33; $s =&sum; #34 調用子程

R:ggplot2(7),4 用圖形構建影象(3)

《ggplot2:資料分析與圖形藝術》 第4章 用圖形構建影象 4.6 幾何物件 幾何圖形物件,簡稱為geom,它執行著圖層的實際渲染,控制著生成的影象型別。表4.2列出了ggplot2裡面所有可用的幾

R:ggplot2(8),4 ggplot2構造影象的基本思想及總結練習(4

講一下各個小節都主要寫了哪些內容,然後總結一下基本的思想原理。 根據stat_XXX或geom_XXX的方法繪製幾個有代表的圖形,前面寫過的也可以照搬過來,書上的那幾個圖也嘗試著畫一下,另外,4.5.3

R語言入門R語言中的變數與基本資料型別

## 說明 在前一篇中,我們介紹了 `R` 語言和 `R Studio` 的安裝,並簡單的介紹了一個示例,接下來讓我們由淺入深的學習 `R` 語言的相關知識。 本篇將主要介紹 `R` 語言的基本操作、變數和幾種基本資料型別,好對 `R` 語言的使用方法有一個基本的概念。通過本篇的學習,你將瞭解到: 1.

Java開發工程師(Web方向) - 01.Java Web開發入門 - 4.Maven

編譯器 靜態資源 重復 mvn clean art servle 技術 工具 環境 第4章--Maven Maven實戰 Java Web應用的部署: 手動式: 編譯:javac -cp $CATALINA_HOME/lib/servlet-api.jar web-inf/

redis實戰筆記(4)-4 數據安全與性能保障

4.6 特殊 pac 命名 可用 lsp sentinel 樂觀鎖 個人開發 本章主要內容 4.1 將數據持久化至硬盤 4.2 將數據復制至其他機器 4.3 處理系統故障 4.4 Redis事務 4.5 非事務型流水線( non-transactional pipeline