R語言處理日期資料
《R語言實戰》學習筆記 —— 基本資料管理之日期值
1. 建立日期型變數
日期型通常以字串形式輸入到R中,然後轉化為以數值形式儲存的日期變數。日期具有一定的格式,見下表:
符號 | 含義 | 示例 |
%d | 數字表示的日期(0~31) | 01~31 |
%a | 縮寫的星期名 | Mon |
%A | 非縮寫的星期名 | Monday |
%m | 月份(00~12) | 00~12 |
%b | 縮寫的月份 | Jan |
%B | 非縮寫的月份 | January |
%y | 兩位數的年份 | 07 |
%Y | 四位數的年份 | 2007 |
mydates <- as.Date(c("2007-06-22", "2004-01-21"))
將預設格式的字串轉換為對應日期。相反,
strDates <- c("01/05/1965", "06/16/1975")
dates <- as.Date(strDates, "%m/%d/%Y")
則使用mm/dd/yyyy的格式讀取資料
在前面leadship資料框中,日期列時以mm/dd/yyyy的格式編碼為字元型變數的。可以通過下面語句轉換為日期型資料:
leadship$testDate <- as.Date(leadship$testDate,"%m/%d/%Y")
2. 計算和處理日期型變數
# 下面兩個函式可以返回當前的日期和時間
> Sys.Date()
[1] "2018-01-28"
> date()
[1] "Sun Jan 28 21:53:57 2018"
# 可以使用format()函式來輸出指定格式的日期值,或提取日期值得某些部分
> today <- Sys.Date()
> format(today, format="%B %d %Y")
[1] "一月 28 2018"
> format(today, format="%A")
[1] "星期日"
# R的內部儲存日期時,是使用自1970年1月1日以來的天數表示的,更早的日期則表示為負數
# 日期值上可以進行算術運算
> startDate <- as.Date("2004-02-13")
> endDate <- as.Date("2011-01-22")
> days <- endDate - startDate
> days
Time difference of 2535 days
輸出結果為2004年2月13日和2011年1月22日之間的天數
# 可以使用函式difftime()來計算時間間隔,並以星期、天、時、分、秒來表示
假設某人的出生日期是1991年6月17日,則:
> today<- Sys.Date( )
> dob <- as.Date("1991-10-12")
> difftime(today, dob, units = "weeks")
Time difference of 1372.143 weeks
> difftime(today, dob, units = "days")
Time difference of 9605 days
那麼,這個人到今天為止已經有1372周或者說9605天大了。他出生在星期幾呢?
3. 將日期轉換為字元型變數
> strDates <- as.character(dates)
進行轉換後就可以使用一系列字元處理函式來處理資料(如子集、替換、連線等)
更進一步地,
- 檢視help(as.Date)和help(strftime),瞭解字元型轉換為日期的更多細節;
- 參考help(ISOdatetime),瞭解更多關於日期和時間格式的知識;
- lubridate包中有許多簡化日期處理的函式,可用於識別和解析日期-時間資料,抽取日期-時間成分,以及進行算術運算
- fCalendar包可以幫助對日期進行復雜的計算,提供大量的日期處理函式,可以同時處理多個時區,提供複雜的歷法操作功能,支援工作日、週末和假期。