Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

阿新 • • 發佈：2019-01-17

Coursera-Getting and Cleaning Data-Week3

Wednesday, February 04, 2015

好久不寫筆記了，年底略忙。。

Getting and Cleaning Data第三週其實沒什麼好說的，一個quiz,一個project,加一個swirl。

基本上swirl已經把第三週的內容都概括進去了。就是dplyr, tidyr以及lubridate包的學習和使用。其中dplyr專注於選擇/篩選，tidyr關注於資料重塑型，二lubridate是我目前接觸過的最好用的R中處理時間的包。

這三個包都是Hadley Wickam開發的，秉承了這系列包簡潔，實用，好理解的特點。dplyr包尤其像sql語句，select, group_by什麼的，有sql基礎的人理解起來不會很難。

該系列swirl安裝程式碼如下：

library(swirl)
install_from_swirl("Getting and Cleaning Data")

關於dplyr，swirl本身已經寫得很詳盡了。不過開發者有自己的一個總結。我最開始是在一個人的微博裡看到這張圖的。然後追本索源發現，它原載於Rstudio官網Cheatsheets網頁。裡面還有markdown/Shiny包的快捷應用影象，值得初學者列印一整張下來好好學習。

dplyr+tidyr

總結一下dplyr+tidyr的應用，就是：

1）篩選/選擇資料： select, filter。其中select選擇列，filter新增篩選條件（類似於SQL中的where）.select裡有如select(iris,contains/ends_with/everthing

等快速篩選用法。這個在上文所提的Cheatsheets裡有，不再綜述。

2）整合資料，類似於reshape2：gather（從寬變窄），spread(從窄變寬)，可以快速改變資料結構。

3）資料排序/命名：arrange(行排序)，rename(重新命名列)

4）新增刪除變數，多表查詢：mutate(列,類似於cbind),transmute(幾列並行)，join, left_join等。

同時，因為他們系出同門，我們可以用%>%來簡化程式碼，避免重複輸入。

lubridate

關於lubridate包，常用的為：

1）指定格式的資料輸出，如ymd("20110604")和mdy("06-04-2011")

等，只要指定好ymdhms的順序，R可以協助識別許多資料

2）常見資料的處理，如second(arrive),wday(arrive)，並可新增時區(tz)

3）計算區間，如interval(arrive,leave,tz="Pacific/Auckland"),

需要注意的是，這個包的使用涉及了R時區的概念。如果你是中文系統，發現你的monday, sunday被系統自動替換成週一，週日等中文字元的話，請看時區設定Sys.setlocale。我是windows系統，所以改成英文的話是Sys.setlocale("LC_TIME","English")。這個在接下來的畫圖課裡有一定的用處。

基本上過了一遍swirl後，quiz不是大問題。

Project

關於project，中英文一起看吧，題目寫得有點簡略了，但是重點是探索的過程。

我們那個超級好人超級NICE的TA David Hood在討論區裡曾發過一張圖給看不懂題目的人解釋一下資料結構。因為TA都在討論區發過了，所以我覺得可以共享一下。

這裡需要注意，老師滿強調tidy data的概念。不管是寬的資料還是短的資料，只要符合tidy data規則，都算tidy data。各位有興趣可以回去啃啃Hadley的那個PDF。

之前跟Q群的人討論這個project時，看到有四種處理該project某一問的方法。包括簡潔的group_by+summarize_each，或者繞一個圈的gather+group_by+summarize+spread組合，還有用reshape2的melt+dcsat組合，以及R programming裡面著重介紹的迴圈+apply/lapply組合。有興趣的可以自行嘗試~~

在資料分析裡，資料處理是一個苦差事。有人說一個數據挖掘專案，可能資料處理會佔用60-70%甚至更多的時間，建模什麼的，一旦資料處理好了，就很快，因為常用且經過時間驗證的可靠模型也就那麼幾種。同時這個資料處理，也是瞭解業務的一個重要途徑。所以這門課還是不可或缺的。我的部落格

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

Coursera-Getting and Cleaning Data-Week3

Wednesday, February 04, 2015

dplyr+tidyr

lubridate

Project

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

Coursera-Getting and Cleaning Data-Week2-課程筆記

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

Coursera-Getting and Cleaning Data-week1-課程筆記

Cleaning and Preparing Data in Python

Cleaning and Prepping Data with Python for Data Science

C extensions, Cleaning data with Pandas, Machine Learning and more

Good Bye 2015 F - New Year and Cleaning

Coursera機器學習基石筆記week3

Swing State: Consistent Updates for Stateful and Programmable Data Planes

[2] Getting Started With Data Reflections

吳恩達Coursera深度學習課程 course2-week3 超引數除錯和Batch Norm及框架作業

coursera——Image and Video Processing

論文解讀：DeLiGAN: Generative Adversarial Networks for Diverse and Limited Data

Coursera : Image and Video Processing學習筆記

Dataset creation and cleaning: Web Scraping using Python

Positive and Negative Data Engineering

Flask 101: Adding, Editing and Displaying Data

Presentation Matters, or How I Learned to Stop Worrying and Love Data Communication

How AI and Big Data will Shape the Future of Cybersecurity

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

Coursera-Getting and Cleaning Data-Week3

Wednesday, February 04, 2015

dplyr+tidyr

lubridate

Project

相關推薦