Coursera-Getting and Cleaning Data-Week2-課程筆記

阿新 • • 發佈：2019-01-17

按照Quiz知識點來的筆記

1.API

視訊裡介紹了用httr包讀取twitter資料，在httr Demo頁有其讀取twitter, facebook, google,github等的demo程式碼。

在使用httr包前，都要到相應網站去註冊API，獲得訪問許可權，httr裡訪問資料的方式基本都是oauth，在用oauth_app定義api許可權後，用GET即可獲得相應資料。（視訊裡還涉及到jsonlite包的使用，包括toJSON還有fromJSON）

補充一下，1月份裡，英文區那個很nice的David助教有一個帖子Quiz 2 Question 1 advice and discussion

詳細總結了在使用httr包時會遇到的問題。被第一題難倒的不在少數。愛總結的TA是個好人！

library(httr)
library(jsonlite)

2.SQL in R

載入sqldf包,按照論壇裡的討論是：sqldf的好處就是對一個很大的資料集，你可以用sqldf("select *** from *** where ***")來快速篩選資料，而且使用的還是我們熟悉的sql語句，省去了再次學習的成本。如果工作中較少用到MySQL的話，瞭解一下sqldf就好了。drv=“SQLite”

3.HTML讀取

繼續從TA的帖子開始，按照提示，視訊裡介紹了至少三個讀取html資料的方法，readLines讀取，XML包讀取，httr包（GET）讀取。

readLines讀取，用url方式讀取html頁，並匯入readLines裡。記得讀取完畢後要選擇close這個網頁。讀出來的資料是原始碼格式。為character。

url<-url("一個地址")
con<-readLines(url)
close(url) 
#記得關掉連結啊
#readLines裡面需要用url()來引入地址，這裡拿到的是character格式的資料

XML包讀取，用htmlTreeParse和xpathSApply讀取資料

library(XML)
url1<-"一個html地址"
html<-htmlTreeParse(url1,useInternalNodes=T)
xpathSApply(html, 
"//tilte",xmlValue) 用來取各個結構內的資料

httr包讀取，這個可以用於要密碼認證的連線。200表示讀取成功，404表示讀取失敗，或許需要密碼

library(httr)
html2<-GET(url1) 
#html2裡儲存的是一個展示讀取了多少資料的資訊，以及200/404等連線資訊。之後要用content來返回，譬如下面，返回一個純文字格式（比XML包還要亂），再使用htmlParse可以獲得跟XML包htmlTreeParse一樣的效果。適合結構型的資料
content2<-content(html2,as="text")
goodformat<-htmlParse(content2,asText=TRUE)

4.Fixed width format

for格式詳解介紹了for格式是什麼東西。看了一下感覺就是科學界喜歡用的一種檔案格式吧，windows的記事本可以開啟沒問題。

這裡的重點是，對於一些資料標題不在第一行，然後各列寬度一樣的資料，要怎樣去讀取他們的成績。按助教在Quiz 2 Question 5 advice and discussion的講法，這裡關鍵是對skip以及width的掌握。不過有人吐槽說，這樣子人工觀察，還不如excel直接處理呢。恩，平日裡我們遇到這樣規整又不整齊的資料的機率還是比較小的，但是作為擴充套件知識面，還是有了解的必要。

download.file("一個fided width的文字檔案地址")
library(utils)
datautils<-read.fwf("檔案地址",skip=要跳過的行,widths=每列之間間隔的數量)

Coursera-Getting and Cleaning Data-Week2-課程筆記

按照Quiz知識點來的筆記

Coursera-Getting and Cleaning Data-Week2-課程筆記

Coursera-Getting and Cleaning Data-week1-課程筆記

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

【Python學習筆記】Coursera課程《Using Python to Access Web Data》密歇根大學 Charles Severance——Week6 JSON and the REST Architecture課堂筆記

coursera-斯坦福-機器學習-吳恩達-筆記week2

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

關於coursera上Learning How to Learn課程的讀書筆記3

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Coursera : Image and Video Processing學習筆記

【原】Coursera—Andrew Ng機器學習—彙總（課程筆記、測驗習題答案、程式設計作業原始碼）

【Coursera】吳恩達 deeplearning.ai 05.序列模型第一週迴圈序列模型課程筆記

【Coursera】吳恩達 deeplearning.ai 04.卷積神經網路第二週深度卷積神經網路課程筆記

Cleaning and Preparing Data in Python

Cleaning and Prepping Data with Python for Data Science

C extensions, Cleaning data with Pandas, Machine Learning and more

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第5周神經網路續

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--課程筆記

(Stanford CS224d) Deep Learning and NLP課程筆記（三）：GloVe與模型的評估

Coursera-Getting and Cleaning Data-Week2-課程筆記

按照Quiz知識點來的筆記

相關推薦