1. 程式人生 > >Coursera-Getting and Cleaning Data-week1-課程筆記

Coursera-Getting and Cleaning Data-week1-課程筆記

課程概述

Getting and Cleaning Data是Coursera資料科學專項的第三門課,有中文翻譯。但是由於中文區討論沒有英文區熱鬧,以及資料積累,強烈建議各位同時選報中文專案和英文專案,可以互相匹配學習。

Week1的課程概括下來,主要介紹了getting and cleaning data的目的,即從不同資料來源裡獲得整潔資料集(Tidy Data),以及其方法。

包括

  1. download.file() :直接從網站上下載資料,但要點明其存放位置(destfile)
  2. read.csv/read.table/fread: 讀取本地資料。其中fread需要事先載入data.table包,當資料量比較大時,使用data.table包速度極快,且篩選較易3. xlsx包可以讀取excel資料。不過根據論壇學員反饋,其對系統環境要求較高,譬如java等。實際工作中,用csv或許更合適
  3. XML包可用於抓取網路資料。在quiz裡演示了一個XML包抓取zipcode的程式碼,很強大。
  4. JSON,不過這裡我還沒聽完
  5. data.table包,感覺跟dplyr有的一拼,都很簡潔,關鍵程式碼是fread

相關推薦

Coursera-Getting and Cleaning Data-week1-課程筆記

課程概述 Getting and Cleaning Data是Coursera資料科學專項的第三門課,有中文翻譯。但是由於中文區討論沒有英文區熱鬧,以及資料積累,強烈建議各位同時選報中文專案和英文專案,可以互相匹配學習。 Week1的課程概括下來,主要介紹了getting and cleaning d

Coursera-Getting and Cleaning Data-Week2-課程筆記

按照Quiz知識點來的筆記 1.API 視訊裡介紹了用httr包讀取twitter資料,在httr Demo頁有其讀取twitter, facebook, google,github等的demo程式碼。 在使用httr包前,都要到相應網站去註冊API,獲得訪問許可權,httr裡訪問資料的方式基本都是

Coursera-Getting and Cleaning Data-Week3-dplyr+tidyr+lubridate的組合拳

Coursera-Getting and Cleaning Data-Week3 Wednesday, February 04, 2015 好久不寫筆記了,年底略忙。。 Getting and Cleaning Data第三週其實沒什麼好說的,一個quiz,一個project,加一個swirl。

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

補上第四周筆記,以及本次課程總結。 第四周課程主要針對text進行處理。裡面包括 1.變數名的處理 2.正則表示式 3.日期處理(參見swirl lubridate包練習) 首先,變數名的處理,奉行兩個原則,1)統一大小寫tolower/toupper;2)去掉在匯入資料時,因為特殊字元導致的合併變

【Python學習筆記Coursera課程《Using Python to Access Web Data》 密歇根大學 Charles Severance——Week6 JSON and the REST Architecture課堂筆記

學習 except for num string net none input 網上 Coursera課程《Using Python to Access Web Data》 密歇根大學 Week6 JSON and the REST Architecture 13.5 Ja

【網頁開發學習】Coursera課程《面向 Web 開發者的 HTML、CSS 與 Javascript》Week1課堂筆記

Coursera課程《面向 Web 開發者的 HTML、CSS 與 Javascript》 Johns Hopkins University Yaakov Chaikin Week1 Introduction to HTML5 對於網頁來說,HTML定義的是網頁的骨架(structure),CSS

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

Lecture 10—Advice for applying machine learning   10.1 如何除錯一個機器學習演算法? 有多種方案: 1、獲得更多訓練資料;2、嘗試更少特徵;3、嘗試更多特徵;4、嘗試新增多項式特徵;5、減小 λ;6、增大 λ 為了避免一個方案一個方

關於coursera上Learning How to Learn課程的讀書筆記3

課程進行到第二週了,雖然該課程也只有四周,不過收益匪淺,對吧。 第二週 第一節: introduction: 介紹組塊的概念(小而緊湊的資訊塊)和組塊對應試的技巧;討論一些事半功倍和事倍功半的學習方法,提到如overlearning和interleaving等概

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Lecture 11—Machine Learning System Design 11.1 垃圾郵件分類 本章中用一個實際例子: 垃圾郵件Spam的分類 來描述機器學習系統設計方法。首先來看兩封郵件,左邊是一封垃圾郵件Spam,右邊是一封非垃圾郵件Non-Spam:垃圾郵件有很多features。如果我

Coursera : Image and Video Processing學習筆記

之前軟體杯做OCR識別,圖片預處理比較的難搞的情況就是,那種在光照不均勻的環境(或者閃光燈)下導致影象呈現由光照中心由亮變暗的亮度不均勻影象的處理辦法,使用基於滑動視窗的區域性二值化

【原】Coursera—Andrew Ng機器學習—彙總(課程筆記、測驗習題答案、程式設計作業原始碼)

一、Coursera 斯坦福機器學習課程,Andrew Ng Coursera連線不上,修改hosts檔案 機器學習工具Octave安裝(Win10環境) 課程地址和軟體下載  

Coursera】吳恩達 deeplearning.ai 05.序列模型 第一週 迴圈序列模型 課程筆記

迴圈序列模型 為什麼選擇序列模型 在語音識別、音樂生成、情感分類、DNA序列分析、機器翻譯、視訊識別、命名實體識別等任務中,共同特點是輸入X和/或輸出Y都是序列。 數學符號 例如,對於命名實體識別的問題: 對於輸入序列,用 x&l

Coursera】吳恩達 deeplearning.ai 04.卷積神經網路 第二週 深度卷積神經網路 課程筆記

深度卷積神經網路 2.1 為什麼要進行例項化 實際上,在計算機視覺任務中表現良好的神經網路框架,往往也適用於其他任務。 2.2 經典網路 LeNet-5 AlexNet VGG LeNet-5 主要針對灰度影象 隨著神經網路的加深

Cleaning and Preparing Data in Python

Cleaning and Preparing Data in PythonThat boring part of every data scientist’s workData Science sounds like something cool and awesome. It’s pictured as s

Cleaning and Prepping Data with Python for Data Science 

Check Your Data … QuicklyThe first thing you want to do when you get a new dataset, is to quickly to verify the contents with the .head() method.import pan

Coursera吳恩達機器學習課程 總結筆記及作業程式碼——第5周神經網路續

Neural Networks:Learning 上週的課程學習了神經網路正向傳播演算法,這周的課程主要在於神經網路的反向更新過程。 1.1 Cost function 我們先回憶一下邏輯迴歸的價值函式 J(θ)=1m[∑mi=1y(i)log(hθ

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--課程筆記

本課主要講解了卷積神經網路的基礎知識,包括卷積層基礎(卷積核、Padding、Stride),卷積神經網路的基礎:卷積層、池化層、全連線層。 主要知識點 卷積核: 過濾器,各元素相乘再相加 nxn * fxf -> (n-f+1)x(n-f+1)

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--課程筆記

Part 1:人臉識別 4.1 什麼是人臉識別? 人臉驗證: 輸入圖片,驗證是不是 A 人臉識別: 有一個庫,輸入圖片,驗證是不是庫裡的一員 人臉識別難度更大,要求準確率更高,因為1%的人臉驗證錯誤在人臉識別中會被放大很多倍。 4.2 O

(Stanford CS224d) Deep Learning and NLP課程筆記(三):GloVe與模型的評估

本節課繼續講授word2vec模型的演算法細節,並介紹了一種新的基於共現矩陣的詞向量模型——GloVe模型。最後,本節課重點介紹了word2vec模型評估的兩種方式。 Skip-gram模型 上節課,我們介紹了一個十分簡單的word2vec模型。模型的目標是預測word \(o\)出現在另一個word \(c