【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

阿新 • • 發佈：2019-01-17

在當今網際網路時代，資料要會挖，得先學會爬！爬的過程是痛苦的，因為在計算機程式開發領域，網路爬蟲的開發是一個很專業的方向，技術門檻比較高，它所要求的綜合知識很多，相信很多同學都望而卻步了。別急，說話說到後面往往都有但是滴。
但是該領域的幾個非常方便的工具已經被整合到R的一些第三方包中了，所以我們完全可以基於R用一種很容易實現的方式來實現網際網路資料的抓取，讓我們可以直接去挖掘網際網路這座金礦。
有了XML包，RCurl包，尤其是最近新出的rvest包（聽說簡直就是神器，是不是吹的呢），媽媽再也不用擔心我的資料了。
今天下午學了一下RCurl包，很抱歉沒有太多中文文件，看英語學來的，英語真的很重要，誰讓程式設計軟體都是由老外開發的呢，爬取了杭州安居客九堡租房資訊，瞎操練的，實踐出真知，慢慢懂了。。。
坑爹的地方真多，不同情況不同處理方法，還有有的網站URL本身就是加密的，如淘寶的https，還有些網頁需要登入之後才能檢視，有的網頁甚至你點它的下一頁，url居然還一樣，原始碼不變的，真是百思不得姐了。為什麼沒有大神寫一本書，我給它起叫做，《那些年，爬蟲我們遇到過的坑》。

data:2015-11-7
author:laidefa

library(XML)
library(RCurl)
loginURL<-"http://hz.zu.anjuke.com/fangyuan/jiubao/"
cookieFile<-"E://cookies.txt"
loginCurl<-getCurlHandle(followlocation=TRUE,verbose=TRUE,ssl.verifyhost=FALSE,
ssl.verifypeer=FALSE,cookiejar=cookieFile,cookiefile=cookieFile)

#獲取第一頁的url 

web<-getURL(loginURL,curl=loginCurl)

#獲取第2-10頁的url
url_list = ""
i=1:9
url_list[i]<-paste0('http://hz.zu.anjuke.com/fangyuan/jiubao/p',i+1,'/')

#迴圈讀取url
for(url in url_list){
web1 <-getURL(url,curl=loginCurl)
web<-rbind(web,web1)
}

#解析url樹結構
doc<-htmlParse(web)
zufang_title<-sapply(getNodeSet(doc,"//div[@class 
='zu-info']//h3//a[@title]"),xmlValue)
type<-sapply(getNodeSet(doc,"//div[@class='zu-info']//p[1]"),xmlValue)
address<-sapply(getNodeSet(doc,"//div[@class='zu-info']//address"),xmlValue)
address<-substring(address,34)
price<-sapply(getNodeSet(doc,"//div[@class='zu-side']//p[1]"),xmlValue)
price<-price[-seq(53,520,53)]
contacts<-sapply(getNodeSet(doc,"//p[@class='bot-tag']//span[1]"),xmlValue)

#合併資料框
data<-data.frame(zufang_title,price[-503],type,contacts,address)
View(data)

這裡寫圖片描述

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

【Python3爬蟲】使用Fidder實現APP爬取

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

【C語言練習題】編寫一個程式，它從標準輸入讀取C原始碼，並驗證所有花括號都正確成對出現

【C語言練習題】編寫一個函式，它從一個字串中提取一個子字串

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

爬蟲，爬取鏈家網北京二手房資訊

python搭建簡單爬蟲框架，爬取獵聘網的招聘職位資訊

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

爬蟲（進階），爬取網頁資訊並寫入json檔案

【Python3爬蟲】用Python實現發送天氣預報郵件

【Python3爬蟲】用Python實現傳送天氣預報郵件

【機器學習演算法】基於R語言的多元線性迴歸分析

【資料分析 R語言實戰】學習筆記第六章引數估計與R實現（上）

【R語言函式】R語言聚合函式總結

【R語言入門】R語言中的變數與基本資料型別

【C語言程序】讓用戶輸入一句話，輸出這句話中每個單詞含有多少個字母

解決ubuntu 用anaconda 安裝R 語言後,無法安裝R語言package的問題

快樂程式設計大本營【java語言訓練班】 6課:用java的物件和類程式設計

【R語言 爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

相關推薦

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊