R語言-Kindle特價書爬榜示例 & 輸出HTML小技巧

阿新 • • 發佈：2019-01-17

20170209更新：

根據回覆提示，rvest包更新，原用函式html作廢，需改用read_html

並後續amazon網頁改版等

因此此文章程式碼失效！各位可看評論內容瞭解詳情

等以後有空再重寫一遍程式碼，抱歉。果然程式碼還是放在github上好啊。。。。

----------------------------------

----

自從買了kindle以後，總是想要定期刷有沒有便宜的書，amazon經常有些1元/2元的書打特價，但是每次都去刷那些榜單太麻煩了，而且榜單又不能按照價格排名，撈書有點累

所以自己用R語言的rvest包簡單寫了一個小程式，讓它自動按照不同價格區間把特價書給分出來。

主要看的是kindle新品排行榜和最快暢銷榜。

不在部落格園上閱讀時才會看到的，這篇博文歸http://www.cnblogs.com/weibaar 所有

僅保證在部落格園部落格上的排版乾淨利索還有程式碼塊與圖片正確顯示，他站請保留作者資訊尊重版權啊

需要預先安裝data.table / dplyr / rvest包。

程式碼如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

主要分享點是：

1、Rvest的簡單應用例項
2、如何把資料框(data.frame or table) 輸出為html檔案，即新增html指令碼的方法

 1 library(rvest)
 2 library(data.table)
 3 library(dplyr)
 4 #這裡是匯入網址。研究一下amazon的順序，直接匯入就好
 5 id<-1:5
 6 url_increase_fast<-paste0(
 7         "http://www.amazon.cn/gp/movers-and-shakers/digital-text/ref=zg_bsms_digital-text_pg_",
 8         id,
 9         "?ie=UTF8&pg=",
10         id)
 
11 url_newest<-paste0(
12         "http://www.amazon.cn/gp/new-releases/digital-text/ref=zg_bsnr_digital-text_pg_",
13         id,
14         "?ie=UTF8&pg=",
15         id)
16 url<-c(url_increase_fast,url_newest)
17 #這裡編寫readdata函式，讀取網頁內容。裡面有些不常用的欄位，為了最後匯出效果好看，我沒全部都導。
18 #有額外需要的可以自己改編，譬如分類啊，好評率啊等等。對我來說，知道價格、書名就夠了
19 readdata<-function(i){
20         web<-html(url[i],encoding="UTF-8")
21         title<-web %>% html_nodes("div.zg_title") %>% html_text()
22         title_short<-substr(title,1,20)
23         price<-as.numeric(gsub("￥ ","",web %>% html_nodes("div.zg_itemPriceBlock_normal strong.price") %>% html_text()))
24         ranking_movement<-web %>% html_nodes("span.zg_salesMovement") %>% html_text()
25         rank_number<-as.numeric(gsub("\\.","",web %>% html_nodes("span.zg_rankNumber") %>% html_text()))
26         #新書榜裡沒有銷售變動記錄，所以記為NA
27         if (length(ranking_movement)==0) {ranking_movement=rep(NA,20)
28                                           rank_number=rep(NA,20)}
29         link<-gsub("\\\n","",web %>% html_nodes("div.zg_title a") %>% html_attr("href"))
30         ASIN<-sapply(strsplit(link,split = "/dp/"),function(e)e[2])
31         img<-web %>% html_nodes("div.zg_itemImage_normal img")  %>% html_attr("src")
32         #這裡加上html程式碼
33         img_link<-paste0("<img src='",img,"'>")
34         title_link<-paste0("<a href='",link,"'>",title_short,"</a>")
35         #合併資料
36         combine<-data.table(img_link,title_link,price,ranking_movement)
37         setnames(combine,c("影象","書名","價格","銷售變動"))
38         #以防被封IP，設為5秒跑一次資料。
39         Sys.sleep(5)
40         combine
41 }
42 
43 #做一個循壞開始跑數
44 final<-data.table()
45 for (i in 1:10){
46         final<-rbind(final,readdata(i))
47         print(i)
48 }
49 
50 #這裡編寫一個函式，把data.table轉化為html_table#要點請檢視w3school，table頁，以<table>開始，表頭是<th>，行與行之間是<tr>#主要就是sapply, apply，paste的應用啦……就是把資料框先加<td>，再加<tr>，最後外面套一層<table>
51 transfer_html_table<-function(rawdata){
52         title<-paste0("<th>",names(rawdata),"</th>")
53         content<-sapply(rawdata,function(e)paste0("<td>",e,"</td>"))
54         content<-apply(content,1,function(e) paste0(e,collapse = ""))
55         content<-paste0("<tr>",content,"</tr>")
56         bbb<-c("<table border=1><tr>",title,"</tr>",content,"</table>")
57         bbb
58 }
59 #這裡應用transfer_html_table函式，把榜單輸出為html表格
60 final_less1<-transfer_html_table(rawdata=final %>% filter(價格<=1))
61 write(final_less1,"~//Kindle-低於1元特價書.html")
62 
63 
64 final_1_2<-transfer_html_table(rawdata=final %>% filter(價格>1 & 價格<=2))
65 write(final_1_2,"~//Kindle_1-2元特價書.html")
66 
67 final_2_5<-transfer_html_table(rawdata=final %>% filter(價格>2 & 價格<=5))
68 write(final_2_5,"~//Kindle_2-5元特價書.html")

最後在我的文件（"~//"表示定位到我的文件那裡）會找到三個HTML檔案，開啟來，大概長下面這個樣子，於是就可以很愉悅得選書了。Kindle時不時會把一些好書1元賤賣的~~所以有了kindle經常手賤，有這個小指令碼之後我覺得我會更加手賤買書了。。。

如果大家有興趣，還可以去搜一下R語言批處理、自動執行等文章來看，把這個程式碼設為定期跑一下，然後讓結果能夠累計儲存。那麼以後就知道kindle商城在什麼時候調價最多了。 amazon還是比較容易爬蟲的，它html頁面內程式碼很規範整潔，除了在產品詳情頁裡，產品描述(product description)總是被指令碼保護起來，比較難爬。

不在部落格園上閱讀時才會看到的，這篇博文歸http://www.cnblogs.com/weibaar 所有

僅保證在部落格園部落格上的排版乾淨利索還有程式碼塊與圖片正確顯示，他站請保留作者資訊尊重版權啊

以及最近開始學python了！

大牛分享了一個很好用的python IDE,叫做ANACONDA，裡面那個spyder的IDE真的做的很棒~~跟rstudio有的一拼~ 而且ANACONDA集成了python 2.7，都不用單獨下python了~~

然後github上有兩個教程寫的還蠻不錯的

1、 python入門

https://github.com/qiwsir/StarterLearningPython

2、python爬蟲101個示例（基於python 3）

https://github.com/compjour/search-script-scrape

R語言-Kindle特價書爬榜示例 & 輸出HTML小技巧

R語言-Kindle特價書爬榜示例 & 輸出HTML小技巧

R語言爬取前程無憂網招聘職位

R語言爬取動態網頁之環境準備

從菜鳥到高手，R語言書單都在這!

R語言-處理異常值或報錯的三個示例

R語言-用R眼看琅琊榜小說的正確姿勢

【R語言爬蟲】用R爬蟲，爬取杭州安居客九堡租房資訊

用R語言（rvest包）爬取獵聘網招聘資訊（保證可重複性）

R語言一鍵爬取英格蘭足球超級聯賽16-17賽季所有比分（基於RCurl）

[筆記]R語言爬蟲入門——豆瓣新片資料爬取

R語言爬蟲實戰：知乎live課程資料爬取實戰

R語言爬取中國天氣網單個城市實時天氣預報資料

決策樹ID3原理及R語言python程式碼實現（西瓜書）

R語言筆記

R語言中如何使用最小二乘法

R語言鏈接數據庫

信用卡評分模型（R語言）

R語言數據分析系列之五

R語言用nls做非線性回歸以及函數模型的參數估計

R語言使用RMySQL連接及讀寫Mysql數據庫

R語言-Kindle特價書爬榜示例 & 輸出HTML小技巧

相關推薦