網頁爬蟲-R語言實現基本函式

阿新 • • 發佈：2022-05-04

#*************網頁爬蟲-R語言實現，函式庫檔案*******#
#****作者：H***************************************#
#****版本：v0.1*******************************************#
#****時間：2017*************************************#
library(XML);
#****函式：(crawler1)
#****概要：網路抓取的主要函式1，可以抓取n個網頁的m個變數。每個xpath只爬取一個數據，如果大於1個則提示有誤。（精確抓取）
#****輸入：
#        名稱           |    資料格式
#        url            |    欲抓取的網站的url                向量：n個
#        xpath          |    給出的抓取變數的xpath            向量：m個
#        content        |    變數是結點的內容還是結點的屬性值 向量：m個
#                            "text"是內容(預設)，或者是屬性名稱
#****輸出：只有print，無輸出
#        名稱           |    含義


crawler1<-function(url,xpath,content=rep("text",length(xpath))){
    #如果xpath以及content的數量不同，則輸入資料有誤
    num_url<-length(url)
    if(length(content)!=length(xpath)){
        print("Error:content和xpath向量的數量不一致!")
        return
    }


    #建立一個num_url行，num_vari列的資料框
    num_vari<-length(xpath)
    result<-data.frame(rep(0,num_url))
    for(i in 2:num_vari){
        cbind(result,rep(0,num_url))
    }


    #遍歷url向量，依次對相應網頁進行抓取
    i<-1
    j<-1
    for(i_url in url){
        i_url_parse<-htmlParse(i_url,encoding="UTF-8")#讀取url網頁資料，並使用htmlParse轉化。（xml檔案使用xmlParse）
        for(j in 1:num_vari){#依次填充一個頁面中的不同欲讀取的資料值
            node<-getNodeSet(i_url_parse,xpath[j])#通過xpath找到相應變數的xpath結點
            if(length(node)==0){#未爬取到資料，說明xpath有誤
                result[i,j]<-NA
                print(paste("注意：第",j,"個變數未能在第",i,"個頁面中找到,我們會把該資料寫為空值"))
            }else if(length(node)==1){#爬取到一個數據，說明正常
                if(content[j]=="text"){#欲爬取變數的內容
                    result[i,j]<-xmlValue(node[[1]])
                }else{#欲爬取變數的屬性
                    result[i,j]<-xmlGetAttr(node[[1]],content[j])
                    result[i,j]<-iconv(result[i,j],"UTF-8","gbk")#如果是亂碼，可以開啟此語句。如果是na可以刪除此句
                }
            }else{#爬取到多個數據，本函式不予處理
                result[i,j]<-NA
                print(paste("注意：第",j,"個變數能在第",i,"個頁面中找到多個,不知您要哪一個，我們會把該資料寫為空值"))
            }
        }
        i<-i+1
    }
    result
}


#****函式：(crawler2)
#****概要：網路抓取的主要函式2，可以抓取n個網頁的1個變數。該xpath可以爬取多個數據，（批量抓取）
#****輸入：
#        名稱           |    資料格式
#        url            |    欲抓取的網站的url                向量：n個
#        xpath          |    給出的抓取變數的xpath            向量：1個
#        content        |    變數是結點的內容還是結點的屬性值 向量：1個
#                            "text"是內容(預設)，或者是屬性名稱
#****輸出：只有print，無輸出
#        名稱           |    含義
#        url            |    1---n自然數，相同url擁有相同數值
#        vari           |    讀取的資料
crawler2<-function(url,xpath,content="text"){
    num_url<-length(url)
    result<-data.frame(url=0,vari=0)
    i<-1#記錄第幾個url
    tmp<-1#
    for(i_url in url){
        i_url_parse<-htmlParse(i_url,encoding="UTF-8")#讀取url網頁資料，並使用htmlParse轉化。（xml檔案使用xmlParse）
        node<-getNodeSet(i_url_parse,xpath)#通過xpath找到相應變數的xpath結點
        if(length(node)==0){#未爬取到資料，說明xpath有誤
            result[tmp,1]<-i
            result[tmp,2]<-NA
            print(paste("注意：變數未能在第",i,"個頁面中找到,我們會把該資料寫為空值"))
            tmp<-tmp+1
        }else{
            for(j in 1:length(node)){
                result[tmp,1]<-i
                if(content=="text"){#欲爬取變數的內容
                    result[tmp,2]<-xmlValue(node[[j]])
                }else{#欲爬取變數的屬性
                    result[tmp,2]<-xmlGetAttr(node[[j]],content)
                    #result[tmp,2]<-iconv(result[tmp,2],"UTF-8","gbk")#如果是亂碼，可以開啟此語句。如果是na可以刪除此句
                }
                tmp<-tmp+1
            }
        }
        i<-i+1
    }
    result
}


#test


#測試crawler1
#測試內容
url1<-"http://3c.taobao.com/detail.htm?spm=872.217037.254698.6.deIiSJ&spuid=205341228&cat=1101"
url2<-"http://3c.taobao.com/detail.htm?spm=872.217037.254698.11.deIiSJ&spuid=203228104&cat=1101"
url3<-"http://item.taobao.com/item.htm?spm=1020.3.9.122.SCNhDn&id=15695321398&from="
url<-c(url1,url2,url3)
xpath<-c("//div[@id='idetail']//div[@class='info-area']//div[@class='tlt clearfix']//h1","//div[@id='idetail']//div[@class='info-area']//div[@class='key-info']//span[@class='price']")
crawler1(url,xpath)
#測試屬性值
url<-"http://data.caixin.com/macro/macro_indicator_more.html?id=F0001&cpage=2&pageSize=30&url=macro_indicator_more.html#top";
xpath<-"//meta[@name='keywords']"
content<-"content"
crawler1(url,xpath,content)


#測試crawler2
url<-"http://list.taobao.com/itemlist/bao.htm?spm=567.116925.155171.105.9ZYYMX&cat=50072693&isprepay=1&viewIndex=1&yp4p_page=0&commend=all&atype=b&style=grid&olu=yes&isnew=2&smc=1&mSelect=false&user_type=0&fl=50072693#!cat=50072693&isprepay=1&user_type=0&as=0&viewIndex=1&yp4p_page=0&commend=all&atype=b&style=grid&olu=yes&isnew=2&mSelect=false&smc=1&json=on&tid=0"
xpath<-"//li[@class='list-item list-item-grid']"
content<-"data-commenturl"
crawler2(url1,xpath,content)
#疑難：如何破解data-commenturl="{{item.commendHref}}"
#<li class="list-item list-item-grid" data-isrush="{{item.isLimitPromotion}}" data-ismall="{{item.isMall}}" data-item="{{item.itemId}}" data-#params="sellerId={{item.sellerId}}&ip={{extraInfo.userIp}}" data-comment="{{item.commend}}" data-commenturl="{{item.commendHref}}"  data-#virtual="{{item.isVirtual

網頁爬蟲-R語言實現基本函式

#*************網頁爬蟲-R語言實現，函式庫檔案*******# #****作者：H***************************************#

C語言實現RAND函式的方法

技術標籤：C/C++c++ C語言使用rand()%一個值就可以實現生成一個偽隨機數供我們使用，那麼rand函式是如何實現的呢？我們自己可不可以編輯出來？其實是可以的，rand作為偽隨機數發生器產生的是一個偽隨機數，一般的

R語言——字串提取函式

1、substr函式：提取指定位置的字元根據身份證號計算年齡： # 讀入資料 id_number <- readxl::read_excel("D:/身份證.xlsx",sheet="Sheet1")

C語言實現pow()函式

技術標籤：C語言學習c語言電平補償增益需要計算 coef = 10^(db/20)。（gcc計算需要加-lm） db的取值是[-1,1]

實現裴波納契數列_Python和ELM榆木語言實現基本演算法2：斐波那契數列

技術標籤：實現裴波納契數列斐波那契數列(Fibonacci sequence)，又稱黃金分割數列、因數學家列昂納多·斐波那契(Leonardoda Fibonacci)以兔子繁殖為例子而引入，故又稱為“兔子數列”，指的是這樣一個

R語言常用繪圖函式

條形圖條形圖是用一個單位長度表示一定的數量，根據數量的多少畫成長短不同的直條，然後把這些直條按一定順序排列起來。

如何打造網頁爬蟲工具（實現思路及原始碼下載）

現在網頁爬蟲程式碼可謂是滿天飛，特別是python、PHP寫的居多，百度隨便一搜，滿屏都是，不管什麼計算機語言編寫的，效能都不會相關到哪裡去，重要的是實現思路。

R語言實現統計plink格式資料基因頻率

1、 dir() dat <- read.table(\"outcome.ped\") dat <- dat[,-(1:6)] loci <- data.frame() loci[1:(nrow(dat) * 2), 1] <- 1

R語言實現計算兩個向量的協方差、標準差、皮爾遜相關係數

1、協方差協方差：兩個向量每一項與各自平均數只差的對應項乘積之和的平均數。

句子相似度及R語言實現

本次不講原理，單純用R語言計算句子相似度。方式一：機械相似性兩個文字內容上的相關程度，比如“你好嗎”和“你好”的相似性，純粹代表著內容上字元是否完全共現。——基於Jaccard相似係數計算句子相似度

用R語言實現歐式距離的兩種標準化

第一種標準化轉換公式：x*=D-1(x-µ)，求出樣本x的期望和其協方差矩陣的對角矩陣的逆即可。

機器學習演算法之隨機森林的R語言實現-表達晶片示例

終於還是要發這個系列了，其實我還沒有準備好，機器學習系列，有一個公眾號做的非常好，是中科院上海馬普所的幾個同學做的，過兩天我會在此推送他們的學習目錄，供大家欣賞。

機器學習演算法的R語言實現：樸素貝葉斯分類器

1、引子樸素貝葉斯方法是一種使用先驗概率去計算後驗概率的方法，其中樸素的意思實際上指的是一個假設條件，後面在舉例中說明。本人以為，純粹的數學推導固然有其嚴密性、邏輯性的特點，但對我等非數學專業的人來

常用連續型分佈介紹及R語言實現

作者：張丹(Conan), 程式設計師Java,R,PHP,Javascript blog: http://blog.fens.me 隨機變數在我們的生活中處處可見，如每日天氣，股價漲跌，彩票中獎等，這些事情都是事前不可預言其結果的，就算在相同的條件下重

用R語言實現對不平衡資料的四種處理方法

在對不平衡的分類資料集進行建模時，機器學習演算法可能並不穩定，其預測結果甚至可能是有偏的，而預測精度此時也變得帶有誤導性。那麼，這種結果是為何發生的呢？到底是什麼因素影響了這些演算法的表現？

用GA演算法設計22個地點之間最短旅程-R語言實現

某畢業班共有30位同學，來自22個地區，我們希望在假期來一次說走就走的旅行，將所有同學的家鄉走一遍。算起來，路費是一筆很大的花銷，所以希望設計一個旅行方案，確保這一趟走下來的總路程最短。

R語言實現混合模型

普通的線性迴歸只包含兩項影響因素，即固定效應（fixed-effect）和噪聲（noise）。噪聲是我們模型中沒有考慮的隨機因素。而固定效應是那些可預測因素，而且能完整的劃分總體。例如模型中的性別變數，我們清楚只有兩種

JS實現基本的網頁計算器功能示例

本文例項講述了JS實現基本的網頁計算器功能。分享給大家供大家參考，具體如下：

使用執行緒池+CountDownLatch 實現多執行緒協同工作結果彙總（適用於資料運算分析，資料庫操作，網頁爬蟲）

多執行緒資料去重使用示例： public void obtainSimilarityRate() { List<FgTestR3> zjFg = list((new QueryWrapper<FgTestR3>())

R語言基本繪圖-plot引數：標題，座標軸和顏色

plot函式引數標題 plot(c(1:2,2:4),main = "這是主標題",sub = "這是副標題",xlab = "這是x軸", ylab = "這是y軸")

網頁爬蟲-R語言實現基本函式

相關推薦