基於spark的網路爬蟲實現

阿新 • • 發佈：2019-02-06

爬蟲是獲取網路大資料的重要手段，爬蟲是一種非常成熟的技術了，然而想著在Spark環境下測試一下效果．

還是非常簡單的，利用JavaSparkContext來構建，就可以採用原來Java中的網頁獲取那一套來實現．

首先給定幾個初始種子，生成一個JavaRDD物件即可
JavaRDD<String> rdd = sc.parallelize("urllist");

JavaRDD<String> content = rdd.map(new Function<String, String>() {
            public String call(String url) throws Exception {
                System.out.println(url);
                CloseableHttpClient client = null;
                HttpGet get = null;
                CloseableHttpResponse response = null;
                try {
                   //## 建立預設連線
                    client = HttpClients.createDefault();
                    get = new HttpGet(url);
                    response = client.execute(get);
                    HttpEntity entity = response.getEntity();
                    //## 獲得輸出位元組流
                    ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();
                    entity.writeTo(byteArrayOutputStream);
                    //## 轉化為文件
                    String html = new String(byteArrayOutputStream.toByteArray(), Charsets.UTF_8);
                    Document document = Jsoup.parse(html);
                    return html;
                } catch (Exception ex) {
                    ex.printStackTrace();
                    return "";
                } finally {
                    if (response != null) {
                        response.close();
                    }
                    if (client != null) {
                        client.close();
                    }
                }
            }
        });

當然可以從ＨＴＭＬ再找到子頁連線，繼續以深度或者廣度進行優先爬蟲．

基於spark的網路爬蟲實現

基於spark的網路爬蟲實現

基於Java的網路爬蟲實現抓取網路小說（一）

利用Python網路爬蟲實現對網易雲音樂歌詞爬取

【實踐】基於spark的CF實現及優化

【Python】簡單網路爬蟲實現

基於hadoop 網路爬蟲

簡單的python網路爬蟲實現

基於HtmlUnit網路爬蟲（一）

基於Spark Grahpx+Neo4j 實現使用者社群發現

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

基於HttpClient4.5實現網路爬蟲

基於Jsoup實現的簡單網路爬蟲

總結一下五種實現網路爬蟲的方法（一，基於socket通訊編寫爬蟲）

基於HttpClient實現網路爬蟲~以百度新聞為例

資料探勘：基於Spark+HanLP實現影視評論關鍵詞抽取(1)

數據挖掘：基於Spark+HanLP實現影視評論關鍵詞抽取(1)

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

搜片神器之DHT網路爬蟲的程式碼實現方法

淺談網路爬蟲中廣度優先演算法和程式碼實現

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

基於spark的網路爬蟲實現

相關推薦