web爬蟲系列（一）- 爬取電影天堂迅雷地址

阿新 • • 發佈：2019-12-31

一、爬蟲介紹

目前爬蟲框架層出不窮，當然很多公司也會根據自己的業務做二次開發，Java的有WebMagic和WebCollector等，Python的有PySpider和Scrapy等。不能說孰好孰壞，只能說根據自己的業務場景選擇不同框架，Python作為爬蟲的開發語言已經火的一塌糊塗，但是我為什麼選擇Java語言呢？因為我不會Python，也不想勞神費力再學一門語言，那就從Java的WebMagic玩起吧。

爬蟲的應用場景也各色各異，比如有好玩的同學喜歡爬取網易雲音樂的熱門評論、還有人爬各種招聘網站的在招職位。商業用途也有很多，比如競品分析、全球POI更新等等。

二、入門示例–爬去電影天堂的下載

1、簡單分析頁面

紅色1是我們要的內容，紅色2是對應的html結構。

2、maven匯入如下jar包

<dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-core</artifactId>
   <version>0.7.3</version>
</dependency>
<dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-extension</artifactId>
   <version>0.7.3</version>
</dependency>
複製程式碼

3、解析dom，獲取到電影名稱及其對應的詳情頁連結

package com.daervin.demo;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.Selectable;

import java.util.List;

public class FilmProcessor implements PageProcessor {

   public static final String URL = "http://www.dytt8.net" 
;

   @Override
   public void process(Page page) {
       Html html = page.getHtml();
       //解析列表頁
       List<Selectable> contentNodes = html.xpath("//div[@class='co_content2']/ul/a").nodes();
        for (int i = 1; i < contentNodes.size(); i++) {
           //第一條過濾，從第二條開始遍歷
           Selectable linkNode = contentNodes.get(i);
           if (linkNode == null) {
               continue;
           }
           String linkTmp = linkNode.links().get();
           if (linkTmp != null && linkTmp.length() > 0) {
               //將找到的連結放到addTargetRequest裡面，會自動發起請求
               page.addTargetRequest(linkTmp);
               //輸出到控制檯
               System.out.println(linkTmp);
           }
       }
   }

   @Override
   public Site getSite() {
       return Site.me().setTimeOut(10000);
   }
}
複製程式碼

4、執行爬蟲並列印結果

package com.daervin.demo;

import us.codecraft.webmagic.Spider;

public class FilmTest {
   public static void main(String[] args) {
       Spider.create(new FilmProcessor()).addUrl(FilmProcessor.URL).run();
   }
}
複製程式碼

只是拿到了列表對應的詳情頁地址，沒達到獲取下載地址的目的！繼續...

5、分析詳情頁 - 深入爬取詳情頁

獲取到電影名稱和迅雷下載地址

package com.daervin.demo;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.Selectable;

import java.util.List;

public class FilmProcessor implements PageProcessor {

   public static final String URL = "http://www.dytt8.net";

   @Override
   public void process(Page page) {
       Html html = page.getHtml();
       //解析列表頁
       if (URL.equals(page.getUrl().toString())) {
           //抽取結果
           List<Selectable> contentNodes = html.xpath("//div[@class='co_content2']/ul/a").nodes();
            for (int i = 1; i < contentNodes.size(); i++) {
               //第一條過濾，從第二條開始遍歷
               Selectable linkNode = contentNodes.get(i);
               if (linkNode == null) {
                   continue;
               }
               String linkTmp = linkNode.links().get();
               if (linkTmp != null && linkTmp.length() > 0) {
                   //將找到的連結放到addTargetRequest裡面，會自動發起請求
                   page.addTargetRequest(linkTmp);
                   //輸出到控制檯
                   System.out.println(linkTmp);
               }
           }
       } else {//解析電影詳情頁面
           //獲取html
           Selectable movieNameS = html.xpath("//title/text()");
           Selectable movieDownloadS = html.xpath("//a[starts-with(@href,'ftp')]/text()");
            System.out.println("movieName：" + movieNameS.get());
           System.out.println("downloadURL：" + movieDownloadS.get());
           System.out.println("-----------------------------------");
       }
   }

   @Override
   public Site getSite() {
       return Site.me().setTimeOut(10000);
   }
}
複製程式碼

三、亂彈琴

菜鳥一隻，歡迎交流。

web爬蟲系列（一）- 爬取電影天堂迅雷地址

一、爬蟲介紹目前爬蟲框架層出不窮，當然很多公司也會根據自己的業務做二次開發，Java的有WebMagic和WebCollector等，Python的有PySpider和Scrapy等。不能說孰好孰壞，只能說根據自己的業務場景選擇不同框架，Pytho

python爬蟲學習（一）爬取高清桌布（各種主流大小的高清圖）

from bs4 import BeautifulSoup import requests import time import os def get_photo(key): url = \"https://desk.zol.com.cn/meinv/\"+str(key)+\".html\"

爬蟲筆記（三）爬取‘糗事百科’熱圖板塊所有圖

目的：爬取‘糗事百科’熱圖板塊所有圖在網頁response中可以發現，每個圖是一個沒有http開頭的、以.jpg結尾的連結，在這個連結前邊補上http可以成功訪問該圖片。

爬蟲-Scrapy（二）爬取糗百笑話-單頁

技術標籤：爬蟲-Scrapy爬蟲python 1. Scrapy 設定檔案修改配置檔案就是專案根路徑下的 settings,py ,改下面的配置資訊

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

python爬蟲學習（一）requests+bs4爬取圖片

import requests from bs4 import BeautifulSoup import time url = \"http://www.bizhi360.com/meinv/\" resp = requests.get(url)

零基礎快速入門（二）爬取豆瓣電影——python爬蟲例項

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。

Flink 系列（一）—— Flink 核心概念綜述

一、Flink 簡介 Apache Flink 誕生於柏林工業大學的一個研究性專案，原名 StratoSphere 。2014 年，由 StratoSphere 專案孵化出 Flink，並於同年捐贈 Apache，之後成為 Apache 的頂級專案。2019 年 1 年，阿里巴巴收

Kafka 系列（一）—— Kafka 簡介

一、簡介 ApacheKafka 是一個分散式的流處理平臺。它具有以下特點：支援訊息的釋出和訂閱，類似於 RabbtMQ、ActiveMQ 等訊息佇列；

ZooKeeper系列（一）—— ZooKeeper 簡介及核心概念

一、Zookeeper簡介 Zookeeper 是一個開源的分散式協調服務，目前由 Apache 進行維護。Zookeeper 可以用於實現分散式系統中常見的釋出/訂閱、負載均衡、命令服務、分散式協調/通知、叢集管理、Master 選舉、分散式鎖和

Hadoop 系列（一）—— 分散式檔案系統 HDFS

一、介紹 HDFS （Hadoop Distributed File System）是 Hadoop 下的分散式檔案系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬體上。

HBase 系列（一）—— HBase 簡介

一、Hadoop的侷限 HBase 是一個構建在 Hadoop 檔案系統之上的面向列的資料庫管理系統。

Spark 系列（一）—— Spark 簡介

一、簡介 Spark 於 2009 年誕生於加州大學伯克利分校 AMPLab，2013 年被捐贈給 Apache 軟體基金會，2014 年 2 月成為 Apache 的頂級專案。相對於 MapReduce 的批處理計算，Spark 可以帶來上百倍的效能提升，因此它成

Storm 系列（一）—— Storm和流處理簡介

一、Storm 1.1 簡介 Storm 是一個開源的分散式實時計算框架，可以以簡單、可靠的方式進行大資料流的處理。通常用於實時分析，線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點：

Scala 系列（一）—— Scala 簡介及開發環境配置

一、Scala簡介 1.1 概念 Scala 全稱為 Scalable Language，即“可伸縮的語言”，之所以這樣命名，是因為它的設計目標是希望伴隨著使用者的需求一起成長。Scala 是一門綜合了面向物件和函式語言程式設計概念的靜態型別

Kafka系列（一）基本概念（概述、設計、叢集）

1、概述 Kafka是一種訊息中介軟體。舉個例子，一個網站在使用者進行註冊的時候，後臺的操作包括髮送郵箱、寫入使用者表、寫入日誌等等，但是一般都不會等這些完全處理完才告訴你註冊成功。這一系列的操作通常是非同步

KatalonRecorder系列（一）：基本使用+XPath元素定位

一、簡介 Katalon Recorder是基於selenium的瀏覽器外掛，支援火狐和chrome。可以錄製web上的操作並回放，還能匯入匯出指令碼。

Mybatis系列（一）：mybatis的入門

Mybatis是一款優秀的持久層框架，它支援自定義sql，儲存過程以及高階對映，幾乎不需要任何的JDBC程式碼以及設定引數和獲取結果集的工作。接下來看一下Mybatis的基本使用。

MSSQL系列（一）：資料庫的相關操作（增刪改查）

1.建立資料庫 --建立資料庫 create database stuDb on primary ( --表示屬於primary檔案組 name=\'stuDb\', --邏輯名稱

SpringBoot系列（一）

SpringBoot簡述目錄SpringBoot簡述一. 什麼是SpringBoot？二. Springboot的特點三. SpringBoot核心註解四. 其他註解Ⅰ. Conditional的組合註解Ⅱ. @ConfigurationProperties五. 啟動原理（自動配置）

web爬蟲系列（一）- 爬取電影天堂迅雷地址

一、爬蟲介紹

二、入門示例–爬去電影天堂的下載

1、簡單分析頁面

2、maven匯入如下jar包

3、解析dom，獲取到電影名稱及其對應的詳情頁連結

4、執行爬蟲並列印結果

5、分析詳情頁 - 深入爬取詳情頁

三、亂彈琴

相關推薦