Python爬蟲: "追新番"網站資源鏈接爬取

阿新 • • 發佈：2018-02-06

== n) web ace class timeout grep target true

“追新番”網站

追新番網站提供最新的日劇和日影下載地址，更新比較快。

個人比較喜歡看日劇，因此想著通過爬取該網站，做一個資源地圖

可以查看網站到底有哪些日劇，並且隨時可以下載。

資源地圖

爬取的資源地圖如下：

在linux系統上通過 ls | grep keywords 可以輕松找到想要的資源（windows直接搜索就行啦）

技術分享圖片

爬取腳本開發

1. 確定爬取策略

進入多個日劇，可以查看到每個劇的網址都是如下形式:

技術分享圖片

可以看出，每個日劇網頁都對應一個編號。

因此我們可以通過遍歷編號來爬取。

2. 獲取日劇的名字

打開其中一個日劇的網頁，查看標題的源代碼如下:

技術分享圖片

可以看到，標題的標簽ID為"pdtname", 我們只要獲取該標簽的文本即可獲取日劇名字

通過beautifulSoup的接口，獲取該標簽內容（去除了名字中多余東西）

 1     # try get tv name
 2     tag_name = soup.find(id=‘pdtname‘)
 3     if None == tag_name:
 4         print(‘tv_{:0>4d}: not exist.‘.format(num))
 5         return None
 6 
 7     # remove signs not need
 8     name = tag_name.get_text().replace(‘ ‘, ‘‘ 
) 
 9     try:
10         name = name.replace(re.search(‘【.*】‘, name).group(0), ‘‘) 
11         name = name.replace(re.search(‘\(.*\)‘, name).group(0), ‘‘) 
12         name = name.replace(‘《‘, ‘‘) 
13         name = name.replace(‘》‘, ‘‘) 
14         name = name.replace(‘/‘, ‘‘) 
15     except :
16         pass

3. 獲取資源鏈接

在每個日劇頁面中同時也包含了資源鏈接的地址，查看源代碼如下:

技術分享圖片

可以看到資源鏈接使用了一個表塊，並且表塊的ID為"ajax_tbody"

其中每一集都是表的行元素，每一行又包含了幾列來顯示資源的各個信息

我們通過遍歷表的元素來獲取每一集的資源鏈接

    # try get tv resources list
    tag_resources = soup.find(id=‘ajax_tbody‘)
    if None == tag_resources:
        print(‘tv_{:0>4d}: has no resources.‘.format(num))
        return None

    # walk resources
    for res in tag_resources.find_all(‘tr‘):

        # get link tag
        tag_a = res.find(‘a‘)
        info = res.find_all(‘td‘)
        print(‘resource: ‘, tag_a.get_text())

        # get download link
        downlink = get_resources_link(session, tag_a.get(‘href‘))

        # record resouces
        tv.resources.append([tag_a.get_text(), info[2].get_text(), downlink, ‘‘])
        delay(1)

4. 獲取下載鏈接

點擊其中一個資源，進入下載鏈接頁面，查看源代碼如下

技術分享圖片

可以看到電驢的下載鏈接標簽ID為"emule_url"，因此我們只需要獲取該標簽的文本就可以了（磁力鏈接類似）

不過首先我們還需要先獲取該下載頁面，整體操作代碼如下

def get_resources_link(session, url):
    ‘‘‘ get tv resources download link  ‘‘‘

    global domain
    res_url = domain + url

    # open resources page
    resp = session.get(res_url, timeout = 10)
    resp.raise_for_status()

    soup = page_decode(resp.content, resp.encoding)

    tag_emule = soup.find(id=‘emule_url‘)
    return tag_emule.get_text() if tag_emule != None else ‘‘

5. 將資源下載鏈接保存到本地

其中，由於爬取所有日劇的下載鏈接比較耗時，前面做了判斷可以只爬取標題，日後根據序號再爬取下載鏈接

def save_tv(tv):
    ‘‘‘ save tv infomation on disk ‘‘‘

    filename = os.path.join(os.path.abspath(save_dir), ‘{:0>4d}_{}.txt‘.format(tv.num, tv.name))

    global only_catalog
    if only_catalog == True:
        with open(filename, ‘a+‘) as f:
            pass
    else:
        with open(filename, ‘w‘) as f:
            for info in tv.resources:
                f.write(os.linesep.join(info))
                f.write(‘========‘ + os.linesep)

以上，就是整個爬取腳本的開發過程。

歡迎關註我的代碼倉庫: https://gitee.com/github-18274965/Python-Spider

以後還會開發其余網站的爬取腳本。

附錄

整體代碼:

  1 #!/usr/bin/python3
  2 # -*- coding:utf-8 -*-
  3 
  4 import os
  5 import sys
  6 import re
  7 import requests
  8 from bs4 import BeautifulSoup
  9 from time import sleep
 10 
 11 # website domain
 12 domain = ‘http://www.zhuixinfan.com/‘
 13 
 14 # spide infomation save directory
 15 save_dir = ‘./tvinfo/‘
 16 
 17 # only tv catalog
 18 only_catalog = False
 19 
 20 class TVInfo:
 21     ‘‘‘ TV infomation class‘‘‘
 22 
 23     def __init__(self, num, name):
 24         self.num = num
 25         self.name = name
 26         self.resources = []
 27 
 28 
 29 def delay(seconds):
 30     ‘‘‘ sleep for secondes ‘‘‘
 31 
 32     while seconds > 0:
 33         sleep(1)
 34         seconds = seconds - 1
 35 
 36 def page_decode(content, encoding):
 37     ‘‘‘ decode page ‘‘‘
 38 
 39     # lxml may failed, then try html.parser
 40     try:
 41         soup = BeautifulSoup(content, ‘lxml‘, from_encoding=encoding)
 42     except:
 43         soup = BeautifulSoup(content, ‘html.parser‘, from_encoding=encoding)
 44 
 45     return soup
 46 
 47 def open_home_page(session):
 48     ‘‘‘ open home page first as humain being ‘‘‘
 49 
 50     global domain
 51     home_url = domain + ‘main.php‘
 52     
 53     # open home page
 54     resp = session.get(home_url, timeout = 10)
 55     resp.raise_for_status()
 56 
 57     # do nothing
 58 
 59 def get_resources_link(session, url):
 60     ‘‘‘ get tv resources download link  ‘‘‘
 61     
 62     global domain
 63     res_url = domain + url
 64 
 65     # open resources page
 66     resp = session.get(res_url, timeout = 10)
 67     resp.raise_for_status()
 68 
 69     soup = page_decode(resp.content, resp.encoding)
 70 
 71     tag_emule = soup.find(id=‘emule_url‘)
 72     return tag_emule.get_text() if tag_emule != None else ‘‘
 73 
 74 
 75 def spider_tv(session, num):
 76     ‘‘‘ fetch tv infomaion ‘‘‘
 77 
 78     global domain
 79     tv_url = domain + ‘viewtvplay-{}.html‘.format(num)
 80     
 81     # open tv infomation page
 82     resp = session.get(tv_url, timeout = 10)
 83     resp.raise_for_status()
 84 
 85     soup = page_decode(resp.content, resp.encoding)
 86 
 87     # try get tv name
 88     tag_name = soup.find(id=‘pdtname‘)
 89     if None == tag_name:
 90         print(‘tv_{:0>4d}: not exist.‘.format(num))
 91         return None
 92     
 93     # try get tv resources list
 94     tag_resources = soup.find(id=‘ajax_tbody‘)
 95     if None == tag_resources:
 96         print(‘tv_{:0>4d}: has no resources.‘.format(num))
 97         return None
 98 
 99     # remove signs not need
100     name = tag_name.get_text().replace(‘ ‘, ‘‘)
101     try:
102         name = name.replace(re.search(‘【.*】‘, name).group(0), ‘‘)
103         name = name.replace(re.search(‘\(.*\)‘, name).group(0), ‘‘)
104         name = name.replace(‘《‘, ‘‘)
105         name = name.replace(‘》‘, ‘‘)
106         name = name.replace(‘/‘, ‘‘)
107     except :
108         pass
109 
110     print(‘tv_{:0>4d}: {}‘.format(num, name))
111 
112     tv = TVInfo(num, name)
113 
114     global only_catalog
115     if only_catalog == True:
116         return tv
117 
118     # walk resources
119     for res in tag_resources.find_all(‘tr‘):
120 
121         # get link tag
122         tag_a = res.find(‘a‘)
123         info = res.find_all(‘td‘)
124         print(‘resource: ‘, tag_a.get_text())
125 
126         # get download link
127         downlink = get_resources_link(session, tag_a.get(‘href‘))
128 
129         # record resouces
130         tv.resources.append([tag_a.get_text(), info[2].get_text(), downlink, ‘‘])
131         delay(1)
132     
133     return tv
134 
135 
136 def save_tv(tv):
137     ‘‘‘ save tv infomation on disk ‘‘‘
138 
139     filename = os.path.join(os.path.abspath(save_dir), ‘{:0>4d}_{}.txt‘.format(tv.num, tv.name)) 
140     
141     global only_catalog
142     if only_catalog == True:
143         with open(filename, ‘a+‘) as f:
144             pass
145     else:
146         with open(filename, ‘w‘) as f:
147             for info in tv.resources: 
148                 f.write(os.linesep.join(info))
149                 f.write(‘========‘ + os.linesep)
150 
151 def main():
152     
153     start = 1
154     end = 999
155 
156     if len(sys.argv) > 1:
157         start = int(sys.argv[1])
158     
159     if len(sys.argv) > 2:
160         end = int(sys.argv[2])
161 
162     global only_catalog
163     s = input("Only catalog ?[y/N] ")
164     if s == ‘y‘ or s == ‘Y‘:
165         only_catalog = True
166 
167     # headers: firefox_58 on ubuntu
168     headers = {
169         ‘User-Agent‘: ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0)‘ 
170                 + ‘ Gecko/20100101 Firefox/58.0‘,
171         ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
172         ‘Accept-Language‘: ‘zh-CN,en-US;q=0.7,en;q=0.3‘,
173         ‘Accept-Encoding‘: ‘gzip, deflate‘,
174         }
175     
176     # create spider session
177     with requests.Session() as s:
178 
179         try:
180             s.headers.update(headers)
181             open_home_page(s)
182             for num in range(start, end+1):
183                 delay(3)
184                 tv = spider_tv(s, num)
185                 if tv != None:
186                     save_tv(tv)
187 
188         except Exception as err:
189             print(err)
190             exit(-1)
191     
192 if __name__ == ‘__main__‘:
193     main()

Python爬蟲: "追新番"網站資源鏈接爬取

== n) web ace class timeout grep target true “追新番”網站追新番網站提供最新的日劇和日影下載地址，更新比較快。個人比較喜歡看日劇，因此想著通過爬取該網站，做一個資源地圖可以查看網站到底有哪些日劇，並且隨時可以下載。資源地

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Python爬蟲培訓或學習過程中，需掌握的爬取驗證碼方法

　　Python爬蟲實戰爬取驗證碼　　1.破解驗證碼常見的三種方法：　　(1)把驗證碼下載到本地，手動輸入進行破解　　(2)Tesseract光學識別模組：能夠自動識別驗證碼，準確率不高，只能識別一些簡單驗證碼　　程式碼測試　　pip install py

Python爬蟲：Scrapy框架基礎框架結構及騰訊爬取

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho

Python爬蟲入門教程 12-100 半次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的連結開啟之後

Python爬蟲入門教程 12-100 二次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。

Python爬蟲系列（四）（簡單）Dota排行榜爬取，並存入Excel表格

在編寫Python程式的時候，有很多庫供我們選擇，如urllib、requests，BeautifulSoup，lxml，正則表示式等等，使得我們在獲取網頁原始碼或者選擇元素的時候

Python 爬蟲筆記（對維基百科頁面的深度爬取）

*#! /usr/bin/env python #coding=utf-8 import urllib2 from bs4 import BeautifulSoup import re import datetime import random ran

Python爬蟲（一）--城市公交網路站點資料的爬取

作者：WenWu_Both 出處：http://blog.csdn.net/wenwu_both/article/ 版權：本文版權歸作者和CSDN部落格共有轉載：歡迎轉載，但未經作者同意，必須保留此段聲必須在文章中給出原文連結；否則必究法律責任

Python爬蟲入門教程【7】：蜂鳥網圖片爬取之二

蜂鳥網圖片--簡介今天玩點新鮮的，使用一個新庫 aiohttp ，利用它提高咱爬蟲的爬取速度。安裝模組常規套路 pip ins

思路——根據網站鏈接爬取整個圖片網站

requests 方式效率 java實現 rap html 進行 os模塊 pat 八月入職新公司，發現公司的爬蟲系統主要用Java實現的偶爾用一些python，為此又看了下Java爬蟲，順便用之前同事推薦我的美女圖片網站練手（之前推薦時候python爬蟲勉強算經

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站！

問題分析： 1、爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。在這裡我還是要推薦下我自己建的Python開發學習群：483546416，都是學Python開發的，如果你

Python爬蟲——百度+新浪微盤下載歌曲

　　本篇分享將講解如何利用Python爬蟲在百度上下載新浪微盤裡自己想要的歌手的歌曲，隨便你喜歡的歌手！　　首先我們先探索一下我們操作的步驟（以下載Westlife的歌曲為例）：開啟百度，輸入”Westlife 微盤”，將彈出如下頁面：　　　　第1，

Python爬蟲模擬登入帶驗證碼網站

爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。首先得明白cookie的作用，cookie是某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料。因此我們

Java裸寫爬蟲技術，運用多執行緒技術，高效爬取某個醫療機構網站資料

最近喜歡上了資料的龐大的感覺，就爬取了一下某個醫療機構網站醫療資料，由於資料量龐大，只爬取了江西省的各個市的各個醫院的各個科室的各個科室。中各種資訊。其中用的持久層技術是hibernate框架，和用到一

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波

Python爬蟲: "追新番"網站資源鏈接爬取

“追新番”網站

資源地圖

爬取腳本開發

1. 確定爬取策略

2. 獲取日劇的名字

附錄

相關推薦