爬取網站前1_解析網站robots.txt檔案

阿新 • • 發佈：2019-02-04

使用爬蟲爬取資料前，我們需要解析網站robots.txt檔案，以避免下載禁止爬取的url。這項工作需要使用python3自帶的urllib.robotparser模組

#使用爬蟲爬取資料前，我們需要解析網站robots.txt檔案

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url("http://example.webscraping.com/robots.txt")
rp.read()
url = "http://example.webscraping.com"
user_agent = "BadCrawler"
print(rp.can_fetch(user_agent,url))

user_agent = "GoodCrawler"
print(rp.can_fetch(user_agent, url))

那麼我們將解析robots.txt這項功能整合在上一篇連結爬蟲裡，有了如下程式碼：

import urllib.request
import urllib.error 
import re #正則表示式
import urllib.parse #將url連結從相對路徑（瀏覽器可懂但python不懂）轉為絕對路徑（python也懂了）
import urllib.robotparser #爬取資料前解析網站robots.txt檔案，避免爬取網站所禁止或限制的
def download(url, user_agent = "brain", num_retries = 2):  #下載url網頁
    print("downloading：",url)
    header = {"user-agent": user_agent} #設定使用者代理，而不使用python預設的使用者代理Python-urllib/3.6
    req = urllib.request.Request(url, headers = header)
    try:
        html = urllib.request.urlopen(req).read()
    except urllib.error.URLError as e:    #下載過程中出現問題
        print("download error：",e.reason)
        html = None

        if num_retries > 0:     #錯誤4XX發生在請求存在問題，而5XX錯誤則發生在服務端存在問題，所以在發生5XX錯誤時重試下載
            if hasattr(e, "code") and 500<= e.code <600:
                return  download(url, user_agent, num_retries-1)  # recursively retry 5XX HTTP errors
    return html
#download("http://example.webscraping.com") #訪問正常
#download("http://httpstat.us/500") #這個網頁測試用，一直是5XXerror

#跟蹤連結的爬蟲：link_crawler()函式傳入兩個引數：要爬取的網站URL、用於跟蹤連結的正則表示式。
def link_crawler(seed_url, link_regex):
    """先下載 seed_url 網頁的原始碼，然後提取出裡面所有的連結URL，接著對所有匹配到的連結URL與link_regex 進行匹配，
如果連結URL裡面有link_regex內容，就將這個連結URL放入到佇列中，
下一次 執行 while crawl_queue: 就對這個連結URL 進行同樣的操作。
反反覆覆，直到 crawl_queue 佇列為空，才退出函式。"""
    crawl_queue = [seed_url]
    seen = set(crawl_queue) #有可能連結中互相重複指向，為避免爬取相同的連結，所以我們需要記錄哪些連結已經被爬取過(放在集合seen中)，若已被爬取過，不再爬取
    while crawl_queue:
        url = crawl_queue.pop()
        
        rp = urllib.robotparser.RobotFileParser()   #爬取前解析網站robots.txt，檢查是否可以爬取網站，避免爬取網站禁止或限制的
        rp.set_url("http://example.webscraping.com/robots.txt")
        rp.read()
        user_agent = "brain" #這裡就是你爬取網站所使用的的代理
        if rp.can_fetch(user_agent, url):
            html = download(url)
            html = str(html)
            #filter for links matching our regular expression
            if html == None:
                continue
            for link in get_links(html):
                if re.match(link_regex, link):
                    link = urllib.parse.urljoin(seed_url, link) #把提取的相對url路徑link(view/178)轉化成絕對路徑(/view/Poland-178)link
                    if link not in seen:  #判斷是否之前已經爬取
                        seen.add(link) #之前沒有的話加在集合中以便後續繼續判斷
                        crawl_queue.append(link) #之前沒有的話這個連結可用，放在列表中繼續進行爬取
        else:
            print("Blocked by %s robots,txt" % url)
            continue
        
def get_links(html):
    """用來獲取一個html網頁中所有的連結URL"""
    #做了一個匹配模板 webpage_regex，匹配 <a href="xxx"> or <a href='xxx'>這樣的字串，並提取出裡面xxx的URL，請注意這裡的xxxURL很可能是原始碼中相對路徑，eg view/1 正常訪問肯定是打不開的
    webpage_regex = re.compile('<a href=["\'](.*?)["\']', re.IGNORECASE)
    return re.findall(webpage_regex,html)
    #return re.findall('<a[^>]+href=["\'](.*?)["\']', html)也可以這樣實現，但沒有上面的先編譯模板再匹配好                                                    

#只想找http://example.webscraping.com/index... or http://example.webscraping.com/view...
link_crawler("http://example.webscraping.com", "/(index|view)")

爬取網站前1_解析網站robots.txt檔案

使用爬蟲爬取資料前，我們需要解析網站robots.txt檔案，以避免下載禁止爬取的url。這項工作需要使用python3自帶的urllib.robotparser模組 #使用爬蟲爬取資料前，我們需要解析網站robots.txt檔案 import urllib.robot

爬取西刺代理IP存入本地txt檔案作為代理IP池（未加入是否可用驗證）

執行環境：Python3.5.3、Windows 10 RS4、Pycharm 2017.2.4 前言我們在爬取資料時，經常會因為請求太過頻繁導致反爬機制生效，不少伺服器的反爬機制

爬取有驗證碼的網站，（爬之前最好看一下君子協定）robots.txt,以人人網為例，每爬100條資料需要驗證一次（需要自己購買一個驗證碼破解會員，不是很貴，我這裡選擇的是超級鷹），簡版

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 14:03 # @Author : zhangz # @File : day4_yanzhengma.py # @Software: Py

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

爬取網易熱評做成網易雲熱門截圖形式（給自己看的很亂有待更改）

lac post 更改 with con requests true ext2 .post 1 import requests,json,os,datetime,math,re 2 from PIL import Image,ImageDraw,ImageFont

爬取網易熱評做成網易雲熱門截圖形式（給自己看的很亂有待更改+）

json roman reply 熱門 req fan sta strftime ram # coding: utf-8 import requests, json, os, time, math, re from PIL import Image, Image

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

爬取網易雲音樂評論並使用詞雲展示

referer top readlines target ner ads 詞雲 pos 參考最近聽到一首很喜歡的歌，許薇的《我以為》，評論也很有趣，遂有想爬取該歌曲下的所有評論並用詞雲工具展示。我們使用chrome開發者工具，發現歌曲的評論都隱藏在以 R_S

爬取網易雲音樂(包括歌詞和評論)

輸入 random 字節 sim main dal 需要 ssi wow # http://music.163.com/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&off

如何用Python網絡爬蟲爬取網易雲音樂歌曲

今天 http 分享圖片分享圖片分分鐘參考 down 技術今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編運行過代碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函數中傳入了歌手ID和歌曲名兩個參數

如何用Python網絡爬蟲爬取網易雲音樂歌詞

網易雲歌詞 Python網絡爬蟲網絡爬蟲前幾天小編給大家分享了數據可視化分析，在文尾提及了網易雲音樂歌詞爬取，今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取源碼；利用bs4解析源碼，獲取歌曲名和歌曲ID；調用網易雲歌曲API，獲取歌詞；將歌詞寫入

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

利用python廣西快樂十分源碼出租爬取網易雲歌手top50歌曲歌詞

代碼提示安裝 json 如果 https enc utf _id ebp python廣西快樂十分源碼出租 dsluntan.com Q:3393756370 VX:17061863513近年來，發展迅速，成為了最炙手可熱的語言。那麽如何來進行網易雲歌手top50的歌

菜鳥學爬蟲之爬取網易新聞

學習了python基本語法後，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。開啟網易新聞（https://news.163.com/）可以發現新聞分為這樣的幾個板塊：這次選擇國內板塊來爬取文章。 1.準備環境：python3 編譯器：PyChar

十五行程式碼爬取百思不得姐網站數百視訊

看完這個爬蟲教學視訊，親自實驗了一下，提取視訊關鍵內容，得出此文。用不超過15行程式碼爬取百思不得姐網站上的視訊：爬取地址：http://www.budejie.com/video/ 我需要下載的視訊就是如下圖所示：這是video頁面的一部分，每一頁有20個視訊，準備以下載前2

無論你是小白還是萌新！這篇都能教會你爬取網易雲付費音樂！

目標偶然的一次機會聽到了房東的貓的《雲煙成雨》，瞬間迷上了這慵懶的嗓音和學生氣的歌詞，然後一直去迴圈聽她們的歌。然後還特意去刷了動漫《我是江小白》，好期待第二季… 我多想在見你，哪怕匆匆一眼就別離… 好了，不說廢話了。這次的目標主要是根據網易雲中歌手的ID，下載該歌手的熱門音樂的歌詞和

java實現爬蟲，爬取網易歌單資訊

之前一直對爬蟲很好奇，覺得它很神祕，而我有個朋友是做爬蟲的，最近有空就向他學習了一下，並試著寫了個小程式。首先是獲得httpclient物件及httpresponse物件，此兩者是用於傳送請求及接受資料。 CloseableHttpClient httpClient

python3.基礎爬取網易雲音樂【超詳細版】

簡單學習了python爬蟲之後，我們就可以嘿咻嘿咻了...因為平時就是用網易雲聽的歌，也喜歡看歌裡的評論，所以就爬網易雲音樂評論吧！正式進入主題首先還是去找目標網頁並開始分析網頁結構，如下上面的三個箭頭都是所要找的資料，分別是評論使用者，評論和點贊數，都可以用正則表示式找出來，接下來繼續找怎樣

python 爬蟲爬取網易嚴選全網商品價格評論資料

1.獲取商品目錄在Chrome瀏覽器開發者工具中，可以找到目錄的JS地址： http://you.163.com/xhr/globalinfo//queryTop.json 得到商品資料 def get_categoryList():

爬取網站前1_解析網站robots.txt檔案

相關推薦