Python3爬蟲實戰（requests模組）

阿新 • • 發佈：2018-12-27

上次我通過兩個實戰教學展示瞭如何使用urllib模組（http://blog.csdn.net/mr_blued/article/details/79180017）來構造爬蟲，這次告訴大家一個更好的實現爬蟲的模組，requests模組。

使用requests模組進行爬蟲構造時最好先去了解一下HTTP協議與常見的幾種網頁請求方式。

閒話少說，我們進入正題。

使用requests模組改進上次的例子中的程式碼

1.爬取妹子圖。（目標網址：http://www.meizitu.com/）

import requests
import os
import re
import time

def url_open(url):
    # 以字典的形式新增請求頭
    header = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"
        }
    # 使用get方法傳送請求獲取網頁原始碼
    response = requests.get(url, headers=header)
    return response

def find_imgs(url):
    html = url_open(url).text
    p = r'<img src="([^"]+\.jpg)"'

    img_addrs = re.findall(p, html)

    return img_addrs

def download_mm(folder='OOXX'):
    os.mkdir(folder)
    os.chdir(folder)

    page_num = 1  # 設定為從第一頁開始爬取，可以自己改
    x = 0  # 自命名圖片
    img_addrs = []  # 防止圖片重複

    # 只爬取前兩頁的圖片，可改，同時給圖片重新命名
    while page_num <= 2:
        page_url = url + 'a/more_' + str(page_num) + '.html'
        addrs = find_imgs(page_url)
        print(len(addrs))
        # img_addrs = []
        for i in addrs:
            if i in img_addrs:
                continue
            else:
                img_addrs.append(i)
        print(len(img_addrs))
        for each in img_addrs:
            print(each)
        page_num += 1
        # x = (len(img_addrs)+1)*(page_num-1)
    for each in img_addrs:
        filename = str(x) + '.' + each.split('.')[-1]
        x += 1
        with open(filename, 'wb') as f:
            img = url_open(each).content
            f.write(img)
        # page_num += 1

if __name__ == '__main__':
    url = 'http://www.meizitu.com/'
    download_mm(）

2.爬取百度貼吧圖片（目標網址：https://tieba.baidu.com/p/5085123197）

import requests
import re
import os

def open_url(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"}
    response = requests.get(url, headers=headers)

    return response

def find_img(url):
    html = open_url(url).text
    p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
    img_addrs = re.findall(p, html)

    for each in img_addrs:
        print(each)
    for each in img_addrs:
        file = each.split("/")[-1]
        with open(file, "wb") as f:
            img = open_url(each).content
            f.write(img)

def get_img():
    os.mkdir("TieBaTu")
    os.chdir("TieBaTu")
    find_img(url)

if __name__ == "__main__":
    url = 'https://tieba.baidu.com/p/5085123197'
    get_img()

總結：1.熟悉requests模組的方法，以及瞭解http協議和幾種常見的請求方式2.瞭解網站的反爬蟲策略，並建立相對應的反反爬蟲手段3.知道其他模組的作用。

Python3爬蟲實戰（requests模組）

上次我通過兩個實戰教學展示瞭如何使用urllib模組（http://blog.csdn.net/mr_blued/article/details/79180017）來構造爬蟲，這次告訴大家一個更好的實現爬蟲的模組，requests模組。使用requests模組進行爬蟲構造時最

Python3爬蟲實戰（urllib模組）

import urllib.request import os import re import time def url_open(url): # 建立一個 Request物件 req req = urllib.request.Request(url) # 通過 add_head

python3爬蟲實戰（三）：mitmproxy對接python下載抖音小視訊

一、前言前面我們已經用appium爬取了微信朋友圈，今天我們學習下mitmproxy，mitmproxy是幹什麼的呢，它跟charles和fiddler類似，是一個抓包工具，以控制檯的形式顯示，mitmproxy的重要性在於它可以對接python,可

Web of Science爬蟲實戰（模擬瀏覽器）

一．概述本次爬蟲主要通過論文的入藏號來檢索出該論文，從而爬取該論文的被引量，近180天下載量以及全部下載量。這裡使用的是Web of Scienece 核心合集，並且使用python的selenium庫進行模擬瀏覽器的操做二．網站及爬取策略分析圖1:檢索頁面注

python3 [爬蟲實戰] selenium + requests 爬取安居客

很簡單，這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結因為她用的scrapy框架，感覺有些大才小用了，所以就直接用了一個requests庫，selenium 和xpath進行一整頁資料的爬取獲取的內容：包括地區名，地

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

python3爬蟲入門（urllib和requests簡單使用）

知道python有強大的的爬蟲庫，但是對於我們普通小白來說，寫一個完整的爬蟲需要知道什麼甚至瞭解什麼都是很重要的。掌握了這些基本點，才能夠熟悉爬蟲的構成和獲取有用的資訊。編寫一個小爬蟲個人感覺可以分為三個階段： 1：請求，這個就是使用urlib2或者requests

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

目標：爬取創科實驗室網站中講座的資訊，輸出表：講座標題、報告人、單位、報告時間、講座內容、報告人簡介技術：requests + bs4 檢視爬蟲協議： http://127.0.0.1/lab/robots.txt （創科實驗室是我自己寫的網址，不反爬蟲）

Python3.X 爬蟲實戰（動態頁面爬取解析）

1 背景不知不覺關於 Python 3.X 爬蟲系列已經介紹瞭如下系列：到此關於 Python3.x 靜態頁面爬蟲的基礎核心基本已經介紹的差不多了，剩下的就是一些自己個性化的需求了，譬如爬取資料分析等，這種我們後面還會專門來說的。然而我們在該

python3[爬蟲實戰] 使用selenium，xpath爬取京東手機（上）

當然了，這個任務也是從QQ群裡面接過來的，主要是想提升自己的技術，一接過來是很開心的，但是，接完之後，寫了又寫，昨晚寫了3小時，前提晚上寫了2小時，搞的有些晚了，搞來搞去就卡在一個地方了，希望懂的大神們多幫忙指點一下，使用selenium ，可能感覺用

Python3爬蟲實戰——QQ空間自動點贊程式（上）

（前一段時間剛學了Python，覺得需要拿點東西來練手，於是就決定寫個實用點的東西，也就是這條既能練手又能裝逼的qq空間自動點讚的小爬蟲）（好多不常聯絡的同學都因為我的秒贊對我表示了他們的感動，搞得我都不敢說我是用程式自動點讚的）（然而，與其說是練手Python，其實

Python3.X 爬蟲實戰（併發爬取）

1 背景在這一系列開始前我們就說過，簡單的爬蟲很容易，但是要完成一個高效健壯的爬蟲不是一個簡單的事情，這一系列我們已經明白了爬蟲相關的如下核心知識點。基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了（譬如老闆讓你定期留意觀

Selenium2+Python3.6實戰（八）：定位下拉菜單出錯，如何解決？用select或xpath定位。

排查會有有時 ide 導入 python3 很好沒有元素在登錄界面，有時候會有幾種不同的角色，針對不同角色定位到的信息是不一樣的。查詢資料知道定位下拉框的元素有兩種方式：Xpath和select。但是使用xpath定位時，user定位到了，登錄的時候卻是調用的a

python爬蟲項目（新手教程）之知乎（requests方式）

ror eas 點擊 elif 原因 ffffff 文章重點 F12 -前言之前一直用scrapy與urllib姿勢爬取數據，最近使用requests感覺還不錯，這次希望通過對知乎數據的爬取為各位爬蟲愛好者和初學者更好的了解爬蟲制作的準備過程以及requests請求方

python3接口測試（requests庫）

slc 1.10 .html led true nco int print -type 一、一般概念 1.導入第三方庫 import requests 2.發送get請求#userURL為客戶端訪問的URL地址myResponse = requests.get(userUR

豆瓣讀書爬蟲（requests + re）

pandas 就是正則過程 data tle ppa 觀察嘗試　　前面整理了一些爬蟲的內容，今天寫一個小小的栗子，內容不深，大佬請忽略。內容包括對豆瓣讀書網站中的書籍的基本信息進行爬取，並整理，便於我們快速了解每本書的中心。一、爬取信息　　每當爬取某個網

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

Python3基礎之（十四）模組安裝

安裝外部的模組有很多種方式, 不同的系統安裝形式也不同. 一、什麼是外部模組外部模組就是在你 import 什麼東西到python 指令碼的時候會用到的. import numpy as np import matplotlib.pyplot as plt 這裡的 N

python3爬蟲03（find_all用法等）

#read1.html檔案# <html><head><title>The Dormouse's story</title></head># <body># <p class="title"><b>The Dorm

python3基礎03（requests常見請求）

# coding:utf-8#-*- coding:utf-8 -*-import requestsimport jsonimport reimport urllib3from urllib.parse import urlencode,quote,unquoteurl="https://www.baidu.

Python3爬蟲實戰（requests模組）

使用requests模組改進上次的例子中的程式碼

2.爬取百度貼吧圖片 （目標網址：https://tieba.baidu.com/p/5085123197）

相關推薦

2.爬取百度貼吧圖片（目標網址：https://tieba.baidu.com/p/5085123197）