爬蟲開發python工具包介紹（4）

阿新 • • 發佈：2018-09-30

current edi 社區 cache outer json格式數據 exc max cloud

本文來自網易雲社區

作者：王濤

此處我們給出幾個常用的代碼例子，包括get,post(json,表單),帶證書訪問：
Get 請求

@gen.coroutine
def fetch_url():
    try:
        c = CurlAsyncHTTPClient()  # 定義一個httpclient
        myheaders = {
            "Host": "weixin.sogou.com",
            "Connection": "keep-alive",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5 ",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
        }
        url = "http://weixin.sogou.com/weixin?type=1&s_from=input&query=%E4%BA%BA%E6%B0%91%E6%97%A5%E6%8A%A5&ie=utf8&_sug_=n&_sug_type_="

        req = HTTPRequest(url=url, method="GET", headers=myheaders, follow_redirects=True, request_timeout=20, connect_timeout=10,
                          proxy_host="127.0.0.1",
                          proxy_port=8888)
        response = yield c.fetch(req)  # 發起請求
        print response.code
        print response.body
        IOLoop.current().stop()  # 停止ioloop線程
    except:
        print traceback.format_exc()

Fiddler 抓到的報文請求頭：
技術分享圖片

POST JSON數據請求

@gen.coroutine
def fetch_url():
    """抓取url"""
    try:
        c = CurlAsyncHTTPClient()  # 定義一個httpclient
        myheaders = {
            "Host": "weixin.sogou.com",
            "Connection": "keep-alive",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5 ",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            "Content-Type": "Application/json",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
        }
        url = "http://127.0.0.1?type=1&s_from=input&query=%E4%BA%BA%E6%B0%91%E6%97%A5%E6%8A%A5&ie=utf8&_sug_=n&_sug_type_="
        body =json.dumps({"key1": "value1", "key2": "value2"})  # Json格式數據

        req = HTTPRequest(url=url, method="POST", headers=myheaders, follow_redirects=True, request_timeout=20, connect_timeout=10,
                          proxy_host="127.0.0.1",proxy_port=8888,body=body)
        response = yield c.fetch(req)  # 發起請求
        print response.code
        print response.body
        IOLoop.current().stop()  # 停止ioloop線程
    except:
        print traceback.format_exc()

Fiddler 抓到的報文請求頭：

技術分享圖片

POST Form表單數據請求

@gen.coroutine
def fetch_url():
    """抓取url"""
    try:
        c = CurlAsyncHTTPClient()  # 定義一個httpclient
        myheaders = {
            "Host": "weixin.sogou.com",
            "Connection": "keep-alive",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5 ",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
            "Accept-Encoding": "gzip, deflate",
            # "Content-Type": "Application/json",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
        }
        import urllib
        url = "http://127.0.0.1?type=1&s_from=input&query=%E4%BA%BA%E6%B0%91%E6%97%A5%E6%8A%A5&ie=utf8&_sug_=n&_sug_type_="
        body =urllib.urlencode({"key1": "value1", "key2": "value2"})  # 封裝form表單

        req = HTTPRequest(url=url, method="POST", headers=myheaders, follow_redirects=True, request_timeout=20, connect_timeout=10,
                          proxy_host="127.0.0.1",proxy_port=8888,body=body)
        response = yield c.fetch(req)  # 發起請求
        print response.code
        print response.body
        IOLoop.current().stop()  # 停止ioloop線程
    except:
        print traceback.format_exc()

Fiddler 抓到的報文請求頭：

技術分享圖片

添加證書訪問

def fetch_url():
    """抓取url"""
    try:
        c = CurlAsyncHTTPClient()  # 定義一個httpclient
        myheaders = {
            "Host": "www.amazon.com",
            "Connection": "keep-alive",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": "1",
            "User-Agent": ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                   "AppleWebKit/537.36 (KHTML, like Gecko) "
                   "Chrome/68.0.3440.106 Safari/537.36"),
            "Accept": ("text/html,application/xhtml+xml,"
               "application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"),
            "Accept-Encoding": "gzip, deflate, br",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8"
        }
        import urllib
        url = "https://www.amazon.com/"

        req = HTTPRequest(url=url, method="GET", headers=myheaders, follow_redirects=True, request_timeout=20, connect_timeout=10,proxy_host="127.0.0.1",
        proxy_port=8888,ca_certs="FiddlerRoot.pem")  # 綁定證書
        response = yield c.fetch(req)  # 發起請求
        print response.code
        print response.body
        IOLoop.current().stop()  # 停止ioloop線程
    except:
        print traceback.format_exc()

Fiddler抓到的報文（說明可以正常訪問）

四、總結

抓取量少的時候，建議使用requests,簡單易用。
並發量大的時候，建議使用tornado，單線程高並發，高效易編程。

以上給出了requests和Fiddler中常用的接口和參數說明，能解決爬蟲面對的大部分問題，包括並發抓取、日常的反爬應對，https網站的抓取。

附上一段我自己的常用抓取代碼邏輯：

import randomfrom tornado.ioloop import IOLoopfrom tornado import genfrom tornado.queues import Queue


import random
from tornado.ioloop import IOLoop
from tornado import gen
from tornado.queues import Queue


TASK_QUE = Queue(maxsize=1000)


def response_handler(res):
    """ 處理應答，一般會把解析的新的url添加到任務隊列中，並且解析出目標數據 """
    pass


@gen.coroutine
def url_fetcher_without_param():
    pass


@gen.coroutine
def url_fetcher(*args,**kwargs):
    global TASK_QUE
    c = CurlAsyncHTTPClient()

    while 1:
        #console_show_log("Let‘s spider")
        try: 
            param = TASK_QUE.get(time.time() + 300) # 5 分鐘超時
        except tornado.util.TimeoutError::
            yield gen.sleep(random.randint(10,100))
            continue

        try:
            req = HTTPRequest(url,method=,headers=,....) # 按需配置參數
            response = yield c.fetch(req) 
            if response.coe==200:
                response_handler(response.body)
        except Exception:
            yield gen.sleep(10)
            continue
        finally:
            print "I am a slow spider"
            yield gen.sleep(random.randint(10,100))

@gen.coroutine
def period_callback():
    pass

def main():
    io_loop = IOLoop.current()
    # 添加並發邏輯1
    io_loop.spawn_callback(url_fetcher, 1)  
    io_loop.spawn_callback(url_fetcher, 2)
    io_loop.spawn_callback(url_fetcher_without_param) # 參數是可選的

    # 如果需要周期調用，調用PeriodicCallback：
    PERIOD_CALLBACK_MILSEC = 10  # 10, 單位ms
    io_loop.PeriodicCallback(period_callback,).start()
    io_loop.start()

if __name__ == "__main__":
    main()

以上，歡迎討論交流

五、參考：

requests快速入門：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
requests高級應用：http://docs.python-requests.org/en/master/user/advanced/
什麽是CA_BUNDLE:https://www.namecheap.com/support/knowledgebase/article.aspx/986/69/what-is-ca-bundle
如何用requests下載圖片：https://stackoverflow.com/questions/13137817/how-to-download-image-using-requests
tornado AsyncHttpClient: https://www.tornadoweb.org/en/stable/httpclient.html
100 Continue狀態碼：https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Status/100
HTTP認證： https://developer.mozilla.org/en-US/docs/Web/HTTP/Authentication
證書轉換： https://www.alibabacloud.com/help/zh/faq-detail/40526.htm

網易雲免費體驗館，0成本體驗20+款雲產品！

更多網易研發、產品、運營經驗分享請訪問網易雲社區。

相關文章：
【推薦】知物由學 | 廣告欺詐：如何應對數字廣告裏分羹者？
【推薦】分布式存儲系統可靠性如何估算？
【推薦】【工程實踐】服務器數據解析

爬蟲開發python工具包介紹（4）

current edi 社區 cache outer json格式數據 exc max cloud 本文來自網易雲社區作者：王濤此處我們給出幾個常用的代碼例子，包括get,post(json,表單),帶證書訪問：Get 請求@gen.coroutine def fetch_

爬蟲開發python工具包介紹（2）

dir 部分 loop 網易 pat 選擇服務器 mode follow 本文來自網易雲社區作者：王濤可選參數我們一一介紹一下：參數釋義示例params生成url中?號後面的查詢Key=value示例1： >>>payload = {‘key1‘: ‘v

爬蟲開發python工具包介紹（1）

本文來自網易雲社群作者：王濤本文大綱：簡易介紹今天要講解的兩個爬蟲開發的python庫詳細介紹 requests庫及函式中的各個引數詳細介紹 tornado 中的httpcilent的應用總結目標：瞭解python中常用的快速開發爬蟲的工具包。基礎： python的基礎

java開發常用jar包介紹（轉載）

jta.jar 標準JTA API必要 commons-collections.jar 集合類必要 antlr.jar ANother Tool for Language Recognition 必要 asm.jar ASM位元組碼庫如果使用“cglib” 則必要 asm

【pykafka】爬蟲篇：python使用python連線kafka介紹（四）

本人菜雞，最近還更新python的爬蟲系列，有什麼錯誤，還望大家批評指出！該系列暫時總共有4篇文章，連線如下：【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/83311860

Python 命令列解析工具 Argparse介紹（二）

今天學習python的argparse模組。看到了這樣一篇文章，連結 http://www.cnblogs.com/jianboqi/archive/2013/01/10/2854726.html，題目是Python 命令列解析工具 Argparse介紹（一），翻譯自pyt

通達OA 小飛魚在線開發培訓第一講介紹（圖文）

eas 技術 src ext mar dsm rac popu -a 培訓課件的主要內容。須要參加培訓的同學要註意了。課程內容以有用為主。課件僅供參考。通達OA 小飛魚在線開發培訓第一講介紹（圖文）

PYTHON多線程--（4）QUEUE對象

open any python多線程 list fbx taf svm vda python OPENSWANI%E6%96%B9%E6%89%93%E5%8D%B0 http://mp3.baidu.com/songlist/502720018?9oo6=C67F h

條件隨機場介紹（4）—— An Introduction to Conditional Random Fields

all str 都是 random ted 之前圖模型回顧 over 4. 推斷高效的推斷算法對條件隨機場的訓練和序列預測都非常重要。主要有兩個推斷問題：第一，模型訓練之後，為新的輸入\(\mathbf{x}\)確定最可能的標記\(\mathbf{y}^* = \ar

Python函數篇（4）之叠代器與生成器

依賴 true windows 想要 bject 多個介紹中文 linux系統中 1.文件操作的“b模式”(補充) 　　在上一篇文章中，我在最後一部分寫了文件處理的一些方法，但是覺得還是有必要再提一下如下的內容：　　像rb、wb、ab這種模式，是以字節的形式操作，需要

課後筆記一：Python基礎語法介紹（1）

Python3.6.5我們總是找借口說還有時間去做某事，或者完成某事，結果總是不了了之。比如拖到現在才寫第一課聽課筆記。第一節課，老師對以下內容做了分享，大致分為環境配置開發平臺：Mac OS Version 10.13.2 老師講課的是在Windows 10 我選擇在Mac OS進行Pyth

caffe的python接口學習（4）mnist實例手寫數字識別

數字 interval with lac EDA 變化 mode 指數 lB 以下主要是摘抄denny博文的內容，更多內容大家去看原作者吧　　一數據準備　　準備訓練集和測試集圖片的列表清單; 　　二導入caffe庫，設定文件路徑　　 # -*- coding: u

Python學習之路（4）——變量

TP width urn pass 分享圖片 comment port cin alex 1、聲明變量 1 2 3 4 #!/usr/bin/env python # -*- coding: utf-8 -*- name = "wupeiqi"

python與zmq系列（4）

今天為大家介紹push/pull模式，這是一個什麼模式呢？戰爭時期，食物緊缺，實行配給制，大家都排好隊，有人專門發放食物，前一個人領取了食物，後一個人跟上繼續領取食物，這個push端就是發放食物的，pull

unity遊戲開發之ULua框架介紹（二）

1.SimpleFramework框架配置檔案（1）AppConst 檔案在AppConst.cs檔案中配置了很多專案開發過程中，需要使用到的“公共常量資訊”。指令碼內的常量都有中文備註。所在位置是：Scripts/ConstDefine/AppConst.cs

unity遊戲開發之ULua框架介紹（一）

1.基礎介紹 ①ULua 整合開發環境叫做：SimpleFramework，SimpleFramework 分為NGUI 和UGUI兩個版本，區別是NGUI 版本的框架資源中含有NGUI 這個外掛。SimpleFramework 本身不是Unitypackage 格式，而是一個Unity3D的專

Java原始碼分析——java.util工具包解析（五）——UUID、Base64、內建觀察者模式Observer介面、EventListener、RandomAccess

UUID 關於UUID，我們需要知道它最重要的一點，就是它會生成全地球唯一的一個id，它可以作為資料庫的主鍵存在，標識各個元組。 UUID保證對在同一時空中的所有機器都是唯一的，利用機器的當前日期和時間、時鐘序列、全域性唯一的IEEE機

Java原始碼分析——java.util工具包解析（四）——四大引用型別以及WeakHashMap類解析

WeakHashMap是Map的一種很獨特的實現，從它的名字可以看出，它是存貯弱引用的對映的，先來複習一下Java中的四大引用型別：強引用：我們使用的大部分引用實際上都是強引用，這是使用最普遍的引用。強引用的物件垃圾回收器絕不

Java原始碼分析——java.util工具包解析（三）——HashMap、TreeMap、LinkedHashMap、Hashtable類解析

Map，中文名字對映，它儲存了鍵-值對的一對一的關係形式，並用雜湊值來作為存貯的索引依據，在查詢、插入以及刪除時的時間複雜度都為O(1)，是一種在程式中用的最多的幾種資料結構。Java在java.util工具包中實現了Map介面，來作為各大

Java原始碼分析——java.util工具包解析（二）——HashSet、TreeSet、LinkedHashSet類解析

Set，即集合，與數學上的定義一樣，集合具有三個特點：無序性：一個集合中，每個元素的地位都是相同的，元素之間是無序的。互異性：一個集合中，任何兩個元素都認為是不相同的，即每個元素只能出現一次。確定性：給定一個集

爬蟲開發python工具包介紹 （4）

四、總結

五、參考：

相關推薦

爬蟲開發python工具包介紹（4）