Python爬蟲：將headers請求頭字串轉為字典

阿新 • • 發佈：2019-02-01

原生請求頭字串

raw_headers = """Host: open.tool.hexun.com
Pragma: no-cache
Cache-Control: no-cache
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36
Accept: */*
Referer: http://stock.hexun.com/gsxw/
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8"""

將字串轉為字典

split(sep=None, maxsplit=None)

headers = dict([line.split(": ",1) for line in raw_headers.split("\n")])

輸出測試

print(headers)
"""
{
    'Accept-Language': ' zh-CN,zh;q=0.9,en;q=0.8', 
    'Accept-Encoding': ' gzip, deflate', 
    'Accept': ' */*', 
    'User-Agent': ' Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36' 
, 
    'Host': ' open.tool.hexun.com', 
    'Referer': ' http://stock.hexun.com/gsxw/', 
    'Pragma': ' no-cache', 
    'Cache-Control': ' no-cache'
}

"""

封裝為函式

def get_headers(header_raw):
    """
    通過原生請求頭獲取請求頭字典
    :param header_raw: {str} 瀏覽器請求頭
    :return: {dict} headers
    """
    return 
 dict(line.split(": ", 1) for line in header_raw.split("\n"))


def get_cookies(cookie_raw):
    """
    通過原生cookie獲取cookie欄位
    :param cookie_raw: {str} 瀏覽器原始cookie
    :return: {dict} cookies
    """
    return dict(line.split("=", 1) for line in cookie_raw.split("; "))

Python爬蟲：將headers請求頭字串轉為字典

原生請求頭字串 raw_headers = """Host: open.tool.hexun.com Pragma: no-cache Cache-Control: no-cache User-A

（二）Python爬蟲-----基礎頁面——headers請求頭

今天我們要講的是headers請求頭，這個通常是一些頁面用來分辨爬蟲的方法 requests庫可以通過加請求頭然後去請求頁面，如下 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows

Python爬蟲：常用的user_agent請求頭

user_agent = [ “Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Sa

Python爬蟲：使用httpbin.org測試爬蟲請求頭資訊

一般程式寫的爬蟲程式都會自帶請求頭，不知不覺就被網站拒絕了，請求之前可以看看自己的請求頭是什麼，確保不被禁如果網站太慢打不開，想在本地搭建測試環境，可以在docker環境下啟動： $ docker run -p 80:80 kennethreitz/h

Python爬蟲：Scrapy的get請求和post請求

scrapy 請求繼承體系 Request |-- FormRequest 通過以下請求測試 GET: https://httpbin.org/get POST: https://httpbin.org/post get請求方式：通過Request 傳送 im

python3爬蟲中文亂碼之請求頭‘Accept-Encoding’：br 的問題

當用python3做爬蟲的時候，一些網站為了防爬蟲會設定一些檢查機制，這時我們就需要新增請求頭，偽裝成瀏覽器正常訪問。 header的內容在瀏覽器的開發者工具中便可看到，將這些資訊新增到我們的爬蟲程式碼中即可。 ‘Accept-Encoding’：是瀏覽器發給伺服器,宣告瀏覽器支援的編碼型別。一般有gzip,

python爬蟲：http請求頭部（header）詳解

通常HTTP訊息包括客戶機向伺服器的請求訊息和伺服器向客戶機的響應訊息。這兩種型別的訊息由一個起始行，一個或者多個頭域，一個只是頭域結束的空行和可選的訊息體組成。HTTP的頭域包括通用頭，請求頭，響應頭和實體頭四個部分。每個頭域由一個域名，冒號

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲：新浪新聞詳情頁的數據抓取（函數版）

earch edit arm python爬蟲 print 詳情 contents enter uwa 上一篇文章《Python爬蟲：抓取新浪新聞數據》詳細解說了如何抓取新浪新聞詳情頁的相關數據，但代碼的構建不利於後續擴展，每次抓取新的詳情頁時都需要重新寫一遍，因此，我們需

Python爬蟲：HTTP協議、Requests庫

.org clas python爬蟲 print 通用娛樂信息傳輸協議介紹 HTTP協議： HTTP（Hypertext Transfer Protocol）：即超文本傳輸協議。URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

Python 爬蟲：把廖雪峰教程轉換成 PDF 電子書

網絡 odi 變量 turn chrome github htm git 臨時文件寫爬蟲似乎沒有比用 Python 更合適了，Python 社區提供的爬蟲工具多得讓你眼花繚亂，各種拿來就可以直接用的 library 分分鐘就可以寫出一個爬蟲出來，今天嘗試寫一個爬蟲，將廖雪

Python爬蟲：認識urllib/urllib2以及requests

更多查看 sts urllib2 chrome 超時設置 word 3.0 erro 首先說明一下我的爬蟲環境是基於py2.x的，為什麽用這個版本呢，因為py2.x的版本支持的多，而且一般會使用py2.x環境，基本在py3.x也沒有太大問題，好了，進入正題！ urlli

Python爬蟲：現學現用Xpath爬取豆瓣音樂

9.1 tree when href scrapy 發現 pat 直接 where 爬蟲的抓取方式有好幾種，正則表達式，Lxml(xpath)與Beautiful,我在網上查了一下資料，了解到三者之間的使用難度與性能三種爬蟲方式的對比。抓取方式性能使用難度

python 爬蟲：HTTP ERROR 406

spl att sof sel cati python error line TP 解決方法：設置了Accept頭後解決了，但是還是不知道原因 headers:{ Accept:"text/html, application/xhtml+xml, */

Python爬蟲：Xpath語法筆記

上一個 div 運算符 tar 爬蟲 att 語法 ont tab 常用的路勁表達式：表達式描述實例 nodename 選取nodename節點的所有子節點 xpath(‘//div’) 選取了div節點的所有子節點 / 從根節點選取 xpath

Python爬蟲：抓取手機APP的數據

sig ner ont sele ebo span fail pytho 抓取摘要: 大多數APP裏面返回的是json格式數據，或者一堆加密過的數據。這裏以超級課程表APP為例，抓取超級課程表裏用戶發的話題。 1、抓取APP數據包方法詳細可以參考這篇博文：

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

pathon爬蟲中簡單的請求頭fake_useragent庫，處理反爬問題

安裝 pip3 install fake_useragent 各瀏覽器User-Agent的值 from fake_useragent import UserAgent ua = UserAgent() # ie瀏覽器的user agent print(ua.ie) Mozill

Python爬蟲：將headers請求頭字串轉為字典

原生請求頭字串

將字串轉為字典

輸出測試

封裝為函式

相關推薦