requests庫的基本使用 | 爬蟲

阿新 • • 發佈：2017-11-19

type 必須 web 過多 safari 驗證數據有效客戶

# proxies代理
# 1.用法
import requests

# 構建一個url
# url = ‘http://www.baidu.com‘
# 構建請求頭
# headers = {
#     ‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘
# }
# 構建代理
# 網上查找免費代理
# proxies = {
#     "http": "http://61.135.217.7:80",
#     "https": "https://61.135.217.7:80", 

# }
# 特殊代理
# 常規代理已經被大型網站封了;
# proxies =  {
#     "http": "http://賬號:密碼@IP:PORT",
#     "https": "http://賬號:密碼@IP:PORT",
# }
# 發送請求
# response = requests.get(url, headers=headers, proxies=proxies)

# 如何驗證代理是否成功?
# 只要沒報錯;過濾掉速度慢的,時刻驗證;

# 2.cookie與session
# cookie:一種持久保存在磁盤中;一種臨時保存在緩存中;
# 不安全,存放在本地的cookie會被他人分析進而實施欺騙行為; 

# session:存放位置:服務器內存.文件,數據庫;
# session設置有效期,當訪問增多會占用服務器性能;
# sessionid存放在cookie中,cookie要是被禁了,就涉及到url重構;
# cookie數據限制,不要能超過4k;
# ①帶上cookie與session的好處:
#   能夠請求登錄後的頁面
# ②帶上cookie與session的壞處:
#   一套cookie和session會對應一個用戶;
#   請求次數過多過快,會被識別成爬蟲;
#   可以使用cookie池,賬號池;
#   不需要cookie的時候盡量不要使用cookie,
#   但是為了登錄,我們必須發送帶有cookies的請求; 

# 如何使用requests處理cookies和session?
# 1.處理cookies
#   # 請求頭中添加cookie
#   # cookie參數:字典

# 需要訪問的頁面:http://www.renren.com/910033035
# cookie:
# 方法一:將cookie放入請求頭中
# """anonymid=ja66ma6ma1ay1i; depovince=GW; _r01_=1; jebe_key=4f2064ba-bdf0-4120-a73b-40054296547e%7C849ce3a2a3b19cb6be746727b6746f3b%7C1511060907946%7C1%7C1511060908130; JSESSIONID=abcXkOHShmoGs_4isqs-v; __utmt=1; ick=bf8207d8-aadc-4e53-bb04-1d11c600b917; __utma=151146938.2109560930.1511061038.1511061038.1511061038.1; __utmb=151146938.4.10.1511061038; __utmc=151146938; __utmz=151146938.1511061038.1.1.utmcsr=renren.com|utmccn=(referral)|utmcmd=referral|utmcct=/; jebecookies=1c38aa9d-1d50-4e9e-bb25-887c2fb6bc4f|||||; ick_login=a7d3eed9-9d2f-420b-b773-80eac19fcbd4; _de=CA265D35DCCFFBBB070BF98752FC884D; p=e7d112ba7e8cf29163d032a0ed0523ab5; first_login_flag=1; ln_uact=18868271201; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=7b2cd7c3519060139fd32d514cbd82955; societyguester=7b2cd7c3519060139fd32d514cbd82955; id=910033035; xnsid=2dbb196a; ch_id=10016; ver=7.0; loginfrom=null; wp_fold=0"""
# 構建url
import re
# url = ‘http://www.renren.com/910033035‘
# 構建請求頭
# headers = {
#     ‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘,
#     ‘Cookie‘: "anonymid=ja66ma6ma1ay1i; depovince=GW; _r01_=1; jebe_key=4f2064ba-bdf0-4120-a73b-40054296547e%7C849ce3a2a3b19cb6be746727b6746f3b%7C1511060907946%7C1%7C1511060908130; JSESSIONID=abcXkOHShmoGs_4isqs-v; __utmt=1; ick=bf8207d8-aadc-4e53-bb04-1d11c600b917; __utma=151146938.2109560930.1511061038.1511061038.1511061038.1; __utmb=151146938.4.10.1511061038; __utmc=151146938; __utmz=151146938.1511061038.1.1.utmcsr=renren.com|utmccn=(referral)|utmcmd=referral|utmcct=/; jebecookies=1c38aa9d-1d50-4e9e-bb25-887c2fb6bc4f|||||; ick_login=a7d3eed9-9d2f-420b-b773-80eac19fcbd4; _de=CA265D35DCCFFBBB070BF98752FC884D; p=e7d112ba7e8cf29163d032a0ed0523ab5; first_login_flag=1; ln_uact=18868271201; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=7b2cd7c3519060139fd32d514cbd82955; societyguester=7b2cd7c3519060139fd32d514cbd82955; id=910033035; xnsid=2dbb196a; ch_id=10016; ver=7.0; loginfrom=null; wp_fold=0"
# }
# 發起請求獲取響應
# response = requests.get(url, headers=headers)
# 驗證登錄
# 1.根據響應url判斷是否登錄成功
# 2.保存成文件
# 3.正則判斷
# print(re.findall(r‘新用戶oF0z‘, response.content.decode()))

# with open(‘renren.html‘, ‘w‘) as f:
#     f.write(response.content.decode())

# 方法二:cookie傳參
# url = ‘http://www.renren.com/910033035‘
# headers = {
#     ‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘,
# }
#
# # 構建cookies字典
# temp = "anonymid=ja66ma6ma1ay1i; depovince=GW; _r01_=1; jebe_key=4f2064ba-bdf0-4120-a73b-40054296547e%7C849ce3a2a3b19cb6be746727b6746f3b%7C1511060907946%7C1%7C1511060908130; JSESSIONID=abcXkOHShmoGs_4isqs-v; __utmt=1; ick=bf8207d8-aadc-4e53-bb04-1d11c600b917; __utma=151146938.2109560930.1511061038.1511061038.1511061038.1; __utmb=151146938.4.10.1511061038; __utmc=151146938; __utmz=151146938.1511061038.1.1.utmcsr=renren.com|utmccn=(referral)|utmcmd=referral|utmcct=/; jebecookies=1c38aa9d-1d50-4e9e-bb25-887c2fb6bc4f|||||; ick_login=a7d3eed9-9d2f-420b-b773-80eac19fcbd4; _de=CA265D35DCCFFBBB070BF98752FC884D; p=e7d112ba7e8cf29163d032a0ed0523ab5; first_login_flag=1; ln_uact=18868271201; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=7b2cd7c3519060139fd32d514cbd82955; societyguester=7b2cd7c3519060139fd32d514cbd82955; id=910033035; xnsid=2dbb196a; ch_id=10016; ver=7.0; loginfrom=null; wp_fold=0"
# cookies = dict()
# # 拆分cookies,以字典的方式存放
# for i in temp.split(‘; ‘):
#     key = i.split(‘=‘)[0]
#     value = i.split(‘=‘)[1]
#     cookies[key] = value
# # print(cookies)
#
# # 發起請求
# response = requests.get(url, headers=headers, cookies=cookies)
#
# # 驗證是否成功
# print(re.findall(r‘新用戶oF0z‘, response.content.decode()))

# 2.session
# 處理session
# requests提供了一個session類,來實現客戶端和服務器端的回話保持;
# 1.例化session對象
# 2.使用session對象發送get或者post請求
#   session.get(url)
#   session.post(url, data=data)

# # 構建url, 訪問表單的url
# url = ‘http://www.renren.com/PLogin.do‘
# # 構建請求頭
# headers = {
#     ‘User-Agent‘: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘,
# }
# # 構建登錄數據
# post_data = {
#     ‘email‘: ‘18868271201‘,
#     ‘password‘: ‘laaimeng2011‘
# }
# # 創建一個session對象
# session = requests.session()
# # 發送請求
# response = session.post(url, headers=headers, data=post_data)
# print(response.url)
#
# # 驗證
# # 跳轉其他頁面,不需要再提交其他請求數據;
# # session可以保持登錄狀態
# response1 = session.get(‘http://www.renren.com/910033035‘)
# print(response1.url)

# 3.tip小技巧
# response = requests.get(‘http://www.baidu.com‘)
#
# # cookie相關操作
# # 從請求頭中獲取cookies
# cook = response.cookies
#
# print(cook)
# # 打印的是一個cookieJar對象
# print(type(cook))
#
# # 將這個對象轉換成字典的形式
# dict_cook = requests.utils.dict_from_cookiejar(cook)
# print(dict_cook)
# print(type(dict_cook))
#
# # 轉換回去
# jar = requests.utils.cookiejar_from_dict(dict_cook)
# print(jar)
# print(type(jar))

# # 關閉ssl認證
# # 有些網站采用這樣的認證證書,我們需要通過verify=False,來關閉
# response = requests.get(‘https://www.12306.cn/mormhwed/‘, verify=False)
# # 會有警告,但是可以直接打印源碼
# print(response.content.decode())


# # 超時處理
# url = ‘http://www.youtube.com‘
# # 三分鐘的超時延遲
# # 所以我們設置一個短的timeout=3超時處理,可以驗證代理情況
# # 如果爬蟲使用多線程,超時延遲會影響效率
# response = requests.get(url, timeout=3)

requests庫的基本使用 | 爬蟲

requests庫基本使用

格式 webkit 分享 5.0 web rsh port false json requests庫 get請求： 1.通過requests.get()來調用： req = requests.get("http://www.baidu.com/") 2.添加heade

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

Python3 Requests庫基本用法

Requests庫中有7個主要的函式，分別是request(), get(), head(), post(), put(), patch(), delete(). 這七個函式其中request()函式是其餘六個函式的基礎函式，其餘六個函式的實現都是通過呼叫該函

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

Python3網絡爬蟲——三、Requests庫的基本使用

成功 ges cookies pan doc 需求 post請求成了 bsp 一、什麽是Requests 　　Requests是用Python語言編寫，基於urllib，采用Apache2 Licensed開元協議的HTTP庫。它比urllib更加的方便，可以節約我們大量

【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

多應用多服務器技術學用戶 iis unicode licensed content sed 【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用廣東職業技術學院歐浩源 1、引言實現網絡爬蟲的第一步就是要建立網絡連接並向服務器或網頁等

requests庫的基本使用 | 爬蟲

type 必須 web 過多 safari 驗證數據有效客戶 # proxies代理 # 1.用法 import requests # 構建一個url # url = ‘http://www.baidu.com‘ # 構建請求頭 # headers = { #

爬蟲基礎(requests庫的基本使用)--02

證書 wid text 關系 info 簡單出現 storage 傳遞數據什麽是Requests Requests是用python語言基於urllib編寫的，采用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫的使用，你會發現

python爬蟲系列(2.1-requests庫的基本的使用)

一、基本認識 1、傳送一個get請求 import requests if __name__ == "__main__": # 獲取一個get請求 response = requests.get('http://htt

爬蟲之 Requests庫的基本使用

什麼是Requests Requests是用python語言基於urllib編寫的，採用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫的使用，你會發現，其實urllib還是非常不方便的，而Requests它會比urllib更加方便，可以節約我們大量的工作

python --爬蟲基礎 --爬取今日頭條使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

Python爬蟲之Requests庫的基本使用

1 import requests 2 response = requests.get('http://www.baidu.com/') 3 print(type(response)) 4 print(response.status_code) 5 print(type(respon

爬蟲應用中requests庫的基本用法

一安裝requests庫 (venv) E:\WebSpider>pip install requests 二例項——get請求 1 程式碼 import requests # requests中的get()方法以GET方式請求網頁 r

python爬蟲從入門到放棄（四）之 Requests庫的基本使用

pre hist ror ble complete question 進制 cte word 什麽是Requests Requests是用python語言基於urllib編寫的，采用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫

Python3網路爬蟲開發實戰】3-基本庫的使用 2-使用requests 1-基本用法

1. 準備工作在開始之前，請確保已經正確安裝好了requests庫。如果沒有安裝，可以參考1.2.1節安裝。2. 例項引入urllib庫中的urlopen()方法實際上是以GET方式請求網頁，而requests中相應的方法就是get()方法，是不是感覺表達更明確一些？下面通過例項來看一下：import req

Python爬蟲：HTTP協議、Requests庫

.org clas python爬蟲 print 通用娛樂信息傳輸協議介紹 HTTP協議： HTTP（Hypertext Transfer Protocol）：即超文本傳輸協議。URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

網絡爬蟲--requests庫中兩個重要的對象

resp head ppa except 代碼 http http響應 sts _for 當我們使用resquests.get（）時，返回的時response的對象，他包含服務器返回的所有信息，也包含請求的request的信息。首先： response對象的屬性有以下幾個

Python網絡爬蟲與信息提取-Requests庫網絡爬去實戰

amazon 亞馬遜查詢提交 raise 自動 htm bsp 信息實例1：京東商品頁面的爬取 import requests url="https://item.jd.com/2967929.html" try: r=requests.get(url)

爬蟲之requests庫

響應 image ocs dex ren 人性化 setting req ems Why requests python的標準庫urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一個簡單的功能就需要一大堆代碼。 Requests 使用的是 urllib3

【Python3~爬蟲工具】使用requests庫

python3 爬蟲 requestsurllib使用方式參考如下網址：http://blog.51cto.com/shangdc/2090763 使用python爬蟲其實就是方便，它會有各種工具類供你來使用，很方便。Java不可以嗎？也可以，使用httpclient工具、還有一個大神寫的webmagic框架

requests庫的基本使用 | 爬蟲

相關推薦