爬蟲中什麽是requests

阿新 • • 發佈：2018-10-21

header use lan os.path 上傳 lxml main pro inf

print(response.text)       #響應的信息
print(response.headers)  #獲取響應頭
print(response.status_code)  #響應狀態碼
print(response.encoding)   #響應的編碼
print(response.cookies)   #獲取cookies信息

帶參數GET請求

data = {
    ‘name‘:‘abc‘，
‘‘‘‘‘‘
}

response = requests.get(url=‘http://www.baidu.com‘,params=data)

解析json

import requests

response = requests.get(url=‘http://www.baidu.com‘)
print(response.json())

獲取二進制數據

import requests

response = requests.get(url=‘http://www.baidu.com‘)
print(response.content)

高級操作

文件上傳

import requests
flies = {
    ‘flies‘:open(‘XXX‘,‘rb‘)
}
response = requests.post(url=‘http://www.baidu.com‘,flies=flies)
print(response.content)

會話維持（模擬登陸）

import requests

s = requests.Session()
s.get(‘http://httpbin.org/cookies/set/number/123456789‘)
response = s.get(‘http://httpbin.org/cookies‘)
print(response.text)

{
  "cookies": {
    "number": "123456789"
  }
}

證書驗證

import requests
import urllib3

url = ‘https://www.biqudu.com/43_43821/2520338.html‘
urllib3.disable_warnings() #關閉證書後再把警告提示關閉
response = requests.get(url=url,verify=False)
print(response.text)

代理認證

url = ‘https://www.biqudu.com/43_43821/2520338.html‘
proxies = {
    ‘http‘:‘http://127.0.0.2‘,   
    ‘https‘:‘http://user:[email protected]‘,  #帶密碼的代理
}

response = requests.get(url=url,proxies=proxies)
print(response.text)
    ****

請求超時處理

import requests
from requests.exceptions import ReadTimeout  #導入錯誤模塊

url = ‘https://www.taobao.com‘
try:
    response = requests.get(url=url,timeout=0.1)  #限制請求時間
    print(response.status_code)
except ReadTimeout:
    print(‘請求超時‘)

認證設置

#有的網站打開的瞬間就需要密碼認證

import requests
from requests.auth import HTTPBasicAuth

url = ‘https://www.taobao.com‘

response = requests.get(url=url,auth=(‘user‘,‘pwd‘))
print(response.status_code)

1，筆趣閣小說（入門級爬取文本信息）

抓取筆趣閣小說：排行榜單的小說總榜

1.請求初始url，獲取網頁源碼
2.解析網頁源碼，得到文本內容
3.將小說全部章節名存入txt文件中

from lxml import etree
import requests

url = ‘http://www.biqiuge.com/paihangbang‘

response = requests.get(url)
response.encoding = response.apparent_encoding


html = etree.HTML(response.text)
info = html.xpath("//div[@class=‘block bd‘][1]/ul[@class=‘tli‘]/li/a")
for i in info:
    title = i.xpath("./text()")[0]
    urls =i.xpath("./@href")[0]
    urls1 = ‘http://www.biqiuge.com‘+urls

    with open(title+‘.txt‘,‘w+‘,encoding=‘utf-8‘) as f:
        response1 = requests.get(url=urls1)
        response1.encoding = response1.apparent_encoding
        html = etree.HTML(response1.text)
        info = html.xpath("//div[@class=‘listmain‘]/dl/dd/a/text()")[6:]
        for i in info:
            f.write(i.strip()+‘\n‘)
        print(title+"------寫入成功")

------------------------------------------------------
判斷路徑是否存在，自動創建！！！
if not os.path.exists(title):
    os.mkdir(title)

path = os.path.join(title,title1)

if not os.path.exists(path):
    os.mkdir(path)

with open(path+ ‘\\‘ + title2 +‘.txt‘, ‘w+‘, encoding=‘utf-8‘) as f:
    for con in contents:
        f.write(con.strip() + ‘\n‘)
    print(title +‘---‘+ title1 +‘---‘+ title2 + ‘---寫入成功‘)

2，崔慶才博客（偽造頭信息爬取策略）

from lxml import etree

import requests
n = 0
with open(‘cuijincai.txt‘, ‘w+‘, encoding=‘utf-8‘) as f:
    for i in range(1,10):
        url = ‘https://cuiqingcai.com/category/technique/python/page/‘+str(i)
#這裏的循環，該網站是動態顯示，可以在f12/network中XHR中查到該鏈接url。
        headers = {

        Referer: https://cuiqingcai.com/category/technique/python
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36‘
        }
    #部分網站設置反爬機制，可以為請求頭設置 信息
        response = requests.get(url=url,headers=headers)
        html = etree.HTML(response.text)
        all_div = html.xpath("//article[@class=‘excerpt‘]")

        for div in  all_div:
            title = div.xpath("./header/h2/a/text()")[0]  #當前路徑下的標題信息
            author = div.xpath("./p[@class=‘auth-span‘]/span[@class=‘muted‘][1]/a/text()")[0]
            time = div.xpath("./p[@class=‘auth-span‘]/span[@class=‘muted‘][2]/text()")[0]
            liulanshu = div.xpath("./p[@class=‘auth-span‘]/span[@class=‘muted‘][3]/text()")[0]
            pinlun = div.xpath("./p[@class=‘auth-span‘]/span[@class=‘muted‘][4]/a/text()")[0]
            like = div.xpath("./p[@class=‘auth-span‘]/span[@class=‘muted‘][5]/a[@id=‘Addlike‘]/span[@class=‘count‘]/text()")[0]+‘喜歡‘
            n += 1
            f.write("第{}條\t{}\t{}\t{}\t{}\t{}\t{}\n".format(n,title,author,time,liulanshu,pinlun,like))

User Agent中文名為用戶代理，簡稱 UA，它是一個特殊字符串頭，使得服務器能夠識別客戶使用的操作系統及版本、CPU 類型、瀏覽器及版本、
瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。

HTTP Referer是header的一部分，當瀏覽器向web服務器發送請求的時候，一般會帶上Referer，告訴服務器我是從哪個頁面鏈接過來的，
服務器基此可以獲得一些信息用於處理。

https://www.liaoxuefeng.com  該網站設置反爬，可以用上面設置頭信息爬取

爬蟲中什麽是requests

header use lan os.path 上傳 lxml main pro inf print(response.text) #響應的信息 print(response.headers) #獲取響應頭 print(response.status_code)

網站建設的過程中什麽最重要?

時間段優化來講包含網站有著奇跡影響推廣　　互聯網是個創造奇跡的地方，目前“互聯網”的熱潮正在席卷著各個行業，AI技術的不斷革新推動著各行各業的發展，網站建設做為互聯網行業中必要的“起步”同樣也受到這股風潮的影響。以目前的情況來分析：一個網站怎麽樣建設才算的

java中什麽是序列化和反序列化

zab question .com 程序還原破壞 ans 但我實現序列化:能夠把一個對象用二進制的表示出來。類似我第一個字節表示什麽屬性名詞，第二個字節表示什麽屬性值，第幾個字段表示有幾個屬性等。而且這個二進制可以寫到硬

201671010145 2016-2017 《Java程序設計》java的繼承中什麽叫方法覆蓋，是如何實現的？

ans 接口什麽完全匹配 play 設計用法 repl 覆蓋方法覆蓋，從字面就可以知道，它是覆蓋了一個方法並且對其重寫，以求達到不同的作用。最熟悉的覆蓋就是對接口方法的實現，在接口中一般只是對方法進行了聲明，而在實現時，就需要實現接口聲明的所有方法。除了這個典型的用

Java中什麽是匿名對象，空參構造方法輸出創建了幾個匿名對象，屬性聲明成static

es2017 ava cit 得到定義屬性自增 alt spa package com.swift; //使用無參構造方法自動生成對象，序號不斷自增 public class Person { private static int count; //如果在定

C中什麽情況下把局部變量定義為局部靜態變量

spf image ref get 調用一次不用變量定義 .com 首先要說明，數組不是變量；C中稱它是具有相同類型元素的集合，嚴格說來它是一種簡單的數據結構——這是題外話。定義在函數中的自動型(就是不用static修飾)數組，函數被調用時才創建，而函數結束後就自動

Java中什麽是實體類和實體類的作用

Java實體類實體類是在JAVA軟件開發中廣泛使用的概念。但是網上少有講清楚到底是什麽的。本期我來講一講什麽是實體類。首先，直觀的看：實體類就是一個擁有Set和Get方法的類。實體類通常總是和數據庫之類的（所謂持久層數據）聯系在一起。這種聯系是借由框架（如Hibernate）來建立的。其次說定義（比較生澀

爬蟲是什麽，爬蟲能幹啥，爬蟲怎麽爬，一篇文章教會你所有

school 語句詳細優勢 body 谷歌 class ddd 教程這篇文章的定位是，給有一些python基礎，但是對爬蟲一無所知的人寫的。文中只會涉及到爬蟲最核心的部分，完全避開莫名其妙的坑或概念，讓讀者覺得爬蟲是一件非常簡單的事情，而事實上爬蟲確實是一件非常簡單的

股票中什麽是總負債同比增長率，有什麽作用

信息 cto term lan ont 角度參考單獨 ron 總負債是指企業承擔並需要償還的全部債務。包括流動負債和長期負債、遞延稅項等，即為企業資產負債表的負債合計項。同比增長率：一般是指和去年同期相比較的增長率。同比增長和上一時

java中什麽是重寫？

pre 方法 pad 有一個列表 padding 成員訪問 name 重寫（Override）比如，定義Father類 1：姓名，吃飯方法，吃窩窩頭。 2：定義Son類，繼承Father 1：Son類中不定義任何成員，子類創建對象，仍然可以調用吃

大數據爬蟲為什麽要使用IP代理,代理IP的特點是什麽?

代理服務通過率禁止工作者一道網站解決效率比較大數據隨著互聯網的迅猛發展，大數據的應用，大數據樣本獲得需要通過數據爬蟲來實現，而爬蟲工作者一般都繞不過代理IP請添加鏈接描述這個問題，為什麽呢，這是因為在網絡爬蟲抓取信息的過程中，抓取頻率高過了目標網站的設置閥

java中什麽是Interface接口，請給個實例！

gin down font 不能 http targe ron download 源碼 1.Interface接口的定義和用法（視頻下載）（全部書籍）先直接上大白話：馬克-to-win：接口就是灰常灰常抽象的抽象類，我們可以就像用抽象類一樣用接口，只不過，interf

java中什麽是局部內部類Local inner class？

can ati begin article 範圍 lin url -- 第一章 5.局部內部類Local inner class （視頻下載）（全部書籍）馬克-to-win：什麽叫局部內部類？內部類聲明位置：1.它的外部類的範圍之內。2.在幾個程序塊的範圍之內。例如，

java中什麽是Yield給出一個例子

process ron rac 占用 itl its 繼續並行 code 馬克-to-win：yield英文是屈服投降的意思。（視頻下載）（全部書籍）當前線程投降就是當前線程希望釋放CPU的自己的占用權，（但系統可以忽略它這個請求。）參見： https://docs

java中什麽是線程安全給出一個例子

who pub begin ati () pan 大白執行這就是 8.線程安全什麽是線程安全? 馬克-to-win：（視頻下載）（全部書籍）最大的大白話，你的代碼一個線程執行挺好，一上多線程測試就玩兒完（結果不是你所想要的），這就是線程不安全。反之為線程安全。首

java中什麽是線程不安全給出一個例子

class spa except one ref exceptio lan sleep print 下面我們再給出一個線程不安全的例子。（視頻下載）（全部書籍）例：1.8.2-本章源碼class BookMark_to_win { int bookNum=10;

javascript中什麽是偽數組？如何將偽數組轉為標準數組？

空數組獲取 push prot 是否 for proto 運算 strong 偽數組如何獲得的？舉例： 1.獲取元素集合的時候　　　　2.arguments 如何判斷數組是不是偽數組？　　判斷arr.push是否有被定義　　arr.pop 　　Array.isA

java中什麽樣的對象能夠進入老年代

需要 max 適應一次大對象直接對象 uri 一半 1.大對象：所謂的大對象是指需要大量連續內存空間的java對象，最典型的大對象就是那種很長的字符串以及數組，大對象對虛擬機的內存分配就是壞消息，尤其是一些朝生夕滅的短命大對象，寫程序時應避免。 2.長期存活的對象

Linux中什麽是動態網站環境及如何部署

bsp 這一文本預處理接下來 file 方式變化論壇例如當談論起網站時，我們可能聽說過靜態和動態這兩個詞，但卻不知道它們的含義，或者從字面意思了解一些卻不知道它們的區別。這一切可以追溯到網站和網絡應用程序，Web應用程序是一個網站，但很多網站不是Web應

網站SEO優化過程中什麽樣的文章容易被秒收

們的吸引接下來頁面進行網站seo優化解決方案嚴重關於網站上線了，百度不收錄我們的文章，或者說收錄的比較慢，對我們網站最排名的影響是比較大的，文章想要取得排名，前提就是被收錄，沒有收錄那麽我們前期準備的方案也就只有等了，那麽怎麽樣的文章是容易被百度收錄或者說

爬蟲中什麽是requests

會話維持 （模擬登陸）

1，筆趣閣小說（入門級爬取文本信息）

2，崔慶才博客（偽造頭信息爬取策略）

相關推薦

會話維持（模擬登陸）