1. 程式人生 > >反爬蟲相關

反爬蟲相關

1.為什麼會被反爬蟲?

對於一個經常使用爬蟲程式獲取網頁資料的人來說,遭遇到網站的“反爬蟲”已經是司空見慣。

為什麼網站要反爬蟲?

l  爬蟲並不是一個真正使用者的流量,爬蟲會浪費網站的流量,也就是會浪費錢。

l  資料對於每家公司來說都是寶貴的資源。在大資料時代,資料的價值越來越突出,它是很多公司的戰略資源。

所以,一些有實力的大公司便利用反爬蟲技術來阻止別人獲取自己網站的資料。

 

 

2.反爬蟲的方式有哪些

在實際的爬取過程中,反爬蟲機制大概可以分為以下3類。

l  不返回求取的網頁,例如不返回網頁或者延遲返回。

l  返回非目標網頁,如返回錯誤頁、空白頁以及同一頁。

l  增加獲取資料的難度,例如登入的cookie驗證和驗證碼。

 

 

3.如何反反爬蟲

網站利用“反爬蟲”來阻止別人獲取自己網站的資料,但自古以來都是道高一尺、魔高一丈。寫爬蟲程式的人們又會利用各種反爬措施來獲取網站資料。

而如何讓爬蟲程式順利的執行下去,核心的思想就是讓爬蟲程式看起來像正常的使用者操作行為。正常的使用者使用計算機訪問網站時,使用的是瀏覽器,並且速度慢,網頁切換的時間也不確定,不會短時間瀏覽很多的網頁。所以我們可以在這下方面想辦法。

3.1 修改請求頭

我們可以使用User-Agent的方法來修改請求頭,從而達到順利獲取網頁的目的。

from bs4 import BeautifulSoup
from urllib import request,parse,error
import json,re,time,random
import requests

# 請求頭
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
}
url = 'https://www.baidu.com/'  # 網址
# 使用requests方法
#r 
= requests.get(url,headers = headers) #print(r.text) # 使用urllib方法 res = request.Request(url,headers=headers) req = request.urlopen(res).read() # 獲取的的網頁是bytes格式的資料 print(req.decode('utf-8')) # 解碼成str格式的資料

除了User-Agent,我們還需要知道其他的http協議的欄位,如Host和Referer等。

 

3.2 修改爬蟲的時間間隔

爬蟲如果爬取的太過頻繁,一方面是對網站的壓力大、不友好,另外一方面是容易招致網站的反爬蟲措施。所以,寫爬蟲程式的時候最好在訪問的間隙設定等待時間。另外設定的時間間隔每次都一樣,也容易被看出來。我們可以使用time和random模組來設定非固定的間隔時間。

from bs4 import BeautifulSoup

from urllib import request,parse,error

import json,re,time,random
import requests
# 請求頭 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36' }
url
= 'https://www.baidu.com/' # 網址 # 使用requests方法 #r = requests.get(url,headers = headers) #print(r.text) # 使用urllib方法 for i in range(10): res = request.Request(url,headers=headers) req = request.urlopen(res).read() # 獲取的的網頁是bytes格式的資料 print(req.decode('utf-8')) # 解碼成str格式的資料 time.sleep(random.randint(0,3) + random.random()) # 設定0-3秒的時間間隔

 

3.3 使用代理

代理(Proxy)是指一種特殊的網路服務,允許一個網路終端(瀏覽器)通過這個服務與另外一個網路終端(伺服器)進行非直接的聯絡。簡單來說就是網路的一箇中轉之地。代理伺服器像一個大的緩衝,這樣能明顯提高瀏覽的速度和效率。

而且我們也可以維護一個IP池。從而匿藏我們電腦真正的IP。但是代理的IP池維護起來比較麻煩,而且不穩定。(網上有很多免費的代理IP)

3.3.1使用代理的主要思路

1.從代理ip網站爬取IP地址及埠號並儲存

2.驗證ip是否能用

3.格式化ip地址

4.在requests中或者urllib中使用代理ip爬取網站

在Requests中使用代理爬取的格式是

import requests
requests.get(url, headers=headers,proxies=proxies)

其中proxies是一個字典其格式為:
對每個ip都有
proxies = {
http: 'http://114.99.7.122:8752'
https: 'https://114.99.7.122:8752'
}

 

3.3.2.程式碼

# IP地址取自國內髙匿代理IP網站:http://www.xicidaili.com/nn/
# 僅僅爬取首頁IP地址就足夠一般使用

from bs4 import BeautifulSoup
import urllib
import requests
import random

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'
}

def getHTMLText(url, proxies):
    r = requests.get(url, proxies=proxies)
    r.raise_for_status()
    r.encoding = r.apparent_encoding  #獲取網頁正確的編碼格式
    return r.text

#從代理ip網站獲取代理ip列表函式,並檢測可用性,返回ip列表
def get_ip_list(url):
    web_data = requests.get(url, headers = headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)

    # 檢測ip可用性,移除不可用ip:
    for ip in ip_list:
        try:
            proxy_host = "https://" + ip
            proxy_temp = {"https": proxy_host}
            res = urllib.request.urlopen(url, proxies=proxy_temp).read()
        except Exception as e:
            ip_list.remove(ip)
            continue
    return ip_list

#從ip池中隨機獲取ip列表
def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)

    print(proxy_list)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

#呼叫代理
if __name__ == '__main__':
    url = 'http://www.xicidaili.com/nn/'
    url9 = "https://blog.csdn.net/weixin_40372371/article/details/80154707"
    ip_list = get_ip_list(url)
    proxies = get_random_ip(ip_list)
    test = getHTMLText(url9,proxies)
    print(test)

 

4 處理cookie,讓網頁記住登入資訊

使用cookie方法,可以把登入資訊給記錄下來,再次執行程式碼的時候可以直接獲取之前的登陸狀態,從而不用重新登入。

4.1 Opener

當你獲取一個URL你使用一個opener。在前面,我們都是使用的預設的opener,也就是urlopen。它是一個特殊的opener,可以理解成opener的一個特殊例項,傳入的引數僅僅是url,data,timeout。如果我們需要用到Cookie,只用這個opener是不能達到目的的,所以我們需要建立更一般的opener來實現對Cookie的設定。

4.2 直接獲取網站的cookie資訊

from urllib import request, parse, error
from http import cookiejar

request_url = 'http://www.baidu.com'

# 此處r是用來防止字元轉義的,如果字串中有'\t'的話,如果不加r就會被轉義

user_agent = r'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87'

# Keep-Alive功能使客戶端到伺服器端的連線持續有效

headers = {'User-Agent': user_agent, 'Connection': 'keep-alive'}

# 建立一個cookie物件,不傳遞引數說明建立了一個空的cookie物件

cookie_obj = cookiejar.CookieJar()

# 建立一個cookie處理器,來管理cookie_obj

handler = request.HTTPCookieProcessor(cookie_obj)

# 初始化一個opener,此opener中所有通訊的cookie_obj都會在cookie物件中記錄。

# 這個cookie是沒有域限制的,也就是全域性cookie
opener = request.build_opener(handler)
req = request.Request(request_url, headers=headers)
response = opener.open(req)
#print(response.read().decode('utf-8'))

for obj in cookie_obj:
    print('Name=' + obj.name)
    print('Value=' + obj.value)

 

4.3 將獲取到的cookie寫入檔案

from urllib import request, parse, error
from http import cookiejar

request_url = 'http://www.baidu.com'
filename = 'cookie.txt'

# 此處r是用來防止字元轉義的,如果字串中有'\t'的話,如果不加r就會被轉義
user_agent = r'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87'

# Keep-Alive功能使客戶端到伺服器端的連線持續有效
headers = {'User-Agent': user_agent, 'Connection': 'keep-alive'}

# 建立一個MozillaCookie物件,用來儲存COOKIE,之後寫入檔案,注意這裡需要傳遞檔名稱作為引數
cookie_obj = cookiejar.MozillaCookieJar(filename)

# 建立一個cookie處理器,來管理cookie_obj
handler = request.HTTPCookieProcessor(cookie_obj)

# 初始化一個opener,此opener中所有通訊的cookie_obj都會在cookie物件中記錄。這個cookie是沒有域限制的,也就是全域性cookie
opener = request.build_opener(handler)
req = request.Request(request_url, headers=headers)
response = opener.open(req)

# 儲存到cookie檔案中
# ignore_discard表示cookies將被丟棄也將它儲存下來
# ignore_expires表示如果在該檔案中cookies已經存在,則覆蓋原檔案寫入
cookie_obj.save(ignore_discard=True, ignore_expires=True)

 

4.4 從檔案中獲取Cookie並訪問

from urllib import request, parse, error
from http import cookiejar

# 此處r是用來防止字元轉義的,如果字串中有'\t'的話,如果不加r就會被轉義
user_agent = r'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87'

# Keep-Alive功能使客戶端到伺服器端的連線持續有效
headers = {'User-Agent': user_agent, 'Connection': 'keep-alive'}

# 請求URL
request_url = 'http://www.baidu.com'

# 記錄COOKIE的檔名稱
filename = 'cookie.txt'

# 初始化一個MozillaCookie物件
cookie_obj = cookiejar.MozillaCookieJar()

# 從檔案中讀取cookie到物件中
cookie_obj.load(filename, ignore_discard=True, ignore_expires=True)

# 初始化處理物件,此時的cookie_obj物件是帶了檔案中儲存的COOKIE的
handler = request.HTTPCookieProcessor(cookie_obj)
opener = request.build_opener(handler)
req = request.Request(request_url, headers=headers)
response = opener.open(req)
print(response.read().decode('utf-8'))

 

4.5 模擬登入

import urllib.request, urllib.parse, urllib.error
import http.cookiejar

LOGIN_URL = 'http://www.jobbole.com/wp-admin/admin-ajax.php'
get_url = 'http://www.jobbole.com/'  # 利用cookie請求訪問另一個網址
values = {'action': 'user_login', 'user_login': '*****', 'user_pass': '******'}
postdata = urllib.parse.urlencode(values).encode()
user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'
headers = {'User-Agent': user_agent}
cookie_filename = 'cookie_jar.txt'
cookie_jar = http.cookiejar.MozillaCookieJar(cookie_filename)
handler = urllib.request.HTTPCookieProcessor(cookie_jar)
opener = urllib.request.build_opener(handler)
request = urllib.request.Request(LOGIN_URL, postdata, headers)
try:
    response = opener.open(request)
    # print(response.read().decode())
except urllib.error.URLError as e:
    print(e.reason)
cookie_jar.save(ignore_discard=True, ignore_expires=True)  # 儲存cookie到cookie.txt中
for item in cookie_jar:
    print('Name = ' + item.name)
    print('Value = ' + item.value)
get_request = urllib.request.Request(get_url, headers=headers)
get_response = opener.open(get_request)
print('個人主頁' in get_response.read().decode())
 

 

5. 驗證碼的處理

待續。。。