1. 程式人生 > 程式設計 >Python爬蟲教程知識點總結

Python爬蟲教程知識點總結

一、為什麼使用Python進行網路爬蟲?

由於Python語言十分簡潔,使用起來又非常簡單、易學,通過Python 進行編寫就像使用英語進行寫作一樣。另外Python 在使用中十分方便,並不需要IDE,而僅僅通過sublime text 就能夠對大部分的中小應用進行開發;除此之外Python 爬蟲的框架功能十分強大,它的框架能夠對網路資料進行爬取,還能對結構性的資料進行提取,經常用在資料的挖掘、歷史資料的儲存和資訊的處理等程式內;Python網路的支援庫和html的解析器功能十分強大,藉助網路的支援庫通過較少程式碼的編寫,就能夠進行網頁的下載,且通過網頁的解析庫就能夠對網頁內各標籤進行解析,和正則的表示式進行結合,

十分便於進行網頁內容的抓取。所以Python在網路爬蟲網面有很大的優勢。

二、判斷網站資料是否支援爬取

幾乎每個網站都有一個名為 robots.txt 的文件,當然也有部分網站沒有設定robots.txt。如果網站沒有設定 robots.txt 就可以通過網路爬蟲獲取沒有口令加密的資料,也就是這個網站所有頁面資料都可以爬取。當然如果網站有 robots.txt 文件,就要判斷是否有禁止訪客獲取的資料。

以淘寶網為例,在瀏覽器中訪問 https://www.taobao.com/robots.txt,如圖所示。

QQ截圖20201016140227.png

上圖淘寶網的robots.txt檔案內容

淘寶網允許部分爬蟲訪問它的部分路徑,而對於沒有得到允許的使用者,則全部禁止爬取,程式碼如下:

User-Agent:*
Disallow:/
12

這一句程式碼的意思是除前面指定的爬蟲外,不允許其他爬蟲爬取任何資料。

三、requests 庫抓取網站資料

1.如何安裝 requests 庫

1.首先在 PyCharm 中安裝 requests 庫

2.開啟 PyCharm,單擊“File”(檔案)選單

3.選擇“Setting for New Projects…”命令

QQ截圖20201016140352.png

4.選擇“Project Interpreter”(專案編譯器)命令

5.確認當前選擇的編譯器,然後單擊右上角的加號。

QQ截圖20201016140450.png

6.在搜尋框輸入:requests(注意,一定要輸入完整,不然容易出錯),然後單擊左下角的“Install Package”(安裝庫)按鈕。

QQ截圖20201016140551.png

安裝完成後,會在 Install Package 上顯示“Package‘requests' installed successfully”(庫的請求已成功安裝),如果安裝不成功將會顯示提示資訊。

QQ截圖20201016140635.png

四、爬蟲的基本原理

網頁請求的過程分為兩個環節:

  1. Request (請求):每一個展示在使用者面前的網頁都必須經過這一步,也就是向伺服器傳送訪問請求。

  2. Response(響應):伺服器在接收到使用者的請求後,會驗證請求的有效性,然後向用戶(客戶端)傳送響應的內容,客戶端接收伺服器響應的內容,將內容展示出來,就是我們所熟悉的網頁請求

QQ截圖20201016140729.png

網頁請求的方式也分為兩種:

  1. GET:最常見的方式,一般用於獲取或者查詢資源資訊,也是大多數網站使用的方式,響應速度快。

  2. POST:相比 GET 方式,多了以表單形式上傳引數的功能,因此除查詢資訊外,還可以修改資訊。

所以,在寫爬蟲前要先確定向誰傳送請求,用什麼方式傳送。

五、使用 GET 方式抓取資料

複製任意一條首頁首條新聞的標題,在原始碼頁面按【Ctrl+F】組合鍵調出搜尋框,將標題貼上在搜尋框中,然後按【Enter】鍵。

標題可以在原始碼中搜索到,請求物件是www.cntour.cn,請求方式是GET(所有在原始碼中的資料請求方式都是GET),如圖 9所示。

QQ截圖20201016141313.png

確定好請求物件和方式後,在 PyCharm 中輸入以下程式碼:

import requests    #匯入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)    #Get方式獲取網頁資料
print(strhtml.text)
1234

QQ截圖20201016141404.png

載入庫使用的語句是 import+庫的名字。在上述過程中,載入 requests 庫的語句是:import requests。

用 GET 方式獲取資料需要呼叫 requests 庫中的 get 方法,使用方法是在 requests 後輸入英文點號,如下所示:

requests.get
1

將獲取到的資料存到 strhtml 變數中,程式碼如下:

strhtml = request.get(url)
1

這個時候 strhtml 是一個 URL 物件,它代表整個網頁,但此時只需要網頁中的原始碼,下面的語句表示網頁原始碼:

strhtml.text
1

六、使用 POST 方式抓取資料

首先輸入有道翻譯的網址:http://fanyi.youdao.com/,進入有道翻譯頁面。

按快捷鍵 F12,進入開發者模式,單擊 Network,此時內容為空,如圖所示:

QQ截圖20201016141519.png

在有道翻譯中輸入“我愛中國”,單擊“翻譯”按鈕

QQ截圖20201016141609.png

在開發者模式中,依次單擊“Network”按鈕和“XHR”按鈕,找到翻譯資料

QQ截圖20201016141645.png

單擊 Headers,發現請求資料的方式為 POST。

QQ截圖20201016141731.png

找到資料所在之處並且明確請求方式之後,接下來開始撰寫爬蟲。

首先,將 Headers 中的 URL 複製出來,並賦值給 url,程式碼如下:

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
1

POST 的請求獲取資料的方式不同於 GET,POST 請求資料必須構建請求頭才可以。

Form Data 中的請求引數如圖

QQ截圖20201016141826.png

將其複製並構建一個新字典:

From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
1

將字串格式的資料轉換成 JSON 格式資料,並根據資料結構,提取資料,並將翻譯結果打印出來,程式碼如下:

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])
123

使用 requests.post 方法抓取有道翻譯結果的完整程式碼如下:

import requests    #匯入requests包
import json
def get_translate_date(word=None):
  url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
  From_data={'i':word,'typoResult':'false'}
  #請求表單資料
  response = requests.post(url,data=From_data)
  #將Json格式字串轉字典
  content = json.loads(response.text)
  print(content)
  #列印翻譯後的資料
  #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
  get_translate_date('我愛中國')
1234567891011121314

七、使用 Beautiful Soup 解析網頁

通過 requests 庫已經可以抓到網頁原始碼,接下來要從原始碼中找到並提取資料。Beautiful Soup 是 python 的一個庫,其最主要的功能是從網頁中抓取資料。Beautiful Soup 目前已經被移植到 bs4 庫中,也就是說在匯入 Beautiful Soup 時需要先安裝 bs4 庫。

安裝 bs4 庫的方式如圖 所示:

QQ截圖20201016154342.png

安裝好 bs4 庫以後,還需安裝 lxml 庫。如果我們不安裝 lxml 庫,就會使用 Python 預設的解析器。儘管 Beautiful Soup 既支援 Python 標準庫中的 HTML 解析器又支援一些第三方解析器,但是 lxml 庫具有功能更加強大、速度更快的特點,因此筆者推薦安裝 lxml 庫。

安裝 Python 第三方庫後,輸入下面的程式碼,即可開啟 Beautiful Soup 之旅:

import requests    #匯入requests包
from bs4 import  BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)
1234567

程式碼執行結果如圖。

QQ截圖20201016154441.png

Beautiful Soup 庫能夠輕鬆解析網頁資訊,它被整合在 bs4 庫中,需要時可以從 bs4 庫中呼叫。其表達語句如下:

from bs4 import BeautifulSoup
1

首先,HTML 文件將被轉換成 Unicode 編碼格式,然後 Beautiful Soup 選擇最合適的解析器來解析這段文件,此處指定 lxml 解析器進行解析。解析後便將複雜的 HTML 文件轉換成樹形結構,並且每個節點都是 Python 物件。這裡將解析後的文件儲存到新建的變數 soup 中,程式碼如下:

soup=BeautifulSoup(strhtml.text,'lxml')
1

接下來用 select(選擇器)定位資料,定位資料時需要使用瀏覽器的開發者模式,將滑鼠游標停留在對應的資料位置並右擊,然後在快捷選單中選擇“檢查”命令

QQ截圖20201016154612.png

隨後在瀏覽器右側會彈出開發者介面,右側高亮的程式碼(參見圖 19(b))對應著左側高亮的資料文字(參見圖 19(a))。右擊右側高亮資料,在彈出的快捷選單中選擇“Copy”➔“Copy Selector”命令,便可以自動複製路徑。

QQ截圖20201016154650.png

將路徑貼上在文件中,程式碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a
1

由於這條路徑是選中的第一條的路徑,而我們需要獲取所有的頭條新聞,因此將 li:nth-child(1)中冒號(包含冒號)後面的部分刪掉,程式碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a
1

使用 soup.select 引用這個路徑,程式碼如下:

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')
1

八、清洗和組織資料

至此,獲得了一段目標的 HTML 程式碼,但還沒有把資料提取出來,接下來在 PyCharm 中輸入以下程式碼:純文字複製

for item in data:
  result={
    'title':item.get_text(),'link':item.get('href')
  }
print(result)
123456

程式碼執行結果如圖 所示:

QQ截圖20201016154825.png

首先明確要提取的資料是標題和連結,標題在<a>標籤中,提取標籤的正文用 get_text() 方法。連結在<a>標籤的 href 屬性中,提取標籤中的 href 屬性用 get() 方法,在括號中指定要提取的屬性資料,即 get('href')。

從圖 20 中可以發現,文章的連結中有一個數字 ID。下面用正則表示式提取這個 ID。需要使用的正則符號如下:\d匹配數字+匹配前一個字元1次或多次

在 Python 中呼叫正則表示式時使用 re 庫,這個庫不用安裝,可以直接呼叫。在 PyCharm 中輸入以下程式碼:

import re
for item in data:
  result={
    "title":item.get_text(),"link":item.get('href'),'ID':re.findall('\d+',item.get('href'))
  }
print(result)
12345678

執行結果如圖 所示:

QQ截圖20201016155114.png

這裡使用 re 庫的 findall 方法,第一個引數表示正則表示式,第二個引數表示要提取的文字。

九.爬蟲攻防戰

爬蟲是模擬人的瀏覽訪問行為,進行資料的批量抓取。當抓取的資料量逐漸增大時,會給被訪問的伺服器造成很大的壓力,甚至有可能崩潰。換句話就是說,伺服器是不喜歡有人抓取自己的資料的。那麼,網站方面就會針對這些爬蟲者,採取一些反爬策略。

伺服器第一種識別爬蟲的方式就是通過檢查連線的 useragent 來識別到底是瀏覽器訪問,還是程式碼訪問的。如果是程式碼訪問的話,訪問量增大時,伺服器會直接封掉來訪 IP。

那麼應對這種初級的反爬機制,我們應該採取何種舉措?

還是以前面建立好的爬蟲為例。在進行訪問時,我們在開發者環境下不僅可以找到 URL、Form Data,還可以在 Request headers 中構造瀏覽器的請求頭,封裝自己。伺服器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent,如圖:

QQ截圖20201016155204.png

因此,我們只需要構造這個請求頭的引數。建立請求頭部資訊即可,程式碼如下:

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)
12

寫到這裡,很多讀者會認為修改 User-Agent 很太簡單。確實很簡單,但是正常人1秒看一個圖,而個爬蟲1秒可以抓取好多張圖,比如 1 秒抓取上百張圖,那麼伺服器的壓力必然會增大。也就是說,如果在一個 IP 下批量訪問下載圖片,這個行為不符合正常人類的行為,肯定要被封 IP。

其原理也很簡單,就是統計每個IP的訪問頻率,該頻率超過閾值,就會返回一個驗證碼,如果真的是使用者訪問的話,使用者就會填寫,然後繼續訪問,如果是程式碼訪問的話,就會被封 IP。

這個問題的解決方案有兩個,第一個就是常用的增設延時,每 3 秒鐘抓取一次,程式碼如下:

import time
time.sleep(3)
12

但是,我們寫爬蟲的目的是為了高效批量抓取資料,這裡設定 3 秒鐘抓取一次,效率未免太低。其實,還有一個更重要的解決辦法,那就是從本質上解決問題。

不管如何訪問,伺服器的目的就是查出哪些為程式碼訪問,然後封鎖 IP。解決辦法:為避免被封 IP,在資料採集時經常會使用代理。當然,requests 也有相應的 proxies 屬性。

到此這篇關於Python爬蟲教程知識點總結的文章就介紹到這了,更多相關Python爬蟲教程分享內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!