1. 程式人生 > 程式設計 >python爬蟲爬取筆趣網小說網站過程圖解

python爬蟲爬取筆趣網小說網站過程圖解

首先:文章用到的解析庫介紹

BeautifulSoup:

Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

它是一個工具箱,通過解析文件為使用者提供需要抓取的資料,因為簡單,所以不需要多少程式碼就可以寫出一個完整的應用程式。

Beautiful Soup自動將輸入文件轉換為Unicode編碼,輸出文件轉換為utf-8編碼。

你不需要考慮編碼方式,除非文件沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然後,你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器,為使用者靈活地提供不同的解析策略或強勁的速度。

爬取小說原因背景:

以前很喜歡看起點網上面的小說,但是很多都要錢,窮學生沒多少錢,就發現了筆趣網。

筆趣看是一個小說網站,這裡有很多起點中文網的免費小說,而且這個網站只能在線瀏覽,不支援小說打包下載。

所以本次爬取呢,就是從該網站爬取並儲存一個名為《一念永恆》的小說。

另外本次爬取只是做例子演示,請支援正版資源!!!!!!!!!!!

那麼簡單的爬取開始:

①開啟url連結,按F12或者右鍵- 檢查 進入開發者工具

② 在開發者工具中,捕獲我們要找到的請求條目資訊

選擇主文章的一部分內容,選擇複製貼上那一部分,

然後再開啟開發者工具欄:

“network—選擇放大鏡圖示sreach—然後再搜尋欄貼上我們要搜尋的內容”

然後會在下方得到條目資訊,點選,頁面會跳轉到載入正文的請求響應條目中。

我們可以看到:

正文部分是處於 id 為 content 和 class 為 showtxt 的 div 中。

③ 構造url請求

上面的資訊是不夠的,因為現在的網站都有了反爬能力,我們所需要是模擬一條正常從瀏覽器中發出的url請求連結。

這裡我們會用到: User-Agent(瀏覽器標識)

還是開發者工具,點選Headers,就可以看到Request-Response條目明細。

④ 發出請求:

有了欄位的詳細內容,我們就可以編寫出請求網頁的程式碼

⑤ 獲得相應內容,然後執行,得到內容如下:

解析響應資料

下面,我們使用BeautifulSoup進行解析 執行….程式碼結果如圖:

到這裡,小說就爬取完成了。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。