Python這麼厲害的麼？一次爬完整站小說

阿新 • • 發佈：2019-01-12

1.目標

排行榜的地址： http://www.qu.la/paihangbang/

找到各類排行旁的的每一部小說的名字，和在該網站的連結。

2.觀察頁的結構

很容易就能發現，每一個分類都是包裹在：

之中，

這種條理清晰的網站，大大方便了爬蟲的編寫。

在當前頁面找到所有小說的連線，並儲存在列表即可。

3.列表去重的小技巧

就算是不同類別的小說，也是會重複出現在排行榜的。

這樣無形之間就會浪費很多資源，尤其是在面對爬大量網頁的時候。

這裡只要一行程式碼就能解決：

這裡呼叫了一個list的建構函式set：這樣就能保證列表裡沒有重複的元素了。

4.程式碼實現

模組化，函數語言程式設計是一個非常好的習慣，堅持把每一個獨立的功能都寫成函式，這樣會使程式碼簡單又可複用。

網頁抓取頭

獲取排行榜小說及其連結：爬取每一型別小說排行榜，按順序寫入檔案。檔案內容為：小說名字+小說連結。將內容儲存到列表，並且返回一個裝滿url連結的列表

獲取單本小說的所有章節連結:

獲取該小說每個章節的url地址，並建立小說檔案

獲取單頁文章的內容並儲存到本地這裡有個小技巧：從網上爬下來的檔案很多時候都是帶著<br>之類的格式化標籤，可以通過一個簡單的方法把它過濾掉： html = get_html(url).replace('<br/>', '\n') 這裡單單過濾了一種標籤，並將其替換成‘\n’用於文章的換行，

主函式

輸出結果

5.缺點

本次爬蟲寫的這麼順利，更多的是因為爬的網站是沒有反爬蟲技術，以及文章分類清晰，結構優美。

但是，按照這篇文的思路去爬取小說，大概計算了一下：一篇文章需要：0.5s，一本小說（1000張左右）：8.5分鐘，全部排行榜（60本）： 8.5小時！

那麼，這種單執行緒的爬蟲，速度如何能提高呢？

自己寫個多執行緒模組？

其實還有更好的方式： Scrapy框架

後面可將這裡的程式碼重構一邊遍，速度會幾十倍甚至幾百倍的提高了！這其實也是多執行緒的威力！

Python這麼厲害的麼？一次爬完整站小說

1.目標排行榜的地址： http://www.qu.la/paihangbang/ 找到各類排行旁的的每一部小說的名字，和在該網站的連結。 2.觀察頁的結構很容易就能發現，每一個分類都是包裹在：之中，這種條理清晰的網站，大大方便了爬蟲的編寫。在當前頁

記一次爬需要登錄之後才能爬取數據的demo

urn return click ioe chrom bsp *** per commons 一：工程概況註意：二：涉及到的類 package com.bigdata.crawler; import java.io.IOException; import ja

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python 篩選去除只有一次出現的數字

上一篇知道了count,即可遍歷出出現次數大於一就好了上程式碼 def checkio(data): #Your code here #It's main function. Don't remove this function #It's used f

python getctime() 檔案最後一次的改變時間

Return the metadata change time of a file,reported by os.stat() def mm(): 　　file_name=r'c:\temp.txt' file_times_create = time.localtime(os.

爬臺階問題(每一次爬一階臺階,或者每一次爬二階臺階)

package leetcode; /*You are climbing a stair case. It takes n steps to reach to the top. Each time you can either climb 1 or 2 steps. In how many di

一次較為完整的oracle資料庫資料遷移過程

作為一個後端開發者，需要處理的問題會非常多非常雜，不斷的接觸各方面的知識，總結心得才能有所提高。最近我們將甲方的信披系統改造後併入了我們的系統，開發基本完成，接下來資料遷移就是一個大問題了。因為之前其它開發商系統的資料庫設計極爛，所以這次資料遷移稍微顯得麻煩，而資料遷移

Python菜鳥教程（一）-爬b站資料

BeautifulSoup 安裝BeautifulSoup pip install beautifulsoup4 安裝了python的同學應該都知道python的包管理工具pip，這裡就不贅述了。切入點爬網站主要還是找到一個ur

python 爬蟲實戰（一）爬取豆瓣圖書top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f

記一次Android選修的小專案

目標和思路目標：做一個有多級頁面的app，使用者選擇需要選擇的資訊：性別、年齡、姓名。點選提交，會根據隨機生成一個三國時期的人物與其對應。並提示相關資訊。思路：編寫多個頁面，通過intent元件實現頁面跳轉，並在MainActivity.class檔案中根據選項的選擇

你的年目標實現了嗎，記一次開發微信小程式

前言：這是筆者第一次開發小程式，此前一直有打算自己做一個，並且能夠上線使用，但一直找不到靈感，加上還需要伺服器端、資料庫等技能，所有一直沒能實現。後來偶然看到微信小程式雲開發(有點驚豔了，確實挺簡便)，再加上一點點想法，於是就開始了小程式雲開發之旅。第一步，要做什麼東西？鑑於自己的技術水

記一次使用GreenDao的小“坑”

很多Android開發者選擇Greendao作為資料庫使用工具，關於greendao的教程網路上也是一大堆，這裡就不再介紹，主要是記錄在專案中使用greendao出現的一個小問題，greendao的地址如下：greendao 事先說一下，我專案中使用的是gre

記一次蛋疼的小程式證書bug

記一次蛋疼的小程式bug 事情是這樣的，之前我的小程式都是本地端的，資料存在手機上，雖然小程式官方聲稱存在手機內的資料不會丟失，然而還是經常會出現莫名其妙所有資料丟失的問題，引來不少使用者抱怨。遂決心把這個問題解決掉，打算弄了一臺伺服器。寫過小程式的朋友都

記一次 vue + mongodb + nodejs 小專案開發

首先梳理專案流程： 1.前後端分離，前端使用vue編寫靜態介面，後端使用node提供介面， 2. 前端開發時通過Vue-Cli中提供的proxyTable進行代理，由此可跨域呼叫Node編寫的API 那就開始吧！一.專案搭建 1.安裝vue-cli npm

記載一次專案中的小事故

最近做專案出現一次小小的事故，伺服器是C++和MYSQL寫的，有裝置不停的想伺服器傳送GPS資料，資料庫予以進行記錄，客戶端會對需要的時候會對這些資料檢索，一開始使用沒啥問題，伺服器執行時間久了就出一些問題，經過排查發現是資料量過大導致搜尋時間過長，具體資料是2000萬條資料

一次CDN源站負載高的問題排查及解決

https hit 兩個 ext 繼續都是 cto 但是指定節點最近總是收到後端的CDN源站的負載高的報警，Apache經常會觸發重啟。於是啟動排查問題。我們的CDN架構如下：我們的CDN緩存策略是：使用源站的緩存策略，源站緩存策略是365天。首先查看Apach

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

一次完整的自動化登入測試-基於python+selenium進行cnblog的自動化登入測試

Web登入測試是很常見的測試！手動測試大家再熟悉不過了，那如何進行自動化登入測試呢！本文作者就用python+selenium結合unittest單元測試框架來進行一次簡單但比較完整的cnblog自動化登入測試，給大家提供點參考！下面就包括測試程式碼和每種測試情況的截圖：

XMLHttpRequest是什麽、如何完整地運行一次GET請求、如何檢測錯誤。

var obj problem get請求 () == name xmlhttp 如何 var xmlhttp; function LoadXmlDoc(url){

記一次完整的安全技術解決方案遭遇成本考驗後的“退步與博弈”

架構師互聯網解決方案防火墻高可用寫在前面，出於保護客戶隱私和堅守網工的職業道德素養，本文不得出現的所有完整ip、客戶名稱、信息、以及詳細的業務模型闡述。最近確實走心的在分享案例，2017年5月21日在家裏寫了近四小時，女票已經暴走，請大家掩護我！！！！！

Python這麼厲害的麼？一次爬完整站小說

5.缺點

相關推薦