今天剛上手爬蟲，當然要從最簡單的開始啦，驗證一下所學的知識

阿新 • • 發佈：2020-08-20

前言

很多免費的資源只能看但是不提供下載，今天我們以小說為例教你如何把網際網路上只能看不能下載的東西給下載下來

知識點：

requests
css選擇器
全站小說爬取思路

開發環境：

版本：anaconda5.2.0(python3.6.5)
編輯器：pycharm 社群版

程式碼

匯入工具

import requests
import parsel

請求頭

headers = {
    'User-Agent': 'gao fu shui'
}

請求資料

response = requests.get(chapter_url, headers=headers)
# 設定文字的編碼為 utf-8
# response.encoding = 'utf-8'
# 萬能解碼 99%的情況下都是對的
# print(response.apparent_encoding)  # requests 自動識別的編碼
# print(response.encoding)  # 服務直接我們的編碼
response.encoding = response.apparent_encoding
# print(response)
html = response.text
# print(html)
# print(response.headers)
# # 響應體.請求體.請求頭資訊
# print(response.request.headers)
# # 檢視原始碼 ctrl + 滑鼠左鍵
# print(response.cookies)

解析資料

# css xpath
# parsel = css + xpath + re
# 把字串變成可以解析的物件
selector = parsel.Selector(html)

# selector.css()
# selector.xpath()
# selector.re()
# get 獲取物件裡面的文字內容
# 屬性提取器 attr
h1 = selector.css('.reader h1::text').get()
# print(h1)
content = selector.css('.showtxt::text').getall()
# print(content)
# # xpath 路徑提取器
# h1 = selector.xpath('//h1/text()').get()
# print(h1)
# content = selector.xpath('//*[@class="showtxt"]//text()').getall()
# print(content)
# 去除每一個空白字元
# 定義一個空列表，留待備用 {}
lines = []

for c in content:
    lines.append(c.strip())

print(h1)
# print(lines)

# str join 字串的合併方法
text = '\n'.join(lines)
# print(text)

儲存資料

file = open(book_name + '.txt', mode='a', encoding='utf-8')
file.write(h1)
file.write('\n')
file.write(text)
file.write('\n')
file.close()

獲取所有章節的下載地址

# download_one_chapter('http://www.shuquge.com/txt/8659/2324752.html')
# download_one_chapter('http://www.shuquge.com/txt/8659/2324753.html')
# download_one_chapter('http://www.shuquge.com/txt/8659/2324754.html')

def download_one_book(index_url):
    index_response = requests.get(index_url, headers=headers)
    index_response.encoding = index_response.apparent_encoding
    sel = parsel.Selector(index_response.text)
    book_name = sel.css('h2::text').get()
    # 提取了所有章節的下載地址
    urls = sel.css('.listmain dl dd a::attr(href)').getall()
    # 不要最新的 12 章放在最前main
    for url in urls[12:]:
        chapter_url = index_url[:-10] + url
        print(chapter_url)
        download_one_chapter(chapter_url, book_name)
# download_one_book('http://www.shuquge.com/txt/8659/index.html')
# download_one_book('http://www.shuquge.com/txt/5809/index.html')
# download_one_book('http://www.shuquge.com/txt/63542/index.html')
"""下載玄幻類的第一頁"""
# 2_1.html 控制類別頁數 可以for in 生產類別 for in 生產 頁數
for cate in ['1', '2', '4']:
    for page in range(1, 101):
        cate_url = 'http://www.shuquge.com/category/' + cate + '_' + str(page) + '.html'
        cate_response = requests.get(cate_url, headers=headers)
        cate_response.encoding = cate_response.apparent_encoding
        sel = parsel.Selector(cate_response.text)
        # 提取了所有章節的下載地址
        urls = sel.css('.l.bd > ul > li > span.s2 > a::attr(href)').getall()
        # 不要最新的 12 章放在最前main
        for url in urls:
            print(url)
            download_one_book(url)

今天剛上手爬蟲，當然要從最簡單的開始啦，驗證一下所學的知識

前言很多免費的資源只能看但是不提供下載，今天我們以小說為例教你如何把網際網路上只能看不能下載的東西給下載下來知識點： requests css選擇器全站小說爬取思路開發環境：版本：anaconda5.2.0(python3.6.5) 編輯器：pycharm 社群版程式碼

把智慧鎖寫上區塊鏈，他們要從萬億共享經濟市場裡把千億中介費反哺消費者

本堂茜渡鴉區塊鏈專欄記者許多區塊鏈創業者認為區塊鏈最容易切入的角度是金融領域，而區塊鏈與實體經濟結合的想象力究竟如何？多靈智慧為我們提供了一個不同的視角。

學習UG，要從最基礎的做起，初學者…

學習UG，要從最基礎的做起，初學者必備40條技巧 1. 左鍵選擇，中建確定，多個物體要選擇的時候直接左鍵選擇下去就可以,不必按住CTRL（和PROE,SW類似有所不同），shift+左鍵減去選擇物件，右鍵快捷選單（短時。延時按右鍵選擇顯示模式），選擇物體的時候配合選擇過濾器將事半功倍，當許多物件集中時

即使沒人註視，也要努力成長。許多眼睛，都藏在你看不見的地方！

希望一起單詞發出今天 logs 眼睛 cnblogs .com 更新一下今天的學習進度：以後每天都會更新，倘若有啥感悟想說的話也會一起發出來，希望更多的人能和我一起堅持下去：　　1.每天背誦50個英文單詞，復習鞏固了52個單詞,進度： 1350/348

人生最美好的事，都是從我願意開始的。。。

初學者重新個人要花缺點真的想象建議衡量人生最美好的事，都是從我願意開始的、、、 --------------- 所謂好人最寶貴的就是時間和方法，他要做好各方面的準備去達到自己的目標、人的大腦雖然每天要“充電”三次，還要關機7個小

學習大數據要從哪些知識點開始入手

構造方法要求 http 文件系統常見算法文件集群 lec 應用比如學hadoop，從哪兒開始學首先要根據你的基本情況而定，如果你就一小白，沒有任何開發基礎，也沒有學過任何開發語言，那就必須先從基礎java開始學起（大數據支持很多開發語言，但企業用的最多的還是J

springboot整合報錯，想要整合tk.mybatis報錯，反射方法異常

在添加註釋 @MapperScan("com.leyou.item.mapper")的時候，如果不小心就會導包倒錯應該導成 import tk.mybatis.spring.annotation.MapperScan;而不是org如果是低版本的，也可以這樣添加註釋 @tk.mybatis.spring.

學習大資料要從哪些知識點開始著手？

那大資料處理技術怎麼學習呢？首先我們要學習Java語言和Linux作業系統，這兩個是學習大資料的基礎，學習的順序不分前後。 Java：大家都知道Java的方向有JavaSE、JavaEE、JavaME，學習大資料要學習那個方向呢？只需要學習Java的標準版Ja

python字串：索引值以 0 為開始值，-1 為從末尾的開始位置；值和位置的區別哦

String（字串）Python中的字串用單引號 ' 或雙引號 " 括起來，同時使用反斜槓 \ 轉義特殊字元。字串的擷取的語法格式如下：變數[頭下標:尾下標]索引值以 0 為開始值，-1 為從末尾的開始位置。[一個是值，一個是位置。看圖。所以str = 'Runoob' print (str[0:-1

python字符串和List：索引值以 0 為開始值，-1 為從末尾的開始位置；值和位置的區別哦

重復 run test 嵌套 cto ESS 列表容易 pro String（字符串）Python中的字符串用單引號 ‘ 或雙引號 " 括起來，同時使用反斜杠 \ 轉義特殊字符。字符串的截取的語法格式如下：變量[頭下標:尾下標]索引值以 0 為開始值，-1

hdfs檔案，從隨機地方開始讀，讀取任意長度

package com.ghgj.cn.zy; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.Random; import org

從身邊開源開始學習，用過才能更好理解程式碼

2015年12月20日，雲棲社群上線。2018年12月20日，雲棲社群3歲。阿里巴巴常說“晴天修屋頂”。在我們看來，寒冬中，最值得投資的是學習，是增厚的知識儲備。所以社群特別製作了這個專輯——分享給開發者們20個彌足珍貴的成長感悟，50本書單。多年以後，再回首2018-19年，留給我們自己的，

雲棲專輯 | 阿里開發者們的第3個感悟：從身邊開源開始學習，用過才能更好理解程式碼

2015年12月20日，雲棲社群上線。2018年12月20日，雲棲社群3歲。阿里巴巴常說“晴天修屋頂”。在我們看來，寒冬中，最值得投資的是學習，是增厚的知識儲備。所以社群特別製作了這個專輯——分享給開發者們20個彌足珍貴的成長感悟，50本書單。多年以後，再回首2018-19年，留給我們自

彙編基礎練習題7：編寫輸入子程式，功能是從鍵盤輸入數字字元，利用程式得到對應的數值，並在主程式中驗證。

彙編基礎練習題7：編寫輸入子程式，功能是從鍵盤輸入數字字元，利用程式得到對應的數值，並在主程式中驗證。編譯工具：Masm for Windows 整合實驗環境2012.5 （附帶一個工具下載地址https://download.csdn.net/download/qq_36931

點選事件，選擇按鈕，點選從前端傳到後臺，查詢資料，並返回前段，顯示出來。---tp5

//這是HTML頁面 <div class="form-group"> <label class="col-sm-3">聽讀寫說分類</label>

設有n個人圍成一圈，從第一個人開始報數，數到第m個人出列，然後從出列的下一個人開始報數...

Java程式設計實現：設有n個人圍成一圈，從第一個人開始報數，數到第m個人出列，然後從出列的下一個人開始報數，數到第m個人又出列，...，如此反覆到所有人出列為止。設n個人的編號為1到n，打印出出列的順序。package test; public class Test {

C語言用陣列1. 簡單約瑟夫環問題： N個人，編號從1~N圍成一圈，輸入一個數T，從1號開始報數，報到T的人出圈；下一人又從1開始報數，下一個報到T的人出圈，輸出出圈順序。考慮問實現約瑟夫環問題

1. 簡單約瑟夫環問題： N個人，編號從1~N圍成一圈，輸入一個數T，從1號開始報數，報到T的人出圈；下一人又從1開始報數，下一個報到T的人出圈，輸出出圈順序。考慮問題：報到T的人出圈，怎麼表示出圈？要麼刪除對應的標號，其他的標號前移（如果是陣列結構，要依次移動

Python selenium 自動化測試，一定要會用selenium的等待，三種等待方式解讀

發現太多人不會用等待了，博主今天實在是忍不住要給大家講講等待的必要性。很多人在群裡問，這個下拉框定位不到、那個彈出框定位不到…各種定位不到，其實大多數情況下就是兩種問題： 1 有frame，2 沒有加等待。殊不知，你的程式碼執行速度是什麼量級的，而瀏覽器載入渲染速度

ibM P server 看面板上的 HMC 的IP ，一定要回復到 N 狀態，否則會down 機器

ibm P5小機的HMC1和HMC2的IP地址預設為192.168.2.147和192.168.3.147，如果對此預設IP做過改動，後來又遺忘的情況下，通過進入P5小機液晶控制面板上的功能30, 就能讀出HMC埠的IP地址。\r\n具體步驟如下：\r\na. 為伺服器接通

有N個人圍成一圈，順序排號。從第一個開始報數，(從1到3報數)，凡報道3的人退出圈子，問最後留下的是原來第幾號那位

問題：有n個人圍成一圈，按順序從1到n編好號。從第一個人開始報數，報到3的人退出圈子，下一個人從1開始報數，報到3的人退出圈子。如此下去，直到留下最後一個人。請按退出順序輸出退出圈子的人的編號

今天剛上手爬蟲，當然要從最簡單的開始啦，驗證一下所學的知識

相關推薦