40行代碼爬取金庸所有武俠小說

阿新 • • 發佈：2017-12-18

col 鹿鼎記 image ext .text chap ror python代碼 gpo

　　我們今天來用Python爬蟲爬取金庸所有的武俠小說，網址為：http://jinyong.zuopinj.com/，網頁如下：

技術分享圖片

　　Python代碼如下：

 1 # -*- coding: utf-8 -*-
 2 import urllib.request  
 3 from bs4 import BeautifulSoup
 4 
 5 #get book‘s chapter
 6 def get_chapter(url):
 7     html = urllib.request.urlopen(url)  
 8     content = html.read().decode(‘utf8 
‘)
 9     html.close()
10     soup = BeautifulSoup(content, "lxml")
11     title = soup.find(‘h1‘).text    #chapter title
12     text = soup.find(‘div‘, id=‘htmlContent‘)    #chapter content
13     #processing the content to get nice style
14     content = text.get_text(‘\n‘,‘br/‘).replace(‘\n‘, ‘\n     
‘)
15     content = content.replace(‘　　‘, ‘\n　　‘)
16     return title, ‘    ‘+content
17         
18 def main():
19     books = [‘射雕英雄傳‘,‘天龍八部‘,‘鹿鼎記‘,‘神雕俠侶‘,‘笑傲江湖‘,‘碧血劍‘,‘倚天屠龍記‘,20              ‘飛狐外傳‘,‘書劍恩仇錄‘,‘連城訣‘,‘俠客行‘,‘越女劍‘,‘鴛鴦刀‘,‘白馬嘯西風‘,21              ‘雪山飛狐‘]
22     order = [1,2,3,4,5,6,7,8,10,11,12,14,15,13,9]  # 
order of books to scrapy
23     #list to store each book‘s scrapying range
24     page_range = [1,43,94,145,185,225,248,289,309,329,341,362,363,364,375,385]
25 
26     for i,book in enumerate(books):
27         for num in range(page_range[i],page_range[i+1]):
28             url = "http://jinyong.zuopinj.com/%s/%s.html"%(order[i],num)
29             try:
30                 title, chapter = get_chapter(url)
31                 with open(‘E://%s.txt‘%book, ‘a‘, encoding=‘gb18030‘) as f:
32                     print(book+‘:‘+title+‘-->寫入成功！‘)
33                     f.write(title+‘\n\n\n‘)
34                     f.write(chapter+‘\n\n\n‘)
35             except Exception as e:
36                 print(e) 
37     print(‘全部寫入完畢!‘)
38 
39 main()

　　運行結果如下：

技術分享圖片

上面的運行結果“HTTP Error 404: Not Found”是因為這個網頁不存在，並不影響書本內容的完整性。我們可以去E盤查看文件是否下載成功：

技術分享圖片

·　　15本書都下載完畢了！整個過程才用了不到10分鐘！爬蟲的力量真是偉大啊~~

40行代碼爬取金庸所有武俠小說

col 鹿鼎記 image ext .text chap ror python代碼 gpo 　　我們今天來用Python爬蟲爬取金庸所有的武俠小說，網址為：http://jinyong.zuopinj.com/，網頁如下：　　Python代碼如下： 1 # -*-

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

幾行代碼抓取百度首頁

python 百度python中源碼位置(以urllib為例): python中自帶的模塊: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) py

Python人臉識別最佳教材典範，40行代碼搭建人臉識別系統！

特征是否程序 arm 百度 charm 學習 lin d3d Face Id是一款高端的人臉解鎖軟件，官方稱：“在一百萬張臉中識別出你的臉。”百度、谷歌、騰訊等各大企業都花費數億來鞭策人工智能的崛起，而實際的人臉識別技術是否有那麽神奇？綠帽識別器固然是沒有的！萬萬

Python美容師OpenCV框架，三個精品案例，加起來不超過40行代碼？

port des 超過 CA edwin 判斷 atp onu raw OpenCV簡單介紹：一個用於圖像處理、分析、機器視覺方面的開源函數庫。能夠於windows, linux, mac OSX系統上運行。該Python庫的所有代碼全部被優化過，所以效率高，它非

python超簡化的18行代碼爬一本小說

位置 nor def agen find kit gbk pytho pla import urllib.requestimport redef getnvvel():html = urllib.request.urlopen("http://www.quansh

分享一個開源的JavaScript統計圖表庫，40行代碼實現專業統計圖表

軟件 cal 比較 pie ogr too 掃描 earch 搜索提升程序員工作效率的工具/技巧推薦系列推薦一個功能強大的文件搜索工具SearchMyFiles 介紹一個好用的免費流程圖和UML繪制軟件-Diagram Designer 介紹Windows任務管理器的

聰哥哥教你學Python之爬取金庸系列的小說

話不多說，程式碼貼起: # -*- coding: utf-8 -*- import urllib.request from bs4 import BeautifulSoup #獲取每本書的章節內容 def get_chapter(url): # 獲取網頁的原始碼 html

爬蟲爬取金庸小說--回顧經典小說

import random import requests import time from multiprocessing import Process, Queue from bs4 import BeautifulSoup as bs class NovelDownload(Process):

python3爬蟲爬取金庸小說所有角色

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jinyongwang.c

全國（不包括港澳臺）行政區劃代碼爬取

lib 減少 cit 3.0 req [] random macintosh file 之前在驗證身份證是否符合規則，其中有一項是驗證前六位數是否是實際存在的區劃代碼，就從國家統計局：http://www.stats.gov.cn/找了數據。最新的是2019年1

python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲高考項目最近好多小夥伴說想搞個項目實戰類的，我就花了一點時間做了一個爬蟲項目（在代碼復制的時候可能會有點問題，縮格一下就沒有問題了）想要獲取更多源碼或者答疑或者或者交流學習可以加群：725479218 # -*- coding:utf-8 -*- from funct

學習《第一行代碼》使用實機測試所遇問題（二）

make 代碼出現 onf msu field menus action java代碼實機使用酷派大神F1，添加menu後，右上角不出現菜單，此時在java代碼中加入以下方法在onCreate中運行 private void makeActionOverflowMenu

從計算機語言的發展到我的第一行代碼（HelloWorld）

流程圖專業程序庫進制掌握設計 borland 編程擴展名程序：為了讓計算機執行某些操作或解決某個問題而編寫的一系列有序指令的集合算法：解決問題的具體方法和步驟流程圖是算法的一種圖形化表示方式。流程圖直觀、清晰，更有利於人們設計與理解算法。它使用一組

HTML5遊戲實戰之20行代碼實現打地鼠

before line asc win csdn 實戰動畫 and wiki 之前寫過一篇打地鼠的博客70行的代碼實現打地鼠遊戲，細致思考過後，發現70行代碼都有點多余了，應用tangide的控件特性，能夠將代碼量縮減到20行左右。先show一下終於成果，點擊試

android-第一行代碼

顯示 color 粗體 ati size 圖片高度背景 orien android:orientation horizontal/vertical 設置布局水平還是垂直，默認是垂直 android:layout_gravity center/right/left/bot

100行代碼實現最簡單的基於FFMPEG+SDL的視頻播放器（SDL1.x）【轉】

4行代碼求出圓周率800位，供賞析

代碼 4行 [email protected]/* */:~/lab$ cat main.c #include "stdio.h" int main(){ long a=10000,b,c=2800,d,e,f[2801],g; for(;b-c;) f[b++]=a/5; for

1000行代碼徒手寫正則表達式引擎【1】--JAVA中正則表達式的使用

基礎上 unicode 要求 [1] 分配 find 通過 images char 簡介：本文是系列博客的第一篇，主要講解和分析正則表達式規則以及JAVA中原生正則表達式引擎的使用。在後續的文章中會涉及基於NFA的正則表達式引擎內部的工作原理，並在此基礎上用1000行左右

用python40行代碼編寫的計算器

range line pla roo call from zoom con int 效果圖代碼 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

40行代碼爬取金庸所有武俠小說

相關推薦