聰哥哥教你學Python之爬取金庸系列的小說

阿新 • • 發佈：2018-11-07

話不多說，程式碼貼起:

# -*- coding: utf-8 -*-
import urllib.request  
from bs4 import BeautifulSoup

#獲取每本書的章節內容
def get_chapter(url):
    # 獲取網頁的原始碼
    html = urllib.request.urlopen(url)  
    content = html.read().decode('utf8')
    html.close()
    # 將網頁原始碼解析成HTML格式
    soup = BeautifulSoup(content, "lxml")
    title = soup.find('h1').text    #獲取章節的標題
    text = soup.find('div', id='htmlContent')    #獲取章節的內容
    #處理章節的內容，使得格式更加整潔、清晰
    content = text.get_text('\n','br/').replace('\n', '\n    ')
    content = content.replace('　　', '\n　　')
    return title, '    '+content

def main():
    # 書本列表
    books = ['射鵰英雄傳','天龍八部','鹿鼎記','神鵰俠侶','笑傲江湖','碧血劍','倚天屠龍記',\
             '飛狐外傳','書劍恩仇錄','連城訣','俠客行','越女劍','鴛鴦刀','白馬嘯西風',\
             '雪山飛狐']
    order = [1,2,3,4,5,6,7,8,10,11,12,14,15,13,9]  #order of books to scrapy
    #list to store each book's scrapying range
    page_range = [1,43,94,145,185,225,248,289,309,329,341,362,363,364,375,385]

    for i,book in enumerate(books):
        for num in range(page_range[i],page_range[i+1]):
            url = "http://jinyong.zuopinj.com/%s/%s.html"%(order[i],num)
            # 錯誤處理機制
            try:
                title, chapter = get_chapter(url)
                with open('D://book/%s.txt'%book, 'a', encoding='gb18030') as f:
                    print(book+':'+title+'-->寫入成功！')
                    f.write(title+'\n\n\n')
                    f.write(chapter+'\n\n\n')
            except Exception as e:
                print(e) 
    print('全部寫入完畢!')

main()

最終的結果是這樣的:

將對應的書寫入對應的txt，開啟閱讀，確實有點體驗不好，但是聰哥哥金點子，給你提建議:

通過如下網站，可將txt轉為pdf

http://www.pdfdo.com/txt-to-pdf.aspx

所以最後的結果是:

轉為pdf後，閱讀體驗更好了。希望這篇文章能給廣大的小夥伴們幫助。

聰哥哥教你學Python之爬取金庸系列的小說

話不多說，程式碼貼起: # -*- coding: utf-8 -*- import urllib.request from bs4 import BeautifulSoup #獲取每本書的章節內容 def get_chapter(url): # 獲取網頁的原始碼 html

聰哥哥教你學Python之如何爬取美女圖片

今天要講的是Python。Python目前主要是在人工智慧和資料分析上比較火。這裡我們就講它的資料分析。什麼叫資料分析呢？簡單地說，根據已知資料，經過分析，得出結論。這就叫做資料分析。今天聰哥哥我拿一個簡單的爬蟲例項，教你爬取美女圖片，不過在此之前聰哥哥我得說說一些雜七雜八的。這個

聰哥哥教你學Python之電子郵件

聰哥哥今天主要講的是如何用Python實現電子郵件傳送。這個電子郵件傳送的應用場景有很多，比如註冊使用者發郵件驗證，監控伺服器郵件告警等等。引用廖雪峰先生的說法: Email的歷史比Web還要久遠，直到現在，Email也是網際網路上應用非常廣泛的服務。幾乎所有的程式語言都支援傳送和接

聰哥哥教你學Python之使用MySQL

MySQL是一個開源的關係型資料庫，應用比較廣。關於MySQL，聰哥哥後面會有更精彩的實戰系列文章。現在不會說太多。引用百度百科介紹MySQL(幫助大家普及下基礎知識)： MySQL是一個關係型資料庫管理系統，由瑞典MySQL AB 公司開發，目前屬於 Oracle&nbs

聰哥哥教你學Python之網路程式設計

網路程式設計，又稱Socket程式設計。說到網路程式設計，大家都想起一個東西，那就是TCP/IP。絕大多數程式語言都有對TCP/IP的操作API。聰哥哥我今天主要圍繞兩個方面談談網路程式設計。一個TCP,另外一個就是UDP。關於TCP和UDP，它們無論是在Java,還是在Py

聰哥哥教你學Python之面向物件程式設計

什麼是面向物件程式設計? 引用百度百科解釋: 面向物件程式設計(Object Oriented Programming)作為一種新方法，其本質是以建立模型體現出來的抽象思維過程和麵向物件的方法。模型是用來反映現實世界中事物特徵的。任何一個模型都不可能反映客觀事物的一切具體特徵，只能對事物特徵

聰哥哥教你學Python之模組

聰哥哥本次主要圍繞使用模組和如何安裝第三方模組等兩個話題談論。不過在此之前，需要普及一下模組的相關概念知識。那麼什麼是模組？引用百度百科上說的: 模組是一個設計術語，是指對詞條中部分內容進行格式化整理的模板。例如歌手類詞條中的“音樂作品”模組，電視劇類詞條的“分集劇

聰哥哥教你學Python之函數語言程式設計

今天主要圍繞這麼幾個方面談談函數語言程式設計？ 1.高階函式 2.返回函式 3.匿名函式 4.裝飾器 5.偏函式有人會有疑問，聰哥哥請問什麼是函數語言程式設計? 引用百度百科的話說: 函數語言程式設計是一種程式設計方式，它將電腦運算視為函式的計算。函式程式語言最重要

聰哥哥教你學Python之高階特性

記得曾經在學Java的時候，通常是這麼學的，從基礎的語法高階特性，這一塊統稱為JavaSE,然後再到JavaWeb，最後到框架這一塊。那麼Python也有其對應的高階特性。其實在聰哥哥我看來，無論任何程式語言，基本都是這一套。只不過每個程式設計在其特有的領域有其特定的優勢。比如拿區塊鏈來說，其實Ja

聰哥哥教你學Python之函式

什麼是函式？從數學的角度分析: 函式的定義：給定一個數集A，假設其中的元素為x。現對A中的元素x施加對應法則f，記作f（x），得到另一數集B。假設B中的元素為y。則y與x之間的等量關係可以用y=f（x）表示。我們把這個關係式就叫函式關係式，簡稱函式。函式概念含有三個要素：定義域A、值域C和

聰哥哥教你學Python之基礎

本章學習建議: 問:請問聰哥哥有什麼好的建議? 答:建議初學者最好還是一個例子一個例子的練習，當然了，最好的話，相關的理論也看看，還有就是有相關的程式設計經驗人士，在學習過程中最好聯絡自己常用的程式語言，對比學習中你會學的更快更順。本章主要圍繞這麼幾個方面來講Python: 1.資

聰哥哥教你學Python之常見問題解決

第一個問題，在執行指令碼的時候，發現沒有對應的module,導致執行失敗，如圖錯誤所示: 解決辦法:使用pip instal 模組名即可解決例如如上圖所示的可以這麼解決: pip install Crypto 第二個問題，有些指令碼執行需要依賴Vusual St

聰哥哥教你學Python之3D畫圖

看著那些高大尚的表格、線形圖或者是遊戲中的統計分析圖等等。如果是用Java這門後端語言來實現，實現倒不是很大的問題，不過需要一定的精力和時間投入。但是那樣代價太大了。今天我主要介紹的是Python的3D畫圖API，以下是程式碼示例: 示例一: # -*- codi

關於聰哥哥教你學Python

文章是從2018年11月1日開始發表的。到現在已經有了十一篇。聰哥哥教你學Python，既參考了官方網站，又參考了被譽為中國的Python教父廖雪峰先生系列的Python教程。同時，也參考了許多部落格和百度百科。當然了，也加上了不少自己的想法。《聰哥哥教你學Python》這個系列的文章仍

想學習爬蟲的小夥伴進來，看我獨特的風格分分鐘教你學python爬蟲

當年我在學習爬蟲的時候，看了很多大牛的回答！但是他們的回答都很像學霸講解題目，跳步無數，然後留下一句“不就是這樣推嘛”，讓一眾小白菜鳥一臉懵逼。。作為一個0起步（之前連python都不會），目前總算掌握基礎，開始向上進階的菜鳥，深知其中的不易，所以我會在這個回答裡，儘可能全面、細節地分享給大家

手把手教你學python第十三講（MRO詳解和神奇的魔法方法）

如果圖片刷不出來，轉到https://www.bilibili.com/read/cv286207MRO重製關於MRO和C3演算法，我又去看了一些文章，然後發現了講的很清楚的文章http://kaiyuan.me/2016/04/27/C3_linearization/。裡面

菜鳥學爬蟲之爬取網易新聞

學習了python基本語法後，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。開啟網易新聞（https://news.163.com/）可以發現新聞分為這樣的幾個板塊：這次選擇國內板塊來爬取文章。 1.準備環境：python3 編譯器：PyChar

Python之爬取IP代理網站

本篇是利用python的re庫和requests庫一些知識來抓取某IP代理網站的各種IP資訊，並將其存入txt檔案中. 不多說,附上程式碼及其結果(ps:由於初次學習,程式碼有許多需要改進的地方,不足之處,大家自動忽略…..) import reque

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

Python爬蟲入門-python之爬取pexels高清圖片

先上張圖片：首先開啟網址：,然後下來會發現下面的圖片是慢慢的加載出來的，也就是通過Ajax請求得到的。在搜尋框中輸入關鍵字：beauty,開啟F12，重新整理，選中XHR,然後一直下拉下拉: 會發現左側中的URL只有一個page是在發生變化的，在通

聰哥哥教你學Python之爬取金庸系列的小說

相關推薦