用python爬取小說章節內容

阿新 • • 發佈：2019-02-05

tex python -h con close sans 拖拽 per 點擊

在學爬蟲之前, 最好有一些html基礎, 才能更好的分析網頁.

主要是五步:

1. 獲取鏈接

2. 正則匹配

3. 獲取內容

4. 處理內容

5. 寫入文件

代碼如下:

 1 #導入相關model
 2 from bs4 import BeautifulSoup
 3 import requests
 4 import re
 5 
 6 #獲取目標鏈接地址
 7 url = ‘http://www.biquyun.com/0_292/‘
 8 reponse = requests.get(url)
 9 reponse.encoding = ‘gbk‘ #設置編碼方式,可在網頁源碼頭部查到 

10 html = reponse.text
11 
12 #獲取各章節鏈接和標題
13 #審查元素, 找到小說章節的代碼位置, 找出其對應的標簽, 進行正則匹配
14 dl = re.findall(r‘<dd><a href="(.*?)">(.*?)</a>‘, html, re.S) #返回list類型
15 j=0 #計數, 只獲取前30章, 多了結果要很久才出來
16 
17 #進行章節內容獲取
18 for chapter in dl:
19     if j >= 30:
20         break
21     # 
獲取章節鏈接,名字.等價於c_link=chapter[0]; c_title=chapter[1]
22     chapter_link, chapter_title = chapter
23     #補全鏈接,因為之前獲取的只是鏈接的尾部
24     chapter_link = "http://www.biquyun.com%s" % chapter_link
25 
26     #仿照之前的再寫一遍
27     chapter_reponse = requests.get(chapter_link)
28     chapter_reponse.encoding=‘gbk 
‘
29     chtml = chapter_reponse.text
30     #找到小說章節正文所在標簽
31     chapter_content = re.findall(r‘<div id="content">(.*?)</div>‘, chtml,re.S)
32     #將它們轉換為字符串,因為list無法進行replace操作
33     t = str(chapter_title)
34     s = str(chapter_content)
35     #替代好空格,換行, 以及列表的左右中括號
36     s = s.replace(‘&nbsp;‘,‘‘).replace(‘<br />‘,"\n").replace(‘\\r\\n‘,‘‘)
37     s = s.replace(‘]‘,"\n").replace(‘[‘,‘ ‘).replace
38     #新建txt文件,並將其名字設置為章節名, 寫入
39     f = open(‘E:/temp/zhuxian/%s.txt‘ % chapter_title, ‘w‘)
40     f.write(t)
41     f.write(‘\n‘)
42     f.write(s)
43     j = j+1
44 print(‘ok‘)
45 f.close()
46 ‘‘‘ s = s.replace(‘[‘,‘‘)
47     s = s.replace(‘<br />‘,"\n")
48     s = s.replace(‘\\r\\n‘,‘‘)‘‘‘

用python爬取小說章節內容

tex python -h con close sans 拖拽 per 點擊在學爬蟲之前, 最好有一些html基礎, 才能更好的分析網頁. 主要是五步: 1. 獲取鏈接 2. 正則匹配 3. 獲取內容 4. 處理內容 5. 寫入文件代碼如下:

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

用python爬取i春秋的課程

out clas sse dir quest index 影響 png 繼續看課中內容是用get請求進行爬取課程，自己實踐的時候發現已經被改成post請求了，下面開始打開課程頁面我用的火狐，然後就是F12，點擊網絡，可能會有很多包，但不影響，點擊刪除就行，然後點擊第二

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

aid option rip size with open url var mark open 簡介抖音，是一款可以拍短視頻的音樂創意短視頻社交軟件，該軟件於2016年9月上線，是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟件選擇歌曲，拍攝15秒的音樂短視頻

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

下午不知道吃什麼？用Python爬取美團外賣評論幫你選餐！

一、介紹朋友暑假實踐需要美團外賣APP評論這一份資料，一開始我想，這不就抓取網頁原始碼再從中提取資料就可以了嗎，結果發現事實並非如此，情況和之前崔大講過的分析Ajax來抓取今日頭條街拍美圖類似，都是通過非同步載入的方式傳輸資料，不同的是這次的是通過JS傳輸，其他的基本思路基本一致，希望那些資料

用python爬取某個詞條的原始碼

簡單例子：在百度中輸入關鍵詞，並爬取該網頁的原始碼 #-*- coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 url = "http://www.baidu.com/s" word = {"wd":"冼焯庭"}

用Python爬取手機APP

本文轉自：https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558162&idx=1&sn=73ae2ee5d2453773bceec078e39ca0ed&chksm=806e3b2fb71

用python爬取有道翻譯遇到反爬，3分鐘反反爬繞過其反爬

利用有道翻譯的介面，自制一個翻譯程式檢視其翻譯介面，發現post請求需要傳很多引數，而且經過測驗，satl,sigh屬於動態生成的，遇到這種問題怎麼辦？當然有時間的情況下，可以去研究這些引數在哪個響應中返回，或者怎麼構造，但是一般在工作中我們可能需求來了，不

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

教你用python爬取喜馬拉雅FM音訊，乾貨分享~

前前言喜馬拉雅已經更換標籤，我重新更新了下程式碼，文章暫時未改，因為思路還是如此，需要的可以掃一下文末公眾號二維碼（本人會在上面發表爬蟲以及java的文章還有送書等資源福利哦），也可以直接搜尋公眾號“ 猿獅的單身日常”，好了廣告結束... 前言之前寫過爬取圖片的一篇文章，這回來看看如

python爬取小視訊——梨視訊

爬取梨視訊小視訊網址：http://www.pearvideo.com/ 工具：python3，pycharm，火狐瀏覽器（或谷歌瀏覽器）模組：requests，re，os， urllib.request，（如需控制爬取速度，可加入time模組。）思路：

用python爬取小說章節內容

相關推薦