python 爬取qidian某一頁全部小說

阿新 • • 發佈：2017-05-25

decode return data- dib read etc break beautiful range

  1 import re
  2 import urllib.request
  3 from bs4 import BeautifulSoup
  4 import time
  5 
  6 url=input("第一頁網址：")
  7 
  8 def gethtml(url):
  9                                       #獲取頁面源代碼html
 10     page=urllib.request.urlopen(url)
 11     html=page.read().decode(‘utf-8‘)  # 
html是一個列表
 12     soup=BeautifulSoup(html,‘html.parser‘)
 13     
 14     return soup
 15 
 16 
 17 def getbookurl(soup):                   #獲取該頁所有書本的鏈接地址
 18     firsturl2=[]
 19     bookurl=soup.find_all("h4")
 20     bookurl1=re.findall(r‘<h4><a data-bid=".*?" data-eid=".*?" href="(.*?)" target="_blank" 
‘,str(bookurl))
 21     for i in range(0,len(bookurl1)):
 22         bookurl="http:"+bookurl1[i]
 23        
 24         soup1=gethtml(bookurl)          #獲取每本書第一章 的url
 25         time.sleep(0.2)
 26         firsturl=soup1.find_all("a",{"class":"red-btn J-getJumpUrl "})
 27         firsturl1=re.findall(r‘ 
data-firstchapterjumpurl=".*?" href="(.*?)" id="readBtn">‘,str(firsturl))
 28         if firsturl1[0]==‘‘:            #這裏要進行判斷，防止出錯
 29             continue
 30         firsturl2.append(firsturl1[0])
 31     return firsturl2
 32 
 33 
 34 
 35 
 36 def getcontent(soup,load):
 37     
 38     content=soup.find_all("div",{"class":"read-content j_readContent"})
 39     
 40     content1=re.compile(r‘<p>([\s\S]*?)</p>‘)
 41     
 42     content2=content1.findall(str(content))
 43    
 44     content3=re.sub("</?\w+[^>]*>",‘‘,content2[0])
 45     
 46     content4=content3.replace(‘。‘,‘。\n\n\0\0\0‘)  #到此，將章節內容獲取完畢
 47 
 48     contentname=re.compile(r‘<h3 class="j_chapterName">(.*?)</h3>‘)
 49     
 50     contentname1=contentname.findall(str(soup))     #獲取章節名稱
 51 
 52     book="----------------------------------------------------------------"+contentname1[0]+"------------------------------------------------------------\n\n\n"+content4   
 53 
 54     with open(load, ‘a‘) as f:
 55 
 56         f.write(book)
 57 
 58     
 59 
 60 def nextcontent(soup):
 61 
 62     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})
 63     
 64     #print(str(content))
 65     
 66     step=re.compile(r‘<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">‘)
 67 
 68     content1=step.findall(str(content))
 69 
 70     if content1 == []:
 71 
 72         step1=re.compile(r‘<a data-eid="qd_R118" href="(.*?)" id="j_chapterNext">‘)
 73 
 74         content2=step1.findall(str(content))
 75 
 76         url="http:"+content2[0]
 77 
 78         return url
 79     else:
 80         url="http:"+content1[0]
 81 
 82         return url
 83 
 84 def panduan(soup):
 85     
 86     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})
 87     
 88     #print(str(content))
 89     
 90     step=re.compile(r‘<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">‘)
 91     
 92     content1=step.findall(str(content))
 93     
 94     return content1
 95     #-------------------------------------------------------------------------
 96     
 97     
 98     
 99     #-------------------------------------------------------------------------
100     
101 while 1==1:
102     soup2=gethtml(url)
103     firsturl2=getbookurl(soup2)
104 
105     for j in range(0,len(firsturl2)):
106         url="http:"+firsturl2[j]
107         soup1=gethtml("http:"+firsturl2[j])
108         bookname=re.findall(r‘<h1>(.*?)</h1>‘ ,str(soup1))
109         load="d:/88/%s.txt" % bookname[0]
110         i=0
111         while 1==1:
112             soup=gethtml(url)
113             getcontent(soup,load)
114             url=nextcontent(soup)
115             content1=panduan(soup)
116             i+=1
117             print("第%d章下載完成" % i)
118     
119             if content1 == []:
120                 break
121             
122             time.sleep(0.2)
123         print("-------------第%d本書下載完成---------" % int(j+1))
124

學習ing!!!

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

python爬取淘寶搜尋頁（練習）

1、本博文中程式碼是轉載內容，原文章地址如下： https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下： ①通過對比頁面構

Python 爬取大眾點評 50 頁資料，最好吃的成都火鍋根本想不到！

成都到處都是火鍋店，有名的店，稍微去晚一點，排隊都要排好久，沒聽說的店，又怕味道不好。那麼如何選擇火鍋店呢？最簡單的肯定是在美團。大眾點評上找一找啊。所以，本文就從大眾點評上爬取了成都的火鍋資料，來進行了分析。 &nbs

Python爬取貼吧多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的，加了迴圈也不行，現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

python 爬取騰訊視訊的全部評論

## 一、網址分析查閱了網上的大部分資料，大概都是通過抓包獲取。但是抓包有點麻煩，嘗試了F12，也可以獲取到評論。以[電視劇《在一起》](https://v.qq.com/x/cover/mzc00200jg5gfcq.html)為例子。評論最底端有個**檢視更多評論**猜測過去應該是 Ajax 的非同步載

python爬取百度圖片---釋出exe小計編碼是個大坑

#*--coding:utf-8--* import requests import sitecustomize import os import sys reload(sys) sys.setdefaultencoding('utf-8') type=sys.getfilesystemencodi

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

python爬取數據被限制？一招教你偽造反爬技術！

python 爬蟲編程程序員1.Headers限制這應該是最常見的，最基本的反爬蟲手段，主要是初步判斷你是否是真實的瀏覽器在操作。這個一般很好解決，把瀏覽器中的Headers信息復制上去就OK了。值得註意的是，很多網站只需要userAgent信息就可以通過，但是有的網站還需要驗證一些其他的信息，比如

python爬取快手ios端首頁熱門視頻

ima main PE cati 找到 OS color AD span 最近快手這種小視頻app，特別的火，中午吃過午飯，閑來無聊，想搞下快手的短視頻，看能不能搞到。於是乎，打開了fiddler，開始準備抓

最後輕松一夏，周末利用python爬取“陳翔六點半”搞笑視頻！

多看獲取數據也會程序員 copy 是什麽查看 ima 周末覺得程序員再忙也需要給自己安排一點娛樂時間，對自己好點，自己對自己不好，誰會？自己娛樂一般會有：跑步、看電影、小視頻，而小視頻是最家常的娛樂方式，看得最多的小視頻是「陳翔六點半」，咦！拍得搞笑

python爬取自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊，並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格，因為自如是用一張圖片和offset來顯示價格，所以不能直接獲得。但我們可以通過將圖片轉為文字，再通過偏移量將數字組合為價格。在這裡我們使用的是Ch

Python爬取多頁糗事百科

這次帶來的是如何爬取糗事百科且寫入txt文件大家都知道，糗事百科可以帶給大家很多快樂。在這裡，我們將實現對其內容的爬取，將這些好笑的段子記錄下來，可以讓我們打發無聊或沒網時的時間。當爬取我們想要的內容時，幾乎都離不開這幾個步驟： 1、網站地址； 2、獲取其原始碼； 3、匹配

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年卷一前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將

python爬取歌曲的全部評論

作者：Jason zhou Python愛好者社群專欄作者部落格地址：http://www.zhouzying.cn/author/jason-zhou 用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一

Python 爬取網頁中JavaScript動態新增的內容（一）

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個

Python爬取亞馬遜商品列表-xpath(詳情頁爬取待更新...)

一.分析頁面結構先行爬取首頁內容的兩個欄位，一個是商品名稱title以及價格price；二.分析頁面的請求：首先按照PC端的url進行請求，結果未得到返回響應的response的資料，於是通過chrom瀏覽器切換至手機端的來獲取響應：觀察到其url

一文搞懂如何用Python爬取上市公司資訊

1. 概念準備 Python基本概念 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0) r意思是強制不轉義字串 TableTableTable型表格

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

python 爬取某音樂平臺所有歌單資訊

# coding: utf-8 import requests import os from lxml import etree import json from spider_project.proxies import proxies import random cl

python 爬取qidian某一頁全部小說

相關推薦