python 爬qidian小說

阿新 • • 發佈：2017-05-24

判斷 re.sub replace break nbsp urllib step bre 第一章

  1 import re
  2 import urllib.request
  3 from bs4 import BeautifulSoup
  4 import time
  5 
  6 url=input("第一章網址：")
  7 
  8 def gethtml(url):
  9                                       #獲取頁面源代碼html
 10     page=urllib.request.urlopen(url)
 11     html=page.read().decode(‘utf-8‘)  #html是一個列表 

 12     soup=BeautifulSoup(html,‘html.parser‘)
 13     
 14     return soup
 15 
 16 def getcontent(soup,load):
 17     
 18     content=soup.find_all("div",{"class":"read-content j_readContent"})
 19     
 20     content1=re.compile(r‘<p>([\s\S]*?)</p>‘)       #匹配到段落內容
 21     
 22 
     content2=content1.findall(str(content))
 23    
 24     content3=re.sub("</?\w+[^>]*>",‘‘,content2[0])  #除掉html標簽
 25     
 26     content4=content3.replace(‘。‘,‘。\n\n\0\0\0‘)  #把以句號換位“。\n\n\0\0\0   兩個換行符三個空格”            到此，將章節內容獲取完畢
 27 
 28     contentname=re.compile(r‘<h3 class="j_chapterName">(.*?)</h3> 
‘)
 29     
 30     contentname1=contentname.findall(str(soup))     #獲取章節名稱
 31 
 32     book="----------------------------------------------------------------"+contentname1[0]+"------------------------------------------------------------\n\n\n"+content4   
 33 
 34     with open(load, ‘a‘) as f:
 35 
 36         f.write(book)
 37 
 38     
 39 
 40 def nextcontent(soup):
 41 
 42     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})
 43     
 44     #print(str(content))
 45     
 46     step=re.compile(r‘<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">‘)
 47 
 48     content1=step.findall(str(content))
 49 
 50     if content1 == []:                         #判斷該頁是否為最後一章，是，獲取最後一章（特殊）的url，不是，以常規方法獲取下一章url
 51 
 52         step1=re.compile(r‘<a data-eid="qd_R118" href="(.*?)" id="j_chapterNext">‘)
 53 
 54         content2=step1.findall(str(content))
 55 
 56         url="http:"+content2[0]
 57 
 58         return url
 59     else:
 60         url="http:"+content1[0]
 61 
 62         return url
 63 
 64 def panduan(soup):
 65     
 66     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})
 67     
 68     #print(str(content))
 69     
 70     step=re.compile(r‘<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">‘)
 71     
 72     content1=step.findall(str(content))
 73     
 74     return content1
 75     #-------------------------------------------------------------------------
 76     
 77     
 78     
 79     #-------------------------------------------------------------------------
 80     
 81     
 82 soup=gethtml(url)
 83 bookname=re.findall(r‘<h1>(.*?)</h1>‘ ,str(soup))          #匹配書名
 84 
 85  86 
 87 load="d:/88/%s.txt" % bookname[0]
 88 i=0
 89 while 1==1:
 90     soup=gethtml(url)
 91     getcontent(soup,load)
 92     url=nextcontent(soup)
 93     content1=panduan(soup)       #在該章裏匹配下一章的url，若無法匹配到（輸出為[]空），說明沒有下一章
 94     i+=1
 95     print("第%d章下載完成" % i)
 96     
 97     if content1 == []:             #  
 98         break
 99        
100     time.sleep(0.2)
101

python 爬qidian小說

判斷 re.sub replace break nbsp urllib step bre 第一章 1 import re 2 import urllib.request 3 from bs4 import BeautifulSoup 4 impor

python爬取小視訊——梨視訊

爬取梨視訊小視訊網址：http://www.pearvideo.com/ 工具：python3，pycharm，火狐瀏覽器（或谷歌瀏覽器）模組：requests，re，os， urllib.request，（如需控制爬取速度，可加入time模組。）思路：

百行程式碼，python爬取小姐姐網100G套圖，別流鼻血，身體重要！

前言最近在做監控相關的配套設施，發現很多指令碼都是基於Python的。很早之前就聽說其大名，人生苦短，我學Python，這並非一句戲言。隨著人工智慧、機器學習、深度學習的崛起，目前市面上大部分的人工智慧的程式碼大多使用Python 來編寫。所以人工智

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

利用Python爬取500萬以上的國產自拍小電影哦！

宣告：本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫，不可使用於商業和個人其他意圖。若使用不當，均由個人承擔。 PornHubBot PornHubBot專案主要是爬取全球最大的小電影網站PornHub的視訊標題、時長、mp4連結、封

python爬取百度圖片---釋出exe小計編碼是個大坑

#*--coding:utf-8--* import requests import sitecustomize import os import sys reload(sys) sys.setdefaultencoding('utf-8') type=sys.getfilesystemencodi

python爬取無水印抖音小姐姐視訊(2018最新,含Pyqt客戶端)

各位小夥伴，之前一段時間迷上了抖音小姐姐視訊，但是下載的視訊都有水印，於是自己用Python 寫了個爬取小姐姐視訊的工具，大家可以直接拷貝到自己編譯器上執行。此外，我還利用pyqt5寫了個操作介面，這樣可以方便不懂程式碼的人使用。後面程式碼我都會一一貼上來。備註

我用Python爬了7W知乎使用者資訊，終於爬獲了心儀小姐姐……

馬上又要到元旦了，在舉國一片“買買買”的呼聲中，單身汪的咆哮聲也愈發淒厲了。作為一個 Python 程式設計師，要如何找到小姐姐，避開暴擊傷害，在智中取勝呢？於是就有了以下的對話： so~今天我們的目標是，爬社群的小姐姐~而且，我們又要用到新的姿勢(霧)了~scrapy

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

小編有發爬取電影的視訊，今天小編再發一篇爬取電影的文章。不是小編懶，是小編真的不知道寫什麼了，見諒。如果小編Get到新的技能，一定發。是不是有好多的小夥伴跟好久好久以前的小編一樣，看一個電影充個會員，這個沒關係，最主要的是，充一個平臺的VIP還不行得有好幾個才可以。這麼貧窮的小編，當然只能看6分鐘的視訊

python 爬取排行榜小說和文字

# -*- coding: utf-8 -*- import scrapy import sys sys.path.append("D:\\pycodes\\novel") class XiaoshuoSpider(scrapy.Spider): n

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

Python爬小草1024圖片，蓋達爾的誘惑（urllib.request）

.com 設置最重要的 hand 開始 string color 能夠切片項目說明： Python版本：3.7.2 模塊：urllib.request，re，os，ssl 目標地址：http://小草.com/ 第二個爬蟲項目，設備轉移到了Mac上，Mac上的Pych

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

python requests庫網頁爬取小實例：百度/360搜索關鍵詞提交

ext aid col text () status exc print 爬取百度/360搜索關鍵詞提交全代碼： #百度/360搜索關鍵詞提交import requestskeyword=‘Python‘try: 　　#百度關鍵字　　# kv={‘w

Python實現最小均方算法(lms)

期望值數學樣本 lms算法跟Rosenblatt感知器相比，主要區別就是權值修正方法不一樣。lms采用的是批量修正算法，Rosenblatt感知器使用的是單樣本修正算法。兩種算法都是單層感知器，也只適用於線性可分的情況。詳細代碼及說明如下：‘‘‘ 算法：

Python實現購物車小程序

輸入密碼 print 文件的 enc break aps ast utf log 開發環境，win7、Python3.6、Pycharm社區版2017 作業需求：購物車程序：1、啟動程序後，輸入用戶名密碼後，如果是第一次登錄，讓用戶輸入工資，然後打印商品列表 #再次

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

python 爬qidian小說

相關推薦