繼續改進版臭事百科爬蟲20160921

阿新 • • 發佈：2018-12-20

本爬蟲最初始原地址：http://blog.csdn.net/pleasecallmewhy/article/details/8932310

基於的上一個改進版：第二個http://blog.csdn.net/u011350541/article/details/52264073

改動：

優化了顯示，去掉<span></br>等標籤；

輸入一次enter載入一頁而不是不停載入

# -*- coding: utf-8 -*-    
     
import urllib2    
import urllib    
import re    
import thread    
import time
import json
    
#----------- 載入處理糗事百科 -----------    
class Spider_Model:    

    #宣告self:含有page pages enabled 
    def __init__(self):    
        self.page = 1    
        self.pages = []    
        self.enable = False    
    
    # 將所有的段子都扣出來，新增到列表中並且返回列表    
    def GetPage(self,page):    
        myUrl = "http://m.qiushibaike.com/hot/page/" + page    
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
        headers = { 'User-Agent' : user_agent }   
        req = urllib2.Request(myUrl, headers = headers)   
        myResponse = urllib2.urlopen(req)  
        myPage = myResponse.read()
        # print myPage
        unicodePage = myPage.decode("utf-8")
        # 找出所有class="content"的div標記    
        #re.S是任意匹配模式，也就是.可以匹配換行符
        myItems = re.findall('<div.*?class="content">\n\n+<span>(.*?)</span>\n\n+</div>',unicodePage,re.S)
        items = []
        # print myItems
        # print str(myItems).decode('string_escape')
        # print json.dumps(myItems, encoding="UTF-8", ensure_ascii=False)
        # for item in myItems:
        #     # item 中第一個是div的標題，也就是時間
        #     # item 中第二個是div的內容，也就是內容
        #     items.append([item[0].replace("\n",""),item[1].replace("\n","")])
        # print myItems
        # print str(myItems).decode('string_escape')
        # print str(myItems).encode("UTF-8")
        # print myItems[0]
        return myItems

    # 用於載入新的段子    
    def LoadPage(self):    
        # 如果使用者未輸入quit則一直執行    
        while self.enable:    
            # 如果pages陣列中的內容小於2個
            # print len(self.pages)
            if len(self.pages) < 2:
                try:    
                    # 獲取新的頁面中的段子們    
                    myPage = self.GetPage(str(self.page))
                    self.page += 1    
                    self.pages.append(myPage)
                except:    
                    print '無法連結糗事百科！'    
            else:    
                time.sleep(5)              

            
    # def ShowPage(self,nowPage,page):
    #     print u'第%d頁' % page,json.dumps(nowPage, encoding="UTF-8", ensure_ascii=False)

    def ShowPage(self,nowPage,page):
        i = 0
        # print len(nowPage)
        for i in range(0,len(nowPage)):
            if i < len(nowPage):
                oneStory="\n\n"+nowPage[i].replace("\n\n","").replace("<br/>","\n")+"\n\n"
                print u'第%d頁,第%d個故事' %(page,i) ,oneStory
                i += 1
            else:
                break

        myInput = str(raw_input(u'回車鍵看下一頁,按quit退出：\n'))
        if myInput == "quit":
            self.enable = False
            
    def Start(self):    
        self.enable = True    
        page = self.page
        print u'正在載入中請稍候......'
        # 新建一個執行緒在後臺載入段子並存儲    
        thread.start_new_thread(self.LoadPage,())
        #----------- 載入處理糗事百科 -----------    
        while self.enable:    
            # 如果self的page陣列中存有元素    
            if self.pages:    
                nowPage = self.pages[0]
                del self.pages[0]
                self.ShowPage(nowPage,page)    
                page += 1    
    
    
#----------- 程式的入口處 -----------    
print u"""  
---------------------------------------  
   程式：糗百爬蟲  
   版本：0.3  
   作者：why  
   日期：2014-06-03
   改進1：週二也被佔用
   改進2：allenwithallen  20160931
   語言：Python 2.7  
   操作：輸入quit退出閱讀糗事百科  
   功能：按下回車依次瀏覽今日的糗百熱點  
---------------------------------------  
"""  
    
    
print u'請按下回車瀏覽今日的糗百內容：'    
raw_input(' ')    
myModel = Spider_Model()    
myModel.Start()

繼續改進版臭事百科爬蟲20160921

本爬蟲最初始原地址：http://blog.csdn.net/pleasecallmewhy/article/details/8932310 基於的上一個改進版：第二個http://blog.csdn.net/u011350541/article/details/52264073

【Python3.6】糗事百科爬蟲

程式碼連結：https://gitee.com/AI-Echo/codes/kox2aqn4jwi8c6b70l91e25 糗百段子在這樣的div標籤中， #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ S

糗事百科爬蟲實現

前兩天寫了一下關於糗百的爬蟲，現在將程式碼分享給大家，有興趣的同學可以瞭解一下 1，下面是正常流程實現爬蟲過程的原始碼，如下： # coding=utf-8 import requests import json from lxml import etree class Qiuba

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

糗事百科正則爬蟲

.html == resp 加載初始 main findall print 錯誤參考博客：http://cuiqingcai.com/990.html # -*- coding:utf-8 -*- import urllib import urllib2 impor

python 爬蟲--糗事百科段子

decode imp rst -a paragraph 糗事百科 mozilla ont ner import reimport urllib.requestfrom docx import Documentheader=("User-Agent",‘User-Agent:

Python爬蟲(十七)_糗事百科案例

exce html str window path {} zh-cn use src 糗事百科實例爬取糗事百科段子，假設頁面的URL是: http://www.qiushibaike.com/8hr/page/1 要求：使用requests獲取頁面信息，用XPath/

Python爬蟲(十八)_多線程糗事百科案例

.json afa 安全 rip down 退出交互 encode tar 多線程糗事百科案例案例要求參考上一個糗事百科單進程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(隊列對象) Queue是pyth

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

Android實戰——jsoup實現網絡爬蟲，糗事百科項目的起步

網絡數據標識爬蟲 android thumb 技術分享由於網絡數界面本篇文章包括以下內容：前言 jsoup的簡介 jsoup的配置 jsoup的使用結語對於Android初學者想要做項目時，最大的煩惱是什麽？毫無疑問是數據源的缺乏，當然可以選

Python爬蟲(2)：溴事百科

首先說明一下,這份程式碼參考了汪海大大的部落格,然後自己重寫並且改動了一下而來。首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在<div class="content">內容<span><\span>這種模式下的,所以我們需要對爬蟲的內容

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python爬蟲爬取糗事百科(xpath+re)

爬取糗事百科，用xpath、re提取 =================================================== ===================================================== 1 ''' 2 爬取醜事百科，頁面

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

手寫爬蟲之糗事百科段子及神回覆

先貼程式碼吧，然後再說遇到的坑 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/11 16:35 # @Author : yuantup # @Site : # @File : jokes_.py # @S

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

Python爬蟲(十八)_多執行緒糗事百科案例

多執行緒糗事百科案例案例要求參考上一個糗事百科單程序案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(佇列物件) Queue是python中的標準庫，可以直接import Queue引用；佇列時執行緒間最常用的互動資料的形式。 pytho

新手學習爬蟲之建立第一個完整的scrapy工程-糗事百科

建立第一個scrapy工程-糗事百科最近不少小夥伴兒，問我關於scrapy如何設定headers的問題，時間久了不怎麼用，還真有的忘，全靠記憶去寫了，為了方便大家參考，也方便我以後的查閱，這篇文章就誕生了。本章內容從實戰出發讓我們熟悉如何用scrapy寫爬蟲，本篇內容主要是實戰，不講述過多的理論性東西，因

繼續改進版臭事百科爬蟲20160921

相關推薦