Python爬蟲(十七)_糗事百科案例

阿新 • • 發佈：2017-12-21

exce html str window path {} zh-cn use src

糗事百科實例

爬取糗事百科段子，假設頁面的URL是: http://www.qiushibaike.com/8hr/page/1

要求：

使用requests獲取頁面信息，用XPath/re做數據提取
獲取每個帖子裏的用戶頭像連接、用戶姓名、段子內容、點贊次數和評論次數
保存到json文件內

參考代碼

#-*- coding:utf-8 -*-

import requests
from lxml import etree

page = 1
url = 'http://www.qiushibaike.com/8hr/page/' + str(page) 
headers = {
    'User-Agent' 
: 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.8'}

try:
    response = requests.get(url, headers=headers)
    resHtml = response.text

    html = etree.HTML(resHtml)
    result = 
 html.xpath('//div[contains(@id,"qiushi_tag")]')

    for site in result:
        item = {}

        imgUrl = site.xpath('./div//img/@src')[0].encode('utf-8')

        # print(imgUrl)
        username = site.xpath('./div//h2')[0].text
        # print(username)
        content = 
 site.xpath('.//div[@class="content"]/span')[0].text.strip().encode('utf-8')
        # print(content)
        # 投票次數
        vote = site.xpath('.//i')[0].text
        # print(vote)
        #print site.xpath('.//*[@class="number"]')[0].text
        # 評論信息
        comments = site.xpath('.//i')[1].text
        # print(comments)
        print imgUrl, username, content, vote, comments

except Exception, e:
    print e

演示效果

技術分享圖片

Python爬蟲(十七)_糗事百科案例

exce html str window path {} zh-cn use src 糗事百科實例爬取糗事百科段子，假設頁面的URL是: http://www.qiushibaike.com/8hr/page/1 要求：使用requests獲取頁面信息，用XPath/

Python爬蟲(十八)_多線程糗事百科案例

.json afa 安全 rip down 退出交互 encode tar 多線程糗事百科案例案例要求參考上一個糗事百科單進程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(隊列對象) Queue是pyth

Python爬蟲(十八)_多執行緒糗事百科案例

多執行緒糗事百科案例案例要求參考上一個糗事百科單程序案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(佇列物件) Queue是python中的標準庫，可以直接import Queue引用；佇列時執行緒間最常用的互動資料的形式。 pytho

python 多線程糗事百科案例

wow64 案例 sts ascii starting 頁面 don 示意圖 utf-8 案例要求參考上一個糗事百科單進程案例 Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python

Python爬蟲(十一)_案例：使用正則表達式的爬蟲

main try 不出測試 ref 分享圖片封裝 ram 成員方法本章將結合先前所學的爬蟲和正則表達式知識，做一個簡單的爬蟲案例，更多內容請參考:Python學習指南現在擁有了正則表達式這把神兵利器，我們就可以進行對爬取到的全部網頁源代碼進行篩選了。下面我們一

Python爬取多頁糗事百科

這次帶來的是如何爬取糗事百科且寫入txt文件大家都知道，糗事百科可以帶給大家很多快樂。在這裡，我們將實現對其內容的爬取，將這些好笑的段子記錄下來，可以讓我們打發無聊或沒網時的時間。當爬取我們想要的內容時，幾乎都離不開這幾個步驟： 1、網站地址； 2、獲取其原始碼； 3、匹配

Python爬蟲(十一)_案例：使用正則表示式的爬蟲

本章將結合先前所學的爬蟲和正則表示式知識，做一個簡單的爬蟲案例，更多內容請參考:Python學習指南現在擁有了正則表示式這把神兵利器，我們就可以進行對爬取到的全部網頁原始碼進行篩選了。下面我們一起嘗試一下爬取內涵段子網站： http://www.neihan8.

Python爬蟲(十九)_動態HTML介紹

JavaScript JavaScript是網路上最常用也是支持者對多的客戶端指令碼語言。它可以收集使用者的跟蹤資料，不需要過載頁面直接提交表單，在頁面嵌入多媒體檔案，甚至執行網頁遊戲。我們可以在網頁原始碼的<script>標籤裡看到，比如： <script type="te

Python爬蟲(十五)_案例：使用bs4的爬蟲

本章將從Python案例講起：所使用bs4做一個簡單的爬蟲案例，更多內容請參考:Python學習指南案例：使用BeautifulSoup的爬蟲我們已騰訊社招頁面來做演示：http://hr.tencent.com/position.php?&start=10#a

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

多線程糗事百科案例

一個 tag except 入隊 run cep thread ont global Queue（隊列對象） Queue是python中的標準庫，可以直接import Queue引用;隊列是線程間最常用的交換數據的形式 python下多線程的思考對於資源，加鎖是個重要的環

爬取糗事百科案例

from random import choice import requests import re user_agents=[ "User-Agent:Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHT

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 爬蟲--糗事百科段子

decode imp rst -a paragraph 糗事百科 mozilla ont ner import reimport urllib.requestfrom docx import Documentheader=("User-Agent",‘User-Agent:

Python 爬蟲系列：糗事百科最熱段子

image .get headers BE write findall parse 調用 with open 1.獲取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2頁 2.分析頁面，找到段子部分的位置，

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

Python爬蟲爬取糗事百科(xpath+re)

爬取糗事百科，用xpath、re提取 =================================================== ===================================================== 1 ''' 2 爬取醜事百科，頁面

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

Python爬蟲(十七)_糗事百科案例

糗事百科實例

要求：

參考代碼

演示效果

相關推薦