爬蟲（Xpath）——爬tieba.baidu.com (bug)

阿新 • • 發佈：2018-06-01

tieba 數據 http lis __name__ gin lencod 問題： agen

工具：python3

問題：在執行loadPage時遇到了問題，

link_list = content.xpath(‘//div[@class="t_con cleafix"]/div/div/div/a/@href‘)
這個正則表達式在xpath helper中能夠找到對應的href值，如圖：

技術分享圖片

但是在在執行程序時 link_list = content.xpath(‘//div[@class="t_con cleafix"]/div/div/div/a/@href‘) 返回的列表值為空，如圖：

技術分享圖片

嘗試進入兩個輸出的fullurl均能正確進入網頁，說明上一步傳入的網址是沒有錯誤的呀!

到底是什麽原因呢？

import 
 urllib.request
import re
from lxml import etree


class Spider:
    def __init__(self):
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36",
        }

    def loadPage(self, link):
        """
        下載頁面
         
"""
        print("正在下載數據。。。。。。")

        request = urllib.request.Request(link, headers=self.headers)
        html = urllib.request.urlopen(request).read()
        # html = html.decode("utf-8")

        with open("meinvba.txt", "w") as f:
            f.write(str(html))

        # 獲取每頁的HTML源碼字符串
        # 
 html = html.decode("gbk")


        # 解析html文檔為HTML DOM類型
        content = etree.HTML(html)
        print(content)
        # 返回所有匹配成功的列表集合
        link_list = content.xpath(‘//div[@class="t_con cleafix"]/div/div/div/a/@href‘)
        print(link_list)
        for i in link_list:
            print("__4__")
            fulllink = "http://tieba.baidu.com" + i
            self.loadImage(fulllink)
        print("___3___")

    # 取出每個帖子的圖片鏈接
    def loadImage(self, link):
        request = urllib.request.Request(link, headers=self.headers)
        html = urllib.request.urlopen(request).read()
        content = etree.HTML(html)
        link_list = content.xpath(‘//img[@class="BDE_Image"]/@src‘)
        print("____1____")
        for link in link_list:
            self.writeImage(link)

    def writeImage(self, link):
        request = urllib.request.Request(link, headers=self.headers)
        image = urllib.request.urlopen(request).read()
        filename = link[-5:]
        print("___2____")
        with open(filename, "wb") as f:
            f.write(image)
        print("*"*30)

    def startWork(self, kw, beginpage, endpage):
        """
        控制爬蟲運行

        """
        url = "http://tieba.baidu.com/f?"
        key = urllib.parse.urlencode({"kw": kw})
        print("key:" + key)
        fullurl = url + key
        for page in range(int(beginpage), int(endpage) + 1):
            pn = (page - 1)*50
            fullurl = fullurl + "&pn=" + str(pn)

            self.loadPage(fullurl)
            # print("fullurl:" + fullurl)



if __name__ == "__main__":
    tiebaSpider = Spider()
    kw = input("請輸入要爬取的貼吧名：")
    beginpage = input("請輸入起始頁：")
    endpage = input("請輸入結束頁：")

    tiebaSpider.startWork(kw, beginpage, endpage)

好想知道哪裏出了錯誤啊！！！

爬蟲（Xpath）——爬tieba.baidu.com (bug)

tieba 數據 http lis __name__ gin lencod 問題： agen 工具：python3 問題：在執行loadPage時遇到了問題， link_list = content.xpath(‘//div[@class="t_con cleafix"]/

消息隊列（轉）https://zhidao.baidu.com/question/1822088046009192748.html

類別比較 p s 聊天庫存很好 rec 幫助開發一、消息隊列概述　　消息隊列中間件是分布式系統中重要的組件，主要解決應用耦合，異步消息，流量削鋒等問題。實現高性能，高可用，可伸縮和最終一致性架構。是大型分布式系統不可缺少的中間件。　　目前在生產環境，使用較多的消息

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

爬蟲（GET）——爬取多頁的html

調度不同 odin 新建文件內容存儲 rom 寫入 adp 工具：python3 目標：將編寫的代碼封裝，不同函數完成不同功能，爬取任意頁數的html 新學語法：with open as 除了有更優雅的語法，with還可以很好的處理上下文環境產生的

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

java爬蟲（Jsoup）爬取某站點評論

在上一篇中，我們抓取到了新聞的標題，超連結和摘要，這次我們通過新聞的超連結，進入新聞的評論頁，然後爬取評論！先看下評論頁的標籤：主要是尋找id為“art_content”的標籤下的 id為“text”下的“div”標籤。程式碼： p

python爬蟲（17）爬出新高度_抓取微信公眾號文章（selenium+phantomjs）（下）（windows版本）

前兩天在linux 上面寫了一版爬取微信公眾號的文章今天重新修改一下，讓它在windows上面也能執行執行下面的程式碼需要安裝以下內容： pip install pyquery pip install requests pip install selenium

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

PyQt5與爬蟲（一）——爬取某站動畫每週列表

某站動畫列表PyQt程式截圖，可以點選圖片按鈕，然後會開啟谷歌瀏覽器到你選擇的動漫介面。貼程式碼：main.pyfrom PyQt5.QtWidgets import QWidget,QApplication import sys from MyWidget import W

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

python爬蟲（Xpath）

import requests from lxml import etree url = 'http://tieba.baidu.com/p/2166231880' header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1

python爬蟲（三）爬取網易雲音樂歌曲列表

1.開啟網易雲音樂列表，按F12，選擇Doc模式，方便檢視。2.檢視網頁的請求方式--get請求3.檢視header4. 在Preview中搜索任意一首歌曲，比如：無由可以看到，歌曲列表在‘ul’標籤中，那麼我們可以通過Be阿UtigulSoup去搜索明晰了結構，就可以寫程式

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

零基礎掌握百度地圖興趣點獲取POI爬蟲（python語言爬取）（基礎篇）

region map 基礎輸入 filter put mark page -h 實現目的：爬取昆明市範圍內的全部中學數據，包括名稱、坐標。先進入基礎篇，本篇主要講原理方面，並實現步驟分解，為python代碼編寫打基礎。因為是0基礎開始，所以講得會比較詳細。如實現目的

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

爬蟲（Xpath）——爬tieba.baidu.com (bug)

相關推薦