爬取貼吧頁面

阿新 • • 發佈：2018-06-04

turn tex max request 完成發送 span fragment 代碼

Get方式

GET請求一般用於我們向服務器獲取數據，比如說，我們用百度搜索傳智播客：https://www.baidu.com/s?wd=傳智播客

瀏覽器的url會跳轉成如圖所示:

技術分享圖片

https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2

在其中我們可以看到在請求部分裏，http://www.baidu.com/s? 之後出現一個長長的字符串，其中就包含我們要查詢的關鍵詞傳智播客，於是我們可以嘗試用默認的Get方式來發送請求。

from urllib import request, parse    # parse負責url編碼處理

url = "http://www.baidu.com/s"
word = {"wd":"傳智播客"}
word = parse.urlencode(word)  #轉換成url編碼格式（字符串）
newurl = url + "?" + word    # url首個分隔符就是 ?

headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}

req = request.Request(newurl, headers=headers)

response = request.urlopen(req)

print(response.read())

批量爬取貼吧頁面數據

首先我們創建一個python文件, tiebaSpider.py，我們要完成的是，輸入一個百度貼吧的地址，比如：

百度貼吧LOL吧第一頁：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二頁： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三頁： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其余的都是一樣的，我們可以抓住這個規律。

簡單寫一個小爬蟲程序，來爬取百度LOL吧的所有網頁。

先寫一個main，提示用戶輸入要爬取的貼吧名，並用 urllib.parse.urlencode()進行轉碼，然後組合url，假設是lol吧，那麽組合後的url就是：http://tieba.baidu.com/f?kw=lol

# 模擬 main 函數
if __name__ == "__main__":

    kw = input("請輸入需要爬取的貼吧:")
    # 輸入起始頁和終止頁，str轉成int類型
    beginPage = int(input("請輸入起始頁："))
    endPage = int(input("請輸入終止頁："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.parse.urlencode({"kw" : kw})

    # 組合後的url示例：http://tieba.baidu.com/f?kw=lol
    url = url + key
    tiebaSpider(url, beginPage, endPage)

接下來，我們寫一個百度貼吧爬蟲接口，我們需要傳遞3個參數給這個接口，一個是main裏組合的url地址，以及起始頁碼和終止頁碼，表示要爬取頁碼的範圍。

def tiebaSpider(url, beginPage, endPage):
    """
        作用：負責處理url，分配每個url去發送請求
        url：需要處理的第一個url
        beginPage: 爬蟲執行的起始頁面
        endPage: 爬蟲執行的截止頁面
    """


    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50

        filename = "第" + str(page) + "頁.html"
        # 組合為完整的 url，並且pn值每次增加50
        fullurl = url + "&pn=" + str(pn)
        #print(fullurl)

        # 調用loadPage()發送請求獲取HTML頁面
        html = loadPage(fullurl, filename)
        # 將獲取到的HTML頁面寫入本地磁盤文件
        writeFile(html, filename)

我們已經之前寫出一個爬取一個網頁的代碼。現在，我們可以將它封裝成一個小函數loadPage，供我們使用。

def loadPage(url, filename):
    ‘‘‘
        作用：根據url發送請求，獲取服務器響應文件
        url：需要爬取的url地址
        filename: 文件名
    ‘‘‘
    print("正在下載" + filename)

    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    req = urllibrequest.Request(url, headers = headers)
    response = request.urlopen(req)
    return response.read()

最後如果我們希望將爬取到了每頁的信息存儲在本地磁盤上，我們可以簡單寫一個存儲文件的接口。

def writeFile(html, filename):
    """
        作用：保存服務器響應文件到本地磁盤文件裏
        html: 服務器響應文件
        filename: 本地磁盤文件名
    """
    print "正在存儲" + filename
    with open(filename, ‘w‘, encoding=‘utf-8‘) as f:
        f.write(html)
    print "-" * 20

完整代碼:

from urllib import request, parse
import sys


def loadPage(url, filename):
    """
    作用: 根據url發送請求, 獲取服務器相應文件
    url: 需要爬取的url地址
    """
    print("正在下載" + filename)
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"
    }
    req = request.Request(url, headers=headers)
    # 獲得系統的編碼
    type = sys.getfilesystemencoding()
    # 設置爬出內容的編碼
    print(type)
    # ************************************************
    html = request.urlopen(req).read().decode(type)
    # ************************************************
    print(html)
    return html


def writePage(html, filename):
    """
    作用: 將html內容寫入到本地
    html: 服務器相應文件內容
    """
    print("正在保存" + filename)
    # ***********************************************
    with open(filename, "w", encoding="utf-8") as f:
        # ***********************************************
        f.write(html)
    print("*" * 30)


def tiebaSpider(url, bingenPage, endPage):
    """
    作用: 爬蟲爬蟲調度器, 負責組合處理每一個頁面的url
    url: 貼吧url的前部分,
    beginPage: 起始頁
    endPage: 終止頁
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        filename = " 第" + str(page) + "頁.html"
        fullurl = url + "&pn=" + str(pn)
        print(fullurl)
        html = loadPage(fullurl, filename)
        writePage(html, filename)


if __name__ == "__main__":
    kw = input("請輸入需要爬取的貼吧名:")
    beginPage = int(input("請輸入起始頁編號"))
    endPage = int(input("請輸入結束頁編號:"))
    url = "http://tieba.baidu.com/f?"
    key = parse.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

View Code

其實很多網站都是這樣的，同類網站下的html頁面編號，分別對應網址後的網頁序號，只要發現規律就可以批量爬取頁面了。

爬取貼吧頁面

turn tex max request 完成發送 span fragment 代碼 Get方式 GET請求一般用於我們向服務器獲取數據，比如說，我們用百度搜索傳智播客：https://www.baidu.com/s?wd=傳智播客瀏覽器的url會跳轉成如圖所示

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

urllib:爬取貼吧靜態資料

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在Python中有很多庫可以用來抓取網頁，其中最常用的就是urllib。 urllib庫的基本使用 urllib提供了一系列用於操作URL的功能

簡單的爬取貼吧案例

思路：用迴圈爬取n（任意數字）頁程式碼，然後儲存在檔案裡一共三個函式： get_html函式是用來爬取頁面 save_html函式用來把爬取來的頁面程式碼儲存在檔案中 main作為主函式程式碼如下： from urllib.request import

爬取貼吧裡的任意一張圖片

爬取百度貼吧隨便一頁裡的圖片想爬圖片了，玩玩 import re import urllib user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ headers = {‘User-Agent’:user_agent}

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

初涉爬蟲時的requests庫---爬取貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。下面就是運用requests模組，實現一個簡單的爬取貼吧網

Python爬取貼吧帖子內容

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 09:58:09 2018 @author: wangf """ import re import requests import urllib #處理頁面標籤

爬蟲Spider--爬取貼吧

輸入起始頁的靈活爬取 # - * - coding: UTF-8 - * - """ import urllib2 url = "http://www.baidu.com" #IE 9.0 的 User-Agent，包含在 ua_header裡 ua_header = {"User-Agent

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

python爬蟲四：爬取貼吧資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

Python爬取貼吧多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的，加了迴圈也不行，現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

python 用BeautifulSoup爬取貼吧圖片

# _*_ coding:utf-8 _*_ import urllib from bs4 import BeautifulSoup def get_content(url): """ doc.""" html = urllib.urlopen(url) content

python-關於爬蟲爬取貼吧圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求：爬取百度貼吧圖片,翻頁，下載圖片儲存到本地 # 流程： # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

抓取貼吧

enc -a htm urlopen tieba html dex NPU __main__ import osimport urllib.requestfrom urllib import parse#https://tieba.baidu.com/f?kw=%E7%B

爬蟲框架Scrapy入門——爬取acg12某頁面

ima 需要 random 代碼定義 ons tps 框架 resp 1.安裝1.1自行安裝python3環境1.2ide使用pycharm1.3安裝scrapy框架2.入門案例2.1新建項目工程2.2配置settings文件2.3新建爬蟲app新建app將start_u

爬取貼吧頁面

Get方式

批量爬取貼吧頁面數據

簡單寫一個小爬蟲程序，來爬取百度LOL吧的所有網頁。

完整代碼:

相關推薦