初涉爬蟲時的requests庫---爬取貼吧內容

阿新 • • 發佈：2018-12-11

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。

下面就是運用requests模組，實現一個簡單的爬取貼吧網頁的爬蟲程式。該栗子建立一個類，方便有需要時直接呼叫繼承。

閒言少敘，上菜！！！接程式碼！！！

看著程式碼挺多，去掉註釋，所剩無幾，這也是python魅力所在，哈哈哈！！！

import requests
class Tiebaspider:
    def __init__(self,tieba_name_crawl):
        #初始化必要引數，完成基礎的設定
        #貼吧名稱
        self.tiebaname = tieba_name_crawl
        #種子連結 
        self.url_base = 'https://tieba.baidu.com/f?kw='+ tieba_name_crawl +'&ie=utf-8&pn={}'
        #請求頭資訊 
        self.hearders  = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'}

    #獲得要的頁面下載列表
    def make_list_down(self):
        #列表生成式  返回值是下載連結，帶有頁碼
        # return [self.url_base.format(i) for i in range(3)]
        #注意注意注意！！！貼吧的原始碼HTML是50條翻一頁，pn=50，想要獲得第二頁pn值要大於50，依次類推
        return [self.url_base.format(i) for i in [0,55,102]]

    #獲得下載的頁面內容
    def download_url(self,url_str):
        #獲得頁面請求響應   使用request.get方法下載指定頁面，並返回頁面的結果
        #url_str下載連結
        result = requests.get(url_str,headers =self.hearders)
        # print(result.text)
        #返回下載的頁面內容
        return result.content
    #儲存下載的內容
    def save_result(self,result,page_num):
    #路徑（相對/絕對都可以）
        file_path = 'D:/4spider/spider_review02/review02/download2/{}--第{}頁.html'.format(self.tiebaname,page_num)
        with open(file_path,'wb') as f:
            f.write(result)

#執行邏輯，程式執行的順序
    def run(self):
        #呼叫make_list_down（）方法
        url_list = self.make_list_down()
        #url_str在url_list中  迴圈遍歷
        for url_str in url_list:
            #呼叫download_url（） 方法
            result_str = self.download_url(url_str)
            #頁碼 索引值在獲得的頁碼列表中 迴圈加1
            p_num = url_list.index(url_str) + 1
            #呼叫save_result()方法儲存，儲存下載的頁面
            self.save_result(result_str,p_num)

if __name__ =="__main__":
#“李毅”要爬取的貼吧名稱
    tieba_spider = Tiebaspider("李毅")
    tieba_spider.run()

注意點：：：

1.學好爬蟲的前提HTML頁面要666，對css，js，json，ajax等前端頁面的知識要會分析；比如此例中，要對貼吧原始碼進行分析，檢視下一頁的樣式，不然無法實現翻頁功能，也就是隻能獲得第一頁；

2.分析這種簡單爬蟲時，要從run方法入手，它是程式的主要實現邏輯；

3.儲存的路徑必須是程式能夠找到的路徑；

4.最好運用面向物件的方法來解決問題，建立類，封裝函式，也就是造輪子，方便下次要實現類似的需求時，作為參考。

初涉爬蟲時的requests庫---爬取貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。下面就是運用requests模組，實現一個簡單的爬取貼吧網

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

之前分享了一篇使用requests庫爬取豆瓣電影250的文章，今天繼續分享使用xpath爬取貓眼電影熱播口碑榜 XPATH語法 XPATH(XML Path Language)是一門用於從XML檔案中查詢資訊的語言。通用適用於從HTML檔案中查詢資料。工欲善其事必先利其器，我們首先來了解XPATH常用的語法

爬蟲Spider--爬取貼吧

輸入起始頁的靈活爬取 # - * - coding: UTF-8 - * - """ import urllib2 url = "http://www.baidu.com" #IE 9.0 的 User-Agent，包含在 ua_header裡 ua_header = {"User-Agent

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

python爬蟲四：爬取貼吧資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

python-關於爬蟲爬取貼吧圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求：爬取百度貼吧圖片,翻頁，下載圖片儲存到本地 # 流程： # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

python使用requests庫爬取網頁的小實例：爬取京東網頁

try Coding get 代碼 cep .get style ppa print 爬取京東網頁的全代碼： #爬取京東頁面的全代碼 import requests url="https://item.jd.com/2967929.html" try:

爬取貼吧頁面

turn tex max request 完成發送 span fragment 代碼 Get方式 GET請求一般用於我們向服務器獲取數據，比如說，我們用百度搜索傳智播客：https://www.baidu.com/s?wd=傳智播客瀏覽器的url會跳轉成如圖所示

urllib:爬取貼吧靜態資料

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在Python中有很多庫可以用來抓取網頁，其中最常用的就是urllib。 urllib庫的基本使用 urllib提供了一系列用於操作URL的功能

簡單的爬取貼吧案例

思路：用迴圈爬取n（任意數字）頁程式碼，然後儲存在檔案裡一共三個函式： get_html函式是用來爬取頁面 save_html函式用來把爬取來的頁面程式碼儲存在檔案中 main作為主函式程式碼如下： from urllib.request import

爬取貼吧裡的任意一張圖片

爬取百度貼吧隨便一頁裡的圖片想爬圖片了，玩玩 import re import urllib user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ headers = {‘User-Agent’:user_agent}

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

Python爬取貼吧帖子內容

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 09:58:09 2018 @author: wangf """ import re import requests import urllib #處理頁面標籤

Python爬取貼吧多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的，加了迴圈也不行，現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

python 爬蟲（五）爬取多頁內容

import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

初涉爬蟲時的requests庫---爬取貼吧內容

相關推薦