爬取百度貼吧圖片

阿新 • • 發佈：2018-11-11

本次文章內容是爬取貼吧圖片，希望對大家有所幫助

使用環境：我用的是python2.7.9
在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。

urllib2.urlopen()變成了urllib.request.urlopen()
urllib2.Request()變成了urllib.request.Request()

如果有的用的是python3以後的版本，記得改一下哦

一、獲取要爬取的貼吧的網址

開啟瀏覽器，找到我們想爬取的貼吧，獲取其網址
在這裡插入圖片描述

二、獲取頁面原始碼

利用下面函式來獲取原始碼

def gethtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

三、匹配的圖片地址

首先，我們開啟第一步的網址，右擊審查元素，在審查元素中找到圖片的地址，觀察其地址的格式
在這裡插入圖片描述

這裡，我匹配的是bpic等於的那個網址，從這我們可以看到圖片的地址是以.jpg結尾，利用正則進行匹配

  reg = r'bpic="(.*?\.jpg).*?pic'

這裡括號所括住的部分，正是我們所需要的地址

(.*?)是進行最小匹配，是非貪婪模式

\ 是轉義字元

四、儲存圖片至本地

存入本地

urllib.urlretrieve(imgurl, '%s.jpg' % x)

或者可以存至自己新建的資料夾

f = open('tupian/'+str(x)+'.jpg', 'wb')
f.write((urllib2.urlopen(imgurl)).read())
f.close()

五、完整程式碼呈現

程式碼中有中文時，完整新增的是 # - * - coding:utf-8 - * -

#coding:utf8只是簡寫

此程式中，共用到三個庫：

import re
import urllib

import urllib2

#程式碼中有中文時，需加#coding:utf8
# coding:utf8

#匯入需要的模組，這裡需要re模組匹配正則，urllib模組獲取網頁原始碼，urllib2模組將獲取的圖片存入資料夾中
import re
import urllib
import urllib2

#獲取網頁原始碼的函式
def gethtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#獲取圖片的函式
def getimg(html):
    #利用正則獲取圖片的網址
    reg = r'bpic="(.*?\.jpg).*?pic'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    #此變數x用於下載圖片時為圖片命名
    x=0
    for imgurl in imglist:
        #這個print可以用於檢驗匹配出的圖片地址
        print imgurl
        #第一種：下載圖片，儲存到本地
        #urllib.urlretrieve(imgurl, '%s.jpg' % x)
        #第二種：將下載好的檔案存入一個資料夾中.(wb存入時會刪除此資料夾原有的圖片)
        f = open('tupian/'+str(x)+'.jpg', 'wb')
        f.write((urllib2.urlopen(imgurl)).read())
        f.close()
        x+=1
html = gethtml("http://tieba.baidu.com/f?ie=utf-8&kw=風景")
getimg(html)

結果呈現
在這裡插入圖片描述

以上就是爬取貼吧圖片的全部過程

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

爬取百度貼吧中的圖片以及視訊

將爬取下來的內容儲存到本地 import re import time import urllib import requests from lxml import etree class ImmgeSpider: def __init__(self): self.hea

Python爬取百度貼吧的圖片

Python是一個弱型別的動態語言下面是我的第一個簡單的爬蟲指令碼程式 #coding=gbk #匯入re和urlLib兩個庫 import re import urllib #定義一個有參的獲得圖片的方法,方法名為getImg def getImg(url):

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

ulrlib案例-爬取百度貼吧

request class clas uml sleep 很多下載變化 random 1.任務需求百度貼吧有很多主題，每個主題下的網頁存在很多分頁。爬取不同的主題，並下載每個主題下的多頁網頁。輸入貼吧名稱，下載相應貼吧的多頁網頁，設置最多下載50頁。 2.分析

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

使用者輸入關鍵字，爬取百度貼吧

爬取百度貼吧 #coding=utf-8 import urllib2 import urllib def loadPage(url, filename): ''' 作用:根據url傳送請求，獲取伺服器響應檔案 url:需要爬取的url地址

簡單爬蟲，爬去百度貼吧圖片

思路： 1.根據初始url獲取網頁內容 2.根據網頁內容獲取總頁數及所有頁面的url 3.根據每頁的url，將網頁下載到本地 4.讀取本地檔案從檔案中解析出所有的jpg圖片的url 5.用圖片的url下載圖片並儲存成指定的資料夾 6.批量下載圖片，預設儲存到當前目錄下 7

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

Python爬取百度貼吧標題

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 10:22:07 2018 @author: wangf """ from urllib.request import urlopen import codecs from

爬取百度貼吧圖片

相關推薦