簡單爬蟲：re和urllib

阿新 • • 發佈：2019-02-10

通過python 來實現一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。

一，獲取整個頁面資料
首先我們可以先獲取要下載圖片的整個頁面資訊。

#spider1.py

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2460150866")

print html

　　Urllib 模組提供了讀取web頁面資料的介面，我們可以像讀取本地檔案一樣讀取www和ftp上的資料。首先，我們定義了一個getHtml()函式:

　　urllib.urlopen()方法用於開啟一個URL地址。

　　read()方法用於讀取URL上的資料，向getHtml()函式傳遞一個網址，並把整個頁面下載下來。執行程式就會把整個網頁列印輸出。

二，篩選頁面中想要的資料

　　Python 提供了非常強大的正則表示式，我們需要先要了解一點python 正則表示式的知識才行。

假如我們百度貼吧找到了幾張漂亮的圖片，通過到前端檢視工具。找到了圖片的地址，如：src=”http://imgsrc.baidu.com/forum……jpg” pic_ext=”jpeg”
這裡寫圖片描述
修改程式碼如下：

#spider2.py
import re
import 
 urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      

html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

上面正則表示式解釋：
src=r'"(.+?\.jpg)" pic_ext'

"           #匹配"

(.+?\.jpg)
# 括號表示分組，將括號的內容捕獲到分組當中
# .+表示匹配至少一個任意字元，問號?表示懶惰匹配，也就是匹配儘可能少的字串。
#  .+?\.jpg合起來表示儘可能少匹配字元的匹配到.jpg，避免匹配範圍超出src的範圍(其中\.中的\表示轉義字元)
#  這個括號也就可以匹配網頁中圖片的url了

"           #匹配"

pic_ext         #匹配 pic_ext

　　我們又建立了getImg()函式，用於在獲取的整個頁面中篩選需要的圖片連線。re模組主要包含了正則表示式：

　　re.compile() 可以把正則表示式編譯成一個正則表示式物件.

　　re.findall() 方法讀取html 中包含 imgre（正則表示式）的資料。

　　執行指令碼將得到整個頁面中包含圖片的URL地址。

三，將頁面篩選的資料儲存到本地
把篩選的圖片地址通過for迴圈遍歷並儲存到本地，程式碼如下：

#spider3.py
#conding:utf-8
import re
import urllib

def gethtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
def getimg(html):
    reg=r'src="(.+?\.jpg)" pic_ext'
    img=re.compile(reg)
    imglist=re.findall(img,html)
    return  imglist
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'E:\%s.jpg'% x)
        x+=1

if __name__=='__main__':
    html=gethtml("http://tieba.baidu.com/p/2460150866")
    img=getimg(html)
    print(img)

　　這裡的核心是用到了urllib.urlretrieve()方法，直接將遠端資料下載到本地。

　　通過一個for迴圈對獲取的圖片連線進行遍歷，為了使圖片的檔名看上去更規範，對其進行重新命名，命名規則通過x變數加1。儲存的位置預設為程式的存放目錄。

程式執行完成，將在目錄下看到下載到本地的檔案。

簡單爬蟲：re和urllib

通過python 來實現一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。一，獲取整個頁面資料首先我們可以先獲取要下載圖片的整個頁面資訊。 #spider1.py #coding=utf-8 import urllib def getHtml(u

爬蟲：Re庫的貪婪匹配和最小匹配

貪婪匹配 Re庫預設採用貪婪匹配，即輸出匹配最長的子串。 >>> import re >>> match=re.search(r'PY.*N','PYANBNCNDN') >>> match.group(0) 'PYANBNCNDN'

Android 簡單案例：onSaveInstanceState 和 onRestoreInstanceState

ted bsp raw hand current div set for hot import android.app.Activity; import android.os.Bundle; import android.view.View; import android

爬蟲：Re庫的match物件

OkHttp3簡單使用：請求和響應，post，get

一，HTTP請求、響應報文格式要弄明白網路框架，首先需要先掌握Http請求的，響應的報文格式。 HTTP請求報文格式: HTTP請求報文主要由請求行、請求頭部、請求正文3部分組成. request.png 請求行：由請求方法，URL，協議版本三部分構成，之

kotlin學習筆記：延遲載入的簡單介紹：lateinit和lazy

在使用kotlin開發中，因為各種原因，我們會經常需要使用到延遲載入的功能，目前kotlin的延遲載入主要有兩種：lateinit和lazy lateinit 的使用 lateinit是kotlin中的

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

python3.6簡單爬蟲：獲取電影的爛番茄指數（一）

載入包import requests from bs4 import BeautifulSoup獲取網站的urlurl = 'https://www.rottentomatoes.com/m/et_the_extraterrestrial' response = reque

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

本文列出了使用python進行爬蟲時所需的常用庫和工具的安裝過程，基本上只有幾行命令列的功夫就可以搞定，還是十分簡單的。一、UrlLib 與 Re 這兩個庫是python的內建庫，若系統中已經成功安裝了python的話，這兩個庫一般是沒有什麼問題的。驗證開啟命令列，進入

Python爬蟲：Request Payload和Form Data的簡單區別

Request Payload 和 Form Data 請求頭上的引數差別在於： Content-Type Form Data Post表單請求程式碼示例 headers = { "Content-Type": "application/x-www-form-urlen

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

python的requests類庫（一）requests庫和urllib包對比：一個簡單get請求

python中有多種庫可以用來處理http請求，比如python的原生庫：urllib包、requests類庫。urllib和urllib2是相互獨立的模組，python3.0以上把urllib和ur

DOM的概念和簡單應用：使用DOM解析XML數據

rop 手機實例 des dna 文檔轉換 .get val oms 概念：DOM是Document Object Model的簡稱，即文檔數據模型。 Oracle公司提供了JAXP（Java API for XML Processing）來解析XML。JAXP會把XML

反-反爬蟲：用幾行代碼寫出和人類一樣的動態爬蟲

簽名 lib rgs 常見 todo 只需要 website 結束 pro 歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：李大偉 Phantomjs簡介什麽是Phantomjs Phantomjs官網介紹是：不需要瀏覽器的完整web協議棧(Fu

python爬蟲(七)_urllib2：urlerror和httperror

mat 打開 urllib dfs prot 有用 esp except log urllib2的異常錯誤處理在我們用urlopen或opener.open方法發出一個請求時，如果urlopen或opener.open不能處理這個response，就產生錯誤。這裏主要說

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

Python爬蟲：認識urllib/urllib2以及requests

更多查看 sts urllib2 chrome 超時設置 word 3.0 erro 首先說明一下我的爬蟲環境是基於py2.x的，為什麽用這個版本呢，因為py2.x的版本支持的多，而且一般會使用py2.x環境，基本在py3.x也沒有太大問題，好了，進入正題！ urlli

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

簡單爬蟲：re和urllib

相關推薦