Python 中利用urllib2簡單實現網頁抓取

阿新 • • 發佈：2019-02-16

網頁抓取就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。

在Python中，可以使用urllib2這個模組來抓取網頁,模組提供了讀取web頁面資料的介面，我們可以像讀取本地檔案一樣讀取www和ftp上的資料.

HTTP是基於請求和應答機制的：客戶端提出請求，服務端提供應答。

以下實現了最簡單的urllib2抓取網頁。

1.獲取整個頁面資料

#!/usr/bin/env python
import urllib2
def GetHtml(url):
      response = urllib2.urlopen(url)
      HtmlPage = response.read()
      return HtmlPage
print GetHtml('http://www.baidu.com')

#!/usr/bin/env python
import urllib2
def GetHtml(url):
      req = urllib2.Request(url)
      response = urllib2.urlopen(req）
      HtmlPage = response.read()
      return HtmlPage
print GetHtml('http://www.baidu.com')

以上兩種形式一樣。urllib2用一個Request物件來對映提出的HTTP請求，將請求的地址建立一個Request物件，

通過呼叫urlopen並傳入Request物件，響應後將返回response檔案物件，再呼叫read()函式讀取抓取的網頁內容。

2.獲取頁面中特定的資料

假設我想要獲取這一網頁點選開啟連結的所有小黃人的圖片

點選某一圖片的審查元素找到圖片的地址

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib
import re
def  GetHtml(url):
        response = urllib.urlopen(url)
        HtmlPage = response.read()
        return HtmlPage
def  GetImg( HtmlPage):
        Img=re.compile(r'src="(.+?\.img)" '）
        ImgList = re.findall(Img,HtmlPage)
        count = 1
        for ImgURL in ImgList：
              urllib.urlretrieve(ImgURL,'%s.img' % count)
              count+=1
HtmlPage = GetHtml(<span style="font-size:14px;">'http://www.3lian.com/gif/2014/09-17/60992.html</span>')
print GetImg(HtmlPage)

urllib.urlretrieve()方法，直接將遠端資料下載到本地。(注: urllib2沒有urlretrieve這個方法）

通過一個for迴圈對獲取的每個圖片的連線進行遍歷，儲存的位置預設為程式的存放目錄。

修改上面的程式新增迴圈可以爬多張網頁的圖。

# -*- coding: utf-8 -*-  
import urllib 
import re

def GetHtml(url):
      i=1
      count = 1
      for i in range(1,5):
           URL = url + str(i)
           response = urllib.urlopen(URL)
           HtmlPage = response.read()                            
           Img=re.compile(r'src="(.+?\.jpg)" ')  
           ImgList = re.findall(Img,HtmlPage)  
 
           for ImgURL in ImgList:
                 urllib.urlretrieve(ImgURL,'%s.jpg' % count)  
                 count+=1  
print GetHtml ('https://mm.taobao.com/json/request_top_list.htm?type=0&page=')

若urllib.urlretrieve('http:' +ImgURL,'%s.jpg' % count) 變成urllib.urlretrieve(ImgURL,'%s.jpg' % count)

則會出現以下錯誤，但是爬單張網頁不會出錯。

以上程式碼可稍微改變一點實現任意頁面的圖片抓取。

# -*- coding: utf-8 -*-  
import urllib 
import re

def GetHtml(url,start_page,end_page):
      count = 1
      for i in range(start_page,end_page):
           URL = url + str(i)
           response = urllib.urlopen(URL)
           HtmlPage = response.read()                            
           Img=re.compile(r'src="(.+?\.jpg)" ')  
           ImgList = re.findall(Img,HtmlPage)  
 
           for ImgURL in ImgList:
                 urllib.urlretrieve('http:' +ImgURL,'%s.jpg' % count)  
                 count+=1  
start_page = int(raw_input(u'please input the start_page:\n'))
end_page = int (raw_input(u'please input the end_page:\n'))
print GetHtml ('https://mm.taobao.com/json/request_top_list.htm?type=0&page=',start_page,end_page)

Python 中利用urllib2簡單實現網頁抓取

網頁抓取就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。在Python中，可以使用urllib2這個模組來抓取網頁,模組提供了讀取web頁面資料的介面，我們可以像讀

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

python中利用numpy.array()實現倆個數值列表的對應相加

小編想把用python將列表[1,1,1,1,1,1,1,1,1,1] 和列表 [2,2,2,2,2,2,2,2,2,2]對應相加成[3,3,3,3,3,3,3,3,3,3]。程式碼如下： import numpy a = numpy.array([1,1,1,1,1,1,1,1,1

給Python中通過urllib2.urlopen獲取網頁的過程中，新增gzip的壓縮與解壓縮支援

之前已經實現了用Python獲取網頁的內容，相關已實現程式碼為： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

python中利用opencv簡單做圖片比對

python環境中，利用opencv對二值單通道圖片進行比對下面程式碼中利用了兩種比對的方法，一對圖片矩陣（m x m）求解特徵值，通過比較特徵值是否在一定的範圍內，判斷圖片是否相同。二對圖片矩陣（m x m）中1求和，通過比較sum和來比較圖片。

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

Python3網路爬蟲(一)：利用urllib進行簡單的網頁抓取

執行平臺：Windows Python版本：Python3.x IDE：Sublime text3 一直想學習Python爬蟲的知識，在網上搜索了一下，大部分都是基於Python2.x的。因此打算寫一個Python3.x的爬蟲筆記，以便後續回顧

JAVA實現網頁抓取(htmlunit)

準確條件加入依賴jar包 <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId&

[爬蟲入門]Python中使用scrapy框架實現圖片爬取

轉載： https://www.jianshu.com/p/c1704b4dc04d 連結中作者寫的十分詳細，雖然示例中的網站已經無法訪問，但是零基礎效仿也能試著自己做！真的很良心的文章，作為零基礎入門的小白可以靠看註釋和函式關係猜測出函式用法

一個簡單的網頁抓取工具

前兩天遇到一個妹子，她說不會從拉網頁，我想用node做個網頁抓取工具是何嘗的簡單，於是裝x之路開始了。其實想法很簡單，由網址得到html，由html解析css，js，image等，分別下載就行了，一個難點就在路徑的解析上，一般的的頁面是域名的，例如www.baidu.com。而有的頁面是http://

python Scrapy框架2—簡單的資料抓取

python Scrapy框架2—資料抓取 spider中的流程 spider資料抓取在scrapy框架中，我們通過命令 scrapy crawl itcast 去執行spiders中的python指令碼。這裡的itcast 是name中的內容兩種初

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

python中利用list實現stack

class mystack（）： def __init__(self): self.maxsize=5000 self.max=-1 self.l1=[] def setmaxsize(self,s): if isinstance(s,int)=

java中利用IO流實現簡單的圖書管理系統（利用陣列和IO實現）

這個案例，主要對陣列及IO流進行總結！利用IO流實現簡單的圖書管理系統，在控制檯上列印！功能：1，檢視所有書籍 2，新增書籍 3，刪除書籍 4，修改書籍 5，退出 package com.baojian.bookStore; import java.io.Buf

利用html中的div標籤實現網頁中某一塊區域的自動滾動

在web頁面中，有一塊固定大小的區域。在此區域中顯示的資料由於條件不同而顯示的資料也不同，有的時候顯示的資料非常的多，會超出此區域的大小範圍，而有的時候很少。所以希望有一種設定，能根據資料的多少，在固定區域中自動產生滾動條。在web頁面中div標籤就可以滿足此要求。html程

Python網頁抓取urllib,urllib2,httplib[3]

使用urllib2，太強大了試了下用代理登陸拉取cookie，跳轉抓圖片...... 直接上demo程式碼了包括：直接拉取，使用Reuqest(post/get),使用代理，cookie,跳轉處理 #!/usr/bin/python # -*- coding:u

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

引言：從網路提取資料的需求和重要性正在變得越來越迫切。每隔幾個星期，我都會發現自己需要從網路中提取資料。例如，上週我們正在考慮建立一個關於網際網路上可用的各種資料科學課程的熱度和情緒指數。這不僅需要找到新的課程，而且還要抓住網路的評論，然後在

如何用Python，C#等語言去實現抓取靜態網頁+抓取動態網頁+模擬登陸網站

轉自：背景在網路，網頁，網站處理方面，很多人都遇到過，想要用某種語言（Python，C#等），去實現一些需求，常見的有這幾大類：想要從某靜態網頁中，提取某些內容想要抓取某些動態網頁中的某些內容想要模擬登陸某個網站對於這類需求，其基本的背後邏輯，都是相

（資料科學學習手札107）在Python中利用funct實現鏈式風格程式設計

> 本文示例程式碼已上傳至我的`Github`倉庫[https://github.com/CNFeffery/DataScienceStudyNotes](https://github.com/CNFeffery/DataScienceStudyNotes) # 1 簡介　　鏈式程式設計是一種非常高效的

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

Python 中利用urllib2簡單實現網頁抓取

相關推薦