【Pyhton網路爬蟲】網路請求使用的urllib模組

阿新 • • 發佈：2019-02-10

python的簡單，讓我很是喜歡。所以在練習爬蟲和介面測試的時候，使用python來幫助進行網路請求。

Python2.x中會使用的標準庫有urllib、urllib2；

Python3.x中使用的就只有urllib（是urllib和urllib2的結合）；

其實還有很實用的requests第三方庫，什麼框架類的就不用再多說了，基礎最重要。

先看一個簡單的例子：

1.python3.x使用urllib.request請求網路，新增header有兩種方式：

a.使用urllib.request.build_opener建立一個opener物件，使用這個物件進行header的新增或更新addheaders

，在使用這個opener物件訪問網址opener.open(url)。

b.使用urllib.request.Request常見一個Request物件，通過這個物件來進行add_header()來操作header，最後使用urllib.request.urlopen(req)。

2.Python2.x使用urllib和urllib2進行帶有header的網路請求：

a.header使用字典型別的，可以先進行編碼header = urllib.urlencode(header),然後將header資料通過 urllib2.Request(url,headers=self.headers)建立要給request物件，再通過urllib2.urlopen(request)傳送請求。

3.簡單介紹一下老二和老三的關係：

a.在Python2.X中使用import urllib——對應的，在Python3.X中會使用import urllib.request，urllib.error，urllib.parse。

b.在Python2.X中使用import urlparse——對應的，在Python3.X中會使用import urllib.parse。

c.在Python2.X中使用import urllib2——對應的，在Python3.X中會使用import urllib.request，urllib.error。

d.在Python2.X中使用import urllib2.urlopen——對應的，在Python3.X中會使用import urllib.request.urlopen。

e.在Python2.X中使用import urllib.urlencode——對應的，在Python3.X中會使用import urllib.parse.urlencode。

f.在Python2.X中使用import urllib.quote——對應的，在Python3.X中會使用import urllib.request.quote。

g.在Python2.X中使用import cookielib.CookieJar——對應的，在Python3.X中會使用import http.CookieJar。

h.在Python2.X中使用import urllib2.Request——對應的，在Python3.X中會使用import urllib.request.Request。

i.在Python2.X中使用import urllib.urlretrieve()——對應的，在Python3.X中會使用import urllib.request.urlretrieve。

Urlretrieve執行的過程中，會產生一些快取，如果我們想清除這些快取資訊，可以使用urlcleanup()進行清除，輸入如下程式碼即可清除Urlretrieve執行所造成的快取：

上面可以簡單的瞭解Urllib相關模組中從Python2.X到Python3.X的一些小小的變動，以方便後續的開發使用（相關的程式碼隨後有時間貼上）。

【Pyhton網路爬蟲】網路請求使用的urllib模組

python的簡單，讓我很是喜歡。所以在練習爬蟲和介面測試的時候，使用python來幫助進行網路請求。 Python2.x中會使用的標準庫有urllib、urllib2； Python3.x中使用

【網路爬蟲】：Python：url基礎：urllib

文章目錄 1 簡單介紹 2 相關區別 3 例項講解（1）urllib （2）ulrlib2 （3）httplib （4）requests 4 專案實戰 1 簡單介紹

【網路爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

一、寫在前面上篇文章以網易微博爬蟲為例，給出了一個很簡單的微博爬蟲的爬取過程，大概說明了網路爬蟲其實也就這麼回事，或許初次看到這個例子覺得有些複雜，不過沒有關係，上篇文章給的例子只是讓大家對爬蟲過程有所瞭解。接下來的系列裡，將一步一步地剖析每個過程。現

【網路爬蟲】使用HttpClient4.3.5抓取資料

使用jar——Apache client 程式碼結構：具體程式碼：抓取結果封裝 /** * 抓取結果的封裝 * @author tsj-pc * */ public class CrawlResultPojo { pri

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

引言：從網路提取資料的需求和重要性正在變得越來越迫切。每隔幾個星期，我都會發現自己需要從網路中提取資料。例如，上週我們正在考慮建立一個關於網際網路上可用的各種資料科學課程的熱度和情緒指數。這不僅需要找到新的課程，而且還要抓住網路的評論，然後在

【iOS解決方案】網路請求返回GB2312格式的xml資料轉成UTF-8後為空（適用於論壇bbs）

一些高校的bbs由於歷史久遠，沒有適應新的資料結構，請求返回的資料還是xml格式的，而現在常用的返回是json，這是個很頭疼的地方，碰到的問題網上很難搜到資料，走了很多彎路。現在具體講一下在解析返回xml過程中碰到的問題，希望能有些借鑑： 1.xml編碼問題：對

精通Python網路爬蟲之網路爬蟲學習路線【普及貼】

隨著大資料時代的到來，人們對資料資源的需求越來越多，而爬蟲是一種很好的自動採集資料的手段。那麼，如何才能精通Python網路爬蟲呢？學習Python網路爬蟲的路線應該如何進行呢？在此為大傢俱體進行介紹。 1、選擇一款合適的程式語言事實上，Python、PHP、JAVA

【網路爬蟲】爬取豆瓣電影Top250評論

前言本爬蟲大致流程為：（1）分析網頁——分析網站結構（2）傳送請求——通過requests傳送請求（3）響應請求——得到請求響應的頁面（4）解析響應——分析頁面，得到想要的資料（5）儲存文字——以txt格式儲存使用環境 anaconda3 pyt

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：解析html, xml的jsoup，

【Python3網路爬蟲】 requests庫的使用

1.requests庫可以使Cookies,登陸驗證，代理設定更加簡單。一段程式碼，去對比urllib庫的使用：import requests r = requests.get('https://www

【Python3爬蟲】網路小說更好看？十四萬條書籍資訊告訴你

一、前言簡述　　因為最近微信讀書出了網頁版，加上自己也在閒暇的時候看了兩本書，不禁好奇什麼樣的書更受歡迎，哪位作者又更受讀者喜歡呢？話不多說，爬一下就能有個瞭解了。二、頁面分析　　首先開啟微信讀書：https://weread.qq.com/，往下拉之後可以看到有榜單推薦，而且顯示總共有2

【資訊視覺化】網路輿情監控系統創意視覺化設計

Figure 1: An overview of my visualization design. Figure 2: The mouseover event of the picture on the curve.

python學習筆記：網路請求——urllib模組

python操作網路，也就是開啟一個網站，或者請求一個http介面，可以使用urllib模組。urllib模組是一個標準模組，直接import urllib即可，在python3裡面只有urllib模組，在python2裡面有urllib模組和urllib2模組 Urllib是python內

【網路程式設計】網路程式設計筆記

https://blog.csdn.net/bandaoyu/article/details/83312754 Windows下C語言的Socket程式設計例子 https://blog.csdn.net/bandaoyu/article/details/83312102

網路爬蟲（二）urllib包使用

隨著網路的快速發展，全球資訊網成為了大量資訊的載體，如何有效地獲取那些對我們而言有用的資訊呢？一種可行的工具就是網路爬蟲。可以把全球資訊網想象成一張“蜘蛛網”，我們日常訪問的京東，百度，

網路爬蟲中Jsoup請求

jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。下面是我寫的一個案例歡迎大家參考： import java.io.IOE

【文文殿下】網路流學習筆記

最大流演算法 Dinic 割一個網路的割：存在一個邊集，刪去集合裡的邊時，S-T不再連通最小割所有割中邊權之和最小的最小割-最大流定理最小割等於最大流二分圖匹配 \(M\)為邊集\(E\)的一個子集，如果對於任何一個點，都最多被\(M\)中一條邊覆蓋，則成\(M\)為一個匹配。

2018.10.10【CQOI2015】【BZOJ3931】【洛谷P3171】網路吞吐量（最短路）（最大流）

洛谷傳送門解析：好粗暴的最短路加最大流。。。思路：首先題目要求資料沿最短路傳遞，而且題目都說了DijkstraDijkstraDijkstra，怎麼還有人寫SPFASPFASPFA，不怕被卡嗎？於是，我們先DijkstraDijkstraDijks

【文文殿下】網路流24題計劃

飛行員配對方案問題題目背景第二次世界大戰時期.. 題目描述英國皇家空軍從淪陷國徵募了大量外籍飛行員。由皇家空軍派出的每一架飛機都需要配備在航行技能和語言上能互相配合的2 名飛行員，其中1 名是英國飛行員，另1名是外籍飛行員。在眾多的飛行員中，每一名外籍飛行員都可以與其他若干名英國飛行員很好地配合

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

爬取前程無憂職位資訊此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.（ps：首先你要安裝好模組openpyxl否則就點選右上角離開，百度搜素安裝.）選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息，想想就順手寫了一個為方便尋找滿足自己要

【Pyhton網路爬蟲】網路請求使用的urllib模組

1.python3.x使用urllib.request請求網路，新增header有兩種方式：

2.Python2.x使用urllib和urllib2進行帶有header的網路請求：

3.簡單介紹一下老二和老三的關係：

相關推薦