Urllib模塊使用

阿新 • • 發佈：2017-11-30

保存 file 構建 live 使用 print lib lencod user

Urllib2基礎操作

1、打開網頁(urlopen)

打開一個網頁

import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘)
html= response.read()
print html

urlopen一般常用的有三個參數，它的參數如下：

urllib.requeset.urlopen(url,data,timeout)

data參數的使用(GET)

import urllib  
import urllib2  

data = {‘email‘:‘myemail‘, ‘password‘:‘password‘}  
params = urllib.urlencode(params) 
 
response= urllib.urlopen("%s?%s"%(uri, params))
code = response.getcode()

data參數的使用(POST)

import urllib  
import urllib2  

data = {‘email‘:‘myemail‘, ‘password‘:‘password‘}  
params = urllib.urlencode(data) 
response= urllib.urlopen(uri, params)
code = response.getcode()

所以如果我們添加data參數的時候就是以post請求方式請求，如果沒有data參數就是get請求方式

timeout參數的使用

在某些網絡情況不好或者服務器端異常的情況會出現請求慢的情況，請求設置一個超時時間

import urllib2

response = urllib2.urlopen(‘http://www.baidu.com‘, timeout=1)
print(response.read())

2、打開網頁(request)

打開一個網頁

import urllib.request

request = urllib.request.Request(‘https://www.baidu.com‘)
response = urllib.request.urlopen(request)
print(response.read().decode(‘utf-8‘))

指定請求頭

import urllib2

# 制定請求頭
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"}

# 封裝請求
request = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(request)
content = response.read().decode(‘utf-8‘)
print content

3、進階

增加代理

# 自定義headers
headers = {
    ‘Host‘:‘www.dianping.com‘,
    ‘Cookie‘: ‘JSESSIONID=F1C38C2F1A7F7BF3BCB0C4E3CCDBE245 aburl=1; cy=2;‘
    ‘User-Agent‘: "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5",
    }

proxy_handler = urllib2.ProxyHandler({‘http‘: ‘http://host:port‘})
opener = urllib2.build_opener(proxy_handler)
urllib2.install_opener(opener)
request = urllib2.Request(url, headers=headers)
response = urllib2.urlopen(request)
content = response.read().decode(‘utf-8‘)

操作cookie

import urllib2
import cookielib
import json

cookie = cookielib.CookieJar()
cookie_s = urllib2.HTTPCookieProcessor(cookie)  # 創建cookie處理器
opener = urllib2.build_opener(cookie_s)
# 構建opener
urllib2.install_opener(opener)
response= urllib2.urlopen(‘http://www.dianping.com‘).read()  # 讀取指定網站的內容  cj = urllib2.HTTPCookieProcessor(cookie)
print response    # 網頁HTML

# 查看cookie
print cookie, type(cookie)
for item in cookie:
    print ‘name:‘ + item.name + ‘-value:‘ + item.value

保存cookie

def saveCookie():
    # 設置保存cookie的文件
    filename = ‘cookie.txt‘
    # 聲明一個MozillaCookieJar對象來保存cookie，之後寫入文件
    cookie = cookielib.MozillaCookieJar(filename)
    # 創建cookie處理器
    handler = urllib2.HTTPCookieProcessor(cookie)
    # 構建opener
    opener = urllib2.build_opener(handler)
    # 創建請求
    res = opener.open(‘http://www.baidu.com‘)
    # 保存cookie到文件
    # ignore_discard的意思是即使cookies將被丟棄也將它保存下來
    # ignore_expires的意思是如果在該文件中cookies已經存在，則覆蓋原文件寫入
    cookie.save(ignore_discard=True, ignore_expires=True)

在文件中取出cookie

def getCookie():
    # 創建一個MozillaCookieJar對象
    cookie = cookielib.MozillaCookieJar()
    # 從文件中的讀取cookie內容到變量
    cookie.load(‘cookie.txt‘, ignore_discard=True, ignore_expires=True)
    # 打印cookie內容,證明獲取cookie成功
    for item in cookie:
        print ‘name:‘ + item.name + ‘-value:‘ + item.value
    # 利用獲取到的cookie創建一個opener
    handler = urllib2.HTTPCookieProcessor(cookie)
    opener = urllib2.build_opener(handler)
    res = opener.open(‘http://www.baidu.com‘)
    print res.read()

來個實例

def my_cookie_test():
    headers = {
        ‘User-Agent‘: "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5",
        ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
        ‘Accept-Language‘: ‘zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4‘,
        ‘Connection‘: ‘keep-alive‘,
        ‘Cookie‘: ‘cy=2; _lxsdk_cuid=16000a1a16cc8-0629d2ca3b9f7-40544230-100200-16000a1a16dc8; _lxsdk=16000a1a16cc8-0629d2ca3b9f7-40544230-100200-16000a1a16dc8; _lxsdk_s=16000a1a16f-c56-870-2aa%7C%7C23; _hc.v=44792549-7147-7394-ac0a-eefed1fa19a2.1511839081; s_ViewType=10‘,
        ‘Host‘: ‘www.dianping.com‘,
        ‘Referer‘: ‘http://www.dianping.com/shop‘,
        ‘Upgrade-Insecure-Requests‘: 1
    }
    # 請求cookie
    cj_a = cookielib.CookieJar()
    cj_s = urllib2.HTTPCookieProcessor(cj_a)
    proxy_s = urllib2.ProxyHandler({‘http‘: ‘0.0.0.0:8080‘})
    opener = urllib2.build_opener(proxy_s, cj_s)
    urllib2.install_opener(opener)
    try:
        request = urllib2.Request("http://www.dianping.com/shop/000000/", headers=headers)
        response = urllib2.urlopen(request)
        content = response.read().decode(‘utf-8‘)
        # HTML
        print content
        cookie_data = {}
        for item in cj_a:
            # print ‘請求之後：name:‘ + item.name + ‘-value:‘ + item.value
            cookie_data[item.name] = item.value
        cookie_str = json.dumps(cookie_data)
        with open(‘cookie.txt‘, ‘w‘) as f:
            f.write(cookie_str)
        print("cookies信息已保存到本地")
    except Exception as e:
        print e

網頁信息抽取。。。待下期。。。

Urllib模塊使用

全局變量 urllib模塊 json模塊

pycharm rtt _file__ info 必須地址老男孩是否一個 1、vars（）查看一個.py文件中的全局變量 print(vars())　　　　　#重點 __name__‘: ‘__main__　 ‘__file__‘: ‘

[Python3]HTTP處理 - urllib模塊

color sea 如何使用 code odin publish wiki 行數 search 概述 urllib是python最基礎、最核心的HTTP協議支持庫，諸多第三方庫都依賴urllib，所以urllib是必須掌握的HTTP庫。掌握了urllib有利於：

urllib模塊的使用

lin head timeout 對象 per iterable code tpm font Python3學習筆記（urllib模塊的使用） 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python學習筆記22（urllib模塊）

ror 轉換 decode urllib模塊 one 處理 context hello mpat Python3和Python2的urllib模塊不太一樣，本篇文章是以Python3為前提。 1.urlopen的使用 import urllib.request urll

Urllib模塊使用

保存 file 構建 live 使用 print lib lencod user Urllib2基礎操作 1、打開網頁(urlopen) 打開一個網頁 import urllib2 response = urllib2.urlopen(‘http://www.b

Python3之urllib模塊

time fault request 方法 encode 數據格式 5.0 urn imp 簡介　　urllib是python的一個獲取url(Uniform Resource Locators，統一資源定位符)，可以用來抓取遠程的數據。常用方法（1）urlopen

urllib 模塊 - module urllib

protoc sage module nbsp when type where glob delet 1 urllib 模塊 - urllib module 2 3 獲取 web 頁面, 4 html = urllib.request.u

urllib模塊中parse函數中的urlencode和quote_plus方法

生成變化嘗試 appid 微信 notify 固定 param reat 本來只是向看一下quote_plus的作用，然後發現urlencode方法也是很方便的一個組合字符串的方法首先是介紹一下urlencode，他是將一些傳入的元素使用&串聯起來，效果如下：

【轉】Python3學習筆記（urllib模塊的使用）

nal 方法 utf 網址 pin des IE tps erer 原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html 1.基本方法 urllib.request.urlopen(url, data=None, [ti

Python筆記（十三）：urllib模塊

二進制數據 print web 應用程序 IE query request file （一） URL地址 URL地址組件 URL組件說明 scheme 網絡協議或下載方案 net_loc 服務器所在地（也許含有用戶信息）

urllib 模塊 https://www.cnblogs.com/guishou/articles/7089496.html

數據 use pri present 打開 theme 感受獲取數據 erro 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=

爬蟲二（urllib模塊）

span 訪問 b2b sta 字符串 rom seq app IT 1、在python2和python3中的差異在python2中，urllib和urllib2各有各自的功能，雖然urllib2是urllib的升級版，但是urllib2還是不能完全替代urllib，但是

urllib模塊

hook parse del ads stat class lena retrieve filename f = request.urlopen(url)f.status 獲取status，　　 f.reason獲取狀態碼 f.getheaders()獲取請求頭（鍵值對）f

python學習筆記：網絡請求——urllib模塊

.com auto pos code html 數據 () python學習標準 python操作網絡，也就是打開一個網站，或者請求一個http接口，可以使用urllib模塊。urllib模塊是一個標準模塊，直接import urllib即可，在python3裏面只有ur

爬蟲小試--用python中requests和urllib模塊爬取圖片

源碼一個 -- .text 本地 requests style intel 加載今天突發奇想小試爬蟲,獲取一下某素材站一些圖片實現步驟如下: import re import requests from urllib import request import os

Python urllib 模塊

參數圖片 tmp目錄地址 ssa gen 隨機命名 https urllib 可以用來打開各種協議的URL，常用方法如下： urllib.urlretrieve(url, filename=None)：用於下載URL鏈接對應的內容，如下，下載一張圖片 In [

模塊urllib requests json xml configparser 學習筆記

iter gpa get section 根節點 element empty remove pretty 發起http請求獲取返回值返回值是字符串第三方模塊安裝 pip install requests 返回值格式 xml html jaon json 功能

模塊與包

文件 clas cal 12px ... log 綁定運行查看一：模塊一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。模塊分類有：1：內建模塊，python‘自帶’的模塊，如os、sys 2

eclipse 創建maven模塊

點擊 -1 eba app 1-1 clip module project 過程先創建一個聚合模塊。勾選Create a simple project 點擊finish 。看到已經創建好了這個聚合。接下來我們創建子模塊。pay-hk

Python篇1.15---模塊與包

def lob 是否函數 16px ont 針對自己的 bsp 一.模塊 1 什麽是模塊？一個模塊就是一個包含了python定義和聲明的文件，文件名就是模塊名字加上.py的後綴。 2 為何要使用模塊？如果你退出python解釋器然後重新進入，那麽你之

Urllib模塊使用

Urllib2基礎操作

1、打開網頁(urlopen)

2、打開網頁(request)

3、進階

來個實例

相關推薦