Python學習之旅（二十八）

阿新 • • 發佈：2018-12-09

Python基礎知識（27）：常用內建模組（Ⅲ）

1、urlblib

urllib提供了一系列用於操作URL的功能

url是統一資源定位符，對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示，是網際網路上標準資源的地址

網際網路上的每個檔案都有一個唯一的URL，它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它

（1）GET

urllib的request模組可以非常方便地抓取URL內容，也就是傳送一個GET請求到指定的頁面，然後返回HTTP的響應

#對豆瓣的一個URLhttps://api.douban.com/v2/book/2129650進行抓取，並返回響應
from urllib import 
 request
with request.urlopen('https://api.douban.com/v2/book/2129650') as f:
    data = f.read()
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', data.decode('utf-8'))

結果：
Status: 200 OK
Date: Sun, 09 Dec 2018 01:23:48 GMT
Content-Type: application/json; charset=utf-8
Content 
-Length: 2138
Connection: close
Vary: Accept-Encoding
X-Ratelimit-Remaining2: 99
X-Ratelimit-Limit2: 100
Expires: Sun, 1 Jan 2006 01:00:00 GMT
Pragma: no-cache
Cache-Control: must-revalidate, no-cache, private
Set-Cookie: bid=fdBz3SLSf0s; Expires=Mon, 09-Dec-19 01:23:48 GMT; Domain=.douban.com; Path=/
X-DOUBAN-NEWBID: fdBz3SLSf0s
X 
-DAE-Node: brand55
X-DAE-App: book
Server: dae
X-Frame-Options: SAMEORIGIN
Data: {"rating":{"max":10,"numRaters":16,"average":"7.4","min":0},"subtitle":"","author":["廖雪峰"],...}

如果我們要想模擬瀏覽器傳送GET請求，就需要使用Request物件，通過往Request物件新增HTTP頭，我們就可以把請求偽裝成瀏覽器

#模擬iPhone 6去請求豆瓣首頁
from urllib import request
req = request.Request('http://www.douban.com/')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
with request.urlopen(req) as f:
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))

結果：
<title>豆瓣(手機版)</title>
        <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
        <meta name="viewport" content="width=device-width, height=device-height, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">
        <meta name="format-detection" content="telephone=no">
        <link rel="canonical" href="
http://m.douban.com/">
        <link href="https://img3.doubanio.com/f/talion/4b1de333c0e597678522bd3c3af276ba6c667b95/css/card/base.css" rel="stylesheet">

（2）POST

如果要以POST傳送一個請求，只需要把引數data以bytes形式傳入

#模擬微博登入，先讀取登入的郵箱和口令
from urllib import request, parse

print('Login to weibo.cn...')
email = input('Email: ')
passwd = input('Password: ')
login_data = parse.urlencode([
    ('username', email),
    ('password', passwd),
    ('entry', 'mweibo'),
    ('client_id', ''),
    ('savestate', '1'),
    ('ec', ''),
    ('pagerefer', 'https://passport.weibo.cn/signin/welcome?entry=mweibo&r=http%3A%2F%2Fm.weibo.cn%2F')
])

req = request.Request('https://passport.weibo.cn/sso/login')
req.add_header('Origin', 'https://passport.weibo.cn')
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
req.add_header('Referer', 'https://passport.weibo.cn/signin/login?entry=mweibo&res=wel&wm=3349&r=http%3A%2F%2Fm.weibo.cn%2F')

with request.urlopen(req, data=login_data.encode('utf-8')) as f:
    print('Status:', f.status, f.reason)
    for k, v in f.getheaders():
        print('%s: %s' % (k, v))
    print('Data:', f.read().decode('utf-8'))

結果：
Login to weibo.cn...
Email: email
Password: password
Status: 200 OK
Server: nginx/1.6.1
Date: Sun, 09 Dec 2018 02:01:40 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: close
Vary: Accept-Encoding
Cache-Control: no-cache, must-revalidate
Expires: Sat, 26 Jul 1997 05:00:00 GMT
Pragma: no-cache
Access-Control-Allow-Origin: https://passport.weibo.cn
Access-Control-Allow-Credentials: true
DPOOL_HEADER: 85-144-160-aliyun-core.jpool.sinaimg.cn
Set-Cookie: login=9da7cd806ada2c22779667e8e1c039c2; Path=/
Data: {"retcode":50011002,"msg":"\u7528\u6237\u540d\u6216\u5bc6\u7801\u9519\u8bef","data":{"username":"email","errline":669}}

（3）Handler

如果還需要更復雜的控制，比如通過一個Proxy去訪問網站，我們需要利用ProxyHandler來處理

import urllib
proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')
opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
with opener.open('http://www.example.com/login.html') as f:
    pass

2、XML

操作XML有兩種方法：DOM和SAX

DOM會把整個XML讀入記憶體，解析為樹，因此佔用記憶體大，解析慢，優點是可以任意遍歷樹的節點

SAX是流模式，邊讀邊解析，佔用記憶體小，解析快，缺點是我們需要自己處理事件

正常情況下，優先考慮SAX，因為DOM實在太佔記憶體

解析XML

在Python中使用SAX解析XML非常簡潔，通常我們關心的事件是start_element，end_element和char_data，準備好這3個函式，然後就可以解析xml了

<a href="/">python</a> ……start_element讀取<a href="/">，char_data讀取Python，end_element讀取</a>

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def start_element(self, name, attrs):
        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):
        print('sax:end_element: %s' % name)

    def char_data(self, text):
        print('sax:char_data: %s' % text)

xml = r'''<?xml version="1.0"?>
<ol>
    <li><a href="/python">Python</a></li>
    <li><a href="/ruby">Ruby</a></li>
</ol>
'''

生成XML

最簡單也是最有效的生成XML的方法是拼接字串

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(encode('some & data'))
L.append(r'</root>')
return ''.join(L)

生成複雜的XML要用JSON

3、HTMLParser

利用HTMLParser，可以把網頁中的文字、影象等解析出來

HTML本質上是XML的子集，但是HTML的語法沒有XML那麼嚴格，所以不能用標準的DOM或SAX來解析HTML。

好Python提供了HTMLParser來非常方便地解析HTML

from html.parser import HTMLParser
from html.entities import name2codepoint

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        print('<%s>' % tag)

    def handle_endtag(self, tag):
        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print('<!--', data, '-->')

    def handle_entityref(self, name):
        print('&%s;' % name)

    def handle_charref(self, name):
        print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('''<html>
<head></head>
<body>
<!-- test html parser -->
    <p>Some <a href=\"#\">html</a> HTML&nbsp;tutorial...<br>END</p>
</body></html>''')

結果：
<html>


<head>
</head>


<body>


<!--  test html parser  -->

    
<p>
Some 
<a>
html
</a>
 HTML tutorial...
<br>
END
</p>


</body>
</html>

feed()方法可以多次呼叫，也就是不一定一次把整個HTML字串都塞進去，可以一部分一部分塞進去。

特殊字元有兩種，一種是英文表示的 ，一種是數字表示的Ӓ，這兩種字元都可以通過Parser解析出來

Python學習之旅（二十八）

Python基礎知識（27）：常用內建模組（Ⅲ） 1、urlblib urllib提供了一系列用於操作URL的功能 url是統一資源定位符，對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示，是網際網路上標準資源的地址網際網路上的每個檔案都有一個唯一的URL，它包含的資訊指出檔案的位置以及

Python學習之旅（二十一）

Python基礎知識（20）：錯誤、除錯和測試一、錯誤處理在執行程式的過程中有可能會出錯，一般我們會在新增一段程式碼在可能出錯的地方，返回約定的值，就可以知道會不會出錯以及出錯的原因 1、使用try......except......finally......錯誤處理機制 try...可能會出異常

Python學習之旅（二十六）

Python基礎知識（25）：常用內建模組 1、datetime：處理日期和時間（1）獲取當前日期和時間 from datetime import datetime now = datetime.now() print(now) 結果： 2018-12-07 16:05:53.396953

Python學習之旅（二十九）

Python基礎知識（28）：常用第三方模組一、Pillow PIL（Python Imaging Library）：提供了強大的影象操作功能，可以通過簡單的程式碼完成複雜的影象處理，是Python平臺事實上的影象處理庫，支援Python 2.7以及更低的版本 Pillow：在PIL基礎上建立的相容版

Python學習之旅（三十八）

Python基礎知識（37）：訪問資料庫（Ⅱ）因臨近考試，本人即將進入複習階段，從明天12月19號至2019年的1月二十多號暫停更新二、MySQL MySQL是Web世界中使用最廣泛的資料庫伺服器。SQLite的特點是輕量級、可嵌入，但不能承受高併發訪問，適合桌面和移動應用。而MySQL是為伺服器端

Python學習之旅（二十）

mil 循環函數 type() 高級編程裝飾器 pri 綁定沒有 Python基礎知識（19）：面向對象高級編程（Ⅱ）定制類形如“__xx__”的變量或函數在Python中是有特殊用途的 1、__str__ 讓打印出來的結果更好看 __str__：面向用戶；__r

Android的DatePicker和TimePicker-android學習之旅（三十八）

cursor ini lis drawable textview @+ type pin view DatePicker和TimePicker簡單介紹 DatePicker和TimePicker是從FrameLayout繼承而來。他們都是比較簡單的組件

Spark學習之路（二十八）分布式圖計算系統

尺度內存底層 mapr 分區 ces 兩個傳遞方式 cat 一、引言　　在了解GraphX之前，需要先了解關於通用的分布式圖計算框架的兩個常見問題：圖存儲模式和圖計算模式。二、圖存儲模式　　巨型圖的存儲總體上有邊分割和點分割兩種存儲方式。2013年，Gra

Python學習之旅（三十一）

Python基礎知識（30）：圖形介面（Ⅰ） Python支援多種圖形介面的第三方庫：Tk、wxWidgets、Qt、GTK等等 Tkinter可以滿足基本的GUI程式的要求，此次以用Tkinter為例進行GUI程式設計一、編寫一個GUI版本的“Hello, world!” 本人使用的軟體是pych

Python學習之旅（三十四）

Python基礎知識（33）：網路程式設計（Ⅱ） UDP程式設計相對TCP，UDP則是面向無連線的協議使用UDP協議時，不需要建立連線，只需要知道對方的IP地址和埠號，就可以直接發資料包雖然用UDP傳輸資料不可靠，但它的優點是和TCP比，速度快，對於不要求可靠到達的資料，就可以使用UDP協議

Python學習之旅（三十五）

Python基礎知識（34）：電子郵件（Ⅰ）幾乎所有的程式語言都支援傳送和接收電子郵件在使用Python收發郵件前，請先準備好至少兩個電子郵件，如[email protected]，[email protected]，[email protected]等，注意兩個郵箱不要

Python學習之旅（三十七）

Python基礎知識（36）：訪問資料庫（Ⅰ）程式執行的時候，資料都是在記憶體中的。當程式終止的時候，通常都需要將資料儲存到磁碟上，無論是儲存到本地磁碟，還是通過網路儲存到伺服器上，最終都會將資料寫入磁碟檔案。而如何定義資料的儲存格式就是一個大問題。為了便於程式儲存和讀取資料，而且，能直接通過條件

Python學習之旅（三十二）

Python基礎知識（31）：圖形介面（Ⅱ） Python內建了turtle庫，可以在計算機上繪圖運動控制： 1、畫筆定位到座標（x，y）：turtle.goto(x,y) 2、向正方向運動 distance 長的距離：turtle.forward(distance) 3、向負方向運動 dista

python學習之旅（二）

Python基礎知識（1）一、變數變數名可以由字母、數字、下劃線任意組合而成。注意：1.變數名不能以數字開頭； 2.變數名不能為關鍵字； &n

記錄我的Python學習之旅（二）time庫的基本操作

1、time() 功能：獲取當前時間戳，即計算機內部時間值，浮點數 2、ctime() 功能：獲取當前時間並以易讀方式表示，返回字串 3、gmtime() 功能：獲取當前實踐，表示為計算機可處理的時間格式 4、時間格式化：如t=time.gmtime()

Python小白學習之路（二十一）—【迭代器】

迭代器 1.迭代器協議物件必須提供一個 next 方法，執行該方法要麼返回迭代中的下一項，要麼就引起一個Stoplteration異常，以終止迭代（只能往後走不能往前退） 2.可迭代物件實現了迭代器協議的物件（如何實現：物件內部定義一個_iter_()方法）協議是一種約定，可迭代物件實現了

Python小白學習之路（二十四）—【裝飾器】

裝飾器一、裝飾器的本質裝飾器的本質就是函式，功能就是為其他函式新增附加功能。利用裝飾器給其他函式新增附加功能時的原則： 1.不能修改被修飾函式的原始碼 2.不能修改被修飾函式的呼叫方式

unity官方demo學習之Stealth（二十四）敵人AI

1，新增指令碼檔案DoneEnemyAI using UnityEngine; using System.Collections; public class DoneEnemyAI : MonoBehaviour { public float patrolSpeed

Android日曆檢視（CalendarView）講解-android學習之旅（三十六）

CalendarView簡介 CalendarView用於顯示和選擇日期，如果希望監聽事件的改變可以用setOnDateChangeListener（）方法。 CalendarView屬性介紹

Android的stateListDrawable，layerDawable，clipdrawable，AnimationDarwable介紹-android學習之旅（五十五）

StatelistDrawable資源程式碼示例 <?xml version="1.0" encoding="utf-8"?> <selector xmlns:a

Python學習之旅（二十八）

Python基礎知識（27）：常用內建模組（Ⅲ）

1、urlblib

（1）GET

（2）POST

（3）Handler

2、XML

解析XML

生成XML

3、HTMLParser

相關推薦