python爬蟲(一)urllib庫基本使用
阿新 • • 發佈:2019-01-21
注,以下內容均為python3.5.*程式碼
學習爬蟲,首先有學會使用urllib庫,這個庫可以方便的使我們解析網頁的內容,本篇講一下它的主要用法
解析網頁
#!/usr/bin/env python3
# coding=utf-8
import urllib.request
request = urllib.request.Request("http://www.flycold.cn/python/test_post.html")
response = urllib.request.urlopen(request)
print (response.read())
POST個GET傳輸資料
#POST
values = {"username":"www.flycold.cn","passwd":"python"}
date = urllib.parse.urlencode(values).encode(encoding='UTF8')
url = "http://www.flycold.cn/python/check.php"
request = urllib.request.Request(url,date)
response = urllib.request.urlopen(request)
page = response.read().decode("utf8")
print(page)
#GET
values = {"username":"www.flycold.cn","passwd":"python"}
date = urllib.parse.urlencode(values)
url = "http://www.flycold.cn/python/check.php"
get_url = url + "?" + date
request = urllib.request.Request(get_url)
response = urllib.request.urlopen(request)
page = response.read().decode("utf8")
print(page)
這樣就模擬了簡單的登入,當然,大部分網站是無法這樣輕易的就登入的,但這段程式碼是模擬登入的核心。