Python爬蟲-urllib的基本用法

阿新 • • 發佈：2018-06-01

quest resp lan roc 用法 rom handler baidu github

from urllib import response,request,parse,error
from http import  cookiejar



if __name__ == ‘__main__‘:
    #response = urllib.request.urlopen("http://www.baidu.com")
    #print(response.read().decode("utf-8"))

    #以post形式發送，沒有data就是get形式
    #請求頭
    #data = bytes(urllib.parse.urlencode({"word":"hello"}),encoding="utf-8") 

    #response = urllib.request.urlopen("http://httpbin.org/post",data=data)
    #print(response.read())

    #時間限制
    #response = urllib.request.urlopen("http://www.baidu.com",timeout=0.01)
    #print(response.read().decode("utf-8"))

    #響應處理
    #response = urllib.request.urlopen("http://www.python.org") 

    #print(type(response))
    #狀態碼
    #print(response.status)
    #相應頭
    #print(response.getheaders())
    #print(response.getheader("Server"))


    #復雜請求 request
    #request = urllib.request.Request("http://python.org")
    #response = urllib.request.urlopen(request)
    #print(response.read().decode("utf-8")) 


    #請求頭
    # add_header也可以
    """
    url = "http://httpbin.org/post"
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
        "Host":"httpbin.org"
    }
    dict = {
        "name":"Germey"
    }
    data = bytes(parse.urlencode(dict),encoding="utf8")
    req = request.Request(url,data,headers,method="POST")
    response = request.urlopen(req);
    print(response.read())
    """

    #代理
    """
    proxy_header = request.ProxyHandler({
        #代理IP
    })
    opener = request.build_opener(proxy_header)
    response = opener.open("http://httpbin.org/get")
    
    #cookies(維持登錄狀態)
    cookie = cookiejar.CookieJar()
    handler = request.HTTPCookieProcessor(cookie)
    opener = request.build_opener(handler)
    response = opener.open("http://www.baidu.com")
    """

    #保存cookies
    #MozillaCookieJar,LWPCookieJar

    #捕捉異常 基本上HTTPError或者URLError
    """
    try:
        response = request.urlopen("http://amojury.github.io")
    except error.URLError as e:
        print(e.reason)
    """

    #URL解析相關 urlparse urlunparse(反解析) urlencode(字典轉請求參數）
    #result = parse.urlparse("https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=python%20%E6%89%B9%E9%87%8F%E6%B3%A8%E9%87%8A&rsv_pq=f9b1a8b300011700&rsv_t=1252nVpaBhdm%2FEdlsdrPgUxIHLfk4QNB443eSTUKoRcHFx9G09YZi9N9Dvo&rqlang=cn&rsv_enter=1&rsv_sug3=9&rsv_sug1=8&rsv_sug7=101&rsv_sug2=1&prefixsug=python%2520%25E6%2589%25B9%25E9%2587%258F&rsp=0&inputT=10498&rsv_sug4=14994")
    #print(result)

quest resp lan roc 用法 rom handler baidu github from urllib import response,request,parse,error from http import cookiejar if __name__

python爬蟲 urllib庫基本使用

afa 識別 urllib spa response aid gen odin pos 以下內容均為python3.6.*代碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的基本用法解析網頁 #導入urllib from u

(二)python爬蟲urllib庫的基本使用及瞭解第一小節

urllib庫是python官方提供的一個http請求庫,在python3中的urllib庫其實是把python2裡的urllib庫和urllib2整合在一起的.我們這裡主要說的就是python3首先開發環境:系統: windows10開發語言: Python3IDE: py

python 爬蟲urllib基礎示例

urllib 爬蟲基礎環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

python,函式的基本用法

一.函式函式的概念:對功能或者動作的封裝可以幫我們把一段公共的程式碼提取出來語法如下 def 函式名(形參): 函式體函式名(實參) # 函式名() def yue(): print("1. 開啟手機") print("2. 開啟陌陌") print("3. 找個

python爬蟲urllib庫使用

urllib包括以下四個模組：　　1.request:基本的HTTP請求模組，可以用來模擬傳送請求。就像在瀏覽器裡輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的引數，就可以模擬實現這個過程。　　2.error：異常處理模組　　3.parse：提供了許多URL處理方法，如拆分、解析、合併等

python爬蟲一些基本編碼語句

#coding=utf-8 import requests import re from bs4 import BeautifulSoup #BeautifulSoup正則表示式搜尋 html = """ <html><head><title>The Dormo

1.0 -Python爬蟲-Urllib/Requests

0 爬蟲準備工作參考資料 python網路資料採集，圖靈工業出版精通Python爬蟲框架Scrapy，人民郵電出版社 Python3網路爬蟲 Scrapy官方教程前提知識 url http協議 web前端，h

python爬蟲之基本類庫

簡單梳理一下爬蟲原理：　　1、傳送請求　　　　通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的headers等資訊，等待伺服器響應。　　2、獲取響應內容　　　　如果伺服器能正常響應（正常響應返回狀態碼通常為200），會得到一個Response，Response的內

Python 爬蟲 urllib模組：get方式

本程式以爬取百度首頁為例格式：匯入urllib.request 開啟爬取的網頁: response = urllib.request.urlopen('網址') 讀取網頁程式碼: html = response.read() 列印:

Python 爬蟲 urllib模組：post方式

本程式以爬取 'http://httpbin.org/post' 為例格式：匯入urllib.request 匯入urllib.parse 資料編碼處理，再設為utf-8編碼: bytes(urllib.parse.urlenco

Python的Numpy基本用法-01

一些numpy裡面的基本方法 import numpy as np ar = np.array([[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8]]) #建立一個二維陣列 ar1 = np.arange(10) #建立一個0--10的一維陣列 ar2

Python爬蟲--urllib

urllib包含模組： -urllib.request：開啟和讀取urls -urllib.error：包含urllib.request產生的常見的錯誤，使用try捕捉

python的urllib.parse用法

urllib.parse解析 url:urllib.parse.urlparse(url, scheme='', allow_fragments=True) 簡單的使用： urlparse from urllib import request, parse2 #解析url p

python爬蟲urllib庫詳解

什麼是Urllib Urllib是python內建的HTTP請求庫，中文文件如下：https://docs.python.org/3/library/urllib.html包括以下模組urllib.request 請求模組urllib.error 異常處理模組urllib.parse url解析模組urll

Python--Matplotlib（基本用法）（轉載）

Matplotlib Matplotlib 是Python中類似 MATLAB 的繪圖工具，熟悉 MATLAB 也可以很快的上手 Matplotlib。 1. 認識Matploblib 1.1 Figure 在任何繪圖之前，我們需要一個Figure物件，可以理解成

Python 爬蟲 --- urllib

-s 屬性 proc tpc urlopen fire res win mat 對於互聯網數據，Python 有很多處理網絡協議的工具，urllib 是很常用的一種。一、urllib.request，request 可以很方便的抓取 URL 內容。 urllib.req

Python--Matplotlib（基本用法）

Matplotlib Matplotlib 是Python中類似 MATLAB 的繪圖工具，熟悉 MATLAB 也可以很快的上手 Matplotlib。 1. 認識Matploblib 1.1 Figure 在任何繪圖之前，我們需要一個Figur

python爬蟲(1)——基本知識和概念

python 基本語法 python 爬蟲的物件大部分都是文字，所以需要對python字串的用法熟悉。python中字串是由雙引號或者單引號中的字元組成。通常用到的字串操作有加法乘法、切片索引、格式化等加法和乘法字串的加法在python爬蟲

python訪問excel基本用法：openpyxl模組（一）

準備一個excel檔案，這裡是：e\t.xlsx，放檔案裡隨便寫幾條資料。注意：副檔名必須是xlsx（excel 2007及以上版本的），因為openpyxl模組只能處理xlsx檔案。一、安裝op

Python爬蟲-urllib的基本用法

相關推薦