Python爬蟲--urllib

阿新 • • 發佈：2018-12-09

urllib包含模組：

-urllib.request：開啟和讀取urls

-urllib.error：包含urllib.request產生的常見的錯誤，使用try捕捉

-urllib.parse：包含即系url的方法，把一些資料進行編碼

-urllib.robotparse：解析robots.txt檔案

from urllib import request

if __name__ == '__main__':
    url="http://www.baidu.com"
    #開啟相應的url並把相應頁面作為返回
    html = request.urlopen(url)
    #把返回結果讀取出來並解碼成字串
    res = html.read().decode()
    print(res)

這就是最簡單的一個使用urllib爬取百度原始碼的爬蟲

現在我們可以利用request和parse模組來做一個簡單的搜尋引擎

"""
簡單易懂的搜尋引擎
"""
from urllib import parse,request

url = "http://www.baidu.com/s?"
wd = input("請輸入關鍵字:")

#弄成一個字典
qs = {
    "wd":wd
}
#使用urllib模組裡面的parse把輸入的文字編碼，加密，成為電腦認識的形式
qs = parse.urlencode(qs)
#列印你輸入的文字的編碼
print(qs)

flag = url + qs
#列印你最終搜尋的url
print(flag)

rsp = request.urlopen(flag)
html = rsp.read().decode()

#輸出原始碼
print(html)

首先我們先把輸出的文字進行編碼，然後再把url和編碼後的格式相接，再使用request獲取原始碼，這就是一個簡單的利用百度搜索了。

python 爬蟲urllib基礎示例

urllib 爬蟲基礎環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

Python爬蟲-urllib的基本用法

quest resp lan roc 用法 rom handler baidu github from urllib import response,request,parse,error from http import cookiejar if __name__

python爬蟲 urllib庫基本使用

afa 識別 urllib spa response aid gen odin pos 以下內容均為python3.6.*代碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的基本用法解析網頁 #導入urllib from u

python爬蟲urllib庫使用

urllib包括以下四個模組：　　1.request:基本的HTTP請求模組，可以用來模擬傳送請求。就像在瀏覽器裡輸入網址然後回車一樣，只需要給庫方法傳入URL以及額外的引數，就可以模擬實現這個過程。　　2.error：異常處理模組　　3.parse：提供了許多URL處理方法，如拆分、解析、合併等

1.0 -Python爬蟲-Urllib/Requests

0 爬蟲準備工作參考資料 python網路資料採集，圖靈工業出版精通Python爬蟲框架Scrapy，人民郵電出版社 Python3網路爬蟲 Scrapy官方教程前提知識 url http協議 web前端，h

Python 爬蟲 urllib模組：get方式

本程式以爬取百度首頁為例格式：匯入urllib.request 開啟爬取的網頁: response = urllib.request.urlopen('網址') 讀取網頁程式碼: html = response.read() 列印:

Python 爬蟲 urllib模組：post方式

本程式以爬取 'http://httpbin.org/post' 為例格式：匯入urllib.request 匯入urllib.parse 資料編碼處理，再設為utf-8編碼: bytes(urllib.parse.urlenco

Python爬蟲--urllib

urllib包含模組： -urllib.request：開啟和讀取urls -urllib.error：包含urllib.request產生的常見的錯誤，使用try捕捉

python爬蟲urllib庫詳解

什麼是Urllib Urllib是python內建的HTTP請求庫，中文文件如下：https://docs.python.org/3/library/urllib.html包括以下模組urllib.request 請求模組urllib.error 異常處理模組urllib.parse url解析模組urll

Python 爬蟲 --- urllib

-s 屬性 proc tpc urlopen fire res win mat 對於互聯網數據，Python 有很多處理網絡協議的工具，urllib 是很常用的一種。一、urllib.request，request 可以很方便的抓取 URL 內容。 urllib.req

(二)python爬蟲urllib庫的基本使用及瞭解第一小節

urllib庫是python官方提供的一個http請求庫,在python3中的urllib庫其實是把python2裡的urllib庫和urllib2整合在一起的.我們這裡主要說的就是python3首先開發環境:系統: windows10開發語言: Python3IDE: py

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

Python爬蟲：認識urllib/urllib2以及requests

更多查看 sts urllib2 chrome 超時設置 word 3.0 erro 首先說明一下我的爬蟲環境是基於py2.x的，為什麽用這個版本呢，因為py2.x的版本支持的多，而且一般會使用py2.x環境，基本在py3.x也沒有太大問題，好了，進入正題！ urlli

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

本文列出了使用python進行爬蟲時所需的常用庫和工具的安裝過程，基本上只有幾行命令列的功夫就可以搞定，還是十分簡單的。一、UrlLib 與 Re 這兩個庫是python的內建庫，若系統中已經成功安裝了python的話，這兩個庫一般是沒有什麼問題的。驗證開啟命令列，進入

python爬蟲系列(1.2-urllib模組中request 常用方法)

一、request.Request方法的使用上一章節中介紹了request.urlopen()的使用,僅僅的很簡單的使用,不能設定請求頭及cookie的東西,request.Request()方法就是進一步的包裝請求. 1、原始碼檢視引數 class Request: &nb

python爬蟲系列(1.1-urllib中常用方法的介紹)

一、關於urllib中常用方法的介紹 1、urlopen網路請求 urlopen方法是網路請求的方法,預設是get請求,如果傳遞了data是post請求 from urllib import request

python爬蟲系列(4.5-使用urllib模組方式下載圖片)

一、回顧urllib包中下載圖片的方式 1、urlretrieve下載檔案 from urllib import request if __name__ == "__main__": # 下載整個網頁

Python爬蟲--urllib

相關推薦