【Python學習筆記】爬蟲基礎(獲取網頁資訊)

阿新 • • 發佈：2021-02-09

前往：我自己搭建的部落格

所用版本：Python 3.6

利用urllib.request.urlopen()獲取指定網頁的原始碼，並存入一個物件中。用這個物件的read()和decode()方法進行讀取和解碼。urllib.request.urlopen()預設獲取一個get請求的響應，如果使用data引數，則為post請求。為了應對某些網站的反爬機制，需要程式偽裝成真實使用者，封裝一個請求物件。

# -*- coding: utf-8 -*-
import urllib.request
import urllib.parse

#獲取一個get請求的響應
response=urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode("utf-8")) #獲取網頁內容
print(response.status) #獲取狀態碼
print(response.getheaders()) #獲取請求的頭部資訊
print(response.getheader('Server')) #獲取頭部資訊中的某個特定值

#處理網頁超時，程式卡死的情況
try:
    response=urllib.request.urlopen("http://www.baidu.com",timeout=3)
except urllib.error.URLError as e:
    print("time out")

#獲取一個post請求的響應
data=bytes(urllib.parse.urlencode({"name":"Martin"}),encoding="utf-8")
response=urllib.request.urlopen("http://httpbin.org/post",data=data)

#偽裝成真實使用者
url="https://www.douban.com"
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"}
request=urllib.request.Request(url=url,headers=headers)
response=urllib.request.urlopen(request)

【Python學習筆記】爬蟲基礎(獲取網頁資訊)

前往：我自己搭建的部落格所用版本：Python 3.6 利用urllib.request.urlopen()獲取指定網頁的原始碼，並存入一個物件中。用這個物件的read()和decode()方法進行讀取和解碼。urllib.request.urlopen()預設獲取一

【Python學習筆記】關於sys.argv和C#與python的傳參

參考的youtube視訊連結一開始覺得比起百度，Google搜尋效率更高。現在發現，原來Youtube才是解決問題最高效的辦法……感謝所有樂於分享的小夥伴們！！！

【Linux學習筆記】Linux基礎

Unix/Linux架構由內到外：硬體-核（Kernel）-Shell-應用 Process vs. Threads 程序與執行緒

【Python學習筆記】----讓你的程式碼更pythonic

技術標籤：python # -*- coding:UTF-8 -*- # pythonic """# 對某個範圍進行迭代 for i in range(6):

python public_【Python學習筆記】35、使用模組

技術標籤：python publicpython函式裡面引用外部變數word 故障模組名稱: ntdll.dll模組不存在:public

【Python學習筆記】04 程式的構成

技術標籤：Python學習筆記python 本系列為自己學習Python的筆記，如有誤，歡迎大家指正。

【python學習筆記】文字檔案操作之os模組

1、獲取幫助文件 help(os) 2、獲取當前檔案所在目錄 filePath = os.getcwd() print(filePath)C:\\Users\\zz\\PycharmProjects\\OJ\\simple

【python學習筆記】openpyxl操作excel高階操作

path = os.path.join(os.getcwd(), \'專案1\', \'問題單總體彙總.xlsx\') wb = openpyxl.load_workbook(path, data_only=True)# 增加data_only=True引數，讀取單元格的內容不會顯示為公式

【python學習筆記】--語法

1.編碼可以全域性修改，參考上篇，也可以針對具體某一個檔案修改其編碼方式，修改方法：

【Python學習筆記】之基本整合庫

1. 使用開源演算法庫opencv 需要先安裝相關的庫檔案 pip3 install opencv-contrib-python 如果下載速度太慢可以更換下載源，使用如下命令

【Python學習筆記】之格式化輸入輸出

1. python3設定print輸出不換行函式原型 print(*objects, sep=\' \', end=\'\\n\', file=sys.stdout, flush=False)

【Python學習筆記七】從配置檔案中讀取引數

將一些需要更改或者固定的內容存放在配置檔案中，通過讀取配置檔案來獲取引數，這樣修改以及使用起來比較方便

【Python學習日記】B站小甲魚：爬蟲

Web Spider Python 如何訪問網際網路 URL + lib -->urllib 　　URL的一般格式為 protocol://hostname[:port] / /path /[;parameters][?query]#fragment，其中[]為可選項

【Python學習筆記八】用threading.Thread實現多執行緒執行

工作中寫自動化指令碼時遇到一個問題：長按一個控制元件後，出現控制元件內容變化，然後校驗內容。開始寫的時候每次走到校驗的步驟時，其實前面長按的動作已經結束了，校驗總是失敗。

【學習筆記】5g基礎自學

概述：通訊現代通訊的基礎都是以電磁理論作為基礎的。無論是有線通訊還是無線通訊；

【Java學習筆記】【基礎篇】07.JavaDoc

JavaDoc 1.介紹 JavaDoc是一種將註釋生成HTML文件的技術，生成的HTML文件類似於Java的API，易讀且清晰明瞭。

【Java學習筆記】【基礎篇】06.包機制

包機制 1.問題發現當定義了多個類的時候，可能會發生類名的重複問題。就好比一個資料夾下不能存在同名的檔案，我們要是有這樣的需求，但是又不想換名字，我們就可以考慮使用新建一個資料夾來存放。在Java中也是這樣

【Java學習筆記】【基礎篇】05.運算子

運算子 Java支援如下運算子：算術運算子：+，-，*，/，%，++，-- 賦值運算子：=

【Java學習筆記】【基礎篇】04.變數與常量

變數與常量 1、變數變數(variable)，就是可以變化的量。我們通過變數來操縱儲存空間中的資料，變數就是指代這個儲存空間。空間位置是確定的，但是裡面放置什麼值不確定。

【Java學習筆記】【基礎篇】03.資料型別轉換

資料型別轉換由於Java是強型別語言，所以要進行有些運算的時候的，需要用到型別轉換。整型、實型（常量)、字元型資料可以混合運算。

【Python學習筆記】爬蟲基礎(獲取網頁資訊)

前往：我自己搭建的部落格

相關推薦