python爬蟲常用模組及一些python標準庫

阿新 • • 發佈：2020-11-28

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲作者：py3study

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

python標準庫之urllib模組

涉及到網路這塊，必不可少的模式就是urllib.request了，顧名思義這個模組主要負責開啟URL和HTTP協議之類的

urllib最簡單的應用就是

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url 需要開啟的網址

data Post提交的資料

timeout 設定網站的訪問超時時間

urlopen返回物件提供方法

read() , readline() ,readlines() , fileno() , close() ：對HTTPResponse型別資料進行操作

geturl()函式返回response的url資訊，常用於url重定向的情況

info()函式返回response的基本資訊

getcode()函式返回response的狀態程式碼，最常見的程式碼是200伺服器成功返回網頁,404請求的網頁不存在，503伺服器暫時不可用

編寫一個testurllib.py來實驗一下，程式碼如下

#!/usr/bin/env python
# coding: utf-8
__author__ = 'www.py3study.com'
import urllib.request
import time
import platform
import os
def clear():
    '''該函式用於清屏'''
    print(u'內容較多，顯示3秒後翻頁')
    time.sleep(3)
    OS = platform.system()
    if (OS == u'Windows'):
        os.system('cls')
    else:
        os.system('clear')

def linkbaidu():
    url = 'https://www.baidu.com'
    try:
        response = urllib.request.urlopen(url, timeout=3)
    except urllib.request.URLError:
        print(u'網路地址錯誤')
        exit()
    with open('baidu.txt','w') as fp:
        fp.write(response.read().decode('utf-8'))
    print(u'獲取url資訊，response,geturl() \n: {}'.format(response.geturl()))
    print(u'獲取返回程式碼,response.getcode() \n:{}'.format(response.getcode()))
    print(u'獲取返回資訊，response.info() \n:{}'.format(response.info()))
    print(u'獲取的網頁內容以存放當前目錄baidu.txt中，請自行檢視')

if __name__ == '__main__':
    linkbaidu()

應該看到的效果

baidu.txt內容如下

python爬蟲常用模組及一些python標準庫

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

詳解python中的模組及包匯入

python中的匯入關鍵字：import 以及from import 1、import 　　import一般用於匯入包以及模組。

python字串常用方法及檔案簡單讀寫的操作方法

字串(sting)是 Python 中最常用的資料型別。我們可以使用引號(\'或\")來建立字元。

淺談Python中os模組及shutil模組的常規操作

如下所示： #os.listdir() 方法用於返回指定的資料夾包含的檔案或資料夾的名字的列表。這個列表以字母順序。它不包括 \'.\' 和\'..\' 即使它在資料夾中。

Python爬蟲headers處理及網路超時問題解決方案

1、請求headers處理　　我們有時請求伺服器時，無論get或post請求，會出現403錯誤，這是因為伺服器拒絕了你的訪問，這時我們可以通過模擬瀏覽器的頭部資訊進行訪問，這樣就可以解決反爬設定的問題。

Python之常用模組

Python之常用模組模組，用一砣程式碼實現了某個功能的程式碼集合。類似於函數語言程式設計和麵向過程程式設計，函數語言程式設計則完成一個功能，其他程式碼用來呼叫即可，提供了程式碼的重用性和程式碼間的耦合

Python爬蟲常用資料庫：Request 介紹講解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python的logging模組及應用

一、logging日誌模組等級常見log級別從高到低： CRITICAL 》ERROR 》WARNING 》INFO 》DEBUG，預設等級為WARNING，即>=WARNING級別的log才輸出。

【Python】常用模組logging模組配置魔板 basicConfig & logging_dict

1、日誌級別與配置 import logging # 一：日誌配置 logging.basicConfig( # 1、日誌輸出位置：1、終端 2、檔案

帶你瞭解python爬蟲requests模組&BeautifulSoup使用方式！

requests模組介紹相對於python自帶的urllib模組，requests模組提供了相對更高層的api來進行網頁訪問的工作。

python 爬蟲請求模組requests詳解

requests 相比urllib，第三方庫requests更加簡單人性化，是爬蟲工作中常用的庫 requests安裝

Python爬蟲常用：谷歌瀏覽器驅動——Chromedriver 外掛安裝教程

我們在做爬蟲的時候經常要使用谷歌瀏覽器驅動，今天分享下這個Chromedriver 外掛的安裝方法。

使用Pycharm(Python工具)新建專案及建立Python檔案的教程

建立專案首先開啟Pycharm 勾選I confirm that I have read and accept the terms of this User Agreement

ansible常用模組及引數(1)

ansible模組及引數(1) [root@m01 ~]# cat /etc/ansible/ansible.cfg #inventory= /etc/ansible/hosts#主機列表配置檔案

python -爬蟲學習2：獲取資料requests 庫

上一篇介紹的主要是爬蟲的工作原理，大致分為四個步驟：獲取資料解析資料提取資料儲存資料。這一篇主要就從獲取資料介紹起。

python爬蟲與資料視覺化——python爬蟲：補充SQLite

1.連線資料庫 2.建立資料表 3.插入資料 4.查詢資料

python爬蟲與資料視覺化——python爬蟲：儲存資料到SQLite

結果：

【Python】常用數值方法的python實現

目錄解非線性方程方法綜述問題分類求解一元方程解法一：SymPy.solve/nsolve函式求解

Python爬蟲入門（二）之Requests庫

Python爬蟲入門（二）之Requests庫我是照著小白教程做的，所以該篇是更小白教程hhhhhhhh

python研究obj檔案的包_Python標準庫04 檔案管理 (部分os包，shutil包)

技術標籤：python研究obj檔案的包在作業系統下，使用者可以通過作業系統的命令來管理檔案，參考linux檔案管理相關命令。Python標準庫則允許我們從Python內部管理檔案。相同的目的，我們有了兩條途徑。儘管在P