不會Python的這幾個庫，我都不敢說會爬蟲

阿新 • • 發佈：2019-12-31

來源：JAVAandPython君

☞ 分享：最全最新的Python學習大禮包 ☜

很多朋友不知道Python爬蟲怎麼入門，怎麼學習，到底要學習哪些內容。今天我來給大家說說學習爬蟲，我們必須掌握的一些第三方庫。

廢話不多說，直接上乾貨。

請求庫

1. requests

GitHub：https://github.com/psf/requests

requests庫應該是現在做爬蟲最火最實用的庫了，非常的人性化。有關於它的使用我之前也寫過一篇文章一起看看Python之Requests庫，大家可以去看一下。

有關於requests最詳細的使用方法，大家可以參考官方檔案：https://requests.readthedocs.io/en/master/

小案例

>>> import requests
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'disk_usage' 
: 368627,112); word-wrap: inherit !important; word-break: inherit !important;" class="hljs-string">u'private_gists': 484, ...}
複製程式碼

2.urllib3

GitHub：https://github.com/urllib3/urllib3

urllib3是一個非常強大的http請求庫，提供一系列的操作URL的功能。

有關於它的詳細使用方法可以參考：https://urllib3.readthedocs.io/en/latest/

使用小案例：

import urllib3
>>> http = urllib3.PoolManager()
>>> r = http.request('GET' 
,112); word-wrap: inherit !important; word-break: inherit !important;" class="hljs-string">'http://httpbin.org/robots.txt')
>>> r.status
200
>>> r.data
'User-agent: *\nDisallow: /deny\n'
複製程式碼

3.selenium

GitHub：https://github.com/SeleniumHQ/selenium

自動化測試工具。一個呼叫瀏覽器的 driver，通過這個庫你可以直接呼叫瀏覽器完成某些操作，比如輸入驗證碼。

對於這個庫並非只是Python才能用，像JAVA、Python、C#等都能夠使用selenium這個庫

有關於Python語言如何去使用這個庫，大家可以去訪問https://seleniumhq.github.io/selenium/docs/api/py/ 檢視官方檔案

使用小案例：

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://seleniumhq.org/')
複製程式碼

4.aiohttp

GitHub：https://github.com/aio-libs/aiohttp

基於 asyncio 實現的 HTTP 框架。非同步操作藉助於 async/await 關鍵字，使用非同步庫進行資料抓取，可以大大提高效率。

這個屬於進階爬蟲時候必須掌握的非同步庫。有關於aiohttp的詳細操作，可以去官方檔案：https://aiohttp.readthedocs.io/en/stable/

使用小案例：

import aiohttp
import asyncio

async def fetch(session, url):
    with session.get(url) as response:
        return await response.text()

main():
    with aiohttp.ClientSession() as session:
        html = await fetch(session,112); word-wrap: inherit !important; word-break: inherit !important;" class="hljs-string">'http://python.org')
        print(html)

if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())
複製程式碼

解析庫

1、beautifulsoup

官方檔案：https://www.crummy.com/software/BeautifulSoup/

html 和 XML 的解析,從網頁中提取資訊，同時擁有強大的API和多樣解析方式。一個我經常使用的解析庫，對於html的解析是非常的好用。對於寫爬蟲的人來說這也是必須掌握的庫。

2、lxml

GitHub：https://github.com/lxml/lxml

支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高。

3、pyquery

GitHub：https://github.com/gawel/pyquery

jQuery 的 Python 實現，能夠以 jQuery 的語法來操作解析 HTML 檔案，易用性和解析速度都很好。

資料儲存

1、pymysql

GitHub：https://github.com/PyMySQL/PyMySQL

官方檔案：https://pymysql.readthedocs.io/en/latest/

一個純 Python 實現的 MySQL 客戶端操作庫。非常的實用、非常的簡單。

2、pymongo

GitHub：https://github.com/mongodb/mongo-python-driver

官方檔案：https://api.mongodb.com/python/

顧名思義，一個用於直接連線 mongodb 資料庫進行查詢操作的庫。

3、redisdump

使用方法：https://blog.csdn.net/zhwitbird/article/details/81279406

redis-dump是將redis和json互轉的工具；redis-dump是基於ruby開發，需要ruby環境，而且新版本的redis-dump要求2.2.2以上的ruby版本，centos中yum只能安裝2.0版本的ruby。需要先安裝ruby的管理工具rvm安裝高版本的ruby；

不會Python的這幾個庫，我都不敢說會爬蟲

來源：JAVAandPython君 ☞ 分享：最全最新的Python學習大禮包 ☜ 很多朋友不知道Python爬蟲怎麼入門，怎麼學習，到底要學習哪些內容。今天我來給大家說說學習爬蟲，我們必須掌握的一些第三方庫。

不會這幾個庫，都不敢說我會Python爬蟲

1.請求庫 1. requests GitHub：https://github.com/psf/requests requests庫應該是現在做爬蟲最火最實用的庫了，非常的人性化。有關於它的使用我之前也寫過一篇文章一起看看Python之Requests庫，大家可以去看一下。

（硬貨）這幾個庫你都不會，你好意思說會Python爬蟲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

丟擲這8個問題，檢驗一下你到底會不會ThreadLocal，來摸個底~

0、問題和Synchronized的區別儲存在jvm的哪個區域真的只是當前執行緒可見嗎會導致記憶體洩漏麼

一致性雜湊演算法的缺陷是什麼?（但我感覺rediscluster也沒有解決這幾個問題，求指導）

一致性雜湊演算法解決了分散式下資料分佈問題。比如在快取系統中，通過一致性雜湊演算法把快取鍵對映到不同的節點上，由於演算法中虛擬節點的存在，雜湊結果一般情況下比較均勻。而且增減節點時，只需要重新

蘋果 WWDC20---做個開發者，一點都不晚！

萬眾期待的蘋果年度開發者大會這一次雖然只能以線上方式進行，但依舊吸引了大量使用者的關注，當然更多的是開發者和第三方廠商的關注。因為蘋果各個系統的升級和變化，對於未來的開發又有了新的需求。目前，蘋果全

美國數學家維納(N.Wiener)智力早熟，11歲就上了大學。他曾在1935~1936年應邀來中國清華大學講學。一次，他參加某個重要會議，年輕的臉孔引人注目。於是有人詢問他的年齡，他回答說：我年齡的立方是個4位數。我年齡的4次方是個6位數。這10個數字正好包含了從0到9這10個數字，每個都恰好出現1次。” 請你推算一下，他當時到底有多年輕。結果只有一個數。

#include<stdio.h>int main(){ int age=1; int san=0; int si=0; int sum=0;while(age>0) { san=age*age*age; si=age*age*age*age; int t1,t2,t3,t4; int f1,f2,f3,f4,f5,f6;

不會Python的這幾個庫，我都不敢說會爬蟲

請求庫

1. requests

2.urllib3

3.selenium

4.aiohttp

解析庫

1、beautifulsoup

2、lxml

3、pyquery

資料儲存

1、pymysql

2、pymongo

3、redisdump

不會Python的這幾個庫，我都不敢說會爬蟲

不會這幾個庫，都不敢說我會Python爬蟲

（硬貨）這幾個庫你都不會，你好意思說會Python爬蟲

丟擲這8個問題，檢驗一下你到底會不會ThreadLocal，來摸個底~

一致性雜湊演算法的缺陷是什麼?（但我感覺rediscluster也沒有解決這幾個問題，求指導）

蘋果 WWDC20---做個開發者，一點都不晚！

關於Java效能優化的幾點建議，我就不信你還聽不明白了！

沒接觸過程式設計的人，只要玩會這12個遊戲，就能學會python程式設計

不知道這10個術語，你還敢說會JavaScript？

持續交付知易行難，想做成這事你要理解這幾個關鍵點

專案上傳git過程中，在git add步驟有幾個檔案怎麼也執行不成功（子模組問題）

重溫這幾個屌爆的Python技巧！

這幾個程式設計小技巧，讓你程式碼效率提高一個檔次java

JavaScript 中，這幾個操作物件的方法很實用

就靠這幾段程式碼，帶你玩轉rpc通訊協議，不信你學不明白

這幾個長期活躍在社群的大佬公眾號，你都認識麼？

國慶在家，我用這幾個公眾號充電

這幾個關於 iPhone 12 的細節，蘋果沒有在釋出會上提到

微信記錄如何永久刪除，這幾個有效的刪除方法你嘗試過嗎？

不會Python的這幾個庫，我都不敢說會爬蟲

請求庫

1. requests

2.urllib3

3.selenium

4.aiohttp

解析庫

1、beautifulsoup

2、lxml

3、pyquery

資料儲存

1、pymysql

2、pymongo

3、redisdump

相關推薦