小白學python－爬蟲常用庫

阿新 • • 發佈：2019-02-15

１．urllib re

2.requests

pip3 install requests

３．selenium (驅動瀏覽器，自動化測試，載入js絢爛)

４．ChromDriver （放到usr/bin目錄下）

wget -N http://chromedriver.storage.googleapis.com/2.29/chromedriver_linux64.zip

安裝Google chrome瀏覽器:

將下載源加入到系統的源列表。命令的反饋結果如圖。

sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/

匯入谷歌軟體的公鑰，用於下面步驟中對下載軟體進行驗證。

wget -q -O - https://dl.google.com/linux/linux_signing_key.pub  | sudo apt-key add -

用於對當前系統的可用更新列表進行更新

sudo apt-get update

執行對谷歌 Chrome 瀏覽器（穩定版）的安裝。

sudo apt-get install google-chrome-stable

啟動谷歌 Chrome 瀏覽器

/usr/bin/google-chrome-stable

驗證是否安裝成功:

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("http://zhaoyabei.github.io/")
driver.save_screenshot(driver.title+".png")

可以發現Ｇｏｏｇｌｅ　ｃｈｒｏｍｅ　打開了。

５．phantomjs

提供一個瀏覽器環境的命令列介面，你可以把它看作一個“虛擬瀏覽器”，除了不能瀏覽，其他與正常瀏覽器一樣。它的核心是WebKit引擎，不提供圖形介面，只能在命令列下使用，我們可以用它完成一些特殊的用途。

apt install phantomjs

6.lxml (解析網頁)

pip3 install lxml

7.beautifulsoup（網頁解析庫）

pip3 install beautifulsoup4

8.pyquery(網頁解析庫)

語法和ｊｑｕｅｒｙ相似

pip3 install pyquery

9.pymysql

pip3 install pymysql

>>> import pymysql
>>> conn = pymysql.connect(host="localhost",user="root",password="123456",port=3306,db="cxx")
>>> cursor = conn.cursor()
>>> cursor.execute('select* from user')
1
>>> cursor.fetchone()
(1, 'root', '123456')

import pymysql  #匯入 pymysql

#開啟資料庫連線
db= pymysql.connect(host="localhost",user="root",
 	password="123456",db="test",port=3307)

# 使用cursor()方法獲取操作遊標
cur = db.cursor()

#1.查詢操作
# 編寫sql 查詢語句  user 對應我的表名
sql = "select * from user"
try:
	cur.execute(sql) 	#執行sql語句

	results = cur.fetchall()	#獲取查詢的所有記錄
	print("id","name","password")
	#遍歷結果
	for row in results :
		id = row[0]
		name = row[1]
		password = row[2]
		print(id,name,password)
except Exception as e:
	raise e
finally:
	db.close()	#關閉連線

９．pymongo (用mongodb儲存資料，不需要建表，不需關心表的結構)

pip3 install pymongo

>>> client = pymongo.MongoClient('localhost', 27017)
>>> db = client.test_database
>>> db = client['test-database']
>>> db = client.personmap
>>> collection = db.person
>>> collection.find()
<pymongo.cursor.Cursor object at 0x7fe80ab290f0>
>>> collection.find_one({'name':"01"})
{'_id': ObjectId('5a673abe6f4fd2195f89a40a'), 'age': 1.0, 'name': '01'}
db.person.insert({"name":"07","age":"3"})
ObjectId('5a683e1ea91935096798c2ad')
>>> collection.find_one({'name':"07"})
{'_id': ObjectId('5a683e1ea91935096798c2ad'), 'age': '3', 'name': '07'}

10.redis (分散式)

pip3 install redis

在 Ubuntu 系統安裝 Redi 可以使用以下命令:

$sudo apt-get update
$sudo apt-get install redis-server

啟動 Redis

$ redis-server

檢視 redis 是否啟動？

$ redis-cli

以上命令將開啟以下終端：

redis 127.0.0.1:6379>

127.0.0.1 是本機 IP ，6379 是 redis 服務埠。現在我們輸入 PING 命令。

redis 127.0.0.1:6379> ping
PONG

以上說明我們已經成功安裝了redis。

11.flask(Flask是一個使用 Python 編寫的輕量級 Web 應用框架。代理設定常用)

pip3 install flask

from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():    
    return "Hello World!"
 
if __name__ == "__main__":
    app.run()

$ python hello.py* Running on http://localhost:5000/

12.django（web伺服器框架，來做一個完整的網站）

Django是重量級選手中最有代表性的一位。許多成功的網站和APP都基於Django。採用了MT'V的框架模式，即模型M，模板T和檢視V。

pip3 install django

13.jupyter(記事本，線上除錯，線上執行,安裝的時候依賴庫比較多)

是一個互動式筆記本，支援執行 40 多種程式語言。Jupyter Notebook 的本質是一個 Web 應用程式，便於建立和共享文學化程式文件，支援實時程式碼，數學方程，視覺化和markdown。用途包括：資料清理和轉換，數值模擬，統計建模，機器學習等等

pip3 install jupyter
jupyter notebook

這個列表包含與網頁抓取和資料處理的Python庫

網路

通用
- urllib -網路庫(stdlib)。
- grab – 網路庫（基於pycurl）。
- urllib3 – Python HTTP庫，安全連線池、支援檔案post、可用性高。
- RoboBrowser – 一個簡單的、極具Python風格的Python庫，無需獨立的瀏覽器即可瀏覽網頁。
- mechanize -有狀態、可程式設計的Web瀏覽庫。
- socket – 底層網路介面(stdlib)。
- Unirest for Python – Unirest是一套可用於多種語言的輕量級的HTTP庫。
- hyper – Python的HTTP/2客戶端。
- PySocks – SocksiPy更新並積極維護的版本，包括錯誤修復和一些其他的特徵。作為socket模組的直接替換。
非同步
- treq – 類似於requests的API（基於twisted）。
- aiohttp – asyncio的HTTP客戶端/伺服器(PEP-3156)。

網路爬蟲框架

功能齊全的爬蟲
- grab – 網路爬蟲框架（基於pycurl/multicur）。
- scrapy – 網路爬蟲框架（基於twisted），不支援Python3。
- cola – 一個分散式爬蟲框架。
其他
- portia – 基於Scrapy的視覺化爬蟲。
- restkit – Python的HTTP資源工具包。它可以讓你輕鬆地訪問HTTP資源，並圍繞它建立的物件。
- demiurge – 基於PyQuery的爬蟲微框架。

HTML/XML解析器

通用
- lxml – C語言編寫高效HTML/ XML處理庫。支援XPath。
- cssselect – 解析DOM樹和CSS選擇器。
- pyquery – 解析DOM樹和jQuery選擇器。
- BeautifulSoup – 低效HTML/ XML處理庫，純Python實現。
- html5lib – 根據WHATWG規範生成HTML/ XML文件的DOM。該規範被用在現在所有的瀏覽器上。
- feedparser – 解析RSS/ATOM feeds。
- MarkupSafe – 為XML/HTML/XHTML提供了安全轉義的字串。
- xmltodict – 一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模組。
- xhtml2pdf – 將HTML/CSS轉換為PDF。
- untangle – 輕鬆實現將XML檔案轉換為Python物件。
清理
- Bleach – 清理HTML（需要html5lib）。
- sanitize – 為混亂的資料世界帶來清明。

文字處理

用於解析和操作簡單文字的庫。

通用

difflib – （Python標準庫）幫助進行差異化比較。
Levenshtein – 快速計算Levenshtein距離和字串相似度。
esmre – 正則表示式加速器。
ftfy – 自動整理Unicode文字，減少碎片化。

轉換

unidecode – 將Unicode文字轉為ASCII。

字元編碼

uniout – 列印可讀字元，而不是被轉義的字串。
chardet – 相容 Python的2/3的字元編碼器。
xpinyin – 一個將中國漢字轉為拼音的庫。
pangu.py – 格式化文字中CJK和字母數字的間距。

Slug化

awesome-slugify – 一個可以保留unicode的Python slugify庫。
python-slugify – 一個可以將Unicode轉為ASCII的Python slugify庫。
unicode-slugify – 一個可以將生成Unicode slugs的工具。
pytils – 處理俄語字串的簡單工具（包括pytils.translit.slugify）。

通用解析器

PLY – lex和yacc解析工具的Python實現。
pyparsing – 一個通用框架的生成語法分析器。

人的名字

電話號碼

phonenumbers -解析，格式化，儲存和驗證國際電話號碼。

使用者代理字串

特定格式檔案處理

解析和處理特定文字格式的庫。

通用

tablib – 一個把資料匯出為XLS、CSV、JSON、YAML等格式的模組。
textract – 從各種檔案中提取文字，比如 Word、PowerPoint、PDF等。
rows – 一個常用資料介面，支援的格式很多（目前支援CSV，HTML，XLS，TXT – 將來還會提供更多！）。

Office

python-docx – 讀取，查詢和修改的Microsoft Word2007/2008的docx檔案。
xlwt / xlrd – 從Excel檔案讀取寫入資料和格式資訊。
XlsxWriter – 一個建立Excel.xlsx檔案的Python模組。
xlwings – 一個BSD許可的庫，可以很容易地在Excel中呼叫Python，反之亦然。
openpyxl – 一個用於讀取和寫入的Excel2010 XLSX/ XLSM/ xltx/ XLTM檔案的庫。
Marmir – 提取Python資料結構並將其轉換為電子表格。

PDFMiner – 一個從PDF文件中提取資訊的工具。
PyPDF2 – 一個能夠分割、合併和轉換PDF頁面的庫。
ReportLab – 允許快速建立豐富的PDF文件。
pdftables – 直接從PDF檔案中提取表格。

Markdown

Python-Markdown – 一個用Python實現的John Gruber的Markdown。
Mistune – 速度最快，功能全面的Markdown純Python解析器。
markdown2 – 一個完全用Python實現的快速的Markdown。

YAML

PyYAML – 一個Python的YAML解析器。

cssutils – 一個Python的CSS庫。

ATOM/RSS

sqlparse – 一個非驗證的SQL語句分析器。

HTTP
HTTP

http-parser – C語言實現的HTTP請求/響應訊息解析器。

微格式

opengraph – 一個用來解析Open Graph協議標籤的Python模組。

可移植的執行體

pefile – 一個多平臺的用於解析和處理可移植執行體（即PE）檔案的模組。

psd-tools – 將Adobe Photoshop PSD（即PE）檔案讀取到Python資料結構。

自然語言處理

處理人類語言問題的庫。

NLTK -編寫Python程式來處理人類語言資料的最好平臺。
Pattern – Python的網路挖掘模組。他有自然語言處理工具，機器學習以及其它。
TextBlob – 為深入自然語言處理任務提供了一致的API。是基於NLTK以及Pattern的巨人之肩上發展的。
jieba – 中文分詞工具。
loso – 另一箇中文分詞庫。
genius – 基於條件隨機域的中文分詞。
Korean – 一個韓文形態庫。
pymorphy2 – 俄語形態分析器（詞性標註+詞形變化引擎）。
PyPLN – 用Python編寫的分散式自然語言處理通道。這個專案的目標是建立一種簡單的方法使用NLTK通過網路介面處理大語言庫。

瀏覽器自動化與模擬

selenium – 自動化真正的瀏覽器（Chrome瀏覽器，火狐瀏覽器，Opera瀏覽器，IE瀏覽器）。
Ghost.py – 對PyQt的webkit的封裝（需要PyQT）。
Spynner – 對PyQt的webkit的封裝（需要PyQT）。
Splinter – 通用API瀏覽器模擬器（selenium web驅動，Django客戶端，Zope）。

多重處理

threading – Python標準庫的執行緒執行。對於I/O密集型任務很有效。對於CPU繫結的任務沒用，因為python GIL。
celery – 基於分散式訊息傳遞的非同步任務佇列/作業佇列。
concurrent-futures – concurrent-futures 模組為呼叫非同步執行提供了一個高層次的介面。

非同步

非同步網路程式設計庫

asyncio – （在Python 3.4 +版本以上的 Python標準庫）非同步I/O，時間迴圈，協同程式和任務。
Twisted – 基於事件驅動的網路引擎框架。
Tornado – 一個網路框架和非同步網路庫。
pulsar – Python事件驅動的併發框架。
diesel – Python的基於綠色事件的I/O框架。
gevent – 一個使用greenlet 的基於協程的Python網路庫。
eventlet – 有WSGI支援的非同步框架。
Tomorrow – 非同步程式碼的奇妙的修飾語法。

佇列

celery – 基於分散式訊息傳遞的非同步任務佇列/作業佇列。
huey – 小型多執行緒任務佇列。
mrq – Mr. Queue – 使用redis & Gevent 的Python分散式工作任務佇列。
RQ – 基於Redis的輕量級任務佇列管理器。
simpleq – 一個簡單的，可無限擴充套件，基於Amazon SQS的佇列。

雲端計算

picloud – 雲端執行Python程式碼。
dominoup.com – 雲端執行R，Python和matlab程式碼。

電子郵件

電子郵件解析庫

flanker – 電子郵件地址和Mime解析庫。
Talon – Mailgun庫用於提取訊息的報價和簽名。

網址和網路地址操作

解析/修改網址和網路地址庫。

URL
- furl – 一個小的Python庫，使得操縱URL簡單化。
- purl – 一個簡單的不可改變的URL以及一個乾淨的用於除錯和操作的API。
- urllib.parse – 用於打破統一資源定位器（URL）的字串在元件（定址方案，網路位置，路徑等）之間的隔斷，為了結合元件到一個URL字串，並將“相對URL”轉化為一個絕對URL，稱之為“基本URL”。
- tldextract – 從URL的註冊域和子域中準確分離TLD，使用公共字尾列表。

網路地址
- netaddr – 用於顯示和操縱網路地址的Python庫。

網頁內容提取

提取網頁內容的庫。

HTML頁面的文字和元資料
- newspaper – 用Python進行新聞提取、文章提取和內容策展。
- html2text – 將HTML轉為Markdown格式文字。
- lassie – 人性化的網頁內容檢索工具
- micawber – 一個從網址中提取豐富內容的小庫。
- sumy -一個自動彙總文字檔案和HTML網頁的模組
- Haul – 一個可擴充套件的影象爬蟲。
- python-readability – arc90 readability工具的快速Python介面。
- scrapely – 從HTML網頁中提取結構化資料的庫。給出了一些Web頁面和資料提取的示例，scrapely為所有類似的網頁構建一個分析器。

視訊
- youtube-dl – 一個從YouTube下載視訊的小命令列程式。
- you-get – Python3的YouTube、優酷/ Niconico視訊下載器。

維基
- WikiTeam – 下載和儲存wikis的工具。

WebSocket

用於WebSocket的庫。

Crossbar – 開源的應用訊息傳遞路由器（Python實現的用於Autobahn的WebSocket和WAMP）。
AutobahnPython – 提供了WebSocket協議和WAMP協議的Python實現並且開源。
WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客戶端和伺服器庫。

DNS解析

dnsyo – 在全球超過1500個的DNS伺服器上檢查你的DNS。
pycares – c-ares的介面。c-ares是進行DNS請求和非同步名稱決議的C語言庫。

計算機視覺

OpenCV – 開源計算機視覺庫。
SimpleCV – 用於照相機、影象處理、特徵提取、格式轉換的簡介，可讀性強的介面（基於OpenCV）。
mahotas – 快速計算機影象處理演算法（完全使用 C++ 實現），完全基於 numpy 的陣列作為它的資料型別。

代理伺服器

shadowsocks – 一個快速隧道代理，可幫你穿透防火牆（支援TCP和UDP，TFO，多使用者和平滑重啟，目的IP黑名單）。
tproxy – tproxy是一個簡單的TCP路由代理（第7層），基於Gevent，用Python進行配置。

其他Python工具列表

網路

通用
- urllib -網路庫(stdlib)。
- grab – 網路庫（基於pycurl）。
- urllib3 – Python HTTP庫，安全連線池、支援檔案post、可用性高。
- RoboBrowser – 一個簡單的、極具Python風格的Python庫，無需獨立的瀏覽器即可瀏覽網頁。
- mechanize -有狀態、可程式設計的Web瀏覽庫。
- socket – 底層網路介面(stdlib)。
- Unirest for Python – Unirest是一套可用於多種語言的輕量級的HTTP庫。
- hyper – Python的HTTP/2客戶端。
- PySocks – SocksiPy更新並積極維護的版本，包括錯誤修復和一些其他的特徵。作為socket模組的直接替換。
非同步
- treq – 類似於requests的API（基於twisted）。
- aiohttp – asyncio的HTTP客戶端/伺服器(PEP-3156)。

網路爬蟲框架

功能齊全的爬蟲
- grab – 網路爬蟲框架（基於pycurl/multicur）。
- scrapy – 網路爬蟲框架（基於twisted），不支援Python3。
- cola – 一個分散式爬蟲框架。
其他
- portia – 基於Scrapy的視覺化爬蟲。
- restkit – Python的HTTP資源工具包。它可以讓你輕鬆地訪問HTTP資源，並圍繞它建立的物件。
- demiurge – 基於PyQuery的爬蟲微框架。

HTML/XML解析器

通用
- lxml – C語言編寫高效HTML/ XML處理庫。支援XPath。
- cssselect – 解析DOM樹和CSS選擇器。
- pyquery – 解析DOM樹和jQuery選擇器。
- BeautifulSoup – 低效HTML/ XML處理庫，純Python實現。
- html5lib – 根據WHATWG規範生成HTML/ XML文件的DOM。該規範被用在現在所有的瀏覽器上。
- feedparser – 解析RSS/ATOM feeds。
- MarkupSafe – 為XML/HTML/XHTML提供了安全轉義的字串。
- xmltodict – 一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模組。
- xhtml2pdf – 將HTML/CSS轉換為PDF。
- untangle – 輕鬆實現將XML檔案轉換為Python物件。
清理
- Bleach – 清理HTML（需要html5lib）。
- sanitize – 為混亂的資料世界帶來清明。

文字處理

用於解析和操作簡單文字的庫。

通用

difflib – （Python標準庫）幫助進行差異化比較。
Levenshtein – 快速計算Levenshtein距離和字串相似度。
esmre – 正則表示式加速器。
ftfy – 自動整理Unicode文字，減少碎片化。

轉換

unidecode – 將Unicode文字轉為ASCII。

字元編碼

uniout – 列印可讀字元，而不是被轉義的字串。
chardet – 相容 Python的2/3的字元編碼器。
xpinyin – 一個將中國漢字轉為拼音的庫。
pangu.py – 格式化文字中CJK和字母數字的間距。

Slug化

awesome-slugify – 一個可以保留unicode的Python slugify庫。
python-slugify – 一個可以將Unicode轉為ASCII的Python slugify庫。
unicode-slugify – 一個可以將生成Unicode slugs的工具。
pytils – 處理俄語字串的簡單工具（包括pytils.translit.slugify）。

通用解析器

PLY – lex和yacc解析工具的Python實現。
pyparsing – 一個通用框架的生成語法分析器。

人的名字

電話號碼

phonenumbers -解析，格式化，儲存和驗證國際電話號碼。

使用者代理字串

特定格式檔案處理

解析和處理特定文字格式的庫。

通用

tablib – 一個把資料匯出為XLS、CSV、JSON、YAML等格式的模組。
textract – 從各種檔案中提取文字，比如 Word、PowerPoint、PDF等。
rows – 一個常用資料介面，支援的格式很多（目前支援CSV，HTML，XLS，TXT – 將來還會提供更多！）。

Office

python-docx – 讀取，查詢和修改的Microsoft Word2007/2008的docx檔案。
xlwt / xlrd – 從Excel檔案讀取寫入資料和格式資訊。
XlsxWriter – 一個建立Excel.xlsx檔案的Python模組。
xlwings – 一個BSD許可的庫，可以很容易地在Excel中呼叫Python，反之亦然。
openpyxl – 一個用於讀取和寫入的Excel2010 XLSX/ XLSM/ xltx/ XLTM檔案的庫。
Marmir – 提取Python資料結構並將其轉換為電子表格。

PDFMiner – 一個從PDF文件中提取資訊的工具。
PyPDF2 – 一個能夠分割、合併和轉換PDF頁面的庫。
ReportLab – 允許快速建立豐富的PDF文件。
pdftables – 直接從PDF檔案中提取表格。

Markdown

Python-Markdown – 一個用Python實現的John Gruber的Markdown。
Mistune – 速度最快，功能全面的Markdown純Python解析器。
markdown2 – 一個完全用Python實現的快速的Markdown。

YAML

PyYAML – 一個Python的YAML解析器。

cssutils – 一個Python的CSS庫。

ATOM/RSS

sqlparse – 一個非驗證的SQL語句分析器。

HTTP
HTTP

http-parser – C語言實現的HTTP請求/響應訊息解析器。

微格式

opengraph – 一個用來解析Open Graph協議標籤的Python模組。

可移植的執行體

pefile – 一個多平臺的用於解析和處理可移植執行體（即PE）檔案的模組。

psd-tools – 將Adobe Photoshop PSD（即PE）檔案讀取到Python資料結構。

自然語言處理

處理人類語言問題的庫。

NLTK -編寫Python程式來處理人類語言資料的最好平臺。
Pattern – Python的網路挖掘模組。他有自然語言處理工具，機器學習以及其它。
TextBlob – 為深入自然語言處理任務提供了一致的API。是基於NLTK以及Pattern的巨人之肩上發展的。
jieba – 中文分詞工具。
loso – 另一箇中文分詞庫。
genius – 基於條件隨機域的中文分詞。
Korean – 一個韓文形態庫。
pymorphy2 – 俄語形態分析器（詞性標註+詞形變化引擎）。
PyPLN – 用Python編寫的分散式自然語言處理通道。這個專案的目標是建立一種簡單的方法使用NLTK通過網路介面處理大語言庫。

瀏覽器自動化與模擬

selenium – 自動化真正的瀏覽器（Chrome瀏覽器，火狐瀏覽器，Opera瀏覽器，IE瀏覽器）。
Ghost.py – 對PyQt的webkit的封裝（需要PyQT）。
Spynner – 對PyQt的webkit的封裝（需要PyQT）。
Splinter – 通用API瀏覽器模擬器（selenium web驅動，Django客戶端，Zope）。

多重處理

threading – Python標準庫的執行緒執行。對於I/O密集型任務很有效。對於CPU繫結的任務沒用，因為python GIL。
celery – 基於分散式訊息傳遞的非同步任務佇列/作業佇列。
concurrent-futures – concurrent-futures 模組為呼叫非同步執行提供了一個高層次的介面。

非同步

非同步網路程式設計庫

asyncio – （在Python 3.4 +版本以上的 Python標準庫）非同步I/O，時間迴圈，協同程式和任務。
Twisted – 基於事件驅動的網路引擎框架。
Tornado – 一個網路框架和非同步網路庫。
pulsar – Python事件驅動的併發框架。
diesel – Python的基於綠色事件的I/O框架。
gevent – 一個使用greenlet 的基於協程的Python網路庫。
eventlet – 有WSGI支援的非同步框架。
Tomorrow – 非同步程式碼的奇妙的修飾語法。

佇列

celery – 基於分散式訊息傳遞的非同步任務佇列/作業佇列。
huey – 小型多執行緒任務佇列。
mrq – Mr. Queue – 使用redis & Gevent 的Python分散式工作任務佇列。
RQ – 基於Redis的輕量級任務佇列管理器。
simpleq – 一個簡單的，可無限擴充套件，基於Amazon SQS的佇列。

雲端計算

picloud – 雲端執行Python程式碼。
dominoup.com – 雲端執行R，Python和matlab程式碼。

電子郵件

電子郵件解析庫

flanker – 電子郵件地址和Mime解析庫。
Talon – Mailgun庫用於提取訊息的報價和簽名。

網址和網路地址操作

解析/修改網址和網路地址庫。

URL
- furl – 一個小的Python庫，使得操縱URL簡單化。
- purl – 一個簡單的不可改變的URL以及一個乾淨的用於除錯和操作的API。
- urllib.parse – 用於打破統一資源定位器（URL）的字串在元件（定址方案，網路位置，路徑等）之間的隔斷，為了結合元件到一個URL字串，並將“相對URL”轉化為一個絕對URL，稱之為“基本URL”。
- tldextract – 從URL的註冊域和子域中準確分離TLD，使用公共字尾列表。

網路地址
- netaddr – 用於顯示和操縱網路地址的Python庫。

網頁內容提取

提取網頁內容的庫。

HTML頁面的文字和元資料
- newspaper – 用Python進行新聞提取、文章提取和內容策展。
- html2text – 將HTML轉為Markdown格式文字。
- lassie – 人性化的網頁內容檢索工具
- micawber – 一個從網址中提取豐富內容的小庫。
- sumy -一個自動彙總文字檔案和HTML網頁的模組
- Haul – 一個可擴充套件的影象爬蟲。
- python-readability – arc90 readability工具的快速Python介面。
- scrapely – 從HTML網頁中提取結構化資料的庫。給出了一些Web頁面和資料提取的示例，scrapely為所有類似的網頁構建一個分析器。

視訊
- youtube-dl – 一個從YouTube下載視訊的小命令列程式。
- you-get – Python3的YouTube、優酷/ Niconico視訊下載器。

維基
- WikiTeam – 下載和儲存wikis的工具。

WebSocket

用於WebSocket的庫。

Crossbar – 開源的應用訊息傳遞路由器（Python實現的用於Autobahn的WebSocket和WAMP）。
AutobahnPython – 提供了WebSocket協議和WAMP協議的Python實現並且開源。
WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客戶端和伺服器庫。

DNS解析

dnsyo – 在全球超過1500個的DNS伺服器上檢查你的DNS。
pycares – c-ares的介面。c-ares是進行DNS請求和非同步名稱決議的C語言庫。

計算機視覺

OpenCV – 開源計算機視覺庫。
SimpleCV – 用於照相機、影象處理、特徵提取、格式轉換的簡介，可讀性強的介面（基於OpenCV）。
mahotas – 快速計算機影象處理演算法（完全使用 C++ 實現），完全基於 numpy 的陣列作為它的資料型別。

代理伺服器

shadowsocks – 一個快速隧道代理，可幫你穿透防火牆（支援TCP和UDP，TFO，多使用者和平滑重啟，目的IP黑名單）。
tproxy – tproxy是一個簡單的TCP路由代理（第7層），基於Gevent，用Python進行配置。

其他Python工具列表

小白學python－爬蟲常用庫

１．urllib re 2.requests pip3 install requests ３．selenium (驅動瀏覽器，自動化測試，載入js絢爛) ４．ChromDriver （放到usr/bin目錄下） wget -N http://chrom

小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇本篇內容較長，各位同學可以先收藏後再看~~ 在開始講爬蟲之前，還是先把環境搞搞好，工欲善其事必先利其器嘛~~~ 本篇文章主要介紹 Python 爬蟲所使用到的請求庫和解析庫，請求庫用來請求目標內容，解析庫用來解析請

小白學 Python 爬蟲（21）：解析庫 Beautiful Soup（上）

小白學 Python 爬蟲（21）：解析庫 Beautiful Soup（上）人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學

小白學 Python 爬蟲（22）：解析庫 Beautiful Soup（下）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

小白學 Python 爬蟲（23）：解析庫 pyquery 入門

小白學 Python 爬蟲（32）：非同步請求庫 AIOHTTP 基礎入門

小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝 Linux 基礎 CentOS 官網： https://www.centos.org/ 。 CentOS 官方下載連結： https://www.cent

小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門 Docker 基礎首先說一件事情，就在本文寫作前一天，Mirantis 這家公司宣佈

小白學python－爬蟲常用庫

網路

網路爬蟲框架

HTML/XML解析器

文字處理

特定格式檔案處理

自然語言處理

瀏覽器自動化與模擬

多重處理

非同步

佇列

雲端計算

電子郵件

網址和網路地址操作

網頁內容提取

WebSocket

DNS解析

計算機視覺

代理伺服器

其他Python工具列表

網路

網路爬蟲框架

HTML/XML解析器

文字處理

特定格式檔案處理

自然語言處理

瀏覽器自動化與模擬

多重處理

非同步

佇列

雲端計算

電子郵件

網址和網路地址操作

網頁內容提取

WebSocket

DNS解析

計算機視覺

代理伺服器

其他Python工具列表

相關推薦