Python工具 | 9個用來爬取網絡站點的 Python 庫
阿新 • • 發佈:2019-04-26
解析器 交互 als spider 分布式 協作 環境 python開發 簡單 1??Scrapy
一個開源和協作框架,用於從網站中提取所需的數據。 以快速,簡單,可擴展的方式。
- 官網
2??cola
一個分布式爬蟲框架。
- GitHub
3??Demiurge
基於 PyQuery 的爬蟲微型框架。
- 官網
4??feedparser
通用 feed 解析器。
- 官網
5??Grab
Grab 是一個用於構建 Web scraper 的 python 框架。 使用 Grab,您可以構建各種復雜性的 Web scraper,從簡單的5行腳本到處理數百萬個 Web 頁面的復雜異步網站爬蟲。 Grab 提供用於執行網絡請求和處理所接收內容的 API。 與 HTML 文檔的 DOM 樹交互。
- 官網
6??MechanicalSoup
用於自動和網絡站點交互的 Python 庫。
- GitHub
7??portia
Scrapy 可視化爬取。允許你在不需要任何編程知識的情況下直觀地抓取網站。 使用 Portia 可以註釋一個網頁以識別您想要提取的數據,Portia 將根據這些註釋了解如何從類似頁面中抓取數據。
- GitHub
8??pyspider
一個強大的爬蟲系統。
- 官網
9??RoboBrowser
一個簡單的,Python 風格的庫,用來瀏覽網站,而不需要一個獨立安裝的瀏覽器。
- 官網
如果大家想找一個Python學習環境,可以加入我們的Python學習群: 784758214 ,自己是一名高級python開發工程師,這裏有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、人工智能、機器學習等。送給正在學習python的小夥伴!每天會準時的講一些項目實戰案例,分享一些學習的方法和需要註意的小細節,,這裏是python學習者聚集地
點擊:加入
Python工具 | 9個用來爬取網絡站點的 Python 庫