爬蟲筆記1:Python爬蟲常用庫
請求庫:
1、urllib:urllib庫是Python3自帶的庫(Python2有urllib和urllib2,到了Python3統一為urllib),這個庫是爬蟲裡最簡單的庫。
2、requests:requests屬於第三方庫,使用起來比urllib要簡單不少,且功能更加強大,是最常用的請求庫。
3、Selenium:Selenium屬於第三方庫,它是一個自動化測試工具,可以利用它自動完成瀏覽器的操作,如點選,下拉,拖拽等等,通常完成ajax複雜的操作。
解析庫:
1、lxml:屬於第三方庫,支援HTML和xml的解析,支援XPath的解析方式,解析效率非常高。
2、Beautiful Soup:屬於第三方庫,API強大,使用也方便。
3、pyquery:屬於第三方庫,功能強大在於css選擇器上,對jQuery比較瞭解的話使用pyquery將會十分方便,因此我也比較推薦使用pyquery。
儲存庫:
1、PyMySQL:MySQL作為最常用的資料庫之一,PyMySQL也是爬蟲後儲存資料的非常好的選擇,它可以實現對資料庫的建立表,增刪查改等操作。
2、PyMongo:PyMongo是和MongoDB進行互動的庫。
3、redis-py:redis-py是和Redis進行互動的庫。
影象識別庫:
1、tesserocr:tesserocr是Python使用OCR技術來識別影象,本質是對tesseract做一層API的封裝,所以在安裝tesserocr之前必須先安裝tesseract。
爬蟲框架
1、pyspider:pyspider 是由國人 binux 編寫的強大的網路爬蟲系統,它帶有強大的 WebUI、指令碼編輯器、任務監控器、專案管理以及結果處理器,它支援多種資料庫後端、多種訊息佇列、JavaScript 渲染頁面的爬取。依賴庫有PhantomJS。
2、Scrapy:功能極其強大,依賴庫較多。