爬蟲筆記1：Python爬蟲常用庫

阿新 • • 發佈：2019-01-12

請求庫：
1、urllib：urllib庫是Python3自帶的庫（Python2有urllib和urllib2，到了Python3統一為urllib），這個庫是爬蟲裡最簡單的庫。
2、requests：requests屬於第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。
3、Selenium：Selenium屬於第三方庫，它是一個自動化測試工具，可以利用它自動完成瀏覽器的操作，如點選，下拉，拖拽等等，通常完成ajax複雜的操作。

解析庫：
1、lxml：屬於第三方庫，支援HTML和xml的解析，支援XPath的解析方式，解析效率非常高。
2、Beautiful Soup：屬於第三方庫，API強大，使用也方便。
3、pyquery：屬於第三方庫，功能強大在於css選擇器上，對jQuery比較瞭解的話使用pyquery將會十分方便，因此我也比較推薦使用pyquery。

儲存庫：
1、PyMySQL：MySQL作為最常用的資料庫之一，PyMySQL也是爬蟲後儲存資料的非常好的選擇，它可以實現對資料庫的建立表，增刪查改等操作。
2、PyMongo：PyMongo是和MongoDB進行互動的庫。
3、redis-py：redis-py是和Redis進行互動的庫。

影象識別庫：
1、tesserocr：tesserocr是Python使用OCR技術來識別影象，本質是對tesseract做一層API的封裝，所以在安裝tesserocr之前必須先安裝tesseract。

爬蟲框架
1、pyspider：pyspider 是由國人 binux 編寫的強大的網路爬蟲系統，它帶有強大的 WebUI、指令碼編輯器、任務監控器、專案管理以及結果處理器，它支援多種資料庫後端、多種訊息佇列、JavaScript 渲染頁面的爬取。依賴庫有PhantomJS。
2、Scrapy：功能極其強大，依賴庫較多。

爬蟲筆記1：Python爬蟲常用庫

請求庫：1、urllib：urllib庫是Python3自帶的庫（Python2有urllib和urllib2，到了Python3統一為urllib），這個庫是爬蟲裡最簡單的庫。2、requests：requests屬於第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。3、S

筆記1：python基礎

python：縮排對齊決定著程式碼的邏輯執行順序，沒有規定必須是4個空格縮排。大多數人是這樣的。 1，需要中文註釋開頭加： #coding =utf-8 #官方推薦的是下面的： # -*- coding:utf-8 -*- #這是單行註釋 """ 三個雙引號是多行註釋 """

python爬蟲學習筆記1：requests庫及robots協議

The Website is the API requests庫 requests庫的7個主要方法 requests.request 構造一個請求 requests.request(method,url,[**kwarges]) me

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

資料爬蟲（三）：python中requests庫使用方法詳解

一、什麼是Requests Requests 是⽤Python語⾔編寫，基於urllib，採⽤Apache2 Licensed開源協議的 HTTP 庫。它⽐ urllib 更加⽅便，可以節約我們⼤量的⼯作，完全滿⾜HTTP測試需求。⼀句話——Python實現的簡單易

爬蟲筆記2：urllib庫的使用

urllib概述urllib是Python內建的HTTP請求庫，是Python自帶的庫，只要安裝了Python就有了。urllib主要包含4個模組：request，error，parse，robotparser。 request模組request是提供了實現請求的方法：urlopen()

爬蟲筆記3：requests庫使用

esp pri 進行驗證 get .com 使用 quest pro requests庫概述Python內置的urllib庫在對於Cookies，登錄驗證，代理方面等操作太繁瑣。而requests庫在這些方面卻做得很好！請求方法：get()，返回一個Respon

課後筆記一：Python基礎語法介紹（1）

Python3.6.5我們總是找借口說還有時間去做某事，或者完成某事，結果總是不了了之。比如拖到現在才寫第一課聽課筆記。第一節課，老師對以下內容做了分享，大致分為環境配置開發平臺：Mac OS Version 10.13.2 老師講課的是在Windows 10 我選擇在Mac OS進行Pyth

Python學習筆記1：用戶登錄

\n win col lines %s courier class for ID 1 import getpass,sys 2 u=0 3 while u< 3: 4 user_name = input(‘Please input you

1，Python爬蟲環境的安裝

一起公司興趣 cbi 輸出 dvr 語言 download pycha 很早以前就聽說了Python爬蟲，但是一直沒有去了解；想著先要把一個方面的知識學好再去了解其他新興的技術。但是現在項目有需求，要到網上爬取一些信息，然後做數據分析。所以便從零開始學習Pyt

學習筆記-小甲魚Python3學習第六講：python之常用操作符

mar 邏輯 .... 運算操作 == 整數 image 臺階 size 常用操作符運算操作符：加+ 減- 乘* 除/ 余% 冪運算** 地板除//比較操作符： < ，> ,<=,>=,==,!=邏輯操作符： and,or,not優先級：冪運算符有點

Python學習筆記1：簡單實現ssh客戶端和服務端

bsp dev bre 客戶端 break 基於 bin listen 客戶實現基於python 3.6。 server端： 1 __author__ = "PyDev2018" 2 3 import socket,os 4 server = socket.s

python以及常用庫零碎學習筆記

python 賦值操作和淺拷貝佔位符，後面補充。 numpy 訪問陣列：索引和切片如果訪問的時候使用了整數索引，那麼產生的結果的維度數會降低，如果全部使用切片，則維度數不變。 # [[ 1 2 3 4] # [ 5 6 7 8] # [ 9 10 11 12]] a = np.

深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的素材詳情頁面，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這個頁面的解析過程，深入淺出的瞭解爬蟲的解析思想與這些語言之間的異同。

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python學習筆記1：數值和字串

Python旅程第一站： Python數值運算： type( ) 列印型別四種基本型別：int, float, str, bool round( ) 取整，四捨五入

Python學習筆記1：數值和字符串

分享圖片 bsp rep 數值運算 round 取整 float 分享基本類型 Python旅程第一站： Python數值運算： type( ) 打印類型四種基本類型：int, float, str, bool round( ) 取整，四舍五

1.0 -Python爬蟲-Urllib/Requests

0 爬蟲準備工作參考資料 python網路資料採集，圖靈工業出版精通Python爬蟲框架Scrapy，人民郵電出版社 Python3網路爬蟲 Scrapy官方教程前提知識 url http協議 web前端，h

# 深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

深入淺出爬蟲之道： Python、Golang與GraphQuery的對比本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的素材詳情頁面，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這

Python網路爬蟲第1章Python基礎

Python網路爬蟲入門第一篇網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。本篇將使用Python語言作為開發工具從Pytho

爬蟲筆記1：Python爬蟲常用庫

相關推薦