爬蟲總結8

阿新 • • 發佈：2018-12-04

1. 非同步和非阻塞的區別

非同步是過程，非阻塞強調的是狀態

2. pymongo模組

from pymongo import MongoClient
# client = MongoClient(host=, port=)
uri = 'mongodb://賬號:密碼@127.0.0.1'
client = MongoClient(uri, port=27017) # 連線物件
# col = client['資料庫名']['集合名']'
col = client.資料庫名.集合名

col.insert({一條文件}/[{}, {}, ...])
col.find_one({條件})
rets = col.find({條件}) # 返回的是隻能遍歷一次的cursor遊標物件
col.delete_one({條件})
col.delete_many({條件})
col.update({條件},
		   {'$set':{指定更新的kv}},
		   multi=False/True, # 預設False表示只更新一條
		   upsert=False/True) # 預設False，True表示沒有就插入，存在就更新

3. scrapy簡單使用

建立專案 scrapy startproject 專案名
在專案路徑下建立爬蟲 scrapy genspider 爬蟲名 爬取範圍的域名
在專案路徑下執行爬蟲 scrapy crawl 爬蟲名

4. spider.py爬蟲模組

class Spider(scrapy.Spider):
	name = 爬蟲名
	allowed_domains = ['爬取範圍的域名', '可以是多個']
	start_urls = ['起始的url', '可以是多個']
	# scrapy.Spider類必須有名為parse的解析函式
	def parse(self, response):
		# 專門解析起始url對應的response
		yield item # {} BaseItem request None

5. scrapy提取的方法

response.xpath(xpath_str) # 返回由selector物件構成的類list
response.xpath(xpath_str).extract() # 返回包含字串的列表
response.xpath(xpath_str).extract_first() # 返回列表中第一個字串

6. response響應物件的常用屬性

response.url
response.request.url
response.headers
response.request.headers
response.status
response.body # 響應內容 bytes

7. pipelines.py管道需要在settings.py中開啟設定

8. 在settings.py中ROBOTSTXT_OBAY改為False表示忽略robots協議

9. scrapy框架的352陣容

三個內建資料物件
	request: url headers method post_data
	response: url headers status body
	item: {}/BaseItem
五大模組
	scheduler排程器
	downloader下載器
	spider爬蟲
	pipeline管道
	engine引擎
兩個中介軟體：對request、response預處理
	spider_middlewares爬蟲中介軟體
	downloader_middlewares下載中介軟體

10. scrapy的工作流程

a. spider中把start_url構造成request
b. request--爬蟲中介軟體--引擎--排程器，把request放入請求佇列
c. 調取器從佇列中取出request--引擎--下載中介軟體--下載器，傳送請求，獲取response
d. response--下載中介軟體--引擎--爬蟲中介軟體--spider
e. spider對response提取，提取url，構造成request--重複b步驟
f. spider對response提取，提取item--引擎--管道

爬蟲總結8

1. 非同步和非阻塞的區別非同步是過程，非阻塞強調的是狀態 2. pymongo模組 from pymongo import MongoClient # client = MongoClient(host=, port=) uri = 'mongodb://賬號:密碼@127

Python 爬蟲：8 個常用的爬蟲技巧總結！

用python也差不多一年多了，python應用最多的場景還是web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。爬蟲在開發過程中也有很多複用的過程，這裡總結一下，以後也能省些事情。 1、基本抓取網頁 get方法 imp

python3.6爬蟲總結-01

zed 3.6 執行 pre created highlight log style size 1. HTTP 簡介 HTTP常見狀態碼 200/OK：請求成功 201/Created: 請求已被實現，且一個新資源已根據請求被建立，URI跟隨Location頭信息返回。

反爬蟲總結

防盜 json 很好事情常見間隔 request 兩種固然是從功能上來講，爬蟲一般分為數據采集，處理，儲存三個部分。這裏我們只討論數據采集部分。一般網站從三個方面反爬蟲：用戶請求的Headers，用戶行為，網站目錄和數據加載方式。前兩種比較容易遇到，大多數網站都

C# 爬蟲總結

res com cap next name reg quest int read static void Main(string[] args) { //WebRequest request = WebRequest.Create("h

最全Python爬蟲總結(轉載)

其中網頁 -i 變量 oba cati nod style 應該 [html] view plain copy 最近總是要爬取一些東西，索性就把Python爬蟲的相關內容都總結起來了，自己多動手還是好。（1）普通的內容爬取（2）保存爬取的圖片/

python爬蟲總結

use 禁止訪問不同安裝docker 初學者 http sel 類型破解 [TOC] 由於某些原因最近終於可以從工作的瑣事中抽出身來，有時間把之前的一些爬蟲知識進行了一個簡單的梳理，也從中體會到階段性地對過往知識進行梳理是真的很有必要。常用第三方庫對於爬蟲初學者

Swift編碼總結8

eva code nss ade RR oot bus ont share 1.判斷當前控制器是否在顯示： // 判斷當前控制器是否在顯示 func isCurrentViewControllerVisible() -> Bool { ret

第六周總結 8.18

解決問題復習遇到練習什麽總結英語 nbsp 安排本周我做了什麽 1.英語線上課兩節 2.英語口語每日練習兩小時 3.每日學習Java一小時 4.復習C語言五次 5.聽茶話會一次 6.每日健身一小時，散步 7.社團納新宣傳安排花在學習上多長時間 21小時花在

python 爬蟲總結

一，爬蟲是什麼爬蟲：一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。二，爬蟲的基本構架爬蟲分為五個基本構架：排程器：相當於一臺電腦的CPU，主要負責排程URL管理器、下載器、解析器之間的協調工作。 URL管理器：包括待爬取的URL地址和已爬

OJ系統爬蟲總結

背景最近導師讓我幫他把OJ系統上的學生程式碼匯出來，怎知系統並沒有一鍵匯出的功能，無奈只能對著百度眾多繁雜的教程咬咬牙爬蟲，折騰了1天半總算搞出來交差了。需求 1.提取驗證碼 2.模擬登陸 3.提取學生賬號（學號）stuID、執行編號runID、題目編號pID.，構成學生

簡單爬蟲總結

URL： URL主要有三部分組成： (1)協議，常見的協議有http,https,ftp,file(訪問本地資料夾),ed2k(電驢的專用連結)等等。 (2)存放資源的伺服器的域名系統(DNS)主機名或者IP地址(有時候包含埠號，各種傳輸協

爬蟲總結7

1. mongod啟動 sudo mongod --auth --dbpath= --fork --logpath= --logappend 2. 許可權管理 use admin db.createUser({'user':'賬號', 'pwd':'密碼

爬蟲總結6

1. 反爬手段和應對通過通訊協議來反爬通過使用者行為來反爬 a. 請求頭 User-Agent Referer Cookie等 b. 代理ip c. 驗證碼打碼平臺截圖識別 AI d. 麵包屑使用者訪問順序：url_1 url_2 url_3 爬蟲訪問順序：模

爬蟲總結5

1. chromedriver安裝作業系統 chrome瀏覽器 chromedriver 三者要版本相符 2. selenium使用 from selenium import webdriver option = webdriver.ChromeOptions() optio

爬蟲總結4

1. 多執行緒 from threading import Thread t = Thread(target=func, args=(引數1,)) t.setDaemon(True) # 守護執行緒 t.start() class ThreadClass(Thread): def

爬蟲總結3

1. xpath語法 //div[@id='xx']/../*[last()]/a[2]/@href # id是xx的div的父一級標籤下的所有標籤中最後一個標籤下的第二個a標籤的名為href屬性的值 /html//a[text()="xxx"]/./text() # html下文字

爬蟲總結2

1. requests傳送get請求 requests.get(url, headers={}, cookies={}, timeout=3, verify=False, proxies={}) 2. 傳送post請求 requests.

爬蟲總結1

1. 爬蟲的流程 a. url b. 傳送請求獲取響應 c. 提取的資料，就處理儲存 d. 提取的是url，重複b步驟 2. http和https的概念 http 超文字傳輸協議 80 https http+ssl 443 3. 瀏覽器最終展示出來的結果，是多次請求對

爬蟲總結11

關於appium爬蟲使用以及部署 https://github.com/butomo1989/docker-android https://zhuanlan.zhihu.com/appium mysql底層 https://blog.csdn.net/gitchat/article/deta

爬蟲總結8

1. 非同步和非阻塞的區別

2. pymongo模組

3. scrapy簡單使用

4. spider.py爬蟲模組

5. scrapy提取的方法

6. response響應物件的常用屬性

7. pipelines.py管道需要在settings.py中開啟設定

8. 在settings.py中ROBOTSTXT_OBAY改為False表示忽略robots協議

9. scrapy框架的352陣容

10. scrapy的工作流程

相關推薦