爬蟲基礎02-day24

阿新 • • 發佈：2017-10-28

html send ont http 序列化 switch 知乎初始 robot

寫在前面

上課第24天，打卡：

　　　　努力不必讓全世界知道；

  1 s16/17爬蟲2
  2     
  3 內容回顧：
  4     1. Http協議
  5         Http協議：GET / http1.1/r/n...../r/r/r/na=1
  6          TCP協議：sendall("GET / http1.1/r/n...../r/r/r/na=1") 
  7          
  8     2. 請求體
  9          GET: GET / http1.1/r/n...../r/r/r/n
 10         POST: 
 11 
               POST / http1.1/r/n...../r/r/r/na=1&b=2
 12               POST / http1.1/r/n...../r/r/r/{"k1":123}
 13               
 14               PS: 依據Content-Type請求頭
 15              
 16     3. requests模塊
 17         - method
 18         - url
 19         - params
 20         - data
 21         - json
 
 22         - headers
 23         - cookies
 24         - proxies
 25     4. BeautifulSoup4模塊
 26         HTML
 27         XML
 28         
 29     5. Web微信
 30         - 輪訓
 31         - 長輪訓
 32     
 33     
 34 
 35 今日內容概要：
 36     1. Web微信
 37     
 38     2. 高性能相關
 39         
 40 
     3. Scrapy
 41     
 42     
 43 內容詳細：
 44     1. Web微信
 45     
 46         - 防盜鏈
 47             - headers
 48             - cookies
 49             
 50         - 檢測請求
 51             - url
 52             
 53         - Session中：
 54             - qcode
 55             - ctime
 56             - login_cookie_dict
 57             - ticket_dict_cookie
 58             - ticket_dict
 59             - init_cookie_dict
 60         
 61         - 收發消息
 62     
 63     
 64     
 65     2. 高性能相關 
 66         
 67         基本原理：
 68             IO多路復用：select，用於檢測socket對象是否發生變化(是否連接成功，是否有數據到來)
 69                 Socket：socket客戶端
 70             
 71             import socket
 72             import select
 73 
 74             class Request(object):
 75                 def __init__(self,sock,func,url):
 76                     self.sock = sock
 77                     self.func = func
 78                     self.url = url
 79 
 80                 def fileno(self):
 81                     return self.sock.fileno()
 82 
 83             def async_request(url_list):
 84 
 85                 input_list = []
 86                 conn_list = []
 87 
 88                 for url in url_list:
 89                     client = socket.socket()
 90                     client.setblocking(False)
 91                     # 創建連接,不阻塞
 92                     try:
 93                         client.connect((url[0],80,)) # 100個向百度發送的請求
 94                     except BlockingIOError as e:
 95                         pass
 96 
 97                     obj = Request(client,url[1],url[0])
 98 
 99                     input_list.append(obj)
100                     conn_list.append(obj)
101 
102                 while True:
103                     # 監聽socket是否已經發生變化 [request_obj,request_obj....request_obj]
104                     # 如果有請求連接成功：wlist = [request_obj,request_obj]
105                     # 如果有響應的數據：  rlist = [request_obj,request_obj....client100]
106                     rlist,wlist,elist = select.select(input_list,conn_list,[],0.05)
107                     for request_obj in wlist:
108                         # print(‘連接成功‘)
109                         # # # # 發送Http請求
110                         # print(‘發送請求‘)
111                         request_obj.sock.sendall("GET / HTTP/1.0\r\nhost:{0}\r\n\r\n".format(request_obj.url).encode(‘utf-8‘))
112                         conn_list.remove(request_obj)
113 
114                     for request_obj in rlist:
115                         data = request_obj.sock.recv(8096)
116                         request_obj.func(data)
117                         request_obj.sock.close()
118                         input_list.remove(request_obj)
119 
120                     if not input_list:
121                         break
122 
123         使用一個線程完成並發操作，如何並發？
124         當第一個任務到來時，先發送連接請求，此時會發生IO等待，但是我不等待，我繼續發送第二個任務的連接請求....
125         
126         IO多路復用監聽socket變化
127         先連接成功：
128             發送請求信息： GET / http/1.0\r\nhost....
129             遇到IO等待，不等待，繼續檢測是否有人連接成功：
130             發送請求信息： GET / http/1.0\r\nhost....
131             遇到IO等待，不等待，繼續檢測是否有人連接成功：
132             發送請求信息： GET / http/1.0\r\nhost....
133             
134         有結果返回：
135             讀取返回內容，執行回調函數
136             讀取返回內容，執行回調函數
137             讀取返回內容，執行回調函數
138             讀取返回內容，執行回調函數
139             讀取返回內容，執行回調函數
140             讀取返回內容，執行回調函數
141             讀取返回內容，執行回調函數
142             
143         
144         
145         問題：什麽是協程？
146               單純的執行一端代碼後，調到另外一端代碼執行，再繼續跳...
147               
148         異步IO：
149              - 【基於協程】可以用 協程+非阻塞socket+select實現，gevent
150              - 【基於事件循環】完全通用socket+select實現,Twsited
151         
152         1. 如何提高爬蟲並發？
153             利用異步IO模塊，如：asyncio,twisted,gevent 
154             本質：
155                 - 【基於協程】可以用 協程+非阻塞socket+select實現，gevent
156                 - 【基於事件循環】完全通用socket+select實現,Twsited，tornado
157                 
158         2. 異步非阻塞
159               異步：回調   select 
160             非阻塞：不等待 setblocking(False)
161                 
162         3. 什麽是協程？
163             pip3 install gevent 
164         
165             from greenlet import greenlet
166 
167             def test1():
168                 print(12)
169                 gr2.switch()
170                 print(34)
171                 gr2.switch()
172              
173              
174             def test2():
175                 print(56)
176                 gr1.switch()
177                 print(78)
178              
179             gr1 = greenlet(test1)
180             gr2 = greenlet(test2)
181             gr1.switch()
182 
183         
184         
185     3. 爬蟲
186         - request+bs4+twisted或gevent或asyncio
187         - scrapy框架
188             - twisted
189             - 自己html解析
190             - 限速
191             - 去重
192             - 遞歸，找4層
193             - 代理
194             - https
195             - 中間件
196             ....
197         - 安裝scrapy
198             依賴Twisted
199         
200         - 開始寫爬蟲
201             執行命令：
202                  scrapy startproject sp1
203                  
204                  sp1
205                     - sp1
206                         - spiders      爬蟲
207                             - xx.py
208                             - chouti.py
209                         - middlewares  中間件
210                         - pipelines    持久化
211                         - items        規則化
212                         - settings     配置
213                     - scrapy.cfg
214                     
215                 cd sp1
216                 scrapy genspider xx xx.com
217                 scrapy genspider chouti chouti.com
218                  
219         - scrapy crawl chouti
220             name
221             allow_domains
222             start_urls
223             
224             parse(self,response)
225             
226             
227                 yield Item
228                 
229                 yield Request(url,callback)
230                 
231                 
232 本周任務：
233     1. Web微信
234     
235     2. 高性能示例保存
236     
237     3. 
238         - 煎蛋
239         - 拉鉤
240         - 知乎
241         - 抽屜
242

武Sir - 筆記

day24

	Web微信

	高性能

	scrapy


requests.post(data=xxx)   ->   Form Data

requests.post(json=xxx)   ->   Request Payload


HttpResponse()  參數可以是字符串也可以是字節

response.text         字符串
response.content 	  字節


# 獲取最近聯系人然後進行初始化



# 獲取頭像



# 拿聯系人列表
response = requests.get(url,cookies=xxx)
response.encoding = ‘utf-8‘
print(json.loads(response.text))



Web微信總結
	- 頭像防盜鏈
		- headers
		- cookies

	- 檢測請求：
		- tip | pass_ticket | ...
		- redirect_url和真實請求的url是否一致

	- session 保存關鍵點的cookies和關鍵變量值
		- qrcode 和 ctime
		- login_cookie_dict
		- ticket_dict_cookie
		- ticket_dict
		- init_cookie_dict
		- init_dict 

		- all_cookies = {}
		- all_cookies.update(...)




json序列化的時候是可以加參數的：

data = {
	‘name‘:‘alex‘,
	‘msg‘:‘中文asa‘
}
import json
print(json.dumps(data))
按Unicode顯示

print(json.dumps(data,ensure_ascii=False))
按中文顯示



json.dumps() 之後是字符串
requests.post() 默認是按照 latin-1 編碼，不支持中文

所以改成直接發bytes：
requests.post(data=json.dumps(data,ensure_ascii=False).encode(‘utf-8‘))


發送消息需帶上cookies




發送消息


檢測是否有新消息到來
接收消息





#########################

高性能相關


100張圖片，下載




使用一個線程完成並發操作
是配合IO多路復用完成的


爬蟲：
	- 簡單的爬蟲
		- requests+bs4+twsited+asyncio
	- scrapy框架
		- 下載頁面：twsited
		- 解析頁面：自己的HTML解析
		- 可限速
		- 去重
		- 遞歸 一層一層的爬，成倍速的增長，還可以限制層數
		- 代理
		- https
		- 中間件 
		...




scrapy
	- scrapy startproject sp1
	- cd sp1
	- scrapy genspider baidu baidu.com 
	- scrapy genspider chouti chouti.com 
	- scrapy crawl chouti --nolog


	- name 
	- allow_dimains
	- start_urls
	- parse(self,response)
		- yield Item   持久化
		- yield Request(url,callback)  把url放到調度器隊列裏



本周作業：
1.Web微信
	自己去寫，寫完跟老師的對比

2.高性能總結文檔（源碼示例+文字理解）

3.任意找一個網站，用Scrapy去爬
	- 煎蛋
	- 拉鉤
	- 知乎
	- 抽屜
	- ... 

不遵循爬蟲規範：
ROBOTSTXT_OBEY = False

可能會失敗：沒有帶請求頭


起始url如何攜帶指定請求頭？
自定義start_requests(self)

一、Web微信

獲取最近聯系人列表並初始化：

技術分享

獲取聯系人列表：

技術分享

代碼實現見另一片博客：Web微信

二、高性能編程示例

參考：http://www.cnblogs.com/wupeiqi/articles/6229292.html

代碼示例見另一篇那博客：Python高性能編程

三、Scrapy框架初探

爬蟲基礎02-day24

html send ont http 序列化 switch 知乎初始 robot 寫在前面上課第24天，打卡：　　　　努力不必讓全世界知道； 1 s16/17爬蟲2 2 3 內容回顧： 4 1. Ht

【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

多應用多服務器技術學用戶 iis unicode licensed content sed 【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用廣東職業技術學院歐浩源 1、引言實現網絡爬蟲的第一步就是要建立網絡連接並向服務器或網頁等

爬蟲基礎(requests庫的基本使用)--02

證書 wid text 關系 info 簡單出現 storage 傳遞數據什麽是Requests Requests是用python語言基於urllib編寫的，采用的是Apache2 Licensed開源協議的HTTP庫如果你看過上篇文章關於urllib庫的使用，你會發現

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

小白之Python-基礎中的基礎02

分界線一次系統註意解析正在版本輸入 name Python-基礎中的基礎02 繼續整理筆記，反復練習！fighting！ -----------------華麗的分界線-------------變量：第一次出現叫做定義變量，再次出現為為該變量賦值>&

Linux[基礎]-02--man page

pos 表示 wid 查詢 files action 通過 content amp 1.man page 　　　代號內容說明 NAME 簡短的指令、數據說明 SYNOPSIS 簡短的指令下達的語法簡介 DESCRIPTION

爬蟲基礎模塊

封裝 httpproxy dumps readme clas blog 互聯網 gbk img Python標準庫中提供了：urllib、urllib2、httplib等模塊以供Http請求，但是，它的 API 太渣了。它是為另一個時代、另一個互聯網所創建的。它需要巨量的工

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

爬蟲基礎知識

動態 match 正則表達式正則表達括號學習 () 虛擬 path 1.安裝 requests scrapy 豆瓣源 pip install -i 豆瓣源包名 2.新建虛擬環境時使用 -p 參數指定 Python的版本目錄 virtualenv

爬蟲基礎

二進制 font ref 提交解析json數據 user 網頁代碼 int query 一、爬蟲的原理用戶獲取網絡數據的方式：瀏覽器提交請求->下載網頁代碼->解析成頁面。而網頁代碼中便包含了我們想要的數據爬蟲就是模擬瀏覽器發送請求，然後提取想要的數據，

Scrapy基礎02

quest xtra var see xxxxxxxx 11.2 targe cto control 一、start_requests def start_requests(self): cls = self.__class__ if method

爬蟲新手學習1-爬蟲基礎

計算機 china 用戶名 ges wps 請求頭重復內容 dnspod tran 一、為什麽要做爬蟲？首先：都說現在是"大數據時代"，那數據從何而來？企業產生的用戶數據：百度指數、阿裏指數、TBI騰訊瀏覽指數、新浪微博指數數據平臺購買數據：數據堂、國雲數據市場、

網絡爬蟲基礎一

ascii json數據 with pre utf-8 頁面跳轉 while post wow64 爬蟲的分類按使用場景：通用爬蟲：指搜索引擎的爬蟲聚焦爬蟲：指針對特定網站的爬蟲聚焦爬蟲又可以分為大致3種：累積式爬蟲: 從開始到結束,一直不斷爬取，過程中

Java基礎02 方法與數據成員

ring .get 創建 nts get bar 轉載聲明數值作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！在 Java基礎01 從HelloWorld到面向對象，我們初步了解了對象(o

爬蟲基礎(理論基礎)--01

名稱 err 接收 web app 版本號等待正則 .... 將不世界上80%的爬蟲是基於Python開發的，學好爬蟲技能，可為後續的大數據分析、挖掘、機器學習等提供重要的數據源。整理這個文檔資料希望能對小夥伴有幫助。什麽是爬蟲？網絡爬蟲（又被稱為網頁蜘蛛

爬蟲基礎(BeautifulSoup庫的使用)--04

實現了解文本 con AD 解析 num prev sele 上一篇文章的正則，其實對很多人來說用起來是不方便的，加上需要記很多規則，所以用起來不是特別熟練，而這節我們提到的beautifulsoup就是一個非常強大的工具，爬蟲利器。 beautifulSoup “美味

網絡爬蟲基礎練習

style 列表 pan inf ews post itl htm 生成 0.可以新建一個用於練習的html文件，在瀏覽器中打開。 1.利用requests.get(url)獲取網頁頁面的html文件 import requests newsurl=‘http://ne

集腋成裘-03-css基礎-02

lap 一起背景 eight 生活輸入關鍵字發生 ddb 大於　　1.1 三種寫法　　內嵌式:樣式只作用於當前文件,沒有真正實現結構表現分離　　外鏈式:作用範圍是當前站點,真正實現了內容與表現分離　　行內樣式:僅限於當前標簽,結構混在一起　　1.2 標簽分類

Python爬蟲基礎知識及前期準備

多多指教 arm 讀取第一次小項目網信替換 mark python爬蟲學習爬蟲有一小段時間了，於是決定把自己學爬蟲時所學的，寫過的代碼以及看過的文檔記錄下來，權當小結。第一次寫這些，如果有錯誤，請多指教。首先我們需要了解一下什麽是爬蟲。根據百度百科上給出的定義

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

爬蟲基礎02-day24

寫在前面

一、Web微信

二、高性能編程示例

三、Scrapy框架初探

相關推薦