網絡爬蟲 初了解
1. HTTP協議
2. Requests庫的7個主要方法
3. Robot協議
4. 網頁解析
BeautifulSoup的解析器- 類的基本元素- 遍歷功能
5. 正則表達式
6. 爬蟲框架Scrapy
框架結構- 數據流
7. 分布式爬蟲
多線程爬蟲
多進程爬蟲
8. 異步網站數據擦劑
9.爬蟲的存儲
媒體文件-把數據存儲到CSV-MySql
10. 爬蟲的常見技巧
11.防爬蟲
超文本傳輸協議(HTTP,HyperText Transfer Protocol)是互聯網上應用最為廣泛的一種網絡協議。所有的www文件都必須遵守這個標準。HTTP協議主要有幾個特點:
-
支持客戶/服務器模式
-
簡單快捷:客服向服務器發出請求,只需要傳送請求方法和路徑。請求方法常用的有GET, HEAD, POST。每種方法規定了客戶與服務器聯系的類型不同。由於HTTP協議簡單,使得HTTP服務器的程序規模小,因而通信速度快。
-
靈活:HTTP允許傳輸任意類型的數據對象。
-
無連接:無連接的含義是限制每次連接請求只處理一個請求。服務器處理完客戶的請求,收到客戶的應答後即斷開連接,這種方式可以節省傳輸時間。
-
無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事物處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的信息,則它必須重傳,這樣可能導致每次連接傳送的數據量增大,另一方面,在服務器不需要先前信息時它的應答就較快。
下面通過一張圖我們來了解一下訪問網頁的過程都發生了什麽:
--------------------- 本文來自 meichuanyi 的CSDN 博客 ,全文地址請點擊:https://blog.csdn.net/meichuanyi/article/details/79293094?utm_source=copy
網絡爬蟲 初了解