爬蟲基礎之(一) --- 初識爬蟲

阿新 • • 發佈：2019-05-06

ogl coo 忽略限制工作請求交互 google 獲取數據

爬蟲概念

（spider，網絡蜘蛛）通過互聯網上一個個的網絡節點，進行數據的提取、整合以及存儲

什麽是HTTP協議

1）是一個基於請求與響應的應用層協議，底層協議是TCP保證了整個傳輸過程的可靠性

2）通過url來進行客戶端與服務器的交互

　　（url解釋：統一資源定位符，用於定位互聯網上資源的位置，格式，協議://主機名.域名:端口號/路徑名...?參數1=值1&參數2=值2&....#錨點）

3）是一種C/S(B/S是一種特殊的C/S結構)模式的協議，客戶端發起請求，服務端處理請求並響應

4）它是一種無狀態的協議，它通過cookie或者session來處理會話信息

http的過程

1）創建TCP鏈接：三次握手，

　　客戶端首先向服務器發出一個是否同意創建連接的請求，

　　然後服務根據自己的任務量決定是否創建，並且把是否創建連接的相關信號返回給客戶端，

　　然後客戶端如果接到了同意創建連接的信號，就正式的發起一個創建連接的信號，並且帶上http協議的報文。

通過三次握手客戶端和服務器之間建立齊了一條數據通路，就可以保證HTTP協議的可靠傳輸

2）客戶端向服務器發起HTTP請求：通過url把參數以及請求頭信息傳遞給服務器，常見的請求方式有4中，常用的是get和post

　　請求頭：包含了本次請求的相關配置信息（比如：主機、cookie、數據格式等），決定了客戶端和服務之間數據交流的方式與格式

　　請求體：就是參數，也即是客戶端要想服務器提交的數據

3）服務器處理請求，並且把數據響應出去

4）判斷數據是否傳輸結束，如果結束，四次揮手斷開TCP鏈接

get請求和post請求的區別

get請求參數拼接在url後面的，post請求參數不體現在url中（一般直接通過表單提交）；

get請求數據量有限制（不同的瀏覽器對url的長度都有不同的限制），post請求是沒有限制的

狀態碼

 1 100：繼續 客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩余部分，或者如果請求已經完成，忽略這個響應。
 2 
 3 101：轉換協議 在發送完這個響應最後的空行後，服務器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該采取類似措施。
 4 
 5 102：繼續處理 由WebDAV（RFC 2518）擴展的狀態碼，代表處理將被繼續執行。
 6 
 7 200：請求成功 處理方式：獲得響應的內容，進行處理
 8 
 9 201：請求完成，結果是創建了新資源。新創建資源的URI可在響應的實體中得到 處理方式：爬蟲中不會遇到
10 
11 202：請求被接受，但處理尚未完成 處理方式：阻塞等待
12 
13 204：服務器端已經實現了請求，但是沒有返回新的信 息。如果客戶是用戶代理，則無須為此更新自身的文檔視圖。 處理方式：丟棄
14 
15 300：該狀態碼不被HTTP/1.0的應用程序直接使用， 只是作為3XX類型回應的默認解釋。存在多個可用的被請求資源。 處理方式：若程序中能夠處理，則進行進一步處理，如果程序中不能處理，則丟棄
16 301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源 處理方式：重定向到分配的URL
17 
18 302：請求到的資源在一個不同的URL處臨時保存 處理方式：重定向到臨時的URL
19 
20 304：請求的資源未更新 處理方式：丟棄，使用本地緩存文件
21 
22 400：非法請求 處理方式：丟棄
23 
24 401：未授權 處理方式：丟棄
25 
26 403：禁止 處理方式：丟棄
27 
28 404：沒有找到 處理方式：丟棄
29 
30 500：服務器內部錯誤 服務器遇到了一個未曾預料的狀況，導致了它無法完成對請求的處理。一般來說，這個問題都會在服務器端的源代碼出現錯誤時出現。
31 
32 501：服務器無法識別 服務器不支持當前請求所需要的某個功能。當服務器無法識別請求的方法，並且無法支持其對任何資源的請求。
33 
34 502：錯誤網關 作為網關或者代理工作的服務器嘗試執行請求時，從上遊服務器接收到無效的響應。
35 
36 503：服務出錯 由於臨時的服務器維護或者過載，服務器當前無法處理請求。這個狀況是臨時的，並且將在一段時間以後恢復。

爬蟲基礎之(一) --- 初識爬蟲

ogl coo 忽略限制工作請求交互 google 獲取數據爬蟲概念（spider，網絡蜘蛛）通過互聯網上一個個的網絡節點，進行數據的提取、整合以及存儲分類：通用爬蟲（了解）主要用於搜索引擎（百度、Google ，搜狗等）搜索引擎的工作原

那些年，我爬過的北科(一)——爬蟲基礎之環境搭建與入門

環境搭建關於語言對於網路爬蟲來說，其本質就是傳送http請求，然後提取網頁的內容資訊進行入庫分析等操作，所以對於任何語言都可以構建爬蟲應用。我曾經就用過C#、C++、Java、Swift、Golang、Python這些語言來編寫爬蟲應用。總結來說，這裡還是最推薦python，其優點就是學習簡單，並

小白python爬蟲之路——初識爬蟲原理

接收 gpo 手動 url 循環調用 bsp 互聯程序 res 爬蟲主要做兩件事 ①模擬計算機對服務器發起Request請求 ②接收服務器端的Response內容並解析，提取所需的信息互聯網頁面錯綜復雜，一次請求不能獲取全部信息。就需要設計爬蟲的流程。本書主要介紹兩種

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python爬蟲基礎（一）——HTTP

前言　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器

那些年，我爬過的北科(二)——爬蟲基礎之session登陸

（注：由於現在域名全都要備案了，.tech 域名不讓備案，下面的nladuo.tech 統一更改為 nladuo.cn）說說HTTP請求：GET與POST 在上一節中，我們在不知道原理的條件下呼叫了requests.get方法下載了HTML頁面。在本節中，我們來說說什麼是HTTP請求和它的特點。在H

爬蟲基礎之Jsoup解析HTML

Jsoup的Maven座標 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

Python基礎之（初識）

一、python發展史 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，吉多·範羅蘇姆為了在阿姆斯特丹打發時間，決心開發一個新的指令碼解釋程式，作為ABC語言的一種繼承。Python這個名字，來自Gui

爬蟲課程：爬蟲基礎及靜態網頁爬蟲

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教本文主要介紹一些爬蟲基礎知識。 HTTP協議： http是一個請求<->響應模式的典型範例，即客戶端向伺服器傳送一個請求資訊系，伺服器來響應這個資訊。在老的http版本中，每個請求都將被建立一個新的客戶端->伺服

多爬蟲實現之三 -- 多爬蟲檔案

目標優化現有的爬蟲結構，實現同時開始執行多個爬蟲 1 為什麼需要優化現有的爬蟲結構當爬蟲比較少的時候，我們的專案結構相對合理，但是當要抓取的網站比較多的時候，可以借鑑scrapy的方法，把不同網站的爬蟲分別在不同的py檔案中編寫，之後放在一個目錄下；同時，我們很多時候還

爬蟲相關之淺聊爬蟲

1.安裝：要是說到爬蟲，我們不得不提一個大而全的爬蟲元件/框架，這個框架就是scrapy：scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。那麼我們直接進入正題，先說說這個框架的兩種安裝方式：第一種：win

JQuery基礎之(一)JQuery簡介

一、什麼是JQuery、為什麼是JQuery jQuery是一套Javascript指令碼庫. 注意：jQuery是指令碼庫, 而不是指令碼框架. "庫"不等於"框架", 比如"System程式集"是類

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

上一節課我們好不容易裝好了 Scrapy，今天我們就來學習如何用好它，有些同學可能會有些疑惑，既然我們懂得了Python編寫爬蟲的技巧，那要這個所謂的爬蟲框架又有什麼用呢？其實啊，你懂得Python寫爬蟲的程式碼，好比你懂武功，會打架，但行軍打仗你不行，畢竟敵人是千軍萬馬，縱使你再強，

爬蟲基礎框架之xpath(一) --- xpath基礎

join read [1] tco ext from ans 註意 csv xpath簡介 lxml是一個第三方框架，用於對xml文件進行格式化操作（html文件是一種特殊xml文件） xpath是一種基於xml文件，根據xml文件的文檔結構來提取目標元

爬蟲基礎框架之bs4 (一) --- bs4基礎

nts ldr spa ant end for Coding gen fin bs4簡介 bs4是一個html的解析工具，根據html的特征和屬性來查找節點 1 from bs4 import BeautifulSoup 2 3 fp = open("

Python爬蟲常用之登錄(一) 思想

訪問 size 其他驗證碼方法身份驗證一定的常用加密爬蟲主要目的是獲取數據,常見的數據可以直接訪問網頁或者抓包獲取,然後再解析即可. 一些較為隱私的數據則不會讓遊客身份的訪問者隨便看到,這個時候便需要登錄獲取. 一般獲取數據需要的是登錄後的cookie作為身份

網絡爬蟲基礎一

ascii json數據 with pre utf-8 頁面跳轉 while post wow64 爬蟲的分類按使用場景：通用爬蟲：指搜索引擎的爬蟲聚焦爬蟲：指針對特定網站的爬蟲聚焦爬蟲又可以分為大致3種：累積式爬蟲: 從開始到結束,一直不斷爬取，過程中

爬蟲基礎之(一) --- 初識爬蟲

爬蟲概念

分類：

通用爬蟲（了解）

搜索引擎獲取數據的方式：

robots協議：

聚焦爬蟲

工作原理：

什麽是HTTP協議

http的過程

get請求和post請求的區別

狀態碼

爬蟲基礎之(一) --- 初識爬蟲

那些年，我爬過的北科(一)——爬蟲基礎之環境搭建與入門

小白python爬蟲之路——初識爬蟲原理

Python網路資料爬取----網路爬蟲基礎（一）

Python爬蟲基礎（一）——HTTP

那些年，我爬過的北科(二)——爬蟲基礎之session登陸

爬蟲基礎之Jsoup解析HTML

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

爬蟲基礎知識與簡單爬蟲實現

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

Python基礎之（初識）

爬蟲課程：爬蟲基礎及靜態網頁爬蟲

多爬蟲實現之三 -- 多爬蟲檔案

爬蟲相關之淺聊爬蟲

JQuery基礎之(一)JQuery簡介

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

爬蟲基礎框架之xpath(一) --- xpath基礎

爬蟲基礎框架之bs4 (一) --- bs4基礎

Python爬蟲常用之登錄(一) 思想

網絡爬蟲基礎一

爬蟲基礎 之(一) --- 初識爬蟲

爬蟲概念

分類：

通用爬蟲（了解）

搜索引擎獲取數據的方式：

robots協議：

聚焦爬蟲

工作原理：

什麽是HTTP協議

http的過程

get請求和post請求的區別

狀態碼

相關推薦

爬蟲基礎之(一) --- 初識爬蟲