Python爬蟲入門——1.1爬蟲原理

阿新 • • 發佈：2019-01-14

1，先介紹一下網路連線的基本原理：（加亮字型摘自百度百科）

網路連結，即根據統一資源定位符（URL，uniform resource location），運用超文字標記語言（HTML，hyper text markup language），將網站內部網頁之間、系統內部之間或不同系統之間的超文字和超媒體進行連結。通過此種連結技術，即可從一網站的網頁連線到另一網站的網頁，正是這樣一種技術，才得以使世界上數以億萬計的計算機密切聯絡到了一起，從而構成網路的堅實基礎。

網路連結是指從一個網頁指向一個目標的連線關係，這個目標可以是另一個網頁，也可以是相同網頁上的不同位置，還可以是一個圖片，一個電子郵件地址，一個檔案，甚至是一個應用程式。而在一個網頁中用來連結的物件，可以是一段文字或者是一個圖片。當瀏覽者單擊已經連結的文字或圖片後，連結目標將顯示在瀏覽器上，並且根據目標的型別來開啟或執行。它是一種允許我們同其他網頁或站點之間進行連線的元素，在本質上屬於一個網頁的一部分。各個網頁連結在一起後，才能真正構成一個網站。網際網路發展到今天，可以毫不誇張地說，沒有網路連結就沒有網際網路，沒有網路連結網際網路就沒有生命力，連結技術是網際網路的堅實基礎。

簡單來說就是一一對應，你請求什麼，伺服器就會給你返回什麼。相當於，你去自動售貨機買東西，你只需要選擇你需要的商品，掃描付款碼之後，售貨機就會彈出相應的商品。你向伺服器請求（request）什麼，她們就會返回（response）什麼。

2.爬蟲原理

爬蟲就是爬蟲程式模擬客戶端向伺服器傳送請求；接收伺服器返回的內容，進行解析、資料清洗、從而獲得需要的資訊。

網路就像一張巨大的蜘蛛網，爬蟲就像一隻蜘蛛，不停地在網上爬動，不斷拾取自己需要的東西，爬蟲的最終目的是對那些資料進行處理，例如你可以通過爬取淘寶商品銷售記錄，從而分析出，全國哪個省份女生的bra最大等問題。

3.爬蟲工具

爬蟲一般需要安裝谷歌的Chrome瀏覽器，並且使用BeautifuldSoup、requests等第三方庫

Python爬蟲入門——1.1爬蟲原理

Python 爬蟲入門筆記1(for myself)

python的爬蟲入門學習1

Python爬蟲入門——3.1 多程序爬蟲

Python爬蟲入門——2. 1 我的第一個爬蟲程式

Python爬蟲入門（1）：綜述

Python爬蟲入門【1】： CentOS環境安裝

python爬蟲入門一：爬蟲基本原理

Python演算法入門——第1章 2，氣泡排序

Python演算法入門——第1章 1，桶排序

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

Python演算法入門——第1章 1，桶排序

Python爬蟲入門二之爬蟲基礎瞭解

Python爬蟲入門——1.1爬蟲原理

Python爬蟲入門 | 1 Python環境的安裝

python的爬蟲入門1

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

【1】python爬蟲入門，利用bs4以及requests獲取靜態網頁

Python爬蟲入門 | 1 Python環境的安裝

012 Python 爬蟲項目1

Python爬蟲學習（1）

Python爬蟲入門——1.1爬蟲原理

相關推薦