【網路爬蟲學習】網頁的基本構成

阿新 • • 發佈：2021-09-05

爬蟲程式之所以可以抓取資料，是因為爬蟲能夠對網頁進行分析，並在網頁中提取出想要的資料。在學習 Python 爬蟲模組前，我們有必要先熟悉網頁的基本結構，這是編寫爬蟲程式的必備知識。

關於 Web 初步教程：Here

網頁在組成上一般由三部分組成，分別是

HTML（超文字標記語言）負責定義網頁的內容、

CSS（層疊樣式表）負責描述網頁的佈局、

JavaScript（簡稱“JS”動態指令碼語言）負責網頁的行為，它們三者在網頁中分別承擔著不同的任務。
網頁從型別分為靜態與動態，

靜態網頁是標準的 HTML 檔案，通過 GET 請求方法可以直接獲取，檔案的副檔名是.html、.htm等（靜態並非靜止不動，它也包含一些動畫效果，這一點不要誤解）

動態網頁指的是採用了動態網頁技術的頁面，比如 AJAX（是指一種建立互動式、快速動態網頁應用的網頁開發技術）和JSP(是 Java 語言建立動態網頁的技術標準) 等技術，它不需要重新載入整個頁面內容，就可以實現網頁的區域性更新。

針對靜/動態的一個重要區別在於，有無需要連線後臺資料庫，

由於靜態網頁的內容相對固定，且不需要連線後臺資料庫，因此響應速度非常快。但靜態網頁更新比較麻煩，每次更新都需要重新載入整個網頁。

動態頁面使用“動態頁面技術”與伺服器進行少量的資料交換，從而實現了網頁的非同步載入。下面看一個具體的例項：

開啟百度圖片（https://image.baidu.com/）並搜尋 Python，當滾動滑鼠滑輪時，網頁會從伺服器資料庫自動載入資料並渲染頁面，這是動態網頁和靜態網頁最基本的區別。如下所示：

動態網頁中除了有 HTML 標記語言外，還包含了一些特定功能的程式碼。這些程式碼使得瀏覽器和伺服器可以互動，伺服器端會根據客戶端的不同請求來生成網頁，其中涉及到資料庫的連線、訪問、查詢等一系列 IO 操作，所以其響應速度略差於靜態網頁。

注意：一般網站通常會使用動靜相結合的方式，使其達到一種平衡的狀態。

當然動態網頁也可以是純文字的，頁面中也可以包含各種動畫效果，這些都只是網頁內容的表現形式，其實無論網頁是否具有動態效果，只要採用了動態網站技術，那這個網頁就稱為動態網頁。

\[QAQ \]

抓取動態網頁的過程較為複雜，需要通過動態抓包來獲取客戶端與伺服器互動的 JSON 資料。抓包時，可以使用谷歌瀏覽器開發者模式（快捷鍵：F12）Network

選項，然後點選 XHR，找到獲取 JSON 資料的 URL，如下所示：

或者您也可以使用專業的抓包工具 Fiddler 。關於動態網頁的資料抓取，在後續內容會做詳細講解。

The desire of his soul is the prophecy of his fate
你靈魂的慾望，是你命運的先知。

【網路爬蟲學習】網頁的基本構成

【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

實戰一抓取您想要的網頁，並將其儲存至本地計算機。首先我們對要編寫的爬蟲程式進行簡單地分析，該程式可分為以下三個部分：

【網路爬蟲學習】Python 爬蟲初步

前言網路爬蟲又稱網路蜘蛛、網路機器人，它是一種按照一定的規則自動瀏覽、檢索網頁資訊的程式或者指令碼。網路爬蟲能夠自動請求網頁，並將所需要的資料抓取下來。通過對抓取的資料進行處理，從而提取出有價值的資

【網路爬蟲學習】第一個Python爬蟲程式 & 編碼與解碼詳解 & Pythonの實現

本節編寫一個最簡單的爬蟲程式，作為學習 Python 爬蟲前的開胃小菜。下面使用 Python 內建的 urllib 庫獲取網頁的 html 資訊。注意，urllib 庫屬於 Python 的標準庫模組，無須單獨安裝，它是 Python 爬蟲的常用模組

【go語言學習】網路程式設計之HTTP

一、go中HTTP服務處理流程超文字傳輸協議（HTTP，Hyper Text Transfer Protocol)是網際網路上應用最為廣泛的一種網路傳輸協議，所有的WWW檔案都必須遵守這個標準。設計HTTP最初的目的是為了提供一種釋出和接收HTML頁

【MCU外設學習】基本定時器

思路： 1.參考野火文件，瞭解TIM分為基本、通用、高階，後面的TIME在前一級的基礎上加了功能

02 網頁基本構成和抓取原理

網頁，是一種可以被瀏覽器等客戶端解析的一種檔案。與我們平常遇到的檔案的區別是：網頁是根植於網際網路的。也就是說我們通過瀏覽器瀏覽的網頁檔案大部分是不在本地的，它有可能在世界上的任何一臺連線網路的計算機

【SpringBoot框架學習】Web容器的切換詳解

SpringBoot 支援的Web容器：在springBoot框架中，支援了3個Web容器： Spring Boot支援的Web容器：

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

目錄 1、目標 2、Selenium webdriver說明 2.1 為什麼使用webdriver 2.2 webdriver支援瀏覽器 2.3 配置與使用說明

【客戶端學習】Kotlin Android 學習筆記

Android 應用的基本元件 1. Activity 和 View Activity 是 Android 應用中負責與使用者互動的元件

【go語言學習】程式設計規範

學習一門語言，首先要了解該語言的程式碼程式設計規範，以提高程式碼的可讀性、規範性。

【go語言學習】資料型別

Go語言中有豐富的資料型別，除了基本的整型、浮點型、布林型、字串外，還有陣列、切片、結構體、函式、map、通道（channel）等。

【go語言學習】流程控制

流程控制是每種程式語言控制邏輯走向和執行次序的重要部分，流程控制可以說是一門語言的“經脈”。

【go語言學習】切片slice

go語言中陣列的長度是固定的並且陣列長度屬於型別的一部分，所以陣列有很多的侷限性。

【go語言學習】面向物件oop

go並不是一個純面向物件的程式語言。在go中的面向物件，結構體替換了類。 go並沒有提供類class，但是它提供了結構體struct，方法method可以在結構體上新增。提供了捆綁資料和方法的行為，這些資料和方法與類類似。

【go語言學習】type關鍵字

type是go語法裡的重要而且常用的關鍵字，type絕不只是對應於C/C++中的typedef。搞清楚type的使用，就容易理解go語言中的核心概念struct、interface、函式等的使用。

【go語言學習】錯誤error和異常panic

一、錯誤和異常的區別錯誤指的是可能出現問題的地方出現了問題。比如開啟一個檔案時失敗，這種情況在人們的意料之中。

【go語言學習】併發實現

一、什麼是goroutine Goroutine是Go語言特有的名詞。區別於程序Process，執行緒Thread，協程Coroutine，因為Go語言的創造者們覺得和他們是有所區別的，所以專門創造了Goroutine。

【go語言學習】反射reflect

一、認識反射維基百科中的定義：在電腦科學中，反射是指計算機程式在執行時（Run time）可以訪問、檢測和修改它本身狀態或行為的一種能力。用比喻來說，反射就是程式在執行的時候能夠“觀察”並且修改自己的行為。

【go語言學習】標準庫之time

time包提供了時間的顯示和測量用的函式。日曆的計算採用的是公曆。 type Duration int64

【網路爬蟲學習】網頁的基本構成

相關推薦