第一章爬蟲入門

阿新 • • 發佈：2022-04-03

第一章爬蟲入門

1.1 第一個爬蟲程式

基礎程式碼

# 製作者：tlott
from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)    # resp是response的意思

with open("mybaidu.html", mode="w", encoding="utf-8") as f: # utf-8可由原始碼中獲取得知
    f.write(resp.read().decode("utf-8"))   # 讀取網頁的原始碼
print("over!")

1.2 web請求過程剖析

渲染方式：

1）伺服器渲染：

定義：在伺服器端直接將資料和html整合在一起，統一返回給瀏覽器

特點：在頁面原始碼中能看到資料

2）客戶端渲染：

定義：第一次請求只返回html骨架，第二次請求拿到資料，進行資料展示

特點：在頁面原始碼中看不到資料

1.3 HTTP協議

請求：
1）請求行—>請求方式（get/post）請求URL地址 協議
2）請求頭—>放一些伺服器要使用的附加資訊
3）請求體—>一般放一些請求引數
響應：
1）請求行—>協議 狀態碼
2）響應頭—>放一些客戶端要使用的附加資訊
3）響應體—>伺服器返回的真正客戶端要用的內容（HTML,json）等。

在後⾯我們寫爬⾍的時候要格外注意請求頭和響應頭. 這兩個地⽅一般都隱含著⼀些⽐較重要的內容

請求頭中最常⻅的⼀些重要內容(爬⾍需要):

1.User-Agent : 請求載體的身份標識(⽤啥傳送的請求)

2.Referer: 防盜鏈(這次請求是從哪個⻚⾯來的? 反爬會⽤到）

3.cookie: 本地字串資料資訊(⽤戶登入資訊, 反爬的token)

響應頭中⼀些重要的內容:

1.cookie: 本地字串資料資訊(⽤戶登入資訊, 反爬的token)

2.各種神奇的莫名其妙的字串(這個需要經驗了, ⼀般都是token 字樣, 防⽌各種攻擊和反爬)

請求⽅式:

GET: 顯示提交

POST: 隱示提交

1.4 Requests入門

import requests
url = "https://movie.douban.com/j/chart/top_list"
# 如果url值過長，可將？及其之後的內容刪除，並在之後的內容中加入負載引數
param = {
    "type": "24",
    "interval_id": "100:90",
    "action": "",
    "start" : 0,
    "limit": 20
}
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.55"
}
resp = requests.get(url = url, params = param, headers=headers)
print(resp.json())
resp.close()    # 關掉resp

⼀些⽹站在進⾏請求的時候會校驗你的客戶端裝置型號，所以要注意headers的內容

第一章爬蟲入門

第一章爬蟲入門 1.1 第一個爬蟲程式基礎程式碼 # 製作者：tlott from urllib.request import urlopen

《JavaScript 教程》讀書筆記——第一章（入門篇）

前言　　第一章，入門篇，內容如下 1.導論　　//什麼是JS語言？為什麼學習JS語言？第一個js2.歷史　　//

第一章 Python入門

Python版本 Python有Python 2.x和Python 3.x兩個版本。兩個版本不相容，可能出現用Python 3.x編的程式碼不能被Python 2.x執行的情況。

一道題講懂SQL盲注 / [第一章 web入門]SQL注入-2

概述本題是一個盲注題，可以基於布林也可以基於時間，如果不會的話可以根據提示在網址後面加一個?tips=1降低難度成為一個基於報錯的盲注。

[第一章 web入門]SQL注入-1 1

一、漏洞型別利用 SQL注入二、解題思路更換id值 => 加入&tip=1 => 字元注入與聯合查詢注入

Python小白爬蟲入門的第一個案例：爬取全站小說

前言很多免費的資源只能看但是不提供下載，今天我們以小說為例，教你如何把網際網路上只能看不能下載的東西給下載下來

Python基礎入門第一章

既然學習 Python，那麼至少得了解下這門語言，知道 Python 程式碼執行過程吧。Python 的歷史有興趣的百度百科下就有，這個不多說了。

Python 網路爬蟲權威指南第一章練習

技術標籤：爬蟲python 獲取網頁的標題： from urllib.request import urlopen from urllib.error import URLError

java入門第一章之基本語法

技術標籤：萌新入門java 命名的基本規範：識別符號： Java 對各種變數、方法和

《金文女神解說VB基礎入門系列視訊教程》300集第一章筆記

技術標籤：vb程式語言第一章 Visual Basic 程式開發環境第一節 Visual Basic 的啟動與退出

Python絕技第一章入門 python3實現密碼破解

技術標籤：安全資訊保安python 前言對我而言，武術的非凡之處在於它的簡單。簡單的方法也是正確的方法，同時武術也沒有什麼特別之處。越接近武術的真諦，招式表現上浪費越少

《資料結構與演算法》第一章入門的爛又長答案實現

from random import randrange import math class basic_exercises: def is_multiple(n,m): \'\'\' is_multiple(n,m)函式，如果n是m的倍數，即存在整數i使得n=mi,那麼函式返回True,否則False